EPISODE· generated 2026-05-28 09:23:35· 29 min

Andrej Karpathy: From Vibe Coding to Agentic Engineering

Sequoia Capital· original aired 2026-04-29

Andrej Karpathy，OpenAI 的联合创始人兼前 AI 首席科学家，分享了他对像 LLM 这样的语言模型快速演化的见解，称它们是新的计算范式，将编程从显式规则（软件 1.0）转变为通过提示上下文以生成性响应（软件 3.0）。他讨论了这种转变如何正在改变开发实践，并引用了 OpenClaw 自动安装和 Gemini 生成的基于图像的菜单描述等例子，突显了其对传统软件工程方法的深远影响。

interviewcryptoaiweb3

ready · seed-vc · qwen3-tts

0:00/0:00

⚠ The Chinese audio is an AI-generated dub (speech synthesis / voice conversion), not a real recording and may contain errors. Based on the original English interview; all rights remain with the original creator.

original lang

dubbed into

中文 (ZH)

pipeline

Plan C · voice conversion

voice model

seed-vc · qwen3-tts

001

Speaker 1

我们非常兴奋能迎来我们的第一位特别嘉宾。他曾经帮助构建现代AI，然后解释现代AI，偶尔还会重新命名现代AI。

002

Speaker 1

他其实还帮助共同创立了OpenAI就在这栋楼里，当年就是他让特斯拉的自动驾驶系统得以运行。

003

Speaker 1

他拥有一个罕见的天赋，能够将最复杂的技術轉變既-make both accessible and inevitable。

004

Speaker 1

你们都知道他去年提出了vibe coding这个词，但就在最近几个月，他说自己作为程序员从未感到过如此落后。

005

Speaker 1

这就是我们今天要开始的地方。感谢你加入我们，Andre。嗯，你好。

006

Speaker 1

我很高兴能来这里，并且开始我们的讨论。

007

Speaker 1

好的，就在几个月前你还说你作为一名程序员从来没有感到如此落后。这对我来说确实很惊讶。你能帮我们解开这个谜团吗？这种感觉

008

Speaker 1

激动人心还是令人不安？

009

Speaker 2

嗯 yeah，两者都有。

010

Speaker 2

嗯，首先，像你们中的许多人一样，我已经在使用一些代理工具，比如Alpha Code相关的工具有一段时间了，可能是一年左右，在它出来的时候。它的表现非常好，你知道的，对于代码块

011

Speaker 2

代码。有时会出错，你得编辑它们，还挺有帮助的。然后我会说十二月是我一个明确的转折点，在那之前我处于休假状态，所以有空

012

Speaker 2

再多些时间。我觉得很多人都差不多。然后我发现最新的模型生成的片段质量不错。我就一直要求更多，结果真的来了

013

Speaker 2

一切还好。然后我记不清最后一次修正它是什么时候了。然后我就越来越信任这个系统。然后我在 vibes 编码。

014

Speaker 2

而且嗯所以我认为那确实是一个非常鲜明的转变。我觉得很多人实际上我在推特或X上尝试强调过这一点，因为我

015

Speaker 2

很多人去年体验过AI，比如ChatGPT这类的东西，但你得重新审视一下，特别是从十二月开始，因为情况已经从根本上发生了变化。

016

Speaker 2

像一种有执行力的连贯工作流，真的开始有效运作。而且我认为正是这种认识让我真正进入了这个领域。

017

Speaker 2

只是，你知道，无穷无尽的小项目。嗯，我的侧项目文件夹里装满了各种随机的东西，并且我一直都在不停地编码。嗯，所以就是那种

018

Speaker 2

发生在十二月，我会说。

019

Speaker 1

自从那时起，我就一直在考虑那些后果。

020

Speaker 1

嗯，你提到过这个关于大语言模型作为新型计算机的想法。它不仅仅是更好的软件，而是整个新的计算范式。而软件1.0是显式的规则，软件2.0是

021

Speaker 1

学习权重，软件3.0就是这样。

022

Speaker 1

嗯，如果那实际上是真的话，一个团队在他们真的相信这一点的那一天会怎样做不同？

023

Speaker 2

好的。所以 yeah，就是这样。软件 1.0 我写代码，软件 2.0 实际上是通过创建数据集并训练神经网络来编程。所以编程有点

024

Speaker 2

像是整理数据集，可能还有一些目标和神经网络架构。然后发生的情况是，基本上如果你用足够

025

Speaker 2

一大堆任务基本上是隐含的，因为通过在互联网上训练，你必须处理数据集中所有的事情。这些实际上变得有点像

026

Speaker 2

某种意义上可编程的计算机。所以软件3.0大概就是说你的编程现在转向了提示，而窗口中的内容就是你手中的杠杆

027

Speaker 2

一个语言模型，就像在解释你的上下文并在数字信息空间中执行计算一样。所以大概就是这种转变和

028

Speaker 2

我认为有几个例子让我深刻理解了这一点，也许这些例子会有所启发。比如，当OpenClaw刚出来的时候，当你想安装OpenClaw时，

029

Speaker 2

会预期这通常是一个bash脚本像shell脚本。

030

Speaker 2

所以运行shell脚本来安装OpenClaw。

031

Speaker 2

嗯但问题是，为了针对不同的平台和不同类型的计算机，你可能会运行一个OpenClaw，这些shell脚本通常会膨胀起来和

032

Speaker 2

变得极其复杂。但问题是，你仍然被困在了软件1.0的宇宙里，想要编写代码。

033

Speaker 2

实际上OpenClaw的安装是一个你应该给你的代理复制粘贴的一堆文本。所以基本上，这是一个你知道的，复制粘贴的小技巧。

034

Speaker 2

这然后交给你的代理，它会安装OpenClaw。而且这是因为这个功能更加强大，你现在在使用软件3.0范式，你不需要精确地

035

Speaker 2

拼出所有单独的细节。代理有自己的智能，它会打包起来，然后按照指示行事，并查看你的

036

Speaker 2

环境，就像你的电脑一样，能够执行智能操作来使事情顺利进行并在此过程中调试问题。这简直强大太多了，不是吗？所以我认为这就是

037

Speaker 2

这是一种完全不同的思维方式。就像，你要复制粘贴给代理的文本是什么？这就是现在的编程范式。我认为还可能有一个

038

Speaker 2

让我想到一个比这更极端的例子，那就是我在构建MenuGen的时候。所以，MenuGen是一个想法，你去一家餐厅，他们给你菜单，上面没有图片

039

Speaker 2

通常，所以我对这些东西一无所知。通常我有70%的东西都不懂，50%。所以我想拍下餐馆菜单来

040

Speaker 2

那些东西在通用情况下可能是什么样子的照片。

041

Speaker 2

所以我建了一个应用程序，基本上你可以上传一张照片，它会做很多事情，并且运行在Vercel上。它基本上会重新渲染菜单并给你所有

042

Speaker 2

这些物品并会给你一个图片，它使用图像生成器来基本进行OCR识别所有不同的标题，然后用图像生成器获取它们的图片，并展示出来

043

Speaker 2

给你。

044

Speaker 2

然后我看到了这个软件3.0版本，这真的让我大吃一惊，就是你拍张照片，给Gemini，然后说用Nano Banana把东西叠加到上面去

045

Speaker 2

菜单。“啊啊，而且Nana Banana基本上返回了一张与我拍摄的菜单完全一样的图片，但它实际上将不同的菜单项渲染到了像素中。

046

Speaker 2

而这让我大吃一惊，因为我其实所有的菜单生成都是虚假的。

047

Speaker 2

它基于旧的范式，应用程序本不应该存在。嗯，而且是是软件 3.0 范式要原始得多。你的神经网络会做越来越多的工作，而你的提示或

048

Speaker 2

上下文只是图片，输出也是图片，并不需要有任何应用程序在中间

049

Speaker 2

嗯，所以我认为人们需要重新思考，不要局限于现有模式下存在的事物，而是将其视为现有事物的加速。

050

Speaker 2

实际上现在有新的东西可用。

051

Speaker 2

再回到你的编程问题上，这甚至不是一个例子，我认为也是旧思维模式的一个体现，因为它不仅仅是关于编程和编程变得

052

Speaker 2

更快。这更多的是可以自动化处理的一般信息处理。所以，不仅仅是代码的问题。之前写的代码是针对一种结构化数据，对吧？你写

053

Speaker 2

代码胜于结构化数据。但比如在我的LLM知识库项目中，基本上就是让LLM为你组织创建维基，或者为你个人创建维基等等。这甚至都不是

054

Speaker 2

程序。这之前是不存在的，因为没有代码能够基于一堆事实构建知识库。但现在你可以直接使用这些

055

Speaker 2

文档和基本上以不同的方式重新编译它们，重新排序，并创建一些新的、有趣的东西作为数据的重新构架。所以，这些都是新的东西

056

Speaker 2

不可能。而且，我认为这正是我一直在尝试回到的一个问题：不仅是我们能做哪些以前存在但现在更快的事情，但我认为还有新的机会

057

Speaker 2

就是以前不可能做到的事情。而且我觉得这更令人兴奋。

058

Speaker 1

我非常喜欢你列出的菜单生成进展和二元对立，我相信甚至很多在这里的人也跟着你在去年十月到一月初、二月初的编程进程走了一遭

059

Speaker 1

今年。如果你进一步外推，那么在2026年，构建网站相当于90年代，构建移动应用相当于2010年代，构建SaaS相当于上一个云计算时代是什么？

060

Speaker 1

什么在事后看来将显得完全明显，但至今仍未被大量构建？

061

Speaker 2

嗯 [清了清喉咙] 好吧，以MenuGen为例。所以，很多这方面的代码其实不应该存在，主要是神经网络在做大部分的工作。

062

Speaker 2

嗯，我认为这种外推看起来非常奇怪，因为你可以基本上想象到，在某种意义上，完全神经化的计算机是可能的。你输入原始视频

063

Speaker 2

就像想象一个设备，它能将原始视频或音频转化为基本上是一个神经网络，并利用扩散技术渲染出一种UI，这种界面在某一刻是独特的

064

Speaker 2

感觉。而且我觉得在计算机发展的早期，人们其实对计算机到底会像计算器那样存在还是像神经网络那样存在有点困惑。大约在20世纪50年代

065

Speaker 2

而在20世纪60年代，这并不是显而易见的方向。当然，我们选择了计算器的道路，并最终构建了经典计算，然后神经网络目前在运行

066

Speaker 2

虚拟化在现有的计算机上。但你可以想象，我认为这其中的很多部分将会翻转，神经网络会变成宿主进程一样。

067

Speaker 2

而CPU就像协处理器一样。我们看到了图表，智能计算将会被神经网络所主导，并成为主要的浮点运算消耗。

068

Speaker 2

所以，当神经网络承担了大部分的工作时，你可能会想象一些非常奇怪和陌生的事情，它们将工具使用仅仅视为某种历史性的附庸

069

Speaker 2

像是确定性的任务。但真正掌舵的是以某种方式网络化的神经网络。所以，你可以想象一些极其陌生的外推，但我认为我们正在

070

Speaker 2

恐怕要一步一步来。

071

Speaker 2

而且我不认为那个进展是未定的，我会说。

072

Speaker 1

[嗤鼻声] 我想我们可以谈谈这个可验证性的概念。事实是，AI会更快更轻松地自动化那些输出可以被验证的领域。

073

Speaker 1

嗯，如果这个框架是对的，那么哪些工作将会比人们想象的要快得多？还有哪些职业人们认为是安全的，但实际上却是高度

074

Speaker 2

可验证的？

075

Speaker 2

嗯，是的，所以我花了一些时间写关于可验证性的问题。基本上就像传统计算机可以很容易地自动化你可以在代码中指定的内容。而最新的这一轮大语言模型也可以

076

Speaker 2

容易自动化你可以验证的东西，在某种意义上。因为这种方式是前沿实验室在训练这些大规模语言模型时，这些是巨大的强化学习

077

Speaker 2

环境。所以，他们会获得验证奖励。然后由于这些模型的训练方式，他们最终基本上会发展和创造出一些像锯齿状的实体，真的在某些方面达到顶峰

078

Speaker 2

能力类似于可验证的领域，比如数学和代码及其相关领域。

079

Speaker 2

并且有点停滞不前，而且有点粗糙，当事情不在那个空间里时。所以我认为我写关于可验证性的原因是因为我在尝试

080

Speaker 2

要了解为什么这些事情如此崎岖不平。

081

Speaker 2

嗯，其中一部分与实验室训练模型的方式有关，但我认为还有一部分也与实验室的重点以及它们偶然放入数据分布的内容有关。,

082

Speaker 2

因为有些东西在经济上本质上更加有价值，最终会创造出更多的环境。所以我认为代码是一个好的

083

Speaker 2

例如，他们可能有很多可以验证的环境可以考虑，但这些环境并没有被纳入其中，因为它们其实并不那么有用

084

Speaker 2

周围。

085

Speaker 2

嗯，但我觉得对我来说，大的谜团是啊，有一段时间最喜欢的例子就是草莓里有多少字母？而模型经常会搞错这个问题，因为它

086

Speaker 2

一个不平滑的例子。现在的模型应该已经修复了这个问题，但最新的一个是：我想去洗车，车距离洗车点有50米远，我应该是开车去还是走路去？最先进的

087

Speaker 2

现在的模型会告诉你走路因为太近了。最先进的Opus 4.7怎么可能同时重构一个100,000行的代码库或者找到

088

Speaker 2

零日漏洞并且还让我去洗车？这太疯狂了。而且这些模型无论在多大程度上仍然粗糙，这表明至少

089

Speaker 2

有点不对劲。

090

Speaker 2

或者第二点，你需要稍微参与一下，并且要把它们当作工具来使用，你确实需要保持联系了解他们在做什么。所以我认为我

091

Speaker 2

写作，长话短说，关于可验证性就是试图理解为什么这些东西是锯齿状的，其中是否有某种模式？我认为这可能是某种可验证性的组合。

092

Speaker 2

plus labs care. 也许一个更有启发性的轶事来自从GPT-3.5到GPT-4，人们注意到象棋水平有了很大的提升，我想很多人都认为这只是能力进步的结果。

093

Speaker 2

但实际上更多的是我认为这是公开信息，我在网上看到的。大量的国际象棋数据进入了预训练集。

094

Speaker 2

而且仅仅因为数据分布中有这个内容，模型的改进幅度远远大于默认情况下的改进。

095

Speaker 2

所以是 OpenAI 的某个人决定添加了这些数据，现在你们有了一个刚刚突破了很多限制的能力。这也是为什么我认为我强调这个维度的原因，因为我们稍微处于

096

Speaker 2

在实验室无论做什么的 mercy 之下，你只能探索他们给你那个没有说明书的东西，并且它只在某些情况下起作用

097

Speaker 2

设置但可能不是在某些设置中，你必须稍微探索一下。如果你在RL的一部分电路中，你会飞行；如果你在RL之外的电路中

098

Speaker 2

数据分布，你可能会遇到困难，并且需要弄清楚你的应用程序中哪些电路在起作用。如果你不在这些电路中，那么

099

Speaker 2

必须真正地进行微调并做一些自己的工作，因为这未必会直接从LLM中出来。

100

Speaker 1

我想稍微再谈谈分层智能的概念。如果你今天是一个创始人，正在考虑创办一家公司，你试图解决一个你认为是

101

Speaker 1

可处理，某种可以验证的领域，但你环顾四周会想，“哦我的天，实验室真的已经开始以极快的速度前进和

102

Speaker 1

对于最显而易见的建议，比如数学、编程等，你们对现场的创始人有什么建议吗？

103

Speaker 2

嗯所以我想这可能与之前的问题有关我确实认为可验证性因为它让我想想。所以可验证性使某事物在当前范式中变得可行因为你可以投掷巨大的

104

Speaker 2

大量的RL在里面。嗯，也许一种看待方式是，即使实验室没有直接关注它这一点仍然成立。所以，如果你处于一个可验证的环境中其中包含

105

Speaker 2

可以创建这些强化学习环境或示例，然后这实际上为你自己进行微调做好了准备，你可能会从中受益。但这本质上是核心技术

106

Speaker 2

一键搞定。你可以拉一个杠杆。如果你有大量的多样化的RL环境数据集等等，你可以使用你最喜欢的微调框架，然后拉一下杠杆就能得到一些东西

107

Speaker 2

其实运作得相当不错。所以，我不知道这方面的例子可能是什么。但我确实认为有一些非常有价值的强化学习环境人们可以考虑

108

Speaker 2

我认为不是的一部分的是哦，好的。抱歉。我不是想说得太模糊，在台上

109

Speaker 1

嗯，有一些这方面的例子。另一方面，在远程操作方面，你认为还有哪些东西感觉是可以自动化的？

110

Speaker 2

我认为最终几乎一切都可以在某种程度上被验证，有些事情比其他事情更容易实现。因为即使是像写作这样的事情，你也可以想象

111

Speaker 2

有一个LLM法官团可能会从这种做法中得到一些合理的结果。所以这更多是关于什么容易或困难。

112

Speaker 2

嗯所以我确实认为最终噢是的，我认为一切。

113

Speaker 1

一切都可以自动化。

114

Speaker 1

amazed. 好吧。嗯，去年你提出了 vibe coding 这个词，而今天的世界感觉要严肃一些，更加注重自主工程。

115

Speaker 1

你认为两者之间有什么不同，我们今天实际上应该称自己处于什么样的阶段？

116

Speaker 2

嗯 yeah，所以我认为 vibes 编码是关于提高每个人在软件方面所能做的事情的底线。

117

Speaker 2

所以，地板抬高了，大家都可以随意编写代码，这真是太棒了，不可思议。但我会说，能动的工程是关于保留之前存在的质量标准的

118

Speaker 2

专业的软件。所以，你不允许因为随性编码引入漏洞。虽然你仍然需要为你之前的软件负责，但你可以更快吗？

119

Speaker 2

spoiler 是你可以做到，但你如何正确地做到这一点？对我来说，当我称之为一种工程学科时，因为我认为这确实是一种类似工程的学科。你有

120

Speaker 2

这些代理实体就像带刺的实体，它们有点不可靠，有些随机性，但它们极其强大。关键是你要怎么协调它们让它们跑得更快

121

Speaker 2

不牺牲你的质量标准？

122

Speaker 2

而把这件事做得好且正确的是代理工程的领域。

123

Speaker 2

嗯，所以我把它们看作是不同的。一个是关于提高底线的，另一个可能是关于扩展。我看到的是我认为有很大的天花板在智能体方面

124

Speaker 2

工程师的能力。你知道，人们以前谈论过10倍的工程师。我认为这被放大了很多。10倍并不是你获得的速度提升。

125

Speaker 2

我觉得在这方面非常出色的人确实比一般人多出十倍以上。我挺喜欢这种说法的。当萨姆·阿尔特曼来

126

Speaker 1

AI去年发送的内容中，他提到的一件令人难忘的事情是不同代际的人使用ChatGPT的方式不同。所以，如果你在三十多岁，你会把它当作Google搜索的替代品，但如果你是

127

Speaker 1

在你的青少年时期，ChatGPT 是你接触互联网的门户。那么今天在编程中有什么平行之处呢？如果我们观看两个人使用 OpenClaw、Cloud Code、Codex 编码，你会认为

128

Speaker 1

如果你认为它们在某种程度上是人工制品，而另一个你认为完全是AI原生的，你会如何描述它们之间的差异？

129

Speaker 2

我[清了清喉咙]也就是说，我认为这只是尽量利用可用的工具，充分利用它们的所有功能，投资于你自己的设置。就像之前一样，

130

Speaker 2

所有的工程师都习惯于充分利用他们使用的工具，无论是Vim还是VS Code，现在是云代码或Codex等。所以，只是投资于你的开发环境

131

Speaker 2

并且充分利用你手头可用的各种工具。

132

Speaker 2

嗯，我觉得就是这样。确实，我认为很多人可能在招聘这方面的人才，对吧？因为他们想要雇佣强大的代理工程师。我确实

133

Speaker 2

我认为我看到的是，大多数人的招聘流程还没有针对代理工程师的能力进行重构，对吧？比如你在给他们出解题的谜题来考核他们

134

Speaker 2

这仍然是旧的范式。我会说，招聘必须要有大项目让我来实施。比如让我们写一个推特克隆

135

Speaker 2

为代理然后使其变得非常好，使其变得非常安全，然后让一些代理在Twitter上模拟一些活动。然后我将使用10个codex 5.4 x high尝试破解你的

136

Speaker 2

让你部署的这个网站崩溃，他们会试着去破坏它，并且他们不应该能够破坏它。也许就是这样的情形，对吧？所以是的，在观察人们

137

Speaker 2

那就是那个环境和构建一些更大的项目并利用工具可能是我主要会关注的方面。

138

Speaker 1

而随着智能体的能力增强，你认为哪种人类技能会变得更有价值，而不是更少？

139

Speaker 2

另外，是的，这是一个好问题。我认为嗯，现在答案是这些代理正在目录化这些内部实体，对吧？所以这真是令人惊讶，你基本上仍然需要掌控

140

Speaker 2

关于美学、判断力、品味，以及一点点监督。

141

Speaker 2

而且我最喜欢的一个例子之一就是代理的奇怪之处，比如菜单生成，在Menu Gen中，你用Google账号注册，但使用Stripe账户购买信用额度

142

Speaker 2

和他们俩都有电子邮件地址。

143

Speaker 2

而我的代理实际上试图基本上在你购买信用时，它会使用Stripe的电子邮件地址分配给Google的电子邮件地址。就像没有持续的用户ID一样

144

Speaker 2

这主要是为了人们。它试图匹配邮箱地址，但你可以使用不同的邮箱地址来对应Stripe和Google，并且基本上不会关联资金。因此

145

Speaker 2

这正是这些代理仍然会出错的事情。

146

Speaker 2

这就像为什么用邮箱地址来尝试交叉关联资金？它们可以是任意的。你可以使用不同的邮箱等。这样做真是太奇怪了。所以我认为

147

Speaker 2

人们必须掌握这个规范，这个计划，甚至不喜欢计划模式。

148

Speaker 2

我当然觉得这很有用，但我觉得这里还有更普遍的东西，你需要和你的代理一起工作来设计一个非常详细的规范，也许就是这样的

149

Speaker 2

基本上就是编写文档，然后让代理来写。你是负责监督和顶层分类的，但代理在做很多底层的工作。

150

Speaker 2

所以我认为你没有关注一些细节。例如，在神经网络中的张量或比赛，之间有很多细节差异，比如 PyTorch 和 NumPy 就有诸多不同。

151

Speaker 2

不同的像pandas和等等所有不同的小API细节。我已经忘了keep dims和keep dim的区别，或者dim、axis、reshape或permute哪个是对的

152

Speaker 2

transpose. 我现在已经不记得这些细节了，对吧？因为你不需要。这些都是实习生处理的细节，因为他们记忆力很好。不过你还是有

153

Speaker 2

要知道例如，你知道，有一个底层的张量，有一个底层视图，然后你可以查看相同的存储或有不同的存储将会是较少

154

Speaker 2

高效。因为我们仍然需要理解这些东西是如何工作的以及一些基本原理，以便不无谓地复制内存等等。但

155

Speaker 2

API的详细信息现在已移交。

156

Speaker 2

所以呃，你负责口味、工程设计啊，确保一切合理并且你在请求正确的事情，并且你说这些是必须的

157

Speaker 2

我们将要绑定的一切的唯一用户ID。你们负责一些设计和开发，工程师们则进行填充工作。目前情况大致就是这样。

158

Speaker 1

现在大家当然都看到了这一点。你认为随着时间的推移，品味和判断力的重要性会降低吗？还是会有一个上限？

159

Speaker 2

上升？

160

Speaker 2

嗯，是的，这是一个好问题。我认为这确实有所改进。我想现在它没有改善的原因再次是因为它不在RL中。可能还没有

161

Speaker 2

美学成本或奖励，否则就不够好或者类似的说法。嗯，我认为当你实际查看代码时，有时我会有点心惊胆战，因为它不够

162

Speaker 2

像超级精彩的代码也不一定每次都是这样，而且代码非常臃肿，有大量的复制粘贴，还有一些脆弱的抽象层，虽然能用但真的很

163

Speaker 2

糟糕。嗯，我希望这在未来模型中能得到改善。一个很好的例子就是这个微GPT项目，我在其中尝试简化大语言模型训练的过程使其尽可能简单

164

Speaker 2

尽可能简化。模型讨厌这样做。它们做不到。我一直在尝试不断提示LLM简化、再简化，但它们就是做不到。你感觉像是在RL之外

165

Speaker 2

电路。这感觉像是你在拔牙，你知道的，不是像光速那样

166

Speaker 2

所以，我认为人们仍然掌握着主动权，但我确实认为没有什么根本性的因素在阻止它。只是实验室还没有做到这一点而已。

167

Speaker 1

嗯。

168

Speaker 1

所以我想再回到这种参差不齐的智能形式这个想法。你曾在关于动物与幽灵的文章中写过一些有趣的观点。

169

Speaker 1

嗯，想法是说我们不是在建造动物。我们在召唤鬼魂。这些是被数据和奖励函数塑造但并非由内在因素形成的 jagged 形态的智能。

170

Speaker 1

动机或乐趣或好奇心或赋能，诸如此类通过进化而来的东西。

171

Speaker 1

嗯，那种框架为什么重要？它实际上如何改变你构建、部署、评估甚至信任它们的方式？

172

Speaker 2

嗯 yeah，所以是的，我想写这个是因为我在试着理解这些东西是什么，对吧？因为如果你有一个对他们是什么或不是什么的好模型，那么你

173

Speaker 2

会更熟练地使用它们。嗯，我认为确实如此，我不知道它是否真的有实际的权力。

174

Speaker 2

我认为这有点哲学思考。

175

Speaker 2

但我确实认为，我们应该接受一个事实，那就是这些事物并不是动物级别的智能。比如你对着它们大喊，并不会让它们表现得更好或

176

Speaker 2

更糟糕或没有任何影响。嗯，这都只是像这些统计模拟电路，在这里基底是预先训练好的，就像统计数据一样。然后但然后

177

Speaker 2

这里还有RL增强，所以这反而增加了缺点，或者可能是我进来的心态问题，或者是哪些可能有效或无效，以及如何进行修改的问题

178

Speaker 2

但其实我不太确定我有这五个明显的方法来让你的系统更好。更多的是保持怀疑，并随着时间的推移找出答案。

179

Speaker 1

这就开始了。好的，所以你不仅仅是在处理聊天的代理。它们还有实际的权限。它们有本地联系人。实际上会为你代劳。这个世界

180

Speaker 1

这会是什么样子，当我们所有人都开始生活在那个世界里？

181

Speaker 2

是的，我想这里很多人都对这种具有代理性的原生环境感到兴奋，一切都要重新编写。一切都还是

182

Speaker 2

从根本上来说是为人类编写的，所以我仍然在使用不同的框架或库时大部分时间都会用到它们。它们的文档仍然是从根本上来说

183

Speaker 2

写给人类的。这是我最讨厌的事情。就像我不明白为什么人们还要告诉我该怎么做？我不想做任何事情。我应该复制粘贴什么给我的代理呢？

184

Speaker 2

所以每次我被告知去某个网址或者类似的东西时。就是啊。

185

Speaker 2

你知道。

186

Speaker 2

[嗤鼻声] 所以大家认为我们如何将需要完成的工作分解成根本上遍布全球的传感器和执行器，这是一个很令人兴奋的话题。如何

187

Speaker 2

我们让它原生支持代理吗？基本上先向代理描述它。然后我在数据结构方面有很多自动化，你知道的，这些数据结构对LLMs来说非常易读。

188

Speaker 2

所以我希望有很多以代理为中心的基础架构在那里，你知道，当我在写MenuGen的博客文章时（我不确定这有多著名），但当我写那篇博客文章的时候

189

Speaker 2

关于MenuGen 大部分的工作和麻烦并不是编写MenuGen的代码。而是部署在Vercel上，因为我不得不与各种不同的服务打交道，我只是简单地拼接

190

Speaker 2

把它们打开，我只是去设置和菜单，你知道，配置我的DNS，这简直太烦人了。所以，这是一个很好的例子，我希望MenuGen可以根据我的提示给一个LLM

191

Speaker 2

构建 MenuGen，然后我就不用再动任何东西了，它在互联网上部署的方式也是一样的。我认为这会是一个很好的测试，看我们是否能够

192

Speaker 2

基础设施变得越来越以代理为中心。最终，我认为我们正朝着一个世界迈进，在这个世界里，个人和组织都有代理代表。

193

Speaker 2

你知道，我会让我的经纪人和你的经纪人谈一谈，弄清楚我们会议的一些细节或者类似的事情。所以，嗯，我认为大致就是这样发展的，但嗯，我想

194

Speaker 1

大家对那个都很兴奋。我其实没有想过用传感器和执行器这样的视觉类比，这个真的非常有趣。

195

Speaker 1

好的。嗯，我想我们得在教育问题上结束这个问题，因为你可能是世界上最擅长将复杂的技术概念简化并深刻解释的人之一

196

Speaker 1

在设计教育时我们要深思熟虑。当我们进入下一时代的人工智能时代，仍然值得深入学习的是什么？

197

Speaker 2

嗯。

198

Speaker 2

嗯，最近有一条推特让我很震撼，我几乎每天都在思考它。大致意思是说你可以外包你的思考，但你无法外包你的理解。

199

Speaker 2

而且我认为这说得非常好。

200

Speaker 2

我确实这么认为，因为我是系统的一部分，信息仍然需要进入我的大脑，我觉得自己成了一个瓶颈，甚至

201

Speaker 2

知道我们要建造什么，为什么值得去做，我该如何指导我的代理等等。所以，我认为最终还是需要有些东西来引导思考。

202

Speaker 2

处理，等等。而且嗯，那仍然在某种程度上受到理解的约束。

203

Speaker 2

这也是我非常兴奋于所有知识库的原因之一，因为我觉得这是我对信息进行处理的一种方式。每当我看到不同的预测

204

Speaker 2

关于信息，我总是喜欢觉得我能获得一些见解。所以这对我来说其实就是生成合成数据的很多提示，基于一些固定的数据。所以我真的很享受这种过程。

205

Speaker 2

每当我看一篇文章时，我都有一个wiki在不断积累这些文章。我喜欢对其中的内容提问，我认为最终这些工具是为了

206

Speaker 2

增强某种理解的方式。

207

Speaker 2

这仍然有点瓶颈，因为你无法直接指导。你不能成为一个好的导演，因为尽管大语言模型在理解方面确实表现不佳。你仍然是独一无二的

208

Speaker 2

负责那件事。所以，嗯，我认为那样的工具非常有趣和令人兴奋。我很期待几年后回来这里看看我们是否已经

209

Speaker 1

完全自动化并且实际上会处理理解方面的问题。非常感谢Andre加入我们，真的非常感激。

end of transcript · 209 segments