EPISODE· generated 2026-05-29 15:38:50· 22 min
The Future of AI Agents: What Will Interrupt 2027 Look Like? | Interrupt 26
ready · seed-vc · qwen3-tts
0:00/0:00
⚠ The Chinese audio is an AI-generated dub (speech synthesis / voice conversion), not a real recording and may contain errors. Based on the original English interview; all rights remain with the original creator.
original lang
EN
dubbed into
中文 (ZH)
pipeline
Plan C · voice conversion
voice model
seed-vc · qwen3-tts
001
我不知道你们是怎么想的,但这绝对是我觉得最酷的一次科技大会,而且我一点关系都没有。所以,在我们开始之前,我想向所有参与工作的人员表示感谢
002
幕后。特别是感谢Jess、Julia、Jacob和Brianna让这个活动如此精彩。那么,让我们给他们热烈的掌声。
003
现在,昨天我们讨论了很多关于今天构建代理的情况,以及许多最成功的团队是如何将代理带入生产的。
004
所以,今天我们来谈谈未来。
005
我们一直在LangChain思考的一个问题是未来代理人的样子是什么样的,这其实也体现在我们的使命和愿景声明中。所以对于剩下的部分
006
在本次谈话中,我想假装我们是在未来一年。这是Interop 2027,那么我们将讨论哪些话题?我们将讨论什么问题?
007
我肯定会在这些预测中犯很多错误。这看起来肯定会非常傻,也非常愚蠢。但希望这能给你一个我们如何看待这个行业的方向的瞥见。
008
我认为将会发生的一件事是人们构建的代理类型会出现分歧。所以,我认为将会有两种类型的代理,
009
我们已经开始看到一些这种情况出现。
010
所以,我认为其中一种类型将是这种长期视角的代理。这些代理运行几分钟、几小时甚至将来可能是几天。它们进行代码执行,
011
规划,他们会使用子代理,可能使用多代理系统,运用技能,并在更长的时间范围内运作。关于结果和目标的事情已经开始
012
成为可以扩大这些操作范围的方式。因此,我认为随着它们进行越来越多有价值的知识工作,我们会看到对这些技术的大规模推动。
013
同时,还有完全不同的一组代理,延迟是一个巨大的因素,这些往往看起来像是客户服务代理。所以这可能是客户
014
支持,这可能是销售方面的问题,在与最终用户交流时,品牌非常重要,语气在这里变得非常有趣,也许将来会是视频
015
同样。我认为这些就是代理正在发展的这两个方向。底层有一个共享的栈。技术方面也有一些差异。
016
我认为接下来一年我们会思考的一个大问题是,这种共用的技术栈有多普遍,还是说技术会有多么特定
017
你需要的每部分。
018
说到语音,我认为一年后我们会更多地讨论语音。这是我们开始越来越多地投资的一个领域。我们认为这在这些方面特别相关
019
客户体验风格的代理。而语音是一种很好的模态。
020
今天的典型语音流水线大致如下。
021
这就像一个语音转文本、文本转语音这样的三明治。
022
所以用户说话,这被转录成文本,然后传给一个代理,这个代理在类似文本的空间中运作,输出一些文本,然后这些文本再被转换回
023
语音,即您与其对话时听到的代理发出的声音。
024
这就是我们今天看到的流程,但还有一些原生语音到语音的模型正在出现。比如OpenAI发布了他们的第二版,大约两周前
025
以前。而我認為當前的共識似乎是對於那些你真的在意控制權的应用程序,它们还不够可控。
026
我们确实预计这种情况会改变。因此,我认为我们在未来对语音代理的一个重要关注点是:它会是哪种模式?它是这种流水线方法吗?还是
027
原生语音到语音的方法吗?还是会结合其他方式?各自的优点是什么?
028
有什么缺点?我认为我们在接下来的一年里会更多地讨论语音的问题。
029
我们认为所有代理都需要一个沙盒。
030
尤其是这些长期视角的智能体。所以,编程对于各种任务都非常好。它不仅仅是写软件。它还用于数据分析。用于网页浏览。用于图像生成,
031
进行深入研究。我昨天和某人交谈时,他说他们在考虑为营销团队构建代理时,他们思考的方式之一是
032
给他们的营销团队配备一个软件工程师。这个软件工程师会开发什么?会开发哪些应用程序来让营销团队的工作更轻松?这就是给
033
代理编写和执行代码的能力。这就是我们认为沙箱非常重要,也是我们为什么在昨天推出了沙箱的原因。所以我认为代理是
034
非常早期。沙盒也非常早期。这还只是这些的黎明。我认为在未来一年里我们会经常谈论它们。
035
开放模型是我们预计在未来一年会看到显著增长的地方。
036
所以,这些基础开源模型在没有针对特定任务进行任何类型后训练的情况下,其性能已经接近前沿模型了。
037
所以,我们做了一些关于深度代理的基准测试,比较了封闭前沿模型和开放模型。你可以看到,在某些地方它们确实落后了,但已经开始变得非常
038
真的接近那个前沿。
039
另一个重要的事情是成本开始成为一个越来越大的问题。因此,在特别是对于编码代理的情况下,这些代理正在消耗大量的
040
快速生成大量的代币。我认为开源模型提供了一种这些方法的廉价替代方案。我们认为这将是推动开源模型的一个重要因素。第三个原因是我们认为开源模型
041
非常有趣的是,因为它们可以为你特定的领域进行训练。
042
因此,我认为这又是另一个原因,当公司积累了大量的这些踪迹、大量的这些代理运行时,你如何利用它们?你如何利用它们来改进模型呢?
043
时间?我一会儿再详细讲一下,但这种后训练的方法是可以应用于开源模型的。所以我们预计对开源模型的兴趣会有大幅上升。
044
代理身份对我们来说真的非常有趣。所以,随着代理开始在现实世界中执行更多工作,他们会采取行动。
045
他们如何采取这些行动?是以谁的名义采取这些行动?我认为这里还很早。我们看到了两种新兴趋势。一个是当代理人在代表个别用户行事时。所以,
046
如果我访问一个代理,而这个代理有访问Slack的权限,并且我让它在Slack中查找某些信息,它会使用我的凭证并拥有与我在Slack中看到的内容相同的访问权限。因此,
047
如果朱莉或同事使用它,他们可能会得到不同的答案,因为系统可能看到的东西不同。
048
另一种类型的是他们有一组固定的凭证,通常是服务账户之类的。
049
然后与那个代理交互的人将始终使用相同的固定凭据集,所以他们会看到相同的回答。我认为这开始变得非常流行
050
像OpenClaw这样的东西,你有了这个代理的概念,它是独立存在的,并且拥有一套固定的凭证,你会通过不同的渠道来暴露它,并且
051
与其互动。我们实际上开始看到一些SaaS提供商让代理创建自己的账户变得非常容易,这样他们就可以拥有自己的一套固定凭证。
052
而这种趋势将会很有趣。我认为未来我们会看到这两种情况。我认为我们将会有代表用户行动的代理,但也会有
053
拥有自己固定的一套凭证。
054
我认为在何时使用哪个工具以及它们各自的功能上要非常精确,并且向用户清晰地传达这一点非常重要。
055
持续学习可能是我们公司最感到兴奋的领域之一。
056
所以当我们考虑持续学习时,我们会想到随着时间的推移改进代理系统。
057
而这个代理系统有三层,都可以得到改进。
058
有层,有挂载层,还有上下文层。
059
所以,模型比如说Sonnet、GLM-5、GPT-5。Harness,这是围绕模型的代码,将其连接到环境。这是Deep Agents、Claude Code Py。然后
060
上下文可能是我们提供给框架以指导其在特定任务上的方式。所以,agent.md,技能。
061
你不能直接编辑Claude Code,但你可以赋予它技能,并提供一个agent.md来调整它以适应你的特定任务。因此,这些是代理系统中的三个不同层次,
062
并且我们认为它们都涉及持续学习。
063
那么,或许可以从模型层开始讲起,这取自上周由Ramp和Prime Intellect进行的研究,他们在研究中对一个模型进行了微调,使其特别擅长处理Ramp表。
064
这里你可以看到延迟非常低,准确率非常高。这是使用开源模型Claude 3.5并针对其进行微调的一个优势。
065
特定领域。
066
而这就是一个模型层面持续学习的例子。
067
你也可以在马鞍级别学习。
068
所以,MIT和斯坦福大学有一篇名为Meta-Harness的优秀论文,他们在其中使用了一个代理来优化一个编码框架。
069
他们在Terminal Bench 2上进行了优化,你可以看到它优于人类编写的测试框架。
070
而这便是他们从终端基准运行中获得反馈的一个例子,然后将这些反馈传递给一个代理系统本身
071
会对挂钩进行编辑。
072
所以,他们并没有改变模型本身,只是编辑了控制套件,并且得到了一个很好的分数。
073
我的背景是在经典机器学习方面,而在代理开发的新世界里使用数据有很多相似之处。因此,在
074
经典机器学习,你有模型,你有训练数据,进行梯度下降,更新模型的权重。
075
当你在一般情况下更新代理时,取决于你在哪个层工作,如果你是在控制或上下文层工作,这并不完全是梯度下降,但你编写的评估函数起着类似的作用
076
一个强制功能。就像我刚才举的元框架的例子,你有这些评估,Terminal Bench 2。你在Terminal Bench上运行代理,然后得到一些反馈,
077
你然后将这些数据传递给分析系统,并更新它。所以,这些评估提供了类似的一种训练梯度。因此,评估和跟踪对于
078
这种学习。
079
我们自己做了这件事,所以这已经是几个月前的事情了,因此这些排行榜现在已经不再像这样了,因为这个领域发展得太快了,但
080
我们只是通过改变载体本身,就在 Terminal Bench 2 上从第30名提升到了前5名。没有对模型进行任何更改,只有对载体进行了修改,并且我们看到了显著的提升
081
性能。因此,我们认为越来越多的公司将会进行这种持续学习,无论是模型层、控制层还是上下文层
082
特定的应用场景。
083
我们希望帮助人们做到这一点,因此我们今天宣布的一个项目是LangChain Labs,这将是LangChain内部的研究小组,专注于持续学习。
084
我们觉得是的。
085
我们认为LangSmith已经有了这些痕迹以及所有相关的反馈,这为进行这种持续学习奠定了非常坚实的基础,
086
无论是模型层、框架层还是上下文层。因此,我们很高兴与我们的客户在未来朝着这个方向合作。
087
最后我要说的是,我们认为未来每个人都会参与构建代理。我们已经看到这一点正在今天发生。所以我们已经看到组织中的每个人都参与到改进
088
带有反馈的代理。
089
所以,你有UX研究员、领域专家、客户服务人员、产品经理和工程师。他们以某种形式提供反馈,无论是直接反馈还是通过调整
090
通过提示词或只是在Slack中调试。
091
他们都在提供反馈,以改进这些代理。很多时候,正是该领域的专家本身提供了最合适的反馈,并知道代理应该如何表现最佳。
092
因此,我们觉得将来他们会更加参与到创建这些代理中。我们认为他们实际上会构建自己的代理。而不仅仅是提供反馈
093
然后将其交给另一个团队。
094
他们实际上会参与到构建这些代理中。
095
我们在LangChain已经看到了这一点的雏形,那里有许多由各个领域和专业背景的人创建的代理。我们看到他们正在构建这些
096
过去的几个月。为了更多地讨论未来的样子,我想请Caroline Embrace上台。
097
大家好。大家好。你们都怎么样?
098
好。好。其他人昨天也被晒伤了吗?还是只有我一个人?
099
好的。哈里森描绘了未来代理人在职场中的图景。我很兴奋地告诉你们,我们今天正是在LangChain实现这一点。
100
首先,我将从几个用例开始。
101
我们的人才招聘团队使用我们的招聘代理来寻找候选人。
102
我们的销售团队利用我们的市场推广代理自动化外拨和账户情报。
103
我们的市场营销团队利用我们的Intel bot研究竞争格局。
104
而我们的工程团队则使用Open Suite自动处理和修复故障。
105
在整个公司中,代理一直在运行,监控业务,并在Slack上提供实时更新。
106
这些代理有什么共同点?
107
它们都是由LangChain团队成员实际使用而无需编写单行代码构建的。
108
我们是如何做到这一点的?我很高兴你问了。
109
它们使用的是LangSmith Fleets,这是我们托管的代理构建器,允许任何人仅通过自然语言就可以构建代理。
110
他们不需要编写任何代码。
111
在过去三年构建代理的过程中,我们学到了三点主要经验教训。
112
首先,最好的人来构建代理应该是实际执行该工作的人。
113
其次,代理需要在你工作的环境中运行,并且能够访问你使用的相同系统。
114
第三,在代理规模扩大时,治理可能会成为瓶颈。
115
那么为什么实际执行该工作的人是最适合构建代理的人呢?
116
好吧,归根结底,代理只是一个指令、技能和工具的集合。
117
那么谁比实际执行这些任务的人更好地将这些知识编码为代理呢?
118
此外,就像我们所有人都会随着时间而改进一样,Fleet代理也会有所提高。
119
它们内置了记忆功能。因此,你使用得越多,它们变得越好。
120
现在,为了与这些代理协同工作,它们需要访问你使用的所有系统。
121
我们通过工具和渠道来解决这个问题。
122
我们直接在Fleets中内置了超过200个工具,涵盖了公司中最常见的集成需求。
123
我们还与Arcade建立了顶级合作伙伴关系,允许您开箱即用地访问额外的7,500个工具,以覆盖您的集成需求长尾部分。
124
当然,我们也支持大家最喜欢的工具框架MCP,这意味着您可以直接将自定义工具和专有数据源连接到Fleets。
125
现在,为了让他们易于使用,Fleet代理原生集成到了Slack、Gmail、Outlook等应用中。
126
所以,你可以利用Fleet的全部功能而不必学习新的工作流程。
127
我们还拥有一个全面的用户界面,您可以在其中直接在我们的应用程序中构建、管理和运行您的智能体。
128
当然,我也丝毫没有忘记你们这些开发者。我们正在开放Fleet API,这样你就可以直接在自己的生产应用中使用它们,并利用所有
129
我们构建的令人惊叹的功能。
130
所以人们是团队协作。这些代理需要能够无缝地与你协同工作。
131
我们怎么处理这个问题?当然,是分享。
132
您可以直接在Fleet中与团队成员共享和协作您的代理和服务,就像分享Google文档一样简单。
133
当你实际使用这些代理时,你需要凭证和身份验证管理。这样它们才能连接到你所有的不同服务,这真的会很棘手。相信我。
134
幸运的是,我们在Fleet中已经为你解决了这个问题。也就是说,你可以连接所有账户,并根据使用该账户的用户来选择让哪些代理使用这些账户。大家还跟得上吗?
135
我们还看到了成本如何随着代理的内部采用而急剧上升。
136
所以,我们已经在应用程序中直接构建了成本跟踪和使用控制功能。这样,您可以检查您的代理和用户具体花费了多少,并为他们设置支出限制。
137
Human in the Loop也是Fleet的一项一等特征。因此,您可以给您的代理访问强大的工具,而无需担心。
138
当然,Fleet 会原生集成到整个 LangSmith 平台中。因此,你可以查看你的代理跟踪记录,了解你的 Fleet 代理在后台是如何运作的。
139
最后,Fleet终于开源了。它是模型无偏的,所以你可以使用你最喜欢的开源或闭源模型。
140
它基于大家最喜爱的开源代理框架构建。你猜对了,深度代理。
141
并且我们使您能够直接将代理文件下载到您的代码中,以便您可以根据需要进行任何修改。
142
现在,我将把它交给Carolyn,她将为我们进行一个现场演示。没错,就是Fleet的现场演示。
143
谢谢Grace。那么,我们已经谈论了为什么我们构建了Fleet及其一些功能。我很高兴向你们展示这些功能在实际中的表现。
144
所以,这是我们市场推广代理。
145
这个代理可以根据来自您的CRM、通话录音平台和数据仓库的数据,揭示账户情报。它可以研究账户和联系人,并可以起草
146
个性化外发邮件。
147
为了做到这一点,我们将其连接到了我们在LangChain这里使用的工具。在我们的案例中,那就是Salesforce、BigQuery、Slack、Gmail等。
148
我们为常见的研究任务编写了一些子代理,希望它能执行这些任务。
149
并且我们为它提供了一份长长的技能清单,用于逐步说明我们需要它每次都能正确完成的常见任务。
150
我们还连接了Slack频道。
151
所以,你不需要进入这里的UI来使用这个代理,你可以在Slack中直接使用它,只需标记@GTM代理即可。
152
好的,废话不多说。我们开始吧。
153
我们开始吧。
154
我们在Pied Piper账户上最后留下了什么?我们应该下一步怎么做?
155
随着它的运行,这个市场进入代理已经成为了我们团队的一个游戏规则改变者。84%的市场进入团队每周都在使用它。合格转化率提高了240%
156
并且平均每个代表每个月节省了40个小时。
157
最初,这个代理是直接在代码中由一名工程师构建的。
158
但当我们构建 fleet 时,我们直接在 fleet 中重建了这个代理,这样市场团队就可以完全从头到尾拥有这个代理的实现,而无需编写一行代码
159
代码。
160
好的。所以,代理已经结束外联工作了。
161
我们看到一个风险账户。这不太好。
162
我们看到一些关于定价的犹豫。
163
并建议通过电子邮件重新接触 Jared 的下一步行动。所以我们来做这件事。
164
好的,请写一封电子邮件给 Jared。
165
正如 Bryce 所说,human in the loop 在舰队中是一等公民。所以在我们向潜在客户发送邮件之前,这个代理会先与我们联系,以便我们可以再次检查文案,
166
确保一切看起来都很好再发送出去。
167
所以,我们来看一下。让我们把LangGraph正确地大写一下。看起来都没问题。发送。
168
真酷,对吧?
169
好。
170
许多代理感谢你们。
171
我们在这里LangChain每天使用的许多代理可以直接在舰队中作为预构建的代理提供。所以,你刚才看到的市场进入代理,还有我们的软件工程师代理等。
172
代理,这使得你可以完全拥有一个可以在Slack中打标签的代理,并在沙盒中编写代码,然后为你提交一个PR以便合并。
173
你要使用它,只需创建代理、将其连接到组织使用的工具,然后通过一个简短的入职流程让其了解你的公司,然后
174
你准备好了。
175
然后,我将把这个机会交给哈里森。
176
你可以今天免费试用。我自己也用于各种任务。我们实际上在其中添加了一个免费模型。所以在有限时间内,将有一个免费模型,并且
177
并且这证实了我们之前提到的内容,这是一个由我们的优秀合作伙伴Fireworks支持的开源模型。
178
所以我们尽量做到知行合一,践行开源模式,并且也尽力寻找最好的合作伙伴。
179
那里有一个很棒的生态系统,有很多人在展位上,所以我鼓励你去和他们交流。
180
这就是今天主旨演讲的内容了。
end of transcript · 180 segments