EPISODE· generated 2026-06-11 23:20:05· 13 min
Codez - Anthropic Managed Agents team: "Fable 5 is our best model for runnin...
欢迎来到与Claude共代码,Jess来自产品部门,Michael来自工程部门分享了AI能力指数级增长以及其如何正在改变开发者工作流的见解。他们讨论了随着模型变得更加先进,开发者面临的挑战,例如管理上下文、安全地扩展基础设施以及确保可观测性,从而引入了云托管智能体,旨在开箱即用地处理这些复杂问题。
ai能力指数级增长claude代码开发智能体安全扩展可观测性
ready · seed-vc · qwen3-tts
0:00/0:00
⚠ The Chinese audio is an AI-generated dub (speech synthesis / voice conversion), not a real recording and may contain errors. Based on the original English interview; all rights remain with the original creator.
original lang
EN
dubbed into
中文 (ZH)
pipeline
Plan C · voice conversion
voice model
seed-vc · qwen3-tts
001
欢迎各位来到Code with Claude。我是Jess,Claude Managed Agents的产品负责人。
002
我是Michael,Claude Managed Agents的工程负责人。
003
看到Claude Managed Agents的自然增长以及我们如何显著加速开发者的工作流程,令人非常兴奋。
004
今天,我们想与大家分享这个故事。
005
我们已经看到从颠覆性初创公司到最大企业的广泛采用,我们希望确保你们都能从他们所获得的经验中受益。
006
首先,我们将探讨我们在AI能力方面看到的指数级增长,以及这对构建智能体意味着什么。
007
我们将讨论我们在智能体开发中看到的模式,以及这些模式如何促使我们构建Claude Managed Agents。
008
我们将介绍构建智能体的构建模块,包括其中一些最重要的部分。
009
我们将介绍一些我们最近宣布的功能。
010
最后,我们将与我们的英雄日本用户Rakuten进行一次非正式的对话。
011
正如我们所看到的,模型的能力呈指数级增长,我们的期望也随之增长。
012
我们的模型能力越先进,我们委托的工作就越复杂。
013
我们现在看到的瓶颈越来越是基础设施,而不是实际的智能。
014
那么,让我们把这个概念具体化。
015
几年前,当Opus 3发布时,你可能让它编写和测试一个组件。
016
这可能需要几分钟的专注工作。
017
去年,当我们的Claude 4模型发布时,我们实现了升级,你可以调试一组完整的文件。
018
你可能需要工作一两个小时,但你会在过程中进行大量指导。
019
今年,随着我们最新的模型,你现在看到它们可以在智能体团队中整夜运行,听取你的线性待办事项列表,并在你醒来之前完成所有操作。
020
现在,我们预计在短期内,随着像Fable这样强大的模型出现,我们将进入一个智能体能力足够完成以前需要整个团队用季度时间才能完成的任务的世界。
021
并且智能体会完全自主地运行这个过程。
022
因此,你可能会看到多智能体系统能够协调并全程运行整个并购流程,所需时间仅为我们现在所需时间的一小部分。
023
因此,随着任务的逐步推进
024
从低级指令转向端到端的结果描述。
025
我们现在需要的远不止是提示和工具循环。
026
我们需要可靠且可扩展的智能体基础设施。
027
完全正确。
028
而且这些任务越复杂,
029
我们需要给予这些智能体更深入的访问权限
030
为了让它们有效。
031
有了像Fable这样的模型,我们真的需要这些来...
032
他们能够完成非常复杂的任务。
033
你无法运行一个有效的智能体
034
在不授予其访问您凭证权限的情况下,
035
你们的内部知识库或数据库。
036
如果你想让这些智能体为你生成代码,
037
你需要让他们访问你实际的代码库
038
这样他们就可以推动PR并进入生产环境。
039
最后,你需要授予它们身份和认证。
040
我们的智能体越来越多地不仅仅作为Claude来行动,
041
但对我来说或Jess,通过我们的电子邮件和Slack。
042
当我们赋予智能体这些类似人类的能力时,
043
我们期望它们会做出反应。
044
我们期望它们以更加类似人类的方式与它们互动。
045
互动的形式正在发生变化,
046
而不仅仅是这些互动的持续时间。
047
一些智能体非常善于对话。
048
你可以引导它们,沿途提供指导。
049
如果你认为它们偏离了轨道,甚至可以Interrupt它们。
050
一些基于新模型(如Fable)的智能体
051
非常注重结果。
052
如果你有明确的信号或标准
053
说明你希望看到什么被完成,
054
你可以提供这些标准并让它进行迭代
055
直到满足你的退出条件。
056
最后,你可能几天前开始了一个任务
057
然后想在很久之后再继续处理它。
058
一个强大的智能体平台需要支持
059
所有这些类型的交互模式。
060
我们提供的基础设施和基本组件
061
必须一次性把所有这些都提供给你
062
同时还要非常非常灵活
063
这样你就可以根据自己的需求进行定制。
064
现在很明显,我们对智能体的期望很高。
065
历史上,这意味着
066
我们把负担都推给了你,开发者。
067
在研究中,我们进行了
068
在推出云托管智能体之前,
069
我们发现开发者们确实渴望
070
与我们一同攀登指数级增长的曲线,
071
但他们在一些关键领域遇到了困难。
072
首先,上下文管理。
073
在正确的时间提供正确的上下文
074
实际上非常难以调整
075
尽管这完全必要。
076
而在错误的时间提供上下文
077
可能会严重分散智能体的注意力。
078
我们有一半的开发者提到
079
基础设施方面的担忧
080
是他们最大的生产障碍。
081
因此智能体会产生突发性的工作负载,
082
它们具有不可预测的计算模式。
083
在保证安全性的同时进行扩展非常困难
084
同时还要满足延迟目标。
085
最后,可观测性确实非常困难。
086
你如何知道你的智能体
087
是否产生了高质量的输出?
088
这些是非确定性模型
089
并且会产生大量非结构化数据。
090
因此,云托管智能体应运而生。
091
我们完成了平台工作,这样你就不用做了。
092
托管智能体结合了基础设施、智能体基本组件,
093
以及管理数据的能力。
094
因此,云托管智能体应运而生。
095
我们完成了平台工作,这样你就不用做了。
096
托管智能体结合了基础设施、智能体基本组件,
097
以及开箱即用的可观测性,
098
所有这些都可以在云平台上的一个套餐中使用。
099
在本次演示过程中,我们将详细探讨这些组件
100
每一个部分。
101
再加上几个演示。
102
那么我们来谈谈最基本的基本构建模块
103
云托管智能体。
104
在最核心的部分,你有一个你定义的智能体。
105
这将是系统提示,也就是你想要使用的模型,
106
任何你想要加载的技能
107
输入到你的智能体,以及具有权限的工具
108
对于那些你希望该智能体具备的工具。
109
这就像智能体的身份。
110
接下来,你还有配置的环境。
111
这就像一个模板,你可以在其中定义网络允许列表
112
以及任何你可能想要预先安装的软件包。
113
这就像智能体将要生活于其中的世界。
114
你把那部分、环境和智能体,
115
然后你用它来运行一个会话。
116
会为您配置一个沙盒。
117
我们设置好 harness,然后 Cloud 开始执行。
118
任何您想要包含的凭证和资源
119
在那个会话中,都是挂载到它上面的
120
并且可供云平台使用。
121
最后,我们有活动。
122
这些是智能体生成的任何内容
123
正如它在执行操作或任何你可能想要的事件
124
为了引导智能体,需要提供上游信息。
125
这就是你可能想要保持联系的方式。
126
事件和状态感知正是我们能够发挥优势的地方
127
提供一个平台,让你可以构建自己的产品
128
在……之上,你可以使用诸如内存之类的原语
129
以及其他我们拥有的功能
130
真正优化这些智能体的性能。
131
所以正如Michael提到的,活动是核心
132
而智能体集成的核心所在。
133
那么,让我们来实际解释一下这意味着什么。
134
Managed Agents 中的每一件事都是基于事件的。
135
因此这些是结构清晰的耐用转录文本
136
帮助您跟踪智能体的进展。
137
首先,有用户事件。
138
这些实际上是发送给智能体以指导它的内容。
139
接下来是智能体事件。
140
这就是智能体实际在做的事情。
141
所以这是消息传递。
142
这是工具执行,上下文压缩,
143
工程。
144
甚至将任务委托给其他智能体。
145
接下来是会话事件。
146
这是你了解刚刚委托的任务
147
进展的方式。
148
所以这是整体生命周期,状态
149
转换,错误和结果过程。
150
最后是跨度事件。
151
这个事件流中有很多内容。
152
这有助于你将相关事件分组
153
并以更聚合、更可测量的方式查看这些事件。
154
那么让我们转向一个现实世界的例子,
155
我们使用
156
云托管智能体构建的某物,即Pascal,它
157
使用一个假设的在线杂货配送服务订单
158
数据来分析这些数据
159
并为我们的团队提供见解。
160
智能体可以在几分钟内生成分析报告,
161
利用一个预加载的数据集和一组Python软件包
162
以及我们安装并上传到容器中的脚本
163
从而让它能够运行。
164
你可以在Cloud控制台中看到每一个事件,甚至可以聊天
165
与调试智能体,以进一步优化
166
你的集成。
167
那么进入视频本身,这个
168
就是Pascal的主页。
169
我们可以启动一个智能体会话,Cloud就会开始运行。
170
它需要几分钟的时间才能完成。
171
所以在它运行的同时,我们会转到开发者控制台
172
并且实际上可以看到Cloud
173
实时生成的事件,并能够更好地理解
174
Cloud正在实时执行的操作。
175
我们还可以查看智能体配置
176
以及为这次会话设置的环境配置。
177
所以这个实例,这就是系统提示
178
以及这就是模型。
179
然后转到环境配置部分,
180
你可以看到允许的网络权限
181
以及这些包。
182
回到实际的页面本身,
183
看起来我们的分析基本上已经完成
184
现在我们可以深入探讨Cloud发现的见解。
185
从产品角度来看,似乎香蕉真的很
186
受欢迎,还有其他一些产品
187
也同样很受欢迎,但每个人都应该获得
188
他们的香蕉。
189
从客户洞察来看,我们发现周日下午
190
在线订单非常受欢迎。
191
所以你可能想要将订单安排在
192
一天中的其他时间。
193
最后,我们设置了一个预测
194
模拟器,让我们分析客户是否更有可能
195
再次订购商品。
196
回到开发者控制台,
197
我们可以在侧边栏看到
198
我们可以启动对会话本身的分析,其中
199
Cloud会查看所有事件
200
并进一步为我们提供见解
201
关于如何优化我们构建的集成。
202
在这一特定情况下,我们看到
203
我们提供给 Cloud 的一些脚本实际上
204
真的,真的很慢。
205
因此,我们可能需要优化我们编写的 Python 代码
206
为了让他们做得更好。
207
所以我们刚刚看了几件事。
208
我们查看了开发者控制台,
209
你看到了实际效果。
210
但事实上有很多不同的方法
211
帮助您今天开始使用云托管智能体
212
为了与你创建的这些智能体进行交互。
213
你只需选择最适合你工作流程的那个。
214
我最喜欢的是云API技能
215
我们今天在Cloud Code中可用的内容。
216
你只需要问问Cloud,嘿,
217
我想开始使用云托管智能体。
218
并且它将帮助你完成入职流程
219
集成到您现有的代码库中。
220
接下来,我们还有ANSI盟友,
221
这是我们最近发布的。
222
这使得交互变得非常容易
223
通过我们的API进行脚本编写和CI,
224
CDL。
225
最后,我们还有我们的开发者码头
226
以及我们的食谱。
227
这些提供了很多实际的例子
228
并且提供可以直接复制粘贴的最常见模式示例
229
这是我们为云托管智能体准备的。
230
那么我们现在已经介绍了基础知识,
231
我想谈一谈一些更高级的功能
232
我们最近已经上线了。
233
那么首先,多智能体协调。
234
在这里,Cloud能够委派任务
235
与其他具有独立上下文窗口的智能体进行交互,
236
使其能够并行化
237
日益复杂的工作。
238
在结果方面,Cloud 会根据预定义的退出标准进行迭代
239
或者直到它满足其目标为止的评分标准。
240
你负责这个目标,以及Cloud
241
负责完成它。
242
有了记忆功能,Cloud 就能够读写记忆存储。
243
默认情况下,没有记忆功能,Cloud
244
每次会议都会从头开始。
245
但是有了记忆,它就具备了对之前运行情况的意识
246
并且下次可以做得更好。
247
梦境是建立在记忆之上的,
248
在这里,Claude 正在进行反思并将其系统化
249
关于学习和将其编码为新的记忆。
250
并且这确保它可以持续启动
251
具有更精炼、更优化和更精选的记忆集。
252
所有这些都非常令人兴奋的智能体功能,
253
我们非常兴奋能够提高上限
254
关于智能体能够产生什么。
255
然而,我们也听到需要与您见面
256
你所在的位置,这意味着要进行
257
使我们的基础设施更加模块化。
258
所以使用自托管沙盒,你可以运行智能体循环
259
并且可以在你的基础设施中直接执行工具
260
因此文件和软件包永远不会离开你的边界。
261
通过MCP隧道,Claude可以访问私有的MCP服务器
262
你不希望暴露在开放互联网上的内容。
263
所有这些东西的构建目的都是为了让你能够部署
264
在你们的企业内部,按照你们自身的安全原则。
265
除了所有这些令人惊叹的功能之外
266
我们已经拥有的,就像凯特林今天早些时候提到的那样,
267
我们刚刚发布了两个全新且非常令人兴奋的功能。
268
一个是计划部署,它允许你设置
269
我们触发新会话的重复计划
270
代表您处理您可能有的任何重复性工作。
271
然后接下来我们在Vaults中还有环境变量,
272
允许您提供安全的凭证
273
对于任何您可能希望 Claude 调用的 API 或 CLI
274
在没有实际承担任何风险的情况下
275
关于Claude看到实际的秘密词元。
276
稍微深入探讨一下环境变量是如何工作的
277
在 Vaults 中,我们放置一个不透明的占位符词元
278
Claude 可以访问的容器本身内部。
279
每当 Claude 尝试调用 API 或使用 CLI 时,
280
它将只是以这种方式使用该环境变量
281
它将使用任何其他环境变量。
282
当该网络请求被发出时,
283
我们将在此请求发出时注入真实的秘密值
284
这样Claude就永远不会实际看到这些值。
285
这就是秘密令牌的真正价值。
end of transcript · 285 segments