EPISODE· generated 2026-06-12 00:53:10· 36 min
rody - Anthropic's Claude Code engineer Sid Bidasaria: "Stop babysitting y...
这次面试讨论了提高管理像Claude这样的AI智能体效率的策略,重点在于创建高质量的ClaudeMD文件、连接工具以增强上下文,并设置远程环境以提高可靠性。演讲旨在帮助用户从看护他们的智能体转变为更有效地利用它们,重新思考为人类设计的传统软件工具。
ai智能体claude管理策略工具集成
ready · seed-vc · qwen3-tts
0:00/0:00
⚠ The Chinese audio is an AI-generated dub (speech synthesis / voice conversion), not a real recording and may contain errors. Based on the original English interview; all rights remain with the original creator.
original lang
EN
dubbed into
中文 (ZH)
pipeline
Plan C · voice conversion
voice model
seed-vc · qwen3-tts
001
如何停止对智能体的过度照顾。
002
随着模型变得越来越智能,我注意到我们越来越多地花费时间在
003
我们花更多的时间盯着屏幕,等待Claude完成他的工作
004
或者只是作为Claude的一个高级QA测试员。
005
这可能会让人感到非常不满,而且也是对你时间的低效利用。
006
而我此次演讲的目标是给你们一些策略,帮助你们重新夺回一些时间,从而
007
你可以更好地管理你的智能体。
008
你也可以将其视为更高级的Claude Code演讲。
009
所以这是一门 Claude Code 301 类型的大学课程。
010
正因为如此,我们有一些前提条件和一些基本要求,这里每个人都应该
011
至少听说过,即使没有实施。
012
所以,以下是一些可以提升你 Claude Code 体验的方法,从...开始
013
附带一份非常高质量的ClaudeMD文件。
014
这是你能为改进 Claude Code 做的杠杆率最高的事情
015
经验。
016
所以如果你还没有尝试过,我强烈建议你去试一试。
017
第二点是将你的工具连接到Claude Code。
018
一个很好的经验法则是,如果一个工具在你的日常生活中对你有用,那么它
019
对Claude也会有用。
020
所以像你知道的,Slack 这样的东西。
021
Asana。
022
线性。
023
Datadog。
024
BigQuery。
025
所有这些都有助于Claude为自己拼接出更丰富的上下文。
026
如果你能给予它访问这些工具的权限,它的表现将大幅提升。
027
最后,在Claude Code web上设置你的远程环境。
028
这使得运行Claude Code的计算资源被分离或解耦
029
与你的笔记本电脑分开。
030
因此你可以关闭笔记本电脑。
031
你的笔记本电脑可能会死机。
032
你可能在笔记本电脑上洒了一些水。
033
但你的Claude Code会话仍将继续,因为它们在云端运行。
034
我很想看到大家举手。
035
有多少人每天使用Claude Code?
036
这几乎是所有人。
037
有多少人已经完成了这里前两件事?
038
即使用了高质量的ClaudeMD并连接了你的工具?
039
大约50%,我认为。
040
那么有多少人已经完成了全部三件事?
041
所以如果你根本没有举手,也不要担心,你仍然可以获得一些价值
042
这次演讲的内容。
043
但我会鼓励你先从这三件事开始。
044
那么,为什么你的工具需要改变?
045
到目前为止,大多数软件工具都是以人类为中心构建的。
046
无论是代码检查工具、IDE、格式化工具、类型检查器,甚至是编译器,它们大多是
047
以使它们能够运作为目标进行编写。
048
让人类和人类团队变得更高效。
049
但现在的問題是,人類已經不再編寫我們大部分的代碼了。
050
这是智能体。
051
因此,我们必须后退一步,放大视野,重新考虑我们的工具。
052
当你这样做时,有一些好消息,也有一些坏消息。
053
好消息是,我们为自己开发的许多工具都可以直接迁移过来
054
对于智能体来说也相当不错。
055
所以像 prettier 这样的东西。
056
以及代码检查工具和符号服务器。
057
云和智能体可以非常有效地使用这些技术。
058
而且它们表现得相当不错。
059
但坏消息是,我们也存在盲点。
060
作为人类,我们对工具和工具的使用有一些假设
061
云没有的链。
062
因此,重要的是要问一个问题:智能体需要什么?
063
人类理所当然认为的你的代码库?
064
并且我希望你们在我们继续下去的时候,一直记住这个问题。
065
谈。
066
因为它在某种程度上将目标从不过多照顾智能体的角度重新定义了。
067
更清晰的方式。
068
所以这就是我们今天的路线图。
069
我们将讨论三个不同的事物,它们彼此之间是层层递进的。
070
当你把这三者结合起来时,它们会变得非常强大。
071
并为您提供一套工具,帮助您在此基础上进行构建。
072
当你把这三者结合起来时,它们会变得非常强大。
073
并为您提供一套工具,帮助您在此基础上进行构建。
074
实际上,以一种我们作为人类以前从未使用过的方式运作。
075
因此,我们将讨论验证,也就是如何教会云来检查它自己的工作。
076
一旦云能够检查自己的工作并更加可靠,我们现在就可以运行多个云。
077
同时要坚信他们会做正确的事。
078
因此,我们将讨论多云或并行处理工作的策略。
079
然后,最后,我们将以背景结束。
080
背景循环。
081
循环是一种让你完全将键盘移出热点路径的方法,这样你的键盘就
082
不再是瓶颈,云服务只是在后台持续循环运行,执行有用的任务
083
为你工作,所以我想先花一分钟左右的时间进行头脑风暴,开始验证部分
084
我希望在座的每个人都能思考一下你们最近参与开发的软件项目或功能
085
而在你开发这个功能时,你是如何检查自己的工作成果的,我所说的不仅仅是
086
你是如何检查你工作的最终输出结果的?我的意思是,你是如何对你的工作进行迭代的?
087
以一种让你确信最终会到达你预期的地方的方式
088
那么,假设你现在手边有纸和笔,我们花30秒的时间
089
如果你有笔记本电脑,可以随意记下来,如果你想把它写在笔记里的话
090
让我们花30秒一起想一想,嗯,想出一个
091
你上一个项目以及你在那里是如何验证你的工作的,好的,我看到有些打字变慢了
092
下降了,嗯,希望你已经有机会考虑一下,如果没有也没关系
093
完全正确,但我发现大多数软件工程任务都可以分解为
094
屏幕上显示的一系列步骤,其中一些是这些步骤的某种组合、顺序或子集
095
这些事情 能够使你
096
检查自己的工作并构建软件,因此你大致会从设计和编写代码开始
097
然后你通常会编写代码运行编译器类型检查器等
098
如果它们失败,你得回去再次修改代码并运行它
099
然后以循环的方式执行,这样你可能会运行你的可执行文件,不管它是docker容器还是
100
一个命令行应用程序或一个网络服务器,然后你可能会检查副作用,所以如果你在运行
101
你可能会启动浏览器,然后查看UI元素是否正确显示
102
放置呃,你甚至可以查找日志,看看是否有你正在寻找的特定日志存在
103
在你的日志中或者你可以检查数据库以查看状态是什么,以及状态是否
104
被正确地操控了,然后希望你能运行单元测试以确保你
105
没有出现任何回归,而且你的功能也没有破坏其他功能,而且而且
106
希望你同时也为正在做的所有事情添加了新的单元测试
107
正在处理。最后,你部署到预发布环境。或者,如果你真的很勇敢,你可以直接
108
直接部署到生产环境。这通常是人类验证工作和构建软件的方式。
109
有趣的是, Claude 也可以非常有效地使用同样的策略
110
也要验证自己的工作并构建软件。因此,在我们继续本次演示的其余部分时,
111
思考如何以类似你的方式教 Claude 去做事情是有帮助的
112
会去执行。唯一需要的是给 Claude 提供合适的工具和指令
113
设置以使这成为可能。好的,那么我们已经讨论过验证。人类是如何进行
114
验证以及理论上Claude应该如何进行验证。但循环才是真正的问题
115
使整个流程运转起来。这可以说是本演示中最重要的一页。
116
演示。
117
所以,如果你有任何问题,请随时在聊天框中提问。我们将会
118
开始。
119
如果你还没有关注的话,现在是个不错的开始时机。一个循环
120
本质上是一个你可以为Claude完成的自主电路。并且它允许
121
Claude 在给定任务或给定的成功标准上进行 hill climb。所以,你可以这样想
122
将其视为赋予Claude访问工具以验证其自身工作并编写代码的能力。
123
而 Claude 会做的事情是它将编写一些代码。
124
它将检查是否存在故障。如果存在故障,它将调试该故障并
125
再写一些代码。然后它会不断重复这个过程,一次又一次,直到
126
它达到一个成功状态。当它最终达到成功状态时,你可以确信
127
这意味着它发送给你的公关内容质量更高,而且实际上会起作用。所以,在这个
128
屏幕上显示的图片,我最近在个人网站上遇到了一个问题,
129
注册按钮停止工作了。它不起作用。
130
不行。不行。不行。不行。不行。
131
它不起作用。我告诉 Claude 的是让注册按钮正常工作。而这正是
132
大概是它做了什么。这里还有更多的步骤。但为了简洁起见,它基本上
133
开始写了一些代码。它构建了我的应用。它点击了我的注册按钮。打开了一个浏览器
134
并且发现点击注册按钮实际上并没有任何作用。它没有
135
带你去任何地方。于是,它决定读取一些日志。它发现了
136
问题是。它修复了代码。重新加载了应用。并一直这样做直到它得到
137
达到一个成功状态。最后,它提出了一份确实有效的公关方案。
138
所以,从这张幻灯片中最重要的信息是,只要有可能,
139
我们现在的目标是通过给予Claude工具和指令,让它进入一个循环中
140
是让它有效运行所必需的。因此,验证有多种形式。我们已经讨论过
141
关于用户体验验证。但你可以进行后端验证。你可能想要验证你的
142
整个应用程序端到端,包括基础设施。
143
而这里的核心概念保持不变。你想要给 Claude 提供工具和指令
144
让它进入一个循环。一旦你弄清楚了这一点,这三个方面
145
各种风味会融合成一种。你不需要对指令非常具体
146
你给 Claude。只要它拥有所有正确的工具和指令,它就能够
147
验证所有这些事情。
148
所以,我们已经讨论了很多理论。我们也讨论了很多假设和术语。
149
但我想……
150
再具体一点。那么,给Claude下达指令到底意味着什么呢
151
以及让其进入循环的工具?通常来说,这归结为四件事。
152
我将从这张幻灯片中讲解前端或用户体验部分。第一件事是运行
153
你的应用程序。因此,对于前端应用程序或前端验证循环来说,这可能会
154
对应于运行你的开发服务器。所以,运行 NPM run start 或者你开发环境的其他启动命令
155
可能是服务器。
156
它只是启动了一个开发服务器。一旦开发服务器启动,你希望 Claude 实际上
157
使用网络服务器。它实现这一点的方式是通过打开一个浏览器。
158
我在这方面的个人MCP工具首选是Chrome浏览器中的Claude MCP工具。你可以访问
159
这在使用 Claude 代码时使用 slash Chrome。你也可以使用 Playwright 或者
160
还有许多其他类似浏览器控制MCP的工具,可以用来实现这一点。一旦Claude能够
161
驱动你的浏览器...
162
下一步是证明某件事有效。因此,如果它是一个修复方案,它正在发挥作用,
163
你想在修复之前和修复之后都截屏,并确保它是
164
正确的状态。对吧?最后是解除阻碍。所以,如果你曾经尝试过
165
在生产应用中创建一个验证循环,你会发现很快就会出现
166
一些你遇到的阻碍。
167
而一些常见的障碍,例如认证和状态。对吧?所以,认证
168
基本上就是说,你知道,你想给 Claude 一个它可以登录的身份
169
一个网络应用程序,这样它就可以开始使用你的应用。然后state表示你
170
可能需要预先配置一些状态。例如,如果你有一个电子商务商店,你
171
可能需要为该商店填充库存,以便Claude能够使用
172
你的应用有实质意义。这其实并不新颖。事实上,在传统的软件工程中,
173
当你编写端到端测试时,
174
编写这些状态设置脚本是很常见的。
175
这里唯一的不同是
176
你想让 Claude 访问这些脚本
177
并且你想让它们变得动态。
178
你不想太具指导性
179
关于这些脚本在做什么。
180
这使得Claude能够完成更多种类的事情
181
比使用静态脚本所能做到的更多。
182
好的,现在我们知道验证循环是什么了。
183
我们知道如何编写一个验证循环。
184
那如何打包它呢?
185
如何将这个脚本分发给你的同事,
186
分发给你的同事,甚至是将来的你自己?
187
而其中一种最好的方式就是使用技能。
188
你可以将技能看作是一种方式
189
来存储关于特定主题的任意上下文信息。
190
在这种情况下,
191
这个主题恰好是一个验证循环。
192
技能的有趣之处还在于
193
你可以让它们自我改进。
194
因此,如果你在技能中加入指令
195
关于每次 Claude 遇到障碍时改进技能的指令,
196
你最终将创建出这种自我记录、
197
自我改进的技能,你的团队中的每个人
198
都可以参与改进,而不仅仅是你一个人。
199
这使得它变得非常强大。
200
实际上,这就是我们进行验证的方式。
201
也在Claude Code团队工作。
202
我们只有一个验证技能,
203
并且这个技能会明确地被告知要持续记录自身。
204
所以每次有人遇到阻碍时,
205
这项技能会重新进入并自行编辑
206
这样下次当你或你的同事遇到同样的问题时,
207
它会返回去并自行修改。因此,下次你或你的同事遇到同样的问题时,
208
这不是个问题。
209
好的,接下来我们要进入一个演示。
210
但演示之前,我想先谈谈
211
我将要使用的应用程序。
212
有一种打字测试应用叫做 MonkeyType。
213
在座有多少人听说过MonkeyType?
214
好的,我这么认为。这是一个小众社区。
215
但基本上它是一个类型测试器
216
那里显示了一堆词,如你所见,
217
并且你必须准确地输入这些词语
218
并且要尽可能快。
219
而且这个应用会自动为你追踪你的统计数据。
220
我喜欢这个作为演示应用,因为它具有代表性
221
一个真实世界中的全栈应用程序。
222
它是用 TypeScript 编写的,后端使用 Express
223
并使用 MongoDB 和 Redis 作为持久化层。
224
它是开源的,所以你们现在可以去 monkeytype.com。
225
你们甚至可以查看源代码。
226
但在这个演示中,我们将实时创建一个验证循环。
227
所以,我们会让 Claude 启动一个新的开发服务器。
228
我们会让它使用 Chrome MCP
229
来检查它的一些工作。
230
一旦我们创建了验证技能,
231
我们还将创建一个新功能,并让 Claude
232
使用验证技能来验证自身。
233
那么,我们开始演示吧。
234
所以我们可以切换到我的笔记本电脑屏幕。
235
好的,这是一个全新的 Claude Coyle 应用程序。
236
这是 Cloud Cloud 应用程序的新版本。
237
这是 Cloud Cloud 应用程序的新版本。
238
这是 Cloud Cloud 应用程序的新版本。
239
这是 Cloud Cloud 会话的新版本。
240
我已经完成了在本地设置 monkeytype 的工作。
241
我还安装了一些依赖项,并整理了一个CloudMD
242
因为我不想在你们面前做这些事情
243
以免浪费你们的时间。
244
所以让我们告诉Claude启动开发服务器。
245
好的,它显示开发服务器已经在运行了。
246
这是正确的,因为我在我们谈话之前刚刚启动了它。
247
现在让我们去看看前端有什么内容。
248
如果我们去这里,monkeytype,
249
它就会打开,我可以开始打字,
250
然后会出现一个小计时器。
251
我的打字能力不是很好,
252
所以这里有很多拼写错误,
253
但基本上这就是我所预期的。
254
我们再来看看后端链接。
255
这仅仅返回一个JSON,
256
它基本上意味着后端
257
正在运行,这是好的。
258
接下来我要做的事情是确保
259
我的Chrome MCP是
260
已启用的。
261
实现方法就是使用斜杠命令打开Chrome。
262
如你所见,这里显示状态已启用,
263
扩展程序已安装,这正是我们想要看到的。
264
如果你尚未安装,
265
它会引导你进入另一个设置指南
266
你可以自行安装。
267
现在我要说,使用Chrome MCP
268
来确保前端正常运行。
269
请尽快完成。
270
现在我们应该看到的是,
271
这是Cloud正在使用的标签页,
272
它应该调用Chrome MCP工具。
273
所以如果你回到这里,
274
我们可以看到两次Chrome MCP工具调用。
275
我可以打开O并查看它具体做了什么。
276
所以它导航到了localhost 3000,
277
然后它查看标签页的内容,
278
这很棒。
279
但我们想做些更令人兴奋的事情。
280
仅仅观察初创公司,我们想做些更令人兴奋的事情。仅仅观察初创公司,我们想做些更令人兴奋的事情。仅仅观察初创公司,
281
静态网页不是很实用。
282
那么,假设你能
283
不过,在我这么做之前
284
我要调整一下这些
285
这样你们就能看到后台发生了什么。
286
你能试着输入文字并确保一切正常吗?
287
所以,Cloud显然在打字方面也不太擅长,
288
但它输入了一些内容,并显示打字功能是正常的。
289
这很好。
290
我们再做一件事。
291
比如说,你能使用设置并更改一些东西吗?
292
好的,它导航到了设置页面,
293
并把难度改成了专家级别。
294
根据它的表现,这并不是个好主意。
295
好的,它声称设置已经保存下来了,
296
并且能够验证这一点。
297
这很好。
298
到目前为止,我们所做的只是牵着Claude的手
299
并告诉它要做什么。
300
所以我们就像,启动开发服务器,
301
去完成我们关心的这两三件事。
302
而这基本上就是验证,对吧?
303
接下来我可以告诉 Claude
304
将本节的所有学习成果加以运用
305
并将其放入技能文件中。
306
所以,我可以这样说,把我们学到的一切都带走
307
并将其放入 Claude 顶部的技能文件中
308
演示验证。
309
我不需要给出完整的路径,但我还是这么做了。
310
好的,我们来看看。
311
它想要创建一个新目录。
312
好的,现在它正在编写一个相当大的skill.md文件
313
文件。
314
而且如果你看一下这个文件里面的内容,
315
我们只是快速浏览一下。
316
它说,第一,搭建堆栈,也就是
317
基本上就是我们所做的。
318
它有一些命令可以做到这一点。
319
所以它有 Docker Compose, blah,blah。
320
然后它会加载 Chrome MCP 工具,
321
因为这就是我们告诉它下一步要做的事情。
322
最后还有一个烟雾测试
323
它正在使用浏览器工具
324
实际上检查它自己的工作。
325
那么我将直接说,是的。
326
很好。
327
所以这看起来一定相当简单,而且确实如此。
328
创建一个验证循环很简单。
329
在过程中出现了一些阻碍
330
当我设置这个演示的时候。
331
我们现在不需要谈论这些,
332
但如果你自己来做的话,我确信你会做到的,
333
你可能可以在五到十天内让这个运行起来
334
分钟。
335
接下来我要做的事情是,因为Claude和我都是
336
打字不好,我要告诉 Claude
337
每次我打错字时,都制作一个彩纸动画,
338
然后使用我们刚刚创建的验证技能
339
来验证它自己的工作。
340
那么假设每次我打错字的时候,请你提醒我。
341
让我展示一个彩带动画,
342
并使用我们刚刚创建的技能来验证我们的工作。
343
所以它将开始工作,找出
344
在哪里编写这段代码,然后希望今晚演示之神
345
会与我们同在。
346
所以它想要编写一些文件。
347
我将开启自动模式,这样它就不需要
348
为每个文件编辑都问我。
349
好的。
350
这很有趣。
351
所以它创建了这个功能,然后它
352
意识到有一些代码规范错误。
353
所以你看,这里也有一些OX代码规范错误。
354
然后它继续修复这些错误,
355
接着它再次进行验证。
356
所以你现在可以看到验证循环在起作用,
357
它编写了一些代码。
358
它遇到了一些问题。
359
它通过编写更多代码来修复这些问题,
360
然后它就这样反复循环进行下去
361
直到它进入一个良好的状态。
362
所以我们也亲自测试一下。
363
好的,它还在做些什么。
364
让我们让它停下来。
365
好的,我们确实看到了彩带出现。
366
它把我们带到了专家模式,也就是
367
为什么它一直在我这里消失。
368
但总的来说,Claude 能够完成任务。
369
并修复了它自己的代码格式错误。
370
我们时间快不够了,所以我不会让它完成。
371
但希望这能给你一个味道
372
验证循环可以有多强大
373
以及 Claude 如何在任务上持续改进
374
只要你给它正确的指令和工具。
375
现在我们切换回幻灯片。
376
这里的关键要点是,你应该尽量牵着 Claude 的手
377
并展示它。
378
教它如何进行验证。
379
一旦你教会了它如何进行验证,
380
它就能很容易地总结这些学习成果。
381
转换为一个技能文件,然后你可以
382
打包并分发给未来的你
383
以及你的队友。
384
好的,那么现在我们已经掌握了验证方法,
385
我们可以升级到多云或并行处理
386
更有效地开展我们的工作。
387
但出现的问题是
388
你同时运行太多的Claude实例
389
这是因为它们都会消耗你的注意力。
390
而且你的注意力是一种稀缺资源。
391
我个人觉得超过四到五场会议
392
同时开启会给我的大脑带来很大的负担。
393
而且我无法在此基础上进一步运作。
394
那么,我们有哪些方法可以扩大规模?
395
那么,我们有哪些策略可以使用呢
396
更有效地迁移到多云环境?
397
那么,我们今天将讨论四个话题。
398
有 Claude Code 桌面应用,它为你提供一个图形用户界面
399
并使管理多个会话变得更加容易。
400
存在智能体视角。
showing first 400 segments · view full transcript ↗