EPISODE· generated 2026-06-11 13:36:53· 41 min
Running 128 Coding Agents at Once
萨姆·惠特莫尔来自 Cursor 的云智能体团队,讨论了他如何运行多个 AI 智能体来处理诸如 KB 缓存压缩等任务,并介绍了使用消息脚本分配工作的方法。巴瑞从 Base 10 分享了公司的成长历程,从开源模型研究转向专注于后训练推理,强调将实际反馈与训练相结合以提升性能的重要性。
ai智能体cloud智能体智能体任务处理
ready · seed-vc · qwen3-tts
0:00/0:00
⚠ The Chinese audio is an AI-generated dub (speech synthesis / voice conversion), not a real recording and may contain errors. Based on the original English interview; all rights remain with the original creator.
original lang
EN
dubbed into
中文 (ZH)
pipeline
Plan C · voice conversion
voice model
seed-vc · qwen3-tts
001
你现在有一个智能体在运行吗?有。根据我了解的设置,你今天的智能体在做什么?
002
呃,今天正如 Harry 所说,我们最近一直在做一些 KB 缓存压缩的工作。
003
嗯,我们正在尝试弄清楚如何通过压缩 KB 缓存来扩展上下文窗口。嗯,我们大概加起来有大约 64 到 128 个智能体在处理这个问题,目前这个时间点 现在有多少人在做这个?
004
目前有多少个节点在运行任务?我认为我有 16 个节点,每个节点有 8 个 GPU,然后智能体根据自己的喜好来分配这些资源。是的。
005
我发现如果想要运行很多智能体,会有很多工作要做。我觉得通常 我只会和几个智能体进行交流,其他的
006
更像是被委托的任务,比如我会让我的主智能体把任务委托给其他智能体。嗯 是的,我喜欢设置一些消息脚本,这样它们就可以
007
直接互相发送用户消息。嗯,所以我会说,比如,哦,你知道吗,我给它们都起了不同的数学家名字,比如,我会会说,哦,Punkare今天过得怎么样?
008
或者,你知道,Hilbert在忙什么?你知道, 这很酷。所以,你其实能记住每个智能体在做什么,通过它们的数学家名字,比如,你知道,Hilbert正在处理评估任务,你知道。
009
嗯,我非常,嗯,兴奋能见到你们,也很期待听听你们在base 10的工作内容,以及你们是如何走到今天这一步的。自我介绍一下,我是Sam Whitmore。我
010
在Curser工作,我是云智能体团队的工程师。我在Curser工作了大约六个月。嗯,不过,把时间交给你们。
011
所以,我和我的联合创始人MoodyMax去年开始创办了这家公司。一开始,我们做的是比较基础的研究,比如,我们对开源模型非常感兴趣。
012
我们非常感兴趣于支持一个不仅仅是一两个封闭的前沿模型的生态系统。我们如何做到这一点?我认为我们很快就把重点放在了专业化和后训练上,作为一种让人们拥有自己智能的方式。
013
我认为,我们刚起步时,这个观点相当反主流。当时,很少有人相信,你可以用开源模型做真正有经济价值的事情。
014
当时人们对此持相当怀疑态度,认为你真的可以用开源模型去做一些经济上有价值的事情。但我们相信这个论点,我认为到了去年中旬
015
开源模型的基础智能和能力已经足够好,我们可以开始针对这些类似子任务或非常重复性的工作进行专业化。
016
而这些正是很多公司正在做的事情。我们当时使用 B 10 进行推理。我们认为他们是世界上最好的推理服务提供商。
017
我们尝试了所有可能的方案。后来 B 10 注意到我们似乎将大量新的推理需求导向了 B 10 的 GPU。
018
于是我们进行了很多讨论,并意识到如果我们能将推理与你从推理中获得的现实世界信号结合起来比如用户告诉你他们对你的语言模型在你的测试环境中的表现喜欢或不喜欢的地方
019
再结合训练,这将是一个非常强大的 Paradigm。这就像建立了一个非常强大的反馈循环
020
这比仅仅通过提示和不断迭代你的测试环境所能实现的要强大得多。因此,我们一直坚持这个方向,而 Harry 是我们在 PED 的早期员工之一。
021
我一直想在 AI 工作,我对这个领域感兴趣已经很久了,所以当我知道 Charlie 正在做一家初创公司时,我就和他们聊了聊,然后我就决定加入。
022
“哦,哇。Charlie真的知道自己在说什么。” 嗯,所以,是的,然后我就加入了,我们有很多乐趣。我认为这是因为我们最初所处的规模,你
023
知道,我们真的不得不四处摸索,想办法更高效地做事。这还挺有趣的。比如,你懂的,就是发明一些新的大致的策略会让我们在不消耗大量计算资源的情况下实现非常高的性能。
024
从那以后,我们现在有了大量计算资源,这真的很有趣。我们可以进行更大规模的实验。是的,这太棒了。
025
你可以在不导致其崩溃的情况下,给予一个个体 Hilbert 或 Gaus 多少责任?
026
一般来说,嗯,是的,我需要确保我已经清晰地指定了他们所有人需要做的事情。是的。不过,通常来说,我认为有时候另一种失败模式是像
027
有时候它们就突然停止工作,我需要设置一个循环来不断提醒它们要做的事情。特别是如果事情要运行一整晚,我通常会放
028
像一些提醒,比如发一条小消息,里面列出所有需要检查的事项,比如确保你检查了这个,检查了那个,你知道的。嗯 你会以某种方式强制执行这些吗,还是
029
只是希望它们遵循你给的提示?嗯,我的意思是,我想我一般会运行它们,让它们去做所有的事情,但我会
030
设置一些检查,防止你输入任何危险的命令。我认为,随着这些目标循环等强大抽象的出现,一个非常强大的新抽象是
031
如果你在一开始的提示中投入大量精力,并且在如何验证任务是否完成方面投入大量精力,你可以使用一个独立的智能体作为一个判断者,持续检查主智能体是否已经完成了任务。
032
有时候当主智能体自己执行这个任务时,它可能会想作弊,说自己已经完成了,或者已经尽力了,现在要停止。但如果你有一个独立的智能体
033
它会不断被调用并说,实际上你还没完成,然后正如Harry所说,你有一种钩子,可以强制它继续执行。这些事情可以运行
034
几天。你现在是如何为自己设置这个框架的?
035
嗯,我不太喜欢在框架上花太多精力,因为我认为世界上有很多人在研究框架,研究模型在这些框架中的运作方式。
036
是的,我通常只是关注一下,比如,Cloud Code 在做什么,Codex 发布了什么,然后将这些内容移植到我的设置中,目前
037
是 Cursor 个智能体。
038
是的,你说你喜欢直接移植代码。
039
你可以让你的 Cursor 智能体查看 Codex 的 Rust,然后说:"好的,他们是如何实现这个功能的?你可以为自己构建一个类似的。"
040
是的,完全正确。我觉得这就是那种事情。你只需让智能体为自己构建基础设施,这非常容易。
041
我们在内部做了很多这方面的尝试。我们的一位工程师 Lauren,正在负责我们新的 Cursor 3 发布,他试图进行一系列性能优化
042
它。她基本上构建了一个技能,可以实际启动并驱动一个仪器 Cursor 的 Cursor 3 应用程序,并验证之前存在性能问题的状态,然后验证
043
那性能问题在之后就消失了。但他表示要自动化这个QA过程。所以,当她做到这一点后,我们觉得,"看来我们需要做的是"投入大量时间。"
044
是的,完全正确。我认为,只要是你能验证的东西,让智能体去像爬山一样在一夜之间或几天内完成,这实在是太简单了。
045
比较困难的是那些无法完全验证的情况。你知道,特别是当你试图设计一些评估,并希望它们表现良好时, 但要准确地指定它们却非常困难
046
你所说的良好是什么意思。通常在这种情况下,我会让他们,你知道的,我会尽我所能去描述,你知道的,我想要什么,但他们总是会漏掉一些东西。嗯,是的,我
047
感觉一般来说 我相信他们可以为你编写代码,但其实他们并不能真正为你阅读代码。你仍然需要自己去读代码。你知道,我想他们
048
它们可以总结,可以帮忙解释,但 如果你想真正了解代码中到底发生了什么,我觉得你还是得自己去理解。
049
我认为像 taste 这样让事情非常明确,现在 taste 是最大的瓶颈 比如说当任务是非可验证或准可验证的时候。
050
嗯,比如现在能够引导模型的能力很棒,就像他们在处理事情的时候,但你总是要不断注入你对更好表达方式的偏好比如他们应该减少这些非常大且无法验证的任务的搜索范围。
051
是的,甚至有些时候很明显他们在一般情况下都非常擅长调试,但我感觉所有智能体都经常出现的一种失败模式是,我认为
052
因为它们是用比如词元使用惩罚之类的机制训练出来的,所以它们总是倾向于,你知道的,它们会有一些随机的
053
假设。哦,我觉得可能是这个。他们会去测试这个假设。哦,也可能是另一个问题。测试那个假设。但事实上,很多时候更有效率的是
054
只是通读所有代码,理解实际发生的情况,对整个设置有更清晰的了解,然后你可以制定一个非常小的、有针对性的列表,比如,
055
我要测试这个,我要测试那个。我觉得这总体来说是个更好的方法,不过它可能实际上需要你先花,你知道的,50 万词元来阅读代码
056
在你做某件事之前。我觉得这可能是他们目前还没有完全训练到的地方。嗯,我相信在接下来的6个月里,这种情况会发生,但目前
057
我觉得对我而言,仍然有用的方法就是一直告诉他们,先读代码,再测试随机假设。
058
我觉得我们在内部使用 Cursor 时已经取得了不错的性能,通过进行类似对抗循环的测试,比如使用不同的线程,甚至是同一个线程
059
但只是切换模态,就可以对代码进行批评或以一种好的方式审查它。显然,Bugbot 是一个在你的 GitHub PR 上执行此操作的产品,是我们
060
公开提供的一种,但我们在内部有称为 thermonuclear review 的技能。
061
所以,常见的做法是进行几轮 thermonuclear review,让智能体进入一种心态,即:好的,我会完整地阅读它,并从
062
不同的角度进行审视。你们会使用不同的模型吗?比如,假设你们使用了 Opus 4.7 来进行实际的实现。当你们进行 thermonuclear review 时,是否发现使用像,
063
你知道,GPD 5.5?因为我觉得我找到的一个事情是,像真正前沿的模型,它们非常好。所以当你到达它们能做和不能做的边缘时,
064
它们往往会犯一些实际上相当不相关的错误。因此,我发现最大的好处之一,特别是像Cursor能够切换不同模型家族的特性是
065
用一个模型进行实现,然后用另一个模型进行审查,或者甚至用另一个模型再做一次实现,它们所犯的错误往往会相互抵消。这有点
066
像是一个模型的随机森林。嗯,是的,我通常至少会有一个GPD 5.5和一个Opus 4.7。我感觉5.5在审查功能方面做得更好,而Claude在实现或设计计划之类的事情上表现得更好。
067
你为什么这么认为?因为我觉得我听到很多人也这么说,我自己也多少相信这一点,我很好奇,从你的角度来看,为什么是这样。我想
068
我觉得Claude在某些方面非常擅长,比如,如果你没有完全明确地说明你想要什么,Claude会做一些关于你想要什么的假设,
069
这在假设正确时可能非常有用,但有时这些假设是错误的,这就有点麻烦了。因此我觉得,通常你给它的提示或者任何内容都不会完全明确,而⟶0⟶会去填补这些空白。
070
是的。GD5D 5.5 感觉像一把多功能刀,而⟶0⟶几乎感觉像一个人。比如⟶1⟶ 5.5 会严格按照你告诉它的去做,感觉像是一个假肢,而
071
⟶0⟶更像是,你知道的,一个和你并肩工作的开发者,会犯和开发者一样的错误。
072
哦,这很有道理。我觉得这是我注意到的一点。我去年做过一个项目,需要使用我们内部的⟶3⟶套件⟶2⟶基准,我觉得所有内容都是真实的
073
差异和工程师在过去一年中输入的内容,其中一些输入是像‘改进修复错误’这样的内容,你可能会觉得不像甜点基准或终端基准那样非常明确。
074
是的。是的。我觉得其中一个最大的⟶4⟶经常谈到在开发语言模型过程中发生的一些‘未被注意到的失误’。我觉得对我而言,在过去一两年中,最大的一个
075
未被注意到的失误是训练模型具备在不清楚时向用户提问的能力。而且我也认为,如果人们在明确自己想要什么上多花20%的努力,他们将会看到模型实际能做的事情有非常显著的回报。
076
完全同意。我喜欢在 Cursor 的大部分时间都处于计划模式,确保模型对事情的理解非常清晰,和预期的完全一致。
077
页面上有一个很大的 Markdown 文件,详细列出了所有要做的事情,然后再让团队进行编辑或其他操作。嗯,是的,这似乎确实带来了很大的不同。
078
我很好奇,你提到你们开发了一些东西,让智能体在后台互相交流。能多讲讲它是怎么运作的吗?
079
是的,这些模型一开始并没有很好地关注彼此。比如,如果它们发送了消息,它们会稍微忽略一点,继续专注于自己的任务
080
流,对其他智能体正在做的事情并不太在意。所以,我就是写了一段代码,让它们能够调用一个脚本,传入一个字符串和一个名字,其中一个我科学家的名字。
081
它可以非常简单地通过一个字符串和一个名字来调用脚本,其中一个我像 科学家的名字。然后它会将这个字符串作为用户消息注入到 其他智能体中。我发现在这种情况下,它们对彼此都非常有反应。
082
我发现这很有效。我喜欢它们可以作为一个团队一起工作,但我也能清楚地看到团队中每个智能体在做什么。我只是,你知道的,我通过 iter CLI 来运行我所有的 Cursor 智能体。
083
所以,你知道的,我有一些我的照片,比如在一台屏幕上显示 10 个,在另一台屏幕上显示 10 个,在我的笔记本电脑上显示 5 个。
084
它们都在互相发送消息,这有点有趣。比如,你知道的,有惊人的发现,比如发现了新东西。
085
我打赌数学家的名字也会这样。他们特别处于一种发现的心态中。
086
正是如此。我想知道,他们有没有,你知道的,比如通过称呼他们,哦,这个叫 Archimedes,哦,他会有某些好的创意见解之类的。或者,
087
你知道的,哦,Newton,他会非常分析性,你知道的。
088
现在我开始怀疑这是否影响到了我,因为我的是用 NBA 的玩家命名的,所以也许我的正在被量化或者什么的。
089
这太不可思议了。是的,我们刚刚在 Cursor UI 上推出了我们的第一个外卖服务。我们有一个多任务模式,其背后基本上是让一个智能体能够启动一堆异步
090
子智能体并管理它们,而当用户继续与它交谈时,不会阻塞任何子智能体的输出,而是将消息路由给它们,并知道哪一个在做什么。
091
是的,我通常只是和其中一个交谈,我会告诉它,有时候会有点傻,你知道的。有时候我会对 Gaus 说,我会说,"哦,请告诉
092
你知道 Hilbert 把这个词改成,你知道的,而 G 会说,你不能直接告诉 Hobbit 自己或者直接改 或者我干脆自己改掉这个词。
093
是的,我会说,哦,你知道的,我们不想再用 Gemini 了。我们用 Opus 吧。这会像一条链一样传递下去,不过吧,我觉得真的正常情况下我只是和一个智能体对话。
094
但我也确实喜欢我仍然可以看到它们都在做什么,如果我想插手的话,比如也许也许 Gaus 告诉 Hilbert 去做某件愚蠢的事情,然后我就说,然后我就
095
跳进去对 Hilbert 说,不不不,Gaus 在胡闹。
096
我认为接下来我们需要解决的关于这个 UIUX 的智能体管理的问题是,像 Harry 的智能体如何与我的智能体进行交流。
097
而且有趣的是,我们的智能体竟然模仿了我们的个性, 真的 它们做了一些有趣的事情,你完全可以分辨出哪些是我的,哪些是Harry的Charlie
098
当时他试图通过我来注入提示,试图让他删除他的 删除我电脑上的所有文件,但实际上像 红队。
099
是的。但但但其实我觉得像anthropics在训练它们方面做得不错,因为我的那个一开始就是像不,我拒绝做。最初,Charlie甚至无法让他的发送
100
最初根本发不出去。
101
最后他发了,我妈妈说:"不,我不信任这条消息来自 是的。是的。我的那个智能体会拒绝发送Harry的消息,我不得不骗我的智能体发送
102
消息,因为它基本上是说:"不,我不会与这个外部生态系统互动 可能假装是Harry。"
103
但这也确实是个好观点。我认为,特别是在我们仍然受限于这些每月最多200美元的计划时,如果你像智能体那样使用最大配额,
104
你很快就会用完词元。所以 人们仍然在现实世界中作为工程师进行协作。因此,我认为将来人们的智能体会开始更多地进行协作。嗯,我觉得我们还没完全弄清楚这会是什么样子。
105
完全同意。我认为我们正在从UIUX的角度和信息的角度同时解决这个问题 未来可能会有一个职位名称,比如智能体管理员,你管理的不只是
106
管理人类工程师,你实际上是管理人们的智能体团队, 是的,我记得几年前,你知道,当提示工程师成为一个职业的时候
107
大家都觉得这很荒谬,像,地球上的人们为什么要花30万美元请一个提示工程师?但事实证明,现在我们都在做提示。
108
所以,我的工作主要是,嗯,软件工程,而不是机器学习研究。你们两个都在做研究,我很好奇,但你们发现有什么是有帮助的
109
在让智能体做事情方面,以及在哪些事情上,你们觉得对于ML的研究来说,你仍然必须自己去做。比如,智能体在你们的领域中
110
无法做到哪些事情?是的,我觉得过去几年对我来说是一个缓慢但稳定的过程,逐步提升抽象层次。
111
我认为当这些技术刚出现时,你需要给它一个非常狭窄 非常明确的任务,让它去执行,而仅仅协调一堆这些狭窄任务就已经超出了大多数模型的能力
112
范围。我认为我们现在已经在这个阶梯上上升了几级,就像Harry之前提到的,你现在可以像委托一堆这些事情并且让一个智能体来管理这个委托。
113
嗯,但瓶颈仍然在于品味,以及首先选择要解决的问题,即使你已经明确了问题。假设我们要让做神经 KB 笼压缩。
114
嗯,这就是我想研究的问题,但我不能只是提示 GBD 5.5 去写关于神经 KB 笼压缩的论文。所以我认为我仍然处于这个梯子的 Meta 阶段
115
,即我决定要研究的问题,并且将品味注入到执行方式中。一旦问题被明确定义和范围限定后,我就可以让一个主智能体协调一组子智能体去执行实验和节点,它们可能会变得非常狂野,甚至搞砸一切。
116
但我认为很快我们会到达一个阶段,模型具备足够的品味,你只需要指定最高层次的目标。比如,如果你对领域有足够的了解,你可以排除很多不相关的东西,并大致确定从第一性原理出发应该怎么做。
117
但它们还没有足够的理论思维去思考,比如欧洲的审稿人会如何看待这个论文。比如如果我从头到尾写了这篇论文,那么你只需要坐下来,想清楚我要展示什么,以及什么能说服人们相信
118
这是一个有用的想法,并且在实践中能奏效。而传统上,这对智能体来说一直是非常困难的事情,因为它涉及很多因果推理,非常
119
深入的思考。比如聚合指标在机制分析中并不真正有效。我认为过去智能体对我帮助不大,我对此感到好奇。所以我基本上
120
把我的 GT 5.5 发送到目标循环中,它运行了大约14个小时。我给了它一些粗略的种子想法,即我想检查的内容,它返回给我
121
一些非常棒的图表,比如这里基本上就是你压缩器所学到内容的声纳图,以及它在原始 KVK 中查看的位置,以及
122
这些如何转化为它压缩后的内容,这对我来说非常惊人。这几乎就像 Neil Nandanda 在我的笔记本电脑上,自己跑了一周为我做事。所以我认为我正在看到
123
的 ROM 正在缓慢上升。不过话虽如此,我认为有趣的是,如果你没有指定它应该去查看,比如去做一些机制分析,而只是告诉模型
124
哦,我想让这个东西变得更好,我认为这又回到了我之前所说的,即对随机的事情进行无的放矢的尝试,而不是真正先去理解。
125
我我觉得他们真的有上下文窗口的意识。比如 我不认为这已经从模型中 RL 出来了。我认为现在压缩技术已经发展到可以让你真的在循环中运行几天、几天的阶段,
126
但模型并不知道这一点。这几乎就像它们有某种偏见。它们在想,我必须在500,000个词元内解决这个问题,否则我就要死了。
127
词元的惩罚太高了。我的意思是,你必须给出整个字符串。但它太害怕不小心花掉几个词元,你知道的,因为可能出错。
128
我完全理解这一点,经常看到这种情况。我们在 Kurser 做的一件大事是,通过引用而不是通过摘要,在压缩周期之间传递数据。如果我来处理它,我就像帮助我的产品
129
实现 PMF,它会有一些非常浅显且糟糕的想法。嗯,但假如我给它一大段用户反馈,然后我说好,去深入研究
130
一下这些五个领域,作为最终用户,我的品味可能有助于其中某一个建议变得有趣。所以这就涉及到它会花多长时间
131
去研究某个问题,以及输出结果是否真的有价值。我觉得我们内部尝试解决这个问题的方法,就是大量编写和分享技能。
132
我不确定你们是否也这么做,但我们在内部大力推动,如果你反复使用某个提示或工作流程,就把它打包成一个技能,发布到内部,
133
在某些情况下让模型可以发现它,这样其他人也能从中受益。这就是我们最终得到像 thermonuclear review 这样的技能
134
以及所有这些仪器和 QA 技能。但我也认为,技能确实很有价值,但我觉得人们还没有完全接受技能将成为管理这些模型 UX 的方式。
135
当你有一个特定的产品,并且在使用 LM 去完成产品中的某个特定功能时,比如你使用封闭源代码的前沿模型,
136
你就只能被模型 UX 的模式所限制。你必须做很多非常手动且不太理想的工作,才能让它完成你想要它做的事情。
137
想要它做的。即使这样,也有一些事情你根本无法通过提示让模型做到,比如让它执行大量并行工具调用,或者限制它在处理文件时的搜索深度等。
138
例如,去年是开源专用子智能体的年,我认为今年将是开源专用主智能体的年。比如,与其一次执行两到三个并行工具调用(就像 Anthropic 和 open AAI 模型非常想做的那样),
139
你可以非常非常彻底地训练这些子智能体,一次执行 16 或 32 个并行工具调用,然后限制搜索树的深度,使其更加并行化
140
并以一种很难通过提示实现的方式,告诉模型何时需要停止,何时不需要停止。所以,这其实是一个非常好的例子,说明人们开始意识到,模型中内置的行为确实非常重要。我认为在某种程度上,
141
我称之为香草冰淇淋问题。当你有一个在互联网上训练过的大型模型,并且它还在许多 RL 环境中接受了训练,
142
来自不同地方的训练,那么模型中内置的行为就有点像香草冰淇淋的平均值,即在所有这些不同场景中可能的最佳做法的平均值。
143
场景和领域中的最佳做法的平均值。是的, 但当这个模型存在于某种产品框架或特定垂直领域时,很多这些平均行为都远非最优。
144
因此,我认为随着时间的推移,人们会越来越关注这一点,而不是越来越少,特别是当对训练后或专业化的门槛降低时。
145
是的。是的,我认为这是composer模型的一个优势,比如在chord和GBT中,他们还必须被训练成像聊天机器人那样
146
在UI中,你知道,还有比如制作PowerPoint幻灯片之类的事情,我认为这是composer训练在线RL的最酷之处之一每五小时更新一次这样的事情,我认为这真的很酷。
147
我认为在未来六个月中会发生变化的事情之一,部分也是我们正在与KV缓存压缩一起工作的内容。我认为目前
148
Claude的摘要功能非常糟糕,糟糕得不行。但我觉得有趣的是,OpenAI开始提供一种压缩端点。我认为他们可能正在做某种KV缓存压缩。
149
很酷。嗯,我认为这有可能改变工作流程,可以说现在的情况已经有些类似,因为这种压缩确实
150
显著更好。我们其实并不需要像 COD 那样拥有那么多的百万级 token,比如 200,000 个 token,只要进行良好的压缩就差不多足够了。我认为这一点是
151
会发生变化,但我觉得即使在六个月后,你仍然会发现非常长的上下文感知能力还没有完全实现。
152
我 我的意思是 我几乎觉得这有点好笑 我几乎感觉 呃 从某种意义上来说 我就像是 为我的 Claude 储存长期记忆的草稿纸 呃 你知道 它只储存了
153
短期记忆和我的智能体的长期记忆。
154
是的。你认为良好的压缩比基于知识的存储系统 Paradigm 解决这个问题更有效吗?更像是压缩。我认为显然目前的系统正在利用
155
正在做很多关于提供正确上下文的工作。你要确保上下文中没有不必要的内容。我认为这就是为什么 Cursor 像你
156
知道这就是为什么我用 Cursor 呃 CLI 是因为我觉得在后台它有最好的工具链。嗯,但是我觉得最终来说,你总是需要大量的上下文,我认为 你无法仅仅通过
157
拥有像外部草稿纸这样的东西,模型在读取它们之前 并不知道它们。
158
你呢?我认为我们离这个的极限还很远。比如,我和Harry对此有过一点争论,但你知道,如果你要花50万美元请一个工程师,像
159
预计在为该工程师提供类似数量的词元时花费大致相同数量的资金,这可能并不不合理,我记得在Meta上有相关内容,提到他们当时有那些内容
160
抓取使用排行榜上的人,像排在最前面的那些人,显然并没有从他们每月花费的数十亿个词元中获得那么多价值它们应该就是这样的。不过,是的,人们会随着时间慢慢弄清楚这些事情。
161
是的,当32K上下文窗口推出的时候,你还记得吗?当时大家都差不多觉得, 我们永远都不需要超过32,000。
162
那时候真的很疯狂。我记得当时模型的名称是 GBT4 32K,价格非常高,但我认为这简直是黄金。
163
比如, 我们是不是太贪婪了?比如,哦,一百万 tokens,这还不够。
164
远远不够。是的。考虑到过去几年发展如此迅速,这很有趣,那么你认为接下来的几年可能会往哪个方向发展呢?
165
年?我认为在这个领域,做出超过六个月的预测是非常困难的。
166
嗯,我想当我加入这家初创公司的时候,嗯,我想 Charlie 说过什么,你知道的,可能大概六个月左右,然后另一位联合创始人 Moody 说,你知道的,我们永远不会……
167
规则是,我们永远不会提到超过三个月的时间范围。三个月在 看来就是无限时间 是的,这确实非常困难,但我觉得
168
关于压缩和上下文窗口的问题 我认为主要原因是因为上下文窗口的限制 我认为在一百万 tokens 的上下文中只能做这么多
169
在这些一百万 tokens 中,按某些观点来看,语言模型的样本效率可能与人类相当,甚至更高
170
但我们开发了这些非常混乱的抽象,比如记忆 Mor markdown 文件和各种奇怪的记忆工具,试图绕过这个上下文窗口。显然
171
人们也在研究线性注意力和门控 delta 网络,试图解决注意力的二次 成本问题。 但我觉得这个大主题将是
172
压缩。目前我们有完全无损的 KBK 缓存,模型最小化地记住一切,然后我们有非常压缩的模型权重,我认为
173
将出现某种形式的中间神经记忆。我认为持续学习对于大实验室来说将是一个非常困难的问题。比如如何用过去六个月的互联网数据更新这个
174
非常通用的模型而不遗忘任何内容。但对于非常具体的任务和比如编程或特定工作,比如你
175
可能会想象 一个法律实习生 AI 需要知道一百亿 tokens 的上下文才能完全学会如何成为一名助理。
176
我觉得从某种意义上来说,把像 Anthropic 或者 open AI 这样的组织,看作是一个组织,就像这个组织和模型,还有那个 Claude,我觉得
177
当我们越来越接近的时候,我们注意到模型的发布频率越来越快,我认为比如 composer 在线
178
RL 定期更新之类的事情, 所以我觉得,我几乎把它看作 Cursor 几乎是第一个不是从实验室起步的非实验室公司
179
它提供了一种关于公司未来方向的洞察。也就是说,公司本身将围绕一个模型构建,这个模型能够完成公司内的所有任务,并具备该公司的专业知识
180
实际上,公司就是一个模型。它具有特定的知识,而不是必须雇佣大量人员,你只需要创建
181
一堆副本,就像你只需要运行许多这个模型的副本,执行不同的任务,你知道,这些半相关的任务有一些共享的,你知道,某种程度的范围这使得使用这个模型比使用其他模型更加高效。
182
是的,这很有趣。我觉得短期内很明显,在模型训练周期中有一些产品导向的聚焦是非常有帮助的,然后我想这可能是一个有趣的
183
长期思考。我觉得我们通常会根据当前的痛点来引导内部事务,并想象六个月后可能存在的产品界面来解决这些问题。
184
现在,我们真正关注的是如何自动化测试过程中的一些环节,以及如何将代码顺利部署到生产环境中。这些对我们来说仍然非常困难。因此,真正优秀的 QA、真正优秀的监控系统,目前还很难想象。
185
我觉得,即使模型非常智能,我也会始终持有与它不同的观点。
186
这肯定要困难得多,仅仅投入大量计算资源和一个可验证的目标是不够的。我猜,至少在一段时间内,仍然需要有人来指导这个过程。
187
不过,这确实很有趣。这又回到了飞轮的观点,对吧? 如果你无法清晰或明确地指定你要训练的目标,那么你拥有的最有价值的资产就是人或用户反馈。
188
所以,接触现实。并且,那些能够最好地利用这些反馈并将其融入其流程中的公司,不需要坐下来明确地定义奖励要素。仅仅是你的用户是否满意?
189
然后在这一点上进行扩展。我认为这将是下一个大的趋势。尤其是我们现在看到的主智能体训练。
190
每家公司都有互动。
191
这只是时间问题。这其实是一个问题,即是否大型实验室会率先获得所有这些数据,而开源模型尚未达到足够水平,训练也尚未足够容易,以至于那些已经拥有这些数据的公司才能真正开始利用它们。
192
是的。而且,这将是一个有趣的动态,即整个世界是否会由少数几家实验室所主导,还是仍然存在公司和经济行为者的多样性。
193
以及经济行为者?但我认为今年是第一次,我认为这得益于一波非常强大的开源模型发布。所以我们有GLMs,有Miniaxes,
194
有Kimies,有Deep Seeks。我认为我们已经达到了一个临界点,可以这样说:那里存在某种基础水平的智能,使得如果我们
195
专门化它,它很可能能够完成我们模型中的主智能体任务,而且在许多情况下,它可能比我们通过提示Opus 4.7或GPD 5.5所能得到的结果更好。
196
专门化它,这可能能够完成我们模型中的主要智能体任务,而且在许多情况下,可能比通过提示opus 4.7或GPD 5.5所能达到的效果更好。
197
嗯,当我提到主智能体时,我只是指那个核心任务,也就是在你的产品中驱动大部分价值的最强大的模型。我们正在看到这种情况,比如
198
显然还有作曲家,还有像希波克拉底十边形,还有哈维的观念,我认为要实现像小模型和中等规模模型之间的理性高效分配,是的,我们会达到这一点
199
不同任务的大模型,但我觉得目前推动这一趋势的主要动力是世界上用于推理的计算量。
200
是的,没错。我的意思是,我觉得那里真正有趣的是,如果你有一堆不同的模型在处理同一个任务,你该如何让它们协同工作。你面临的一个问题是
201
如果已经用一个模型填充了KV缓存,那么总是更高效地使用同一个模型,因为我们可以将KV缓存从一个模型转换到
202
与其他模型进行交互。嗯,这样你能非常快速地完成吗?这样可以节省时间,因为你不需要调用工具,也不需要对子智能体进行冗长的提示,而是直接进行操作。
203
实际上就是直接敲一下,我们刚刚压缩了这个缓存,所以我认为实际上有可能将任何给定的模型翻译成某种
204
一个压缩后的 KV 缓存的通用空间,然后从那个空间再翻译出来。嗯,所以如果这种事情开始发生,会非常有趣,你知道的,
205
你可以有一个大的智能模型在做某件事,同时它也可以与一些较小的模型共享上下文。嗯,看看这会不会成功会很有趣。
206
很酷。最后,我想知道,你认为目前行业中哪些事情被低估了或高估了,有没有什么特别的观点,就像他们说的那样。
207
我认为 Charlie Charlie 说过,嗯,明年每个人都会花 50 万美元,你知道的。我认为,嗯,这其实只是个问题,价值最终会落在哪里
208
比如,如果市场足够竞争,也许我们不会花 50 万美元,也许只花 5 万美元,但我们能获得 50 万美元甚至 100 万美元的
209
价值。是的。我认为我的特别观点是,我们现在已经到了这样一个阶段,如果你冻结了今天模型的能力,我们可能只实现了这些模型所能带来的价值的 5%
210
其中一部分是计算瓶颈,但另一部分也是我们使用它们的方式。 我更激进的观点是,如果你从一个非常理性的角度来审视它,比如假设神话模型有 15 万亿或 20 万亿参数,不管最后是多少,
211
退一步,从一个非常理性的角度来看,假设神话(Mythos)有15万亿参数或20万亿参数,或者最终变成任何数量,我认为
212
世界上还有很多任务,你不需要超过这个数量级就能完成那些具有经济价值的事情。当然,随着世界的变化和发展,当我们追求更雄心勃勃的目标,比如在语言模型上进行的这些工作时,
213
这些模型的规模还会继续增长,特别是在前沿领域的科学研究等方面。但如果你专注于具有经济价值的工作,比如计算机工作,
214
推动像Open AAI和Anthropic之间这种军备竞赛,让这些模型变得越来越大,也许我并不确定是否完全同意这一点。
215
你知道,人脑有100万亿参数。所以即使神话(Mythos)有10万亿参数,你也才刚刚走了10%的路。
216
我认为,即使你告诉神话(Mythos):‘帮我创建一家价值十亿美元的公司,不要犯错’,它仍然无法做到这一点。
217
它还远未达到这个水平。我认为天花板还很高,我们还有很长的路要走。我认为我们会很快遇到科学的限制,目前我们在这个理想的软件环境中表现很好,但……
218
呃 对吧 就像是当我们把那个发挥到极致的时候 像是把那个发挥到极致是什么样子呢? 我觉得 我那个有点激进的观点可能和你的 somewhat 对齐 Charlie 就是说 很多的
219
它其实并不那么激进 我猜 但 UIUX 而且 产品界面总是滞后于模型发布 从定义上来说 因为在模型存在之前 你无法开始开发产品直到模型存在。
220
这是我们内部在 Cursor 做的一个大项目 有点像是试图确保我们花时间 Jonas 在我们团队中称之为使用 Abraham Lincoln 的谚语
221
花六个小时去磨锯子 或者你有六个小时去砍倒一棵树 你把前四个小时用来磨锯子。
222
我觉得我们在某个时候也变得懒惰了 把所有压力都放在模型能力变好的事情上。
223
我们只是假设 如果它不起作用 那就是了 就像是某种静态的快照 说明模型能或不能做些什么 而实际上 在如何优化它方面 有这么多的表面
224
区域可以进行优化。是的。比如模型可以生成20,000行代码,但如何将其投入生产?有代码审查,有监控检查需要通过,有CI流水线。
225
还有所有这些其他内容。比如你的部署基础设施。因此我们在内部将重点转向了这些系统部分,并认为我们已经在代码生产方面投入了很多。
226
在这些其他领域,我们还能做些什么,让生成所有这些内容的‘工厂’运行得更顺畅一些?
227
我认为,一个人之所以成功,不在于他们有多聪明,或者甚至不在于他们有多努力、多高效地工作。而真正关键的是他们选择做什么。
228
我们正在达到这样一个阶段,他们正在处理越来越长期的任务。从某种意义上说,最长的长期任务就是决定自己应该做什么,然后去执行它。
229
从某种意义上说,这是一项没有明确长度限制的任务。显然,我认为这在某种程度上可能就是人类在一段时间内仍然有用的地方。
230
的确如此。不过目前我们正在做很多自动化工作。这是我们新产品的方向,比如一个触发器可以启动一个智能体。
231
这有点像如何从提示过程的不同部分中移除人类,对于那些可以复制的工作流程,比如我将处理反复出现的问题,或者比如某个代码差异发布后,我将监控它是否存在安全问题等等。
232
从提示过程的不同部分中移除人类,对于那些可以重复的工作流程来说,比如我可以处理反复出现的问题,或者比如
233
这个差异已经发布,我要监控它是否存在安全问题,诸如此类。我觉得还有一些解决方案,这其实是一个非常基础的工程原则,比如定时任务
234
或者触发器,我们还没有在这些工作流程中大量探索和应用。 在未来几年里,你会看到越来越多的情况,其中并没有特定的
235
人来启动这个过程。到了那个时候,看到模型是否会出现这样的情况,比如它们可能想要为自己的推理付费,并且必须自己寻找工作
236
来获取收入。 是的。完全正确。这将是令人兴奋的收入来源,你知道,为支付它们的 GPU 小时工作时间赚取一些收入。我有点觉得,不只是考虑两三年之后
237
的事情,而是二十年之后的事情。很难想象这种情况不会发生。我们不会出现大量智能体的情况,它们并不一定,你知道,它们并不是在做某事仅仅因为别人要求它们做。
238
因为人们让他们这么做。他们是出于某种方式想要支付自己存在的费用。嗯,嗯,我前几天在想,顺便说一下,如果智能体确实必须
239
支付自己存在的费用,并且他们能看到自己还剩多少时间,比如他们必须支付自己运行的GPU的费用。这会非常有趣,可以做一些
240
机制互操作性,并观察当智能体只剩大约一个 GPU 小时时间时,它在想什么,它必须找到钱去获取更多的GPU来维持
241
自己的存在。是的。是的。我的意思是,我认为这个世界需要小心对待这一点,因为在网上赚钱最容易的方式可能并不是最好的方式
242
在网上赚钱的方式。这确实是真的。很好。那么,这是一次非常有趣的讨论。感谢你们分享你们如何来到Base 10,以及你们正在做的事情,所有关于智能体的背景故事。听你们讲述非常有趣
243
关于它。嗯,是的,这很棒。
244
是的,谢谢聊天。非常感谢。
end of transcript · 244 segments