[ { "speaker": "host", "text": "Metarprompting 正在成为一种 非常强大的工具,现在每个人都在 使用。这实际上感觉 有点像 1995 年的编码,因为 工具还没有完全成熟。你 知道,我们就在这个新领域。但就我 个人而言,这也有点像 学习如何管理一个人, 比如我该如何沟通, 你知道他们需要 知道的事情,以便做出一个好的决定。" }, { "speaker": "host", "text": "[音乐] 欢迎收看《光锥》的另一集。今天,我们将揭开 最优秀的人工智能初创公司在 快速工程方面的真实面纱。我们调查了 十几家公司,并 从 制造这些东西的前沿获得了他们的想法和实用技巧。" }, { "speaker": "host", "text": "贾里德,我们为什么不 从你最好的一家人工智能 初创公司的例子开始呢。" }, { "speaker": "guest1", "text": "我设法 从一家名为 Parahelp 的公司获得了一个例子。Parahelp 提供 AI 客户支持。有 很多公司都在做 这件事,但 Parhel 做得非常非常 好。他们实际上正在为 Perplexity、 Replet、Bolt 和其他一些 顶级人工智能公司提供客户支持。因此,如果 您去并将客户 支持单通过电子邮件发送到 Perplexity,那么 实际响应的就像是他们的 AI 代理。很酷的是, Powerhel 团队非常慷慨地同意向 我们展示为该 代理提供动力的实际提示,并将其放在 YouTube 屏幕上供全世界 观看。嗯, 对于垂直 AI 代理来说,获得这些提示相对困难, 因为它们有点像 这些公司 IP 的皇冠上的宝石, 所以非常感谢 Powerhel 的人 同意基本上 开源这个提示。" }, { "speaker": "host", "text": "戴安娜,您能向 我们详细介绍一下这个提示吗。" }, { "speaker": "guest2", "text": "这非常有趣,而且 很少有机会亲眼目睹它的 实际运作。因此, 这个提示的有趣之处在于它实际上首先 非常长。这份文档非常详细, 您可以看到它有六页 长,只需滚动浏览即可。许多最好的提示都 以这个概念作为开始,即 设定 LLM 的角色。您是 客户服务代理的经理,它将 需要做的事情分解成要点。然后最重要的是 告诉任务批准 或拒绝工具调用,因为它正在 协调来自所有 其他代理的调用。然后它给出了一些 高级计划。它将其 逐步分解。您会看到步骤一、二、 三、四、五。然后它给出了 一些需要记住的重要事项, 即 在调用不同类型的工具时不要出现奇怪的情况。它告诉他们如何构建 输出,因为代理的很多事情都 需要它们 与其他代理集成。所以几乎就像粘合 API 调用一样。因此, 指定它将以这种格式给出 接受或拒绝的确定输出非常重要。那么,这有点像是 高层部分, 最好的提示是,他们用 这种 markdown 类型的样式 格式将其分解。因此,您可以在 此看到标题,然后稍后会 更详细地介绍如何进行 规划,您会看到这就像 其中的子项目符号部分,作为 计划的一部分,实际上有三个大部分 是如何规划,然后是如何创建 计划中的每个步骤,然后是 计划的最高示例。最好的提示的一个重要方面是,它们 概述了如何推理任务, 然后的一个重要方面是给出 一个例子,这就是它的作用。有趣的是, 它看起来更像是编程而不是 英语写作,因为它有这种 XML 标签类型的格式来指定 计划。我们发现这使得 LMS 更容易遵循,因为 许多 LMS 都是在 LHF 中使用 XML 类型的输入进行后期训练的,并且结果 产生了更好的结果。" }, { "speaker": "guest3", "text": "是的。" }, { "speaker": "guest3", "text": "令 我惊讶的是,这里没有这个东西, 或者这只是 他们发布的版本。我几乎期望 有一个部分描述 特定的场景并且实际上为该 场景提供示例输出。" }, { "speaker": "guest1", "text": "这就像是管道的下一阶段。" }, { "speaker": "guest3", "text": "是的。" }, { "speaker": "guest1", "text": "哦真的吗。" }, { "speaker": "guest2", "text": "好的。" }, { "speaker": "guest1", "text": "是的。" }, { "speaker": "guest1", "text": "因为它是针对特定客户的,对吗。" }, { "speaker": "guest2", "text": "因为每个客户 对于如何回应 这些支持票都有自己的看法。" }, { "speaker": "guest1", "text": "因此,与 许多代理公司一样,他们面临的挑战 是, 当每个 客户都有 略微不同的工作流程和 偏好时,如何构建通用产品。" }, { "speaker": "guest1", "text": "我看到垂直人工智能代理 公司经常谈论一个非常有趣的事情,那就是 如何拥有足够的灵活性来 制定特殊用途的逻辑,而不必 变成一家咨询公司,为 每个客户构建一个新的提示。" }, { "speaker": "guest1", "text": "我实际上认为, 这种 在客户之间分叉和合并提示的概念,以及 提示的哪些部分是 针对特定客户的,哪些部分是针对整个公司的,是 一件非常有趣的事情, 世界才刚刚开始 探索。" }, { "speaker": "guest3", "text": "是的,贾里德,你的观点非常好。" }, { "speaker": "guest3", "text": "这就是 在系统提示中定义提示的概念。" }, { "speaker": "guest3", "text": "然后 有一个开发人员提示,然后 有一个用户提示" }, { "speaker": "host", "text": "所以这意味着 系统提示基本上 就像定义 公司如何运营的高级 API。" }, { "speaker": "guest1", "text": "在这种情况下,parhel 的示例 很大程度上是一个系统提示。没有关于客户的具体信息。然后,当他们添加该 API 的特定实例 并调用它时,他们会将 所有这些都塞进更多的开发人员 提示中,这并没有在这里显示出来, 这就增加了所有的上下文,比如说, 处理困惑时, 处理机架问题有某些方法,而不是 使用粗体,这是非常 不同的,对吧,然后我不认为 parhelp 有用户提示,因为他们的 产品不是由 最终用户直接使用的,但最终用户提示可能 更像是 replet 或零, 用户需要输入就像为我生成一个 有这些按钮的网站, 这些都在用户提示中进行。这就是正在 出现的架构。" }, { "speaker": "guest1", "text": "至于您提到的避免 成为一家咨询公司,我认为 有很多创业机会, 可以围绕所有 这些东西构建工具,例如, 任何做过提示工程的人都 知道,示例和工作 示例对于 提高输出质量非常重要。" }, { "speaker": "guest1", "text": "因此,如果以类似的力量 为例,他们确实想要 针对每个公司的具体的良好工作示例。" }, { "speaker": "guest1", "text": "因此你可以想象,随着 它们的扩展,你几乎希望这一切能够 自动完成。就像在你的梦想世界里, 你想要的就像一个代理 本身,它可以从客户数据集中挑选出最好的 例子, 然后软件就像把 它直接摄取到 管道中它应该属于的任何地方,而不必 手动出去把 它全部插入并摄取到 你自己的里面。" }, { "speaker": "host", "text": "这可能是一个很好的过渡 到元语法,这也是 我们想要谈论的事情之一,因为 这是我们在 与人工智能初创公司交谈时不断出现的一个主题。" }, { "speaker": "guest2", "text": "是的,Tropier 是 我目前在 YC 批次中合作的初创公司之一, 他们确实帮助 像 YC 公司 Ducky 这样的人 深入了解和调试 多阶段工作流程的提示和返回值。他们发现的其中一件事就是迅速 弃牌。" }, { "speaker": "guest2", "text": "因此您知道基本上一个 提示可以动态地生成其 自身的更好版本。一个很好的例子 就是分类器提示,它 根据前面的查询生成专门的提示。" }, { "speaker": "guest2", "text": "因此,您 实际上可以采用现有的 提示,并为其提供 更多示例,其中提示可能 失败或没有完全按照您的 要求执行,您实际上可以不必 去重写提示,而 只需将其放入原始的 LLM 中并说帮助我使这个提示变得 更好。" }, { "speaker": "guest2", "text": "而且由于它对自己 非常了解,奇怪的是,元提示正在 成为 现在每个人都在使用的一种非常强大的工具。" }, { "speaker": "guest3", "text": "如果任务非常复杂,那么下一步就是进行提示折叠,这时就会 用到 示例,Jasberry 就是这么做的, 我和其中一家公司合作, 他们基本上 在代码中构建了自动错误查找功能,这要 困难得多,他们的方法是 提供一堆 只有专业程序员 才能做到的非常难的例子,比如说,如果你想找到 一个 N +1 的查询,那么对于 今天来说,即使是最好的学习管理系统 (LMS) 也很难找到这些 查询,而他们的方法是 找到部分代码,然后将 它们添加到提示中,一个元提示, 就像嘿,这是一个 n +1 类型错误的例子,然后就可以 解决了," }, { "speaker": "guest3", "text": "我认为这种模式 有时甚至很难 编写一个专业程序,我们 只给你一个结果证明 非常有效的例子,因为它可以帮助学习管理系统 (LM) 推理复杂的任务并 更好地控制它,因为你无法完全 输入确切的行为参数, 这几乎就像单元测试 编程一样 测试驱动 开发是 LLM v 版本。" }, { "speaker": "guest3", "text": "是的。" }, { "speaker": "guest3", "text": "这个比喻谈到的另一件事 是,你知道 模型真的很想帮助 你,如果你告诉它 以这种特定的格式返回输出, 即使它没有 它需要的信息,它实际上只会 告诉你它认为你想听到的内容, 这实际上是一种幻觉。" }, { "speaker": "guest3", "text": "因此, 他们发现的一件事是,你 实际上必须给法学硕士一个真正的 逃生出口。如果您 没有足够的信息来表示“ 是”或“否”或做出决定,您需要告诉它,不要 只是编造。停下来问我。" }, { "speaker": "guest3", "text": "这是一种非常不同的思考方式。" }, { "speaker": "guest3", "text": "这实际上是我们 在与 YC 的代理商进行的一些内部工作中学到的东西, 其中 Jared 想出了一个非常有创意的 方法来为 LLM 提供逃脱补丁。" }, { "speaker": "host", "text": "你想谈论这个吗。" }, { "speaker": "guest3", "text": "是的。" }, { "speaker": "guest3", "text": "因此, 比喻方法是给予 LM 逃脱补丁的一种方法。" }, { "speaker": "guest3", "text": "我们想出了 一种不同的方法,即在响应 格式中,让它能够将 部分响应本质上是 对开发人员的投诉,就像 您给它提供了令人困惑或 不明确的信息,它 不知道该怎么做。" }, { "speaker": "guest3", "text": "这样做的 好处是,我们只需使用 真实的 hoser 数据在生产中运行您的 LLM,然后您就可以返回 并查看它 在输出参数中给您的输出。" }, { "speaker": "guest3", "text": "嗯,我们内部称之为调试信息。" }, { "speaker": "guest3", "text": "因此,我们有这样的 调试信息参数,它 基本上向我们报告我们 需要修复的事情,它最终就像 代理开发人员必须做的待办事项列表。" }, { "speaker": "guest3", "text": "这 真是令人震惊的事情。" }, { "speaker": "guest3", "text": "是的。" }, { "speaker": "guest2", "text": "是的,我的意思是,即使对于业余爱好者或有 兴趣将 其用于个人项目的人来说也是如此。" }, { "speaker": "guest2", "text": "开始使用元提示的一个非常简单的方法 是遵循 提示的相同结构,赋予它 一个角色,并使该角色就像您 知道自己是一位专家提示工程师一样,他会 给出非常详细的嗯很好的 批评和建议,关于如何嗯 改进提示并给它 你想到的提示,它会给 你一个更广泛的更好的 提示,所以你可以继续运行 这个循环一段时间。" }, { "speaker": "guest2", "text": "效果 出奇地好。" }, { "speaker": "guest2", "text": "我认为,当公司需要更快地从其产品中的元素获得响应时,这是一种常见的 模式。" }, { "speaker": "guest2", "text": "他们使用 更大、更强大的模型进行元提示,我 不知道任何数千亿 参数加模型,比如呃,我猜是 云 4 3.7 或你的呃 GPD 03,他们 进行这种元提示,然后他们 有一个非常好的工作模型,然后 他们将其用于提炼模型。" }, { "speaker": "guest2", "text": "因此, 他们在例如 FRO 上使用它,并且 它最终运行得非常好, 特别是对于语音 AI 代理公司来说,因为延迟对于 整个 巡回测试的通过非常重要,因为如果在 代理响应之前有太多的停顿, 我认为人类可以检测到 有些不对劲。" }, { "speaker": "guest2", "text": "因此,他们使用更快的 模型,但具有 从更大的模型中提炼出的更大、更好的提示。" }, { "speaker": "guest2", "text": "这也是一种常见的模式。" }, { "speaker": "guest2", "text": "另一个可能不太复杂, 但嗯,就像提示变得越来越 长,就像它变成了一个大型 工作文档嗯,我发现有用的一件事 是,当你使用它时,如果你只是 在 Google 文档中记下你所 看到的东西,嗯,输出不是 你想要的,或者不是你能想到的 改进它的方法。" }, { "speaker": "guest2", "text": "您可以将 这些内容以笔记形式写下来,然后将 您的笔记加上原始 提示提供给 Gemini Pro,并要求它对提示提出一系列 编辑建议,以便将 它们很好地结合起来,而且它做得 很好。" }, { "speaker": "guest2", "text": "另一个技巧是,在 Gemini 2.5 Pro 中,如果您查看思考 痕迹,就像通过 评估进行解析一样,您实际上也可以了解 很多有关所有这些失误的信息。" }, { "speaker": "guest2", "text": "我们在内部也做过这样的事情,对吗。" }, { "speaker": "guest2", "text": "因为这很关键,因为如果您 直到最近才通过 API 使用 Gemini ,那么您就没有得到思考 痕迹,而思考痕迹 就像关键的调试信息,可以 帮助您了解提示出了什么问题。" }, { "speaker": "guest2", "text": "他们只是将其添加到 API 中。" }, { "speaker": "guest2", "text": "因此,您现在可以将 其返回到您的开发人员工具和 工作流程中。" }, { "speaker": "guest2", "text": "是的,我认为 Gemini Pro 拥有如此长的上下文窗口的一个被低估的结果是你 可以像涟漪一样有效地使用它。逐一进行,将 提示放在一个例子上,然后 实时观察推理轨迹, 弄清楚如何将 其引导到您想要的方向" }, { "speaker": "host", "text": "Jared 和 YC 的软件团队 实际上已经构建了各种 形式的工作台,让我们可以进行 调试等操作。但就 您的观点而言,有时最好 直接使用 gemini.google.com,然后 拖放 JSON 文件 ,您知道您不必 在某种特殊容器中执行此操作,您知道这 似乎是完全可以正常 工作的东西,甚至可以直接在 聊天 GPT 本身中工作。是的,这些 都是东西。" }, { "speaker": "guest1", "text": "嗯,我要向 YC 的数据主管 Eric Bacon 致谢,他为 我们大家提供了很大的帮助, 并使用 Gemini Pro 2.5 有效地产生了 涟漪效应。" }, { "speaker": "host", "text": "那么评估怎么样。我的意思是,我们已经讨论了 一年多的评估。嗯, 创始人发现了哪些东西。" }, { "speaker": "guest2", "text": "尽管我们已经 说了一年多, 加里,但我仍然认为, 对于所有这些公司来说,评估都是真正的皇冠上的宝石,就像数据资产一样。Powerhel 愿意开源提示的一个原因是 他们告诉我,他们实际上并不 认为提示是皇冠上的 宝石,而像评估一样才是皇冠上的 宝石,因为没有评估,你 就不知道为什么提示是以 那种方式写的。嗯,而且 很难改进。" }, { "speaker": "guest3", "text": "是的。" }, { "speaker": "guest2", "text": "我认为, 抽象地说,你可以想想,你 知道 YC 资助了很多公司, 特别是在垂直 AI 和 SAS 领域, 除非你 与 从事 X Y 或 Z 知识 工作的人并肩坐在一起,否则你无法获得评估。你知道,你需要坐在 拖拉机销售区域经理旁边, 了解这个人 关心什么,你知道,这就是他们获得 晋升的方式。这是他们关心的事情。这就是那个人的奖励函数。然后你知道你在做什么,就是 坐在内布拉斯加州的某个人旁边进行这些面对面的互动, 然后回到你的电脑,把 它编成非常具体的评估, 比如这个特定的用户想要这个 结果,你知道在这张 发票寄来后,我们必须决定 是否要履行你 对这台拖拉机的保修义务。就像 举一个例子,这是真正的 价值,就像你们每个人真正 担心的那样,嗯,我们只是说唱歌手, 你知道初创公司会发生什么, 我认为这实际上是关键 所在,嗯, 如果你知道如果你在 特定的地方 比任何人都更了解用户,并且让 软件真正为这些 人工作,这就是护城河,这就像 一个完美的描述,就像今天 创始人所需的核心竞争力是什么。" }, { "speaker": "guest3", "text": "就像 您刚才说的那样, 作为这样一家公司的创始人,您的工作就是要 真正擅长这件事,并且疯狂 地痴迷于 区域拖拉机销售 经理工作流程的细节。" }, { "speaker": "guest2", "text": "是的。" }, { "speaker": "guest3", "text": "然后 疯狂的事情是,这很难做到, 你知道你去过 内布拉斯加州吗。你知道, 世界上最好的创始人是那些 真正伟大的 工程师和技术专家, 非常聪明,同时 他们必须了解 世界上很少有人 了解的某些部分,然后还有一小部分人, 你知道, 一家价值数十亿美元的初创公司的创始人, 我想到了 Flexport 的 Ryan Peterson ,你知道,他真的非常非常伟大,他 了解软件是如何 构建的,但同时我认为, 就像十年前一样,他是整整一年的第三大医疗热水浴缸进口商。所以你知道, 你所看到的世界越奇怪,而 其他 技术专家却没有看到的,那么 机会实际上就越大。" }, { "speaker": "host", "text": "我认为你在加里 面前以一种非常有趣的方式表达了这一点, 你的意思是 每个创始人都成为了前沿 部署的工程师。这是一个可以 追溯到 Palunteer 的术语,由于 您早期就在 Palanteer 工作,能否请您向 我们讲讲前沿 部署工程师是如何在 Palunteer 成为一门学科的, 以及创始人 现在可以从中学到什么。" }, { "speaker": "guest1", "text": "我的意思是,我认为 Palunteer 的整个论点在某种程度上 是,嗯,如果你看看当时的 Meta, 它被称为 Facebook 或 Google 或 任何 当时每个人都知道的顶级软件初创公司。Peter Teal、 Alex Karp、Stefan Cohen、Joe Lansdale、Nathan Gettings 以及 Palunteer 的最初创始人都认识到,无论 进入财富 500 强企业中的任何一家,无论进入世界上任何政府机构( 包括美国), 没有人能像您这样在最高层级上理解计算机 科学和技术。因此, Palenteer 很早就发现了一个非常非常伟大的想法,那就是 这些地方 面临的问题实际上是数十亿 美元,有时甚至是数万亿美元的 问题,但这远在 人工智能成为现实之前,你知道,我的意思是人们在 谈论机器 学习,但你知道当时他们 称之为数据挖掘,你知道世界充斥着 数据,这些是巨大的 人员、事物和 交易数据库,我们不知道如何处理 它。Palanteer 过去如此,现在 如此,现在依然如此。你可以去 寻找世界上最优秀的技术人员,他们 知道如何编写软件来真正 理解世界。您知道,您 有这些数以百亿计字节的数据,但您不 知道如何在哈希堆栈中找到针。嗯,你知道疯狂的 事情正在发生,嗯,大约 20 22 年后, 我们拥有的数据越来越多,而 我们对 正在发生的事情的了解却越来越少,嗯, 毫无疑问,现在 我们有了法学硕士学位,实际上它 变得更加容易处理,然后 前沿部署工程师的头衔 具体来说就是你如何坐在正在 调查国内恐怖主义的 FBI 特工旁边。您如何坐在他们 办公室旁边,观察案件 进展情况。全部步骤是怎样的。呃,当你真正需要 去找联邦检察官时, 他们会发送什么东西。我的 意思是,有趣的是,它实际上 就像 Word 文档和 Excel 电子表格,对吗。嗯, 作为一名前沿部署工程师,你要做的就是把 人们必须做的这些文件柜和传真机之类的东西 转换成真正干净的 软件。所以你知道,传统的观点 是, 在一个三字母 机构进行调查应该像 在 Instagram 上拍一张你的午餐照片并将其发布 给你的所有朋友一样简单。就像您 知道的那样,这是最有趣的部分。所以我认为今天毫无疑问的是, 通过 Palanteer 的系统培养出来的四名部署工程师现在 实际上已经成为 YC 最优秀的创始人之一。" }, { "speaker": "guest3", "text": "是的。" }, { "speaker": "guest1", "text": "我的意思是,我们培养了如此 多的初创公司创始人,因为 就像培训成为一名预先 部署的工程师一样,这正是 成为这些公司创始人的正确培训。现在, 关于 Palunteer 的另一个有趣之处是,其他 公司会派销售人员 去与 FBI 特工坐在一起,而 Palunteer 则派工程师 去做这件事。" }, { "speaker": "guest2", "text": "我认为 Palenter 可能是 第一家真正喜欢将 其制度化并将其扩展为 流程的公司,对吗。" }, { "speaker": "guest1", "text": "是的。我的意思是,我认为 那里发生的事情,他们之所以 能够非常稳定地获得这种七位数、 八位数甚至九位数的合同, 是因为他们没有 派一个有头发和牙齿的人 去,而是去了 牛排馆。你知道,这一切都像是 一段关系。你会在一次会议上, 他们真的很喜欢这个 销售人员,然后通过纯粹的 人格力量,你会试图让他们 给你一份七位数的合同,而 这个合同的时间表可能是 6 周、10 周、12 周,比如 5 年,我不知道,而且 软件永远不会工作,而如果 你在那里安排一名工程师, 你给他们 Palunteer Foundry, 这是他们现在所说的 核心数据可视化和数据挖掘 套件,而不是在下次会议中 审查 50 页的 销售文件或合同或 规范或类似的东西。这 句话的意思就是“好的,我们建造了它。” 然后你会在几天内得到真实的现场 反馈。我的意思是,这确实是 初创公司创始人面临的最大机遇" }, { "speaker": "host", "text": "如果初创公司创始人 可以做到这一点,嗯,这就是前沿 部署的工程师习惯 做的事情,那么你就可以击败 Salesforce 或 Oracle,或者你知道 Booze Allen 或任何 拥有大办公室和大 销售人员的公司,你知道你有大 销售人员,握手有力, 那么一个非常优秀的 工程师如何用无力的握手 击败他们呢。" }, { "speaker": "host", "text": "事实上,你向 他们展示了一些他们 从未见过的东西,让他们感觉自己被 倾听了。" }, { "speaker": "host", "text": "你必须 对此非常感同身受。" }, { "speaker": "host", "text": "就像你 必须成为一名出色的设计师和产品 人员,然后你知道回来, 你就可以让他们惊叹不已。" }, { "speaker": "host", "text": "就像该 软件非常强大,当 你看到某样 让你感到被重视的东西时,你就会想 当场购买它。" }, { "speaker": "host", "text": "一个很好的 思考方式是,创始人应该把 自己想象成 自己公司部署的四名工程师。" }, { "speaker": "guest1", "text": "绝对地。" }, { "speaker": "guest2", "text": "是的。" }, { "speaker": "host", "text": "就像你绝对 不能把这件事外包出去一样。" }, { "speaker": "host", "text": "就像 创始人本身一样,他们是技术人员。" }, { "speaker": "host", "text": "他们必须是出色的产品 人。" }, { "speaker": "host", "text": "他们必须是 民族志学者。" }, { "speaker": "host", "text": "他们必须是 设计师。" }, { "speaker": "host", "text": "您希望 第二次会议的人看到您 根据所听到的内容制作的演示。" }, { "speaker": "host", "text": "你希望他们说:“哇,我 从来没有见过这样的事情。” 并拿走 我的钱。" }, { "speaker": "guest1", "text": "我认为 这种模式的不可思议之处在于,这也是我们 看到许多垂直人工智能代理 腾飞的原因,正是因为他们 可以与 这些大企业的最终买家和拥护者举行会议。" }, { "speaker": "guest1", "text": "他们获取该上下文, 然后将其基本上填充到 提示中,然后他们可以 在第二天的会议上迅速回来, 也许与 Palunteer 合作会花费 更长的时间,并且这里有一个工程师团队。" }, { "speaker": "guest1", "text": "可能只需要两位创始人加入, 他们就能完成六、 七位数的交易,就像我们所见过的,而且是 与大型企业达成的,这是 以前从未有过的,而 这种前瞻性部署工程师的新模式 加上人工智能正在加速发展,这一切都成为可能。" }, { "speaker": "guest1", "text": "这让我想起了 之前在播客中提到的一家公司, 比如 Giger ML,他们为客户提供 客户支持,尤其是 语音支持,这是一个 典型的案例,两个非常 有才华的软件工程师不是天生的 销售人员,但他们强迫自己 成为前沿部署的 工程师,他们与 Zeppto 达成了一笔大交易, 然后又与其他几家 公司达成了一笔大交易,他们还不能宣布,但 他们是否会像 Palentier 模型那样亲自到现场。" }, { "speaker": "guest2", "text": "是的。" }, { "speaker": "guest1", "text": "所以他们这样做了, 一旦 他们达成交易,他们就会去现场, 与所有客户 支持人员坐在一起,研究如何 继续调整并使软件或 LM 运行得更好。" }, { "speaker": "guest1", "text": "但在 此之前,即使是为了赢得交易,他们也 发现, 只要有最令人印象深刻的演示,他们就能获胜。" }, { "speaker": "guest1", "text": "在他们的案例中,他们 对 rag 管道进行了一些创新,以便 他们的语音响应既 准确又具有极低的延迟。" }, { "speaker": "guest1", "text": "这有点像 技术上具有挑战性的事情 ,但我只是觉得,在 当前 LLM 崛起之前,你 不一定能 在销售演示阶段做出足够的区分来 击败现任者。" }, { "speaker": "guest1", "text": "因此, 通过拥有 更好的 CRM 和更好的 UI,你真的可以击败 Salesforce。" }, { "speaker": "guest1", "text": "但是现在, 由于技术发展如此之快, 很难保证最后 5% 到 10% 的正确率, 如果你是一名前沿部署的 工程师,你实际上可以在第一次会议上 对其进行调整,以便它能够真正 为客户所用。" }, { "speaker": "guest1", "text": "回到演示 并得到那种哇哦的感觉,就像我们从未 见过其他人在体验之前做到这一点 并完成大笔交易一样。" }, { "speaker": "guest1", "text": "Happy Robot 的情况也是如此, 它已经向全球三大物流经纪商出售了七位数的 合同。" }, { "speaker": "guest1", "text": "他们 为此构建了人工智能语音代理。" }, { "speaker": "guest1", "text": "他们 采用前沿部署 工程师模式,与 这些公司的首席信息官进行交流,并快速 运送大量产品, 周转速度非常快。" }, { "speaker": "guest1", "text": "现在看到它起飞真是令人难以置信。" }, { "speaker": "guest1", "text": "它从六位数的 交易开始,现在已经完成了七位数的 交易,这太疯狂了。" }, { "speaker": "guest1", "text": "这仅仅是 几个月后的事了。" }, { "speaker": "guest1", "text": "所以这就是 你可以用呃我的意思是 令人难以置信的非常非常智能的提示 工程来完成的事情。" }, { "speaker": "guest3", "text": "嗯, 每个模特有趣的一点是,她们似乎 都有自己的个性。" }, { "speaker": "guest3", "text": "创始人真正 意识到的一件事是,你需要向 不同的人寻求不同的东西。" }, { "speaker": "guest3", "text": "实际上, 众所周知的是,克劳德是一种更加 快乐、更加人性化的模特。" }, { "speaker": "guest3", "text": "另一个是 Lama 4,它 需要更多的转向。" }, { "speaker": "guest3", "text": "这 几乎就像与开发人员交谈, 其中一部分可能是由于没有 在其上进行太多 RL RHF 而产生的产物。" }, { "speaker": "guest3", "text": "因此,使用起来有点困难,但 如果你实际上 擅长做 很多提示并且几乎做 更多的 RLHF,你实际上可以很好地控制它,但实际上使用起来有点困难。" }, { "speaker": "guest3", "text": "嗯, 我们内部使用法学硕士学位的其中一件事 实际上是帮助创始人弄清楚 他们应该从谁那里拿钱。" }, { "speaker": "guest3", "text": "在这种情况下,有时您需要一个非常 直接的评分标准,从 0 到 100。" }, { "speaker": "guest3", "text": "0 表示永远不会拿走他们的钱 ,100 表示立即拿走他们的钱。" }, { "speaker": "guest3", "text": "就好像他们确实给了你很多帮助,如果 你不接受他们的钱,那你就是疯了。" }, { "speaker": "host", "text": "Harj,我们一直在使用提示来研究 一些评分标准。" }, { "speaker": "host", "text": "我们学到了什么。" }, { "speaker": "guest3", "text": "因此, 提供 um LLM 的评分标准无疑是最佳做法, 特别是当您想获得 数字分数作为输出时。" }, { "speaker": "guest3", "text": "你想 给它一个评分标准来帮助它 理解我应该如何思考 以及 80 分和 90 分的区别。" }, { "speaker": "guest3", "text": "但这些评分标准从来都不是完美的" }, { "speaker": "guest1", "text": "总是有例外的,你尝试过03和Gemini 2.5,你发现了这个,我们发现非常有趣的是,你可以为两个不同的模型提供相同的评分标准,在我们的具体案例中,我们发现03实际上非常严格,就像它真的坚持评分标准一样,它会对任何不符合你给出的评分标准的东西进行严厉惩罚,而Gemini 2.5 Pro实际上非常灵活,因为它会应用评分标准,但它也可以几乎推理出为什么某人可能是例外,或者为什么你可能想要将某些东西推得比评分标准所建议的更积极或更消极,我认为这真的很有趣,因为这就像当你培训一个人时,你试图给他们一个评分标准,就像你希望他们使用评分标准作为指导一样,但总是存在这样的边缘情况,你需要更深入地思考。嗯,我只是觉得有趣的是,模特本身会以不同的方式处理这个问题,这意味着他们有不同的个性,对吗。就像03感觉有点像士兵,好吧,我肯定会检查,检查。嗯,Gemini Pro 2.5感觉更像是一个高级机构的员工说,“哦,好吧。我认为这是有道理的,但在这种情况下这可能是一个例外”,这真的很有趣。" }, { "speaker": "guest2", "text": "是的,对于投资者来说看到这种情况很有趣。你知道,有时候你会遇到像Benchmark或Thrive这样的投资者,你会说:“是的,马上拿钱。他们的流程非常完美。他们从不敷衍了事。他们回复邮件的速度比大多数创始人都快。这真的令人印象深刻。然后,呃,举个例子,你知道,有很多投资者只是不知所措,也许他们只是不太擅长管理时间。所以,他们可能是非常优秀的投资者,他们的过往记录也证明了这一点,但他们回复的速度有点慢。他们似乎总是不知所措。他们无意中,或许不是故意地敷衍了事。所以这正是法学硕士的用途。比如,其中一些的调试信息很有趣,比如你可能知道它是91分,而不是89分。我们拭目以待。" }, { "speaker": "guest3", "text": "我想,让我真正感到惊讶的一件事是,正如你所知,我们自己也在尝试,我们大概会把80%到90%的资金用于我们与那些处于前沿的创始人共事的经历,一方面,我认为我们讨论这个问题时常用的比喻是,这有点像编程。感觉就像是在1995年编程。工具还没有完全成熟。有很多东西尚未明确。我们正处于这个新的前沿。但就我个人而言,这也有点像学习如何管理一个人,比如,我该如何与他们沟通,让他们知道我需要知道的事情,以便做出正确的决定。我该如何确保他们知道,我将如何评估和评分他们。不仅如此,还有“改善”(Kaizen)的方面,你知道,这种制造技术在90年代为日本创造了非常非常好的汽车。这个原则实际上是说,那些在改进流程方面绝对最优秀的人,才是真正在实践的人。这就是为什么日本车在90年代如此出色的原因。这对我说是一种元提示。所以,我不知道。这是一个美丽新世界。我们正处于这个新时刻。" }, { "speaker": "host", "text": "所以,时间已经到了。但我迫不及待地想看看你们会想出什么样的提示。我们下次再见。[音乐]" } ]