[ { "speaker": "host", "text": "Metarprompting 正在成为一种非常强大的工具，现在每个人都在使用。这实际上感觉有点像 1995 年的编码，因为工具还没有完全成熟。你知道，我们就在这个新领域。但就我个人而言，这也有点像学习如何管理一个人，比如我该如何沟通，你知道他们需要知道的事情，以便做出一个好的决定。" }, { "speaker": "host", "text": "[音乐] 欢迎收看《光锥》的另一集。今天，我们将揭开最优秀的人工智能初创公司在快速工程方面的真实面纱。我们调查了十几家公司，并从制造这些东西的前沿获得了他们的想法和实用技巧。" }, { "speaker": "host", "text": "贾里德，我们为什么不从你最好的一家人工智能初创公司的例子开始呢。" }, { "speaker": "guest1", "text": "我设法从一家名为 Parahelp 的公司获得了一个例子。Parahelp 提供 AI 客户支持。有很多公司都在做这件事，但 Parhel 做得非常非常好。他们实际上正在为 Perplexity、 Replet、Bolt 和其他一些顶级人工智能公司提供客户支持。因此，如果您去并将客户支持单通过电子邮件发送到 Perplexity，那么实际响应的就像是他们的 AI 代理。很酷的是， Powerhel 团队非常慷慨地同意向我们展示为该代理提供动力的实际提示，并将其放在 YouTube 屏幕上供全世界观看。嗯，对于垂直 AI 代理来说，获得这些提示相对困难，因为它们有点像这些公司 IP 的皇冠上的宝石，所以非常感谢 Powerhel 的人同意基本上开源这个提示。" }, { "speaker": "host", "text": "戴安娜，您能向我们详细介绍一下这个提示吗。" }, { "speaker": "guest2", "text": "这非常有趣，而且很少有机会亲眼目睹它的实际运作。因此，这个提示的有趣之处在于它实际上首先非常长。这份文档非常详细，您可以看到它有六页长，只需滚动浏览即可。许多最好的提示都以这个概念作为开始，即设定 LLM 的角色。您是客户服务代理的经理，它将需要做的事情分解成要点。然后最重要的是告诉任务批准或拒绝工具调用，因为它正在协调来自所有其他代理的调用。然后它给出了一些高级计划。它将其逐步分解。您会看到步骤一、二、三、四、五。然后它给出了一些需要记住的重要事项，即在调用不同类型的工具时不要出现奇怪的情况。它告诉他们如何构建输出，因为代理的很多事情都需要它们与其他代理集成。所以几乎就像粘合 API 调用一样。因此，指定它将以这种格式给出接受或拒绝的确定输出非常重要。那么，这有点像是高层部分，最好的提示是，他们用这种 markdown 类型的样式格式将其分解。因此，您可以在此看到标题，然后稍后会更详细地介绍如何进行规划，您会看到这就像其中的子项目符号部分，作为计划的一部分，实际上有三个大部分是如何规划，然后是如何创建计划中的每个步骤，然后是计划的最高示例。最好的提示的一个重要方面是，它们概述了如何推理任务，然后的一个重要方面是给出一个例子，这就是它的作用。有趣的是，它看起来更像是编程而不是英语写作，因为它有这种 XML 标签类型的格式来指定计划。我们发现这使得 LMS 更容易遵循，因为许多 LMS 都是在 LHF 中使用 XML 类型的输入进行后期训练的，并且结果产生了更好的结果。" }, { "speaker": "guest3", "text": "是的。" }, { "speaker": "guest3", "text": "令我惊讶的是，这里没有这个东西，或者这只是他们发布的版本。我几乎期望有一个部分描述特定的场景并且实际上为该场景提供示例输出。" }, { "speaker": "guest1", "text": "这就像是管道的下一阶段。" }, { "speaker": "guest3", "text": "是的。" }, { "speaker": "guest1", "text": "哦真的吗。" }, { "speaker": "guest2", "text": "好的。" }, { "speaker": "guest1", "text": "是的。" }, { "speaker": "guest1", "text": "因为它是针对特定客户的，对吗。" }, { "speaker": "guest2", "text": "因为每个客户对于如何回应这些支持票都有自己的看法。" }, { "speaker": "guest1", "text": "因此，与许多代理公司一样，他们面临的挑战是，当每个客户都有略微不同的工作流程和偏好时，如何构建通用产品。" }, { "speaker": "guest1", "text": "我看到垂直人工智能代理公司经常谈论一个非常有趣的事情，那就是如何拥有足够的灵活性来制定特殊用途的逻辑，而不必变成一家咨询公司，为每个客户构建一个新的提示。" }, { "speaker": "guest1", "text": "我实际上认为，这种在客户之间分叉和合并提示的概念，以及提示的哪些部分是针对特定客户的，哪些部分是针对整个公司的，是一件非常有趣的事情，世界才刚刚开始探索。" }, { "speaker": "guest3", "text": "是的，贾里德，你的观点非常好。" }, { "speaker": "guest3", "text": "这就是在系统提示中定义提示的概念。" }, { "speaker": "guest3", "text": "然后有一个开发人员提示，然后有一个用户提示" }, { "speaker": "host", "text": "所以这意味着系统提示基本上就像定义公司如何运营的高级 API。" }, { "speaker": "guest1", "text": "在这种情况下，parhel 的示例很大程度上是一个系统提示。没有关于客户的具体信息。然后，当他们添加该 API 的特定实例并调用它时，他们会将所有这些都塞进更多的开发人员提示中，这并没有在这里显示出来，这就增加了所有的上下文，比如说，处理困惑时，处理机架问题有某些方法，而不是使用粗体，这是非常不同的，对吧，然后我不认为 parhelp 有用户提示，因为他们的产品不是由最终用户直接使用的，但最终用户提示可能更像是 replet 或零，用户需要输入就像为我生成一个有这些按钮的网站，这些都在用户提示中进行。这就是正在出现的架构。" }, { "speaker": "guest1", "text": "至于您提到的避免成为一家咨询公司，我认为有很多创业机会，可以围绕所有这些东西构建工具，例如，任何做过提示工程的人都知道，示例和工作示例对于提高输出质量非常重要。" }, { "speaker": "guest1", "text": "因此，如果以类似的力量为例，他们确实想要针对每个公司的具体的良好工作示例。" }, { "speaker": "guest1", "text": "因此你可以想象，随着它们的扩展，你几乎希望这一切能够自动完成。就像在你的梦想世界里，你想要的就像一个代理本身，它可以从客户数据集中挑选出最好的例子，然后软件就像把它直接摄取到管道中它应该属于的任何地方，而不必手动出去把它全部插入并摄取到你自己的里面。" }, { "speaker": "host", "text": "这可能是一个很好的过渡到元语法，这也是我们想要谈论的事情之一，因为这是我们在与人工智能初创公司交谈时不断出现的一个主题。" }, { "speaker": "guest2", "text": "是的，Tropier 是我目前在 YC 批次中合作的初创公司之一，他们确实帮助像 YC 公司 Ducky 这样的人深入了解和调试多阶段工作流程的提示和返回值。他们发现的其中一件事就是迅速弃牌。" }, { "speaker": "guest2", "text": "因此您知道基本上一个提示可以动态地生成其自身的更好版本。一个很好的例子就是分类器提示，它根据前面的查询生成专门的提示。" }, { "speaker": "guest2", "text": "因此，您实际上可以采用现有的提示，并为其提供更多示例，其中提示可能失败或没有完全按照您的要求执行，您实际上可以不必去重写提示，而只需将其放入原始的 LLM 中并说帮助我使这个提示变得更好。" }, { "speaker": "guest2", "text": "而且由于它对自己非常了解，奇怪的是，元提示正在成为现在每个人都在使用的一种非常强大的工具。" }, { "speaker": "guest3", "text": "如果任务非常复杂，那么下一步就是进行提示折叠，这时就会用到示例，Jasberry 就是这么做的，我和其中一家公司合作，他们基本上在代码中构建了自动错误查找功能，这要困难得多，他们的方法是提供一堆只有专业程序员才能做到的非常难的例子，比如说，如果你想找到一个 N +1 的查询，那么对于今天来说，即使是最好的学习管理系统 (LMS) 也很难找到这些查询，而他们的方法是找到部分代码，然后将它们添加到提示中，一个元提示，就像嘿，这是一个 n +1 类型错误的例子，然后就可以解决了，" }, { "speaker": "guest3", "text": "我认为这种模式有时甚至很难编写一个专业程序，我们只给你一个结果证明非常有效的例子，因为它可以帮助学习管理系统 (LM) 推理复杂的任务并更好地控制它，因为你无法完全输入确切的行为参数，这几乎就像单元测试编程一样测试驱动开发是 LLM v 版本。" }, { "speaker": "guest3", "text": "是的。" }, { "speaker": "guest3", "text": "这个比喻谈到的另一件事是，你知道模型真的很想帮助你，如果你告诉它以这种特定的格式返回输出，即使它没有它需要的信息，它实际上只会告诉你它认为你想听到的内容，这实际上是一种幻觉。" }, { "speaker": "guest3", "text": "因此，他们发现的一件事是，你实际上必须给法学硕士一个真正的逃生出口。如果您没有足够的信息来表示“ 是”或“否”或做出决定，您需要告诉它，不要只是编造。停下来问我。" }, { "speaker": "guest3", "text": "这是一种非常不同的思考方式。" }, { "speaker": "guest3", "text": "这实际上是我们在与 YC 的代理商进行的一些内部工作中学到的东西，其中 Jared 想出了一个非常有创意的方法来为 LLM 提供逃脱补丁。" }, { "speaker": "host", "text": "你想谈论这个吗。" }, { "speaker": "guest3", "text": "是的。" }, { "speaker": "guest3", "text": "因此，比喻方法是给予 LM 逃脱补丁的一种方法。" }, { "speaker": "guest3", "text": "我们想出了一种不同的方法，即在响应格式中，让它能够将部分响应本质上是对开发人员的投诉，就像您给它提供了令人困惑或不明确的信息，它不知道该怎么做。" }, { "speaker": "guest3", "text": "这样做的好处是，我们只需使用真实的 hoser 数据在生产中运行您的 LLM，然后您就可以返回并查看它在输出参数中给您的输出。" }, { "speaker": "guest3", "text": "嗯，我们内部称之为调试信息。" }, { "speaker": "guest3", "text": "因此，我们有这样的调试信息参数，它基本上向我们报告我们需要修复的事情，它最终就像代理开发人员必须做的待办事项列表。" }, { "speaker": "guest3", "text": "这真是令人震惊的事情。" }, { "speaker": "guest3", "text": "是的。" }, { "speaker": "guest2", "text": "是的，我的意思是，即使对于业余爱好者或有兴趣将其用于个人项目的人来说也是如此。" }, { "speaker": "guest2", "text": "开始使用元提示的一个非常简单的方法是遵循提示的相同结构，赋予它一个角色，并使该角色就像您知道自己是一位专家提示工程师一样，他会给出非常详细的嗯很好的批评和建议，关于如何嗯改进提示并给它你想到的提示，它会给你一个更广泛的更好的提示，所以你可以继续运行这个循环一段时间。" }, { "speaker": "guest2", "text": "效果出奇地好。" }, { "speaker": "guest2", "text": "我认为，当公司需要更快地从其产品中的元素获得响应时，这是一种常见的模式。" }, { "speaker": "guest2", "text": "他们使用更大、更强大的模型进行元提示，我不知道任何数千亿参数加模型，比如呃，我猜是云 4 3.7 或你的呃 GPD 03，他们进行这种元提示，然后他们有一个非常好的工作模型，然后他们将其用于提炼模型。" }, { "speaker": "guest2", "text": "因此，他们在例如 FRO 上使用它，并且它最终运行得非常好，特别是对于语音 AI 代理公司来说，因为延迟对于整个巡回测试的通过非常重要，因为如果在代理响应之前有太多的停顿，我认为人类可以检测到有些不对劲。" }, { "speaker": "guest2", "text": "因此，他们使用更快的模型，但具有从更大的模型中提炼出的更大、更好的提示。" }, { "speaker": "guest2", "text": "这也是一种常见的模式。" }, { "speaker": "guest2", "text": "另一个可能不太复杂，但嗯，就像提示变得越来越长，就像它变成了一个大型工作文档嗯，我发现有用的一件事是，当你使用它时，如果你只是在 Google 文档中记下你所看到的东西，嗯，输出不是你想要的，或者不是你能想到的改进它的方法。" }, { "speaker": "guest2", "text": "您可以将这些内容以笔记形式写下来，然后将您的笔记加上原始提示提供给 Gemini Pro，并要求它对提示提出一系列编辑建议，以便将它们很好地结合起来，而且它做得很好。" }, { "speaker": "guest2", "text": "另一个技巧是，在 Gemini 2.5 Pro 中，如果您查看思考痕迹，就像通过评估进行解析一样，您实际上也可以了解很多有关所有这些失误的信息。" }, { "speaker": "guest2", "text": "我们在内部也做过这样的事情，对吗。" }, { "speaker": "guest2", "text": "因为这很关键，因为如果您直到最近才通过 API 使用 Gemini ，那么您就没有得到思考痕迹，而思考痕迹就像关键的调试信息，可以帮助您了解提示出了什么问题。" }, { "speaker": "guest2", "text": "他们只是将其添加到 API 中。" }, { "speaker": "guest2", "text": "因此，您现在可以将其返回到您的开发人员工具和工作流程中。" }, { "speaker": "guest2", "text": "是的，我认为 Gemini Pro 拥有如此长的上下文窗口的一个被低估的结果是你可以像涟漪一样有效地使用它。逐一进行，将提示放在一个例子上，然后实时观察推理轨迹，弄清楚如何将其引导到您想要的方向" }, { "speaker": "host", "text": "Jared 和 YC 的软件团队实际上已经构建了各种形式的工作台，让我们可以进行调试等操作。但就您的观点而言，有时最好直接使用 gemini.google.com，然后拖放 JSON 文件，您知道您不必在某种特殊容器中执行此操作，您知道这似乎是完全可以正常工作的东西，甚至可以直接在聊天 GPT 本身中工作。是的，这些都是东西。" }, { "speaker": "guest1", "text": "嗯，我要向 YC 的数据主管 Eric Bacon 致谢，他为我们大家提供了很大的帮助，并使用 Gemini Pro 2.5 有效地产生了涟漪效应。" }, { "speaker": "host", "text": "那么评估怎么样。我的意思是，我们已经讨论了一年多的评估。嗯，创始人发现了哪些东西。" }, { "speaker": "guest2", "text": "尽管我们已经说了一年多，加里，但我仍然认为，对于所有这些公司来说，评估都是真正的皇冠上的宝石，就像数据资产一样。Powerhel 愿意开源提示的一个原因是他们告诉我，他们实际上并不认为提示是皇冠上的宝石，而像评估一样才是皇冠上的宝石，因为没有评估，你就不知道为什么提示是以那种方式写的。嗯，而且很难改进。" }, { "speaker": "guest3", "text": "是的。" }, { "speaker": "guest2", "text": "我认为，抽象地说，你可以想想，你知道 YC 资助了很多公司，特别是在垂直 AI 和 SAS 领域，除非你与从事 X Y 或 Z 知识工作的人并肩坐在一起，否则你无法获得评估。你知道，你需要坐在拖拉机销售区域经理旁边，了解这个人关心什么，你知道，这就是他们获得晋升的方式。这是他们关心的事情。这就是那个人的奖励函数。然后你知道你在做什么，就是坐在内布拉斯加州的某个人旁边进行这些面对面的互动，然后回到你的电脑，把它编成非常具体的评估，比如这个特定的用户想要这个结果，你知道在这张发票寄来后，我们必须决定是否要履行你对这台拖拉机的保修义务。就像举一个例子，这是真正的价值，就像你们每个人真正担心的那样，嗯，我们只是说唱歌手，你知道初创公司会发生什么，我认为这实际上是关键所在，嗯，如果你知道如果你在特定的地方比任何人都更了解用户，并且让软件真正为这些人工作，这就是护城河，这就像一个完美的描述，就像今天创始人所需的核心竞争力是什么。" }, { "speaker": "guest3", "text": "就像您刚才说的那样，作为这样一家公司的创始人，您的工作就是要真正擅长这件事，并且疯狂地痴迷于区域拖拉机销售经理工作流程的细节。" }, { "speaker": "guest2", "text": "是的。" }, { "speaker": "guest3", "text": "然后疯狂的事情是，这很难做到，你知道你去过内布拉斯加州吗。你知道，世界上最好的创始人是那些真正伟大的工程师和技术专家，非常聪明，同时他们必须了解世界上很少有人了解的某些部分，然后还有一小部分人，你知道，一家价值数十亿美元的初创公司的创始人，我想到了 Flexport 的 Ryan Peterson ，你知道，他真的非常非常伟大，他了解软件是如何构建的，但同时我认为，就像十年前一样，他是整整一年的第三大医疗热水浴缸进口商。所以你知道，你所看到的世界越奇怪，而其他技术专家却没有看到的，那么机会实际上就越大。" }, { "speaker": "host", "text": "我认为你在加里面前以一种非常有趣的方式表达了这一点，你的意思是每个创始人都成为了前沿部署的工程师。这是一个可以追溯到 Palunteer 的术语，由于您早期就在 Palanteer 工作，能否请您向我们讲讲前沿部署工程师是如何在 Palunteer 成为一门学科的，以及创始人现在可以从中学到什么。" }, { "speaker": "guest1", "text": "我的意思是，我认为 Palunteer 的整个论点在某种程度上是，嗯，如果你看看当时的 Meta，它被称为 Facebook 或 Google 或任何当时每个人都知道的顶级软件初创公司。Peter Teal、 Alex Karp、Stefan Cohen、Joe Lansdale、Nathan Gettings 以及 Palunteer 的最初创始人都认识到，无论进入财富 500 强企业中的任何一家，无论进入世界上任何政府机构（包括美国），没有人能像您这样在最高层级上理解计算机科学和技术。因此， Palenteer 很早就发现了一个非常非常伟大的想法，那就是这些地方面临的问题实际上是数十亿美元，有时甚至是数万亿美元的问题，但这远在人工智能成为现实之前，你知道，我的意思是人们在谈论机器学习，但你知道当时他们称之为数据挖掘，你知道世界充斥着数据，这些是巨大的人员、事物和交易数据库，我们不知道如何处理它。Palanteer 过去如此，现在如此，现在依然如此。你可以去寻找世界上最优秀的技术人员，他们知道如何编写软件来真正理解世界。您知道，您有这些数以百亿计字节的数据，但您不知道如何在哈希堆栈中找到针。嗯，你知道疯狂的事情正在发生，嗯，大约 20 22 年后，我们拥有的数据越来越多，而我们对正在发生的事情的了解却越来越少，嗯，毫无疑问，现在我们有了法学硕士学位，实际上它变得更加容易处理，然后前沿部署工程师的头衔具体来说就是你如何坐在正在调查国内恐怖主义的 FBI 特工旁边。您如何坐在他们办公室旁边，观察案件进展情况。全部步骤是怎样的。呃，当你真正需要去找联邦检察官时，他们会发送什么东西。我的意思是，有趣的是，它实际上就像 Word 文档和 Excel 电子表格，对吗。嗯，作为一名前沿部署工程师，你要做的就是把人们必须做的这些文件柜和传真机之类的东西转换成真正干净的软件。所以你知道，传统的观点是，在一个三字母机构进行调查应该像在 Instagram 上拍一张你的午餐照片并将其发布给你的所有朋友一样简单。就像您知道的那样，这是最有趣的部分。所以我认为今天毫无疑问的是，通过 Palanteer 的系统培养出来的四名部署工程师现在实际上已经成为 YC 最优秀的创始人之一。" }, { "speaker": "guest3", "text": "是的。" }, { "speaker": "guest1", "text": "我的意思是，我们培养了如此多的初创公司创始人，因为就像培训成为一名预先部署的工程师一样，这正是成为这些公司创始人的正确培训。现在，关于 Palunteer 的另一个有趣之处是，其他公司会派销售人员去与 FBI 特工坐在一起，而 Palunteer 则派工程师去做这件事。" }, { "speaker": "guest2", "text": "我认为 Palenter 可能是第一家真正喜欢将其制度化并将其扩展为流程的公司，对吗。" }, { "speaker": "guest1", "text": "是的。我的意思是，我认为那里发生的事情，他们之所以能够非常稳定地获得这种七位数、八位数甚至九位数的合同，是因为他们没有派一个有头发和牙齿的人去，而是去了牛排馆。你知道，这一切都像是一段关系。你会在一次会议上，他们真的很喜欢这个销售人员，然后通过纯粹的人格力量，你会试图让他们给你一份七位数的合同，而这个合同的时间表可能是 6 周、10 周、12 周，比如 5 年，我不知道，而且软件永远不会工作，而如果你在那里安排一名工程师，你给他们 Palunteer Foundry，这是他们现在所说的核心数据可视化和数据挖掘套件，而不是在下次会议中审查 50 页的销售文件或合同或规范或类似的东西。这句话的意思就是“好的，我们建造了它。” 然后你会在几天内得到真实的现场反馈。我的意思是，这确实是初创公司创始人面临的最大机遇" }, { "speaker": "host", "text": "如果初创公司创始人可以做到这一点，嗯，这就是前沿部署的工程师习惯做的事情，那么你就可以击败 Salesforce 或 Oracle，或者你知道 Booze Allen 或任何拥有大办公室和大销售人员的公司，你知道你有大销售人员，握手有力，那么一个非常优秀的工程师如何用无力的握手击败他们呢。" }, { "speaker": "host", "text": "事实上，你向他们展示了一些他们从未见过的东西，让他们感觉自己被倾听了。" }, { "speaker": "host", "text": "你必须对此非常感同身受。" }, { "speaker": "host", "text": "就像你必须成为一名出色的设计师和产品人员，然后你知道回来，你就可以让他们惊叹不已。" }, { "speaker": "host", "text": "就像该软件非常强大，当你看到某样让你感到被重视的东西时，你就会想当场购买它。" }, { "speaker": "host", "text": "一个很好的思考方式是，创始人应该把自己想象成自己公司部署的四名工程师。" }, { "speaker": "guest1", "text": "绝对地。" }, { "speaker": "guest2", "text": "是的。" }, { "speaker": "host", "text": "就像你绝对不能把这件事外包出去一样。" }, { "speaker": "host", "text": "就像创始人本身一样，他们是技术人员。" }, { "speaker": "host", "text": "他们必须是出色的产品人。" }, { "speaker": "host", "text": "他们必须是民族志学者。" }, { "speaker": "host", "text": "他们必须是设计师。" }, { "speaker": "host", "text": "您希望第二次会议的人看到您根据所听到的内容制作的演示。" }, { "speaker": "host", "text": "你希望他们说：“哇，我从来没有见过这样的事情。” 并拿走我的钱。" }, { "speaker": "guest1", "text": "我认为这种模式的不可思议之处在于，这也是我们看到许多垂直人工智能代理腾飞的原因，正是因为他们可以与这些大企业的最终买家和拥护者举行会议。" }, { "speaker": "guest1", "text": "他们获取该上下文，然后将其基本上填充到提示中，然后他们可以在第二天的会议上迅速回来，也许与 Palunteer 合作会花费更长的时间，并且这里有一个工程师团队。" }, { "speaker": "guest1", "text": "可能只需要两位创始人加入，他们就能完成六、七位数的交易，就像我们所见过的，而且是与大型企业达成的，这是以前从未有过的，而这种前瞻性部署工程师的新模式加上人工智能正在加速发展，这一切都成为可能。" }, { "speaker": "guest1", "text": "这让我想起了之前在播客中提到的一家公司，比如 Giger ML，他们为客户提供客户支持，尤其是语音支持，这是一个典型的案例，两个非常有才华的软件工程师不是天生的销售人员，但他们强迫自己成为前沿部署的工程师，他们与 Zeppto 达成了一笔大交易，然后又与其他几家公司达成了一笔大交易，他们还不能宣布，但他们是否会像 Palentier 模型那样亲自到现场。" }, { "speaker": "guest2", "text": "是的。" }, { "speaker": "guest1", "text": "所以他们这样做了，一旦他们达成交易，他们就会去现场，与所有客户支持人员坐在一起，研究如何继续调整并使软件或 LM 运行得更好。" }, { "speaker": "guest1", "text": "但在此之前，即使是为了赢得交易，他们也发现，只要有最令人印象深刻的演示，他们就能获胜。" }, { "speaker": "guest1", "text": "在他们的案例中，他们对 rag 管道进行了一些创新，以便他们的语音响应既准确又具有极低的延迟。" }, { "speaker": "guest1", "text": "这有点像技术上具有挑战性的事情，但我只是觉得，在当前 LLM 崛起之前，你不一定能在销售演示阶段做出足够的区分来击败现任者。" }, { "speaker": "guest1", "text": "因此，通过拥有更好的 CRM 和更好的 UI，你真的可以击败 Salesforce。" }, { "speaker": "guest1", "text": "但是现在，由于技术发展如此之快，很难保证最后 5% 到 10% 的正确率，如果你是一名前沿部署的工程师，你实际上可以在第一次会议上对其进行调整，以便它能够真正为客户所用。" }, { "speaker": "guest1", "text": "回到演示并得到那种哇哦的感觉，就像我们从未见过其他人在体验之前做到这一点并完成大笔交易一样。" }, { "speaker": "guest1", "text": "Happy Robot 的情况也是如此，它已经向全球三大物流经纪商出售了七位数的合同。" }, { "speaker": "guest1", "text": "他们为此构建了人工智能语音代理。" }, { "speaker": "guest1", "text": "他们采用前沿部署工程师模式，与这些公司的首席信息官进行交流，并快速运送大量产品，周转速度非常快。" }, { "speaker": "guest1", "text": "现在看到它起飞真是令人难以置信。" }, { "speaker": "guest1", "text": "它从六位数的交易开始，现在已经完成了七位数的交易，这太疯狂了。" }, { "speaker": "guest1", "text": "这仅仅是几个月后的事了。" }, { "speaker": "guest1", "text": "所以这就是你可以用呃我的意思是令人难以置信的非常非常智能的提示工程来完成的事情。" }, { "speaker": "guest3", "text": "嗯，每个模特有趣的一点是，她们似乎都有自己的个性。" }, { "speaker": "guest3", "text": "创始人真正意识到的一件事是，你需要向不同的人寻求不同的东西。" }, { "speaker": "guest3", "text": "实际上，众所周知的是，克劳德是一种更加快乐、更加人性化的模特。" }, { "speaker": "guest3", "text": "另一个是 Lama 4，它需要更多的转向。" }, { "speaker": "guest3", "text": "这几乎就像与开发人员交谈，其中一部分可能是由于没有在其上进行太多 RL RHF 而产生的产物。" }, { "speaker": "guest3", "text": "因此，使用起来有点困难，但如果你实际上擅长做很多提示并且几乎做更多的 RLHF，你实际上可以很好地控制它，但实际上使用起来有点困难。" }, { "speaker": "guest3", "text": "嗯，我们内部使用法学硕士学位的其中一件事实际上是帮助创始人弄清楚他们应该从谁那里拿钱。" }, { "speaker": "guest3", "text": "在这种情况下，有时您需要一个非常直接的评分标准，从 0 到 100。" }, { "speaker": "guest3", "text": "0 表示永远不会拿走他们的钱，100 表示立即拿走他们的钱。" }, { "speaker": "guest3", "text": "就好像他们确实给了你很多帮助，如果你不接受他们的钱，那你就是疯了。" }, { "speaker": "host", "text": "Harj，我们一直在使用提示来研究一些评分标准。" }, { "speaker": "host", "text": "我们学到了什么。" }, { "speaker": "guest3", "text": "因此，提供 um LLM 的评分标准无疑是最佳做法，特别是当您想获得数字分数作为输出时。" }, { "speaker": "guest3", "text": "你想给它一个评分标准来帮助它理解我应该如何思考以及 80 分和 90 分的区别。" }, { "speaker": "guest3", "text": "但这些评分标准从来都不是完美的" }, { "speaker": "guest1", "text": "总是有例外的，你尝试过03和Gemini 2.5，你发现了这个，我们发现非常有趣的是，你可以为两个不同的模型提供相同的评分标准，在我们的具体案例中，我们发现03实际上非常严格，就像它真的坚持评分标准一样，它会对任何不符合你给出的评分标准的东西进行严厉惩罚，而Gemini 2.5 Pro实际上非常灵活，因为它会应用评分标准，但它也可以几乎推理出为什么某人可能是例外，或者为什么你可能想要将某些东西推得比评分标准所建议的更积极或更消极，我认为这真的很有趣，因为这就像当你培训一个人时，你试图给他们一个评分标准，就像你希望他们使用评分标准作为指导一样，但总是存在这样的边缘情况，你需要更深入地思考。嗯，我只是觉得有趣的是，模特本身会以不同的方式处理这个问题，这意味着他们有不同的个性，对吗。就像03感觉有点像士兵，好吧，我肯定会检查，检查。嗯，Gemini Pro 2.5感觉更像是一个高级机构的员工说，“哦，好吧。我认为这是有道理的，但在这种情况下这可能是一个例外”，这真的很有趣。" }, { "speaker": "guest2", "text": "是的，对于投资者来说看到这种情况很有趣。你知道，有时候你会遇到像Benchmark或Thrive这样的投资者，你会说：“是的，马上拿钱。他们的流程非常完美。他们从不敷衍了事。他们回复邮件的速度比大多数创始人都快。这真的令人印象深刻。然后，呃，举个例子，你知道，有很多投资者只是不知所措，也许他们只是不太擅长管理时间。所以，他们可能是非常优秀的投资者，他们的过往记录也证明了这一点，但他们回复的速度有点慢。他们似乎总是不知所措。他们无意中，或许不是故意地敷衍了事。所以这正是法学硕士的用途。比如，其中一些的调试信息很有趣，比如你可能知道它是91分，而不是89分。我们拭目以待。" }, { "speaker": "guest3", "text": "我想，让我真正感到惊讶的一件事是，正如你所知，我们自己也在尝试，我们大概会把80%到90%的资金用于我们与那些处于前沿的创始人共事的经历，一方面，我认为我们讨论这个问题时常用的比喻是，这有点像编程。感觉就像是在1995年编程。工具还没有完全成熟。有很多东西尚未明确。我们正处于这个新的前沿。但就我个人而言，这也有点像学习如何管理一个人，比如，我该如何与他们沟通，让他们知道我需要知道的事情，以便做出正确的决定。我该如何确保他们知道，我将如何评估和评分他们。不仅如此，还有“改善”（Kaizen）的方面，你知道，这种制造技术在90年代为日本创造了非常非常好的汽车。这个原则实际上是说，那些在改进流程方面绝对最优秀的人，才是真正在实践的人。这就是为什么日本车在90年代如此出色的原因。这对我说是一种元提示。所以，我不知道。这是一个美丽新世界。我们正处于这个新时刻。" }, { "speaker": "host", "text": "所以，时间已经到了。但我迫不及待地想看看你们会想出什么样的提示。我们下次再见。[音乐]" } ]