EPISODE · 2026-05-21
· via interview.network
Head of Gemini: You're Using 5% of What Gemini Can Actually Do | Josh Woodward
S
Speaker
on interview.network
SUMMARY
在采访中,乔许·伍德沃德讨论了天狼星火花的推出,这是由谷歌创建的人工智能代理,在后台全天候运行,自动为用户完成任务,从而释放出进行个人活动的时间。这标志着向“代理时代”的重大转变,在这个时代,产品越来越多地自主处理任务。双子座全模型代表了另一个重大变化,它改变了输入处理和输出生成的方式。伍德沃德还提到,谷歌IO将展示正在开发的更多基于科学的产品。采访者强调的一个亮点是语音到电子邮件的功能,该功能可以从各种来源如Google Drive和Gmail收集所需信息来创建包含表格的全面电子邮件。天狼星火花工具仍处于测试阶段,预计不久将向选定用户提供,并在Google生态系统中为文档创建、视频制作、图像生成和歌曲创作等任务提供无缝集成。
ready · neural tts
0:00/0:00
⚠ The Chinese audio is an AI-generated dub (speech synthesis / voice conversion), not a real recording and may contain errors. Based on the original English interview; all rights remain with the original creator.
original lang
EN
dubbed into
中文 (ZH)
pipeline
neural TTS
voice model
neural tts
001
你能够完成的工作量是难以置信的。
002
过去需要几秒钟的事情,现在只需要快速执行几次。
003
这是吉奥米尼的杰森·伍德沃德,他是公司的负责人。
004
谷歌刚刚推出了Gemini Spark,这是一个24/7全天候在后台为你工作的AI助手。
005
这是我们开始的一个叫做个人智能的项目。
006
如果你是Gmail用户,使用Google Docs、Sheets、Slides和Calendar等工具,这一切都很好用。
007
帮助我们释放了日程中的时间,我们可以与家人、兴趣爱好等一起做想做的事情。
008
所以,如果代理做了很多工作而不是我们自己,这是否标志着新工作时代的到来?
009
让我们开始吧。
010
感谢HubSpot赞助这次视频。
011
欢迎来到硅谷女孩,杰森。我非常兴奋能和你聊天。
012
我知道。
013
是的。
014
恭喜你的成功。
015
你在谷歌工作了将近20年。
016
嗯,确实是这样。
017
大约16年半了。
018
是的。
019
太疯狂了。
020
好的。
021
所以,你见证了谷歌很多的发展。
022
你能将这次事件的重要性排名吗?
023
我认为这是一个重要的事件。
024
嗯,有几个原因。
025
首先,这是我们真正开始转向这个代理时代的第一个转折点。
026
我认为这将对我们的许多产品产生重大影响。
027
你昨天看到了一些内容。
028
哦,是的。但是我们还有更多的东西在谷歌实验室中准备着。
029
这就是原因之一。
030
我认为另一个原因是Gemini Omni模型。
031
它开始改变你如何思考任何输入和输出的方式。
032
是的。所以,这应该很有趣。
033
然后在结束时,你知道,在谷歌IO上发布新闻是一个信息爆炸。
034
但是,在结尾时,戴米斯提到了我们正在研究的一些科学产品,我对此非常兴奋,并且对它们的未来感到期待。
035
你昨天最激动人心的更新是什么?
036
我很期待人们能够玩Gemini Spark。
037
嗯,我认为这会很有趣。
038
它本周将向测试者推出,下周向专业人员推出。
039
是的。然后我们将在美国的Google AI Ultra会员中进行扩展,然后从那里开始扩大规模。
040
你知道我最喜欢的是哪个更新吗?
041
什么?
042
当你演示这个语音功能时,就像你正在和电脑对话,但不仅仅是转录它,而是直接访问你的Google Drive、Gmail,找到所有必要的信息,整合在一起,并创建一个美丽且包含表格的电子邮件。这就是语音的下一步,这将在几周内推出。
043
很快就会推出。就是这样。
044
我们现在正在玩它。
045
太好玩了。
046
呃,
047
嗯,这个功能已经两周了。
048
是的,这个功能是在两个周末前出现的。
049
这真是太神奇了,因为你可以选中你所有的文件,无论它们在云端还是桌面上,然后你只需要对它说话,它就能理解PDF中的内容、图片中的内容,然后生成所有这些。
050
而且它还能增强文本,比如我在舞台上故意犯了一个错误来更改日期。
051
它能理解。
052
正是这样。
053
是的。
054
所以我想谈谈这个现在正在发生的事情。
055
很多人都在使用不同的工具,对吧?
056
我们已经看到了类似的功能在我的编码中。
057
是的。
058
随着这些功能的推出,
059
如果人们正在考虑切换到双子座,你会告诉他们为什么需要切换呢?
060
是的。
061
我认为在双子座中,你会得到一些东西。
062
如果你考虑的是双子座火花,首先,它深深融入了谷歌环境和生态系统。
063
你甚至不需要连接器。
064
没错。
065
我一直在说,请开始。
066
是的。
067
所以我认为,如果你是Gmail用户,如果使用Google文档、表格、幻灯片、日历等等,一切都很好用。
068
是的。
069
而且它非常好。
070
第二件事是我们实际上可以在谷歌云后台启动虚拟机。
071
所以我认为这一切的发展是你不会只完成一两项任务,你可能会有数百项任务,你可以想象我们可以在并行处理,你能做到的事情是无法想象的。
072
这是两件事。
073
第三点我想说的是,我们正在努力推动Spark能为你生成的内容的极限。
074
所以我在舞台上展示的是关于我们街区聚会的Google文档或Google幻灯片演示文稿。
075
是的。
076
但想象一下,它可以制作图片。
077
它有魔力。
078
它可以制作视频。
079
它有LI。
080
它可以创作歌曲。
081
这就是其他人都没有的生成媒体套件。
082
我认为随着时间的推移,这个东西的能力将会有更大的灵活性。
083
但我们刚刚开始。
084
这是一个beta版本。
085
当我们几周后添加MCP连接时,将会有很多事情。
086
我们还将添加与Google支付的支付功能,并且
087
YouTube分析呢?
088
哦,这是一个很好的功能请求。
089
也许
090
因为作为YouTuber,是的,
091
我无法使用双子座与我的分析对话,因为它没有连接。
092
所以我要么下载CSV文件,要么使用计算机代理功能去获取屏幕截图等等。
093
有没有一个杀手级的功能,每个人都应该在推出后尝试一次,以便让他们信服?
094
因为我感觉很多人听到“代理”这个词时,就像你说的,在家里当妈妈,这对我来说意味着什么?
095
我有什么可以尝试的吗,让我被这个震撼呢?
096
是的。
097
嗯,在这方面,也许在工作之外作为妈妈,就像你说的,它很擅长处理各种各样的事情,很多人做用户研究时会说,我有无数的数字家务要做。
098
所以,它可能会帮助你记住一些你可能忘记的事情。
099
它帮我记住了我们孩子的一些截止日期。
100
我得为我的两个孩子做多少事情?
101
是的。
102
就是这样。所以任何围绕这些的事情。
103
我认为它也非常擅长帮助我和我妻子在日程安排上节省时间,这样我们就可以做我们想和家人一起做的事情或者爱好等等。
104
我想对工作生活中的人们说,让它告诉我这周应该取消的三个会议是什么?
105
哦,这是一个很好的提示。
106
是的。
107
所以这是非常有趣的。
108
我用得越来越多。
109
当我开始设置重复安排时。
110
现在,我最喜欢的一个是,我们是俄克拉荷马城雷霆队的超级篮球迷,他们现在在季后赛中。
111
所以我得到有关球队的所有新闻,但它以像一个死忠的雷霆粉丝的方式写给我。
112
所以有各种各样的方式,但我认为任何帮助我记住一些事情的事情。
113
是的。
114
帮我节省时间。
115
帮助我追随一个我真正热衷的兴趣。
116
它非常出色,所有这些。
117
是的。
118
你昨天还发布了文档直播。
119
是的。
120
当你可以与你的Google文档对话时。
121
是的。
122
你知道这让我想到了什么吗?
123
我们是否正在慢慢转向语音优先的应用程序?
124
你内部有注意到这一点吗?
125
因为我我一直在和电脑说话。
126
现在你发布了这个功能,不仅可以转录你说的话,而且在幕后有一些智能思考。
127
是的。
128
你认为当我们在使用更多语音时,这种转变是否正在发生?
129
我认为是这样。
130
我们也在我们的Gemini使用统计数据中看到了这一点。
131
有一些特定的
132
嗯,不分享在这里,但我会说,现在有某些国家,语音已经成为了人们大量互动的主导方式。
133
自然,对吧?
134
这是自然而然的事情。
135
这更快。
136
我们现在也到了一个点,你可以随意说,模型可以帮你整理出来。
137
我们也有模型连接进来,可以做所有的工具调用。
138
它可以生成图像。
139
所以昨天我展示的那些方言真的很有趣。
140
哦,是的。
141
你可以让它以任何方式说话。
142
所有这些事情都在接下来的几周内发生,这并不遥远。
143
谈谈正在发生的变化。
144
作为用户,我注意到很多公司都在优化软件工程。
145
让我们用AI来加速我们的软件工程师。
146
我看到这个巨大的转变是帮助知识工作者体验AI对软件工程所做魔法的同等待遇。
147
这是Google目前的优先事项吗?
148
是的,有很大的关注点。
149
我认为有趣的是,我们从过去几个月和季度中学习到编码的一些教训,并将其应用到知识工作中。
150
我参与的第一个项目之一,仍然在进行很多工作,就是笔记本LM。
151
哦,是的,我的最爱。
152
我爱它。
153
每次准备科学播客时,我会去笔记本,上传他们发给我的所有文章,然后听关于这个现象的播客。
154
我认为这是我们意识到的第一个点,如果你能让人们很容易地组装所有上下文,比如你的情况下的论文,然后点击按钮,它就是一个播客,点击按钮,它是一个幻灯片演示,一个思维导图,无论你想做什么。
155
这就是我们对这一切走向的第一瞥。
156
我认为笔记本将要走向的方向,以及你将在Gemini和其他东西中看到的是,能够简单描述或谈论你想要的东西的能力。
157
是的。
158
我需要理解这个。
159
去获取所有这些东西。
160
制作这些,这些和这些。
161
这将发生。
162
我认为对于知识工作者来说,这非常令人兴奋,但也是一种不同的转变,因为你几乎可以对想要的结果或交付物进行更多的协调,在某些情况下,你如何到达那里。
163
正是如此。
164
所以我们团队谈论的是从做事情到指导的转变
165
每个人都成为了一名经理。
166
这就是正确的。
167
是的。
168
在公司如Google,你可能会做像管理者日或领导力日这样的活动,或者进行管理者训练,这只会为一小部分团队成员提供。
169
现在我们想象可能需要为每个人这样做,因为您可能会管理这些不同的代理和其他人。
170
绝对的。
171
你正在推出许多帮助人们做到这一点的产品。
172
是的,我们正在尝试。
173
关于人们开始使用AI进行决策的转变,这是更大的转变。
174
多年来,如果你运行任何一种业务,初创公司、SAS产品、电子商务品牌,甚至是个人品牌,你都会优化Google搜索。
175
你会写博客文章,追逐排名,玩整个SEO游戏。
176
但现在人们问Gemini、Chad GBT或Perplexity,附近最好的寿司餐厅在哪里?
177
你能推荐一个播客吗?
178
硅谷最好的酒店是什么?
179
我如何跟踪所有客户?
180
无论AI给出什么答案,这就是驱动决策的因素。
181
问题是大多数创始人不知道如何让他们的品牌出现在这些答案中,我们也注意到了这一点。
182
几个月前我们发现我们的播客在YouTube上做得很好,得到了数百和数千的浏览量,但几乎在AI答案中是看不见的。
183
所以我们开始深入研究这个问题,在尝试了一些不起作用的事情后,我们意识到这实际上取决于一些小细节。
184
你描述的内容,内容的写法,甚至像文本简介这样的小事。
185
一旦我们解决了这些问题,我们终于开始出现了。
186
这仍然是一项正在进行的工作,但这是一个非常重要的长期投资。
187
这就是我看到一个名为HubSpot AEO的新工具时感到兴奋的原因。
188
它是一个工具,可以显示你的品牌在Cad GPT、Gemini和Perplexity中的确切表现,你的可见性分数,与竞争对手的比较以及你可以采取的具体建议。
189
大多数工具只会给你一个评分,而HubSpot AEO会给出一个计划,你需要做什么,需要写什么,需要发布什么。
190
你不需要机构。
191
你不需要昂贵的顾问或技术专长。
192
你只需要看到你的位置和下一步要做什么。
193
每月收费50美元,但你可以免费试用28天,包括25个青铜级。
194
链接在描述中。
195
感谢HubSpot赞助此视频。
196
现在回到与Josh的访谈。
197
但过去几年,我听到人们说谷歌似乎在这个AI竞赛中落后了,因为人们都在使用其他工具。
198
你知道,chat GPT是第一个,但是当涉及到搜索时。
199
是的。
200
你如何看待现在的状况?
201
是的。
202
嗯,这非常动态。
203
它非常快速移动。
204
正如你知道的那样,你节目上有许多人。
205
我认为首先,这是有趣的。
206
我觉得竞争对我们团队中的很多人来说都是好事,因为你会变得敏锐。
207
你知道我的意思吗?
208
这就是我想说的第一点。
209
嗯,我还要说的是,谷歌有很多东西,并且在某些情况下已经有多年了。
210
对我来说很有趣的是如何以新的和有趣的方式将这些组合在一起?
211
所以,正如我们之前提到的,你不必使用连接器。
212
这是一个名为个人智能的项目。
213
它始于这个想法,如果你可以只按一下按钮,所有的东西都可以连接起来。
214
我并不意味着每个人都想要这样做。
215
我们做了选择性的设置,就像你可以选择一样。
216
但对许多人来说,他们说,是的,我想要这个。
217
是的。
218
所以我觉得这很有趣,因为我们正处于这样一个阶段,在这个阶段我们不仅重新想象现有的产品,而且以新的方式将它们结合起来创造新产品。
219
还有就是有趣的事实,几个月前,我父亲开始使用AI
220
当他来这里访问时。
221
是的。
222
他教MBA课程,所以他需要做一些专家等不同权重的表格。
223
是的。
224
所以我们问了Chad GPT。
225
我们问了Claude。
226
他需要一些后续问题,但他对结果很满意。
227
我们问了Gemini
228
第一次接触时,他非常高兴。
229
哦,不错。
230
所以,我不得不给他提供一部由双子座供电的手机,这样他可以运行所有这些事情。
231
就像这样,这就是让我感到悲伤的地方,对吧?
232
仍然像如果我们看B2B使用和流量在引领它。
233
嗯。
234
那么,是什么让人们做出这种转变呢?
235
嗯。
236
嗯,我认为有几件事。
237
我认为核心模型是早期采用者选择的,无论那是什么,你甚至可以回顾过去六个月人们如何从不同的模式跳到不同的模式。
238
我们每周都在跳跃。
239
嗯。
240
所以现在有很多事情正在边缘发生,真正的早期采用者。
241
我认为世界上大多数人听到AI时,它意味着各种各样的东西。
242
对于某些人来说,这可能是令人兴奋的像你和我一样。
243
对于其他人来说,这可能意味着恐惧、不确定性或这是什么东西?
244
我认为我们试图思考的方式几乎就像标签线一样,它会是看看双子座能为你做什么
245
因为它不是关于看看AI能为你做什么。
246
而是为了你的生活。
247
嗯。
248
你的问题、日常烦恼,让你不高兴的事情。
249
它会如何帮助?
250
我认为这就是我们试图思考所有这些功能的方式,就像从你的父亲那里开始可能是一件事情,然后是另一件事情和另一件事情。
251
嗯。
252
这就是我们的想象方式。
253
所以,多年来,你有时会幸运地在一件事上变得非常病毒式传播。
254
嗯。
255
我用这个来做那个。
256
也许我应该完全切换它。
257
这就是正确的。
258
你认为双子座的性格重要吗?
259
因为我们知道AI有不同的性格。
260
你会如何描述双子座的性格呢?
261
哦,这是一个很好的问题。
262
我希望它是有帮助的。
263
希望你能信任它。
264
它就像是。
265
我们在用户研究中看到了这一点。
266
人们认为它是事实、准确和精确的,
267
不太友好。
268
是的,就是这样。
269
嗯,我们还希望它简洁。
270
它不会喋喋不休。
271
它直截了当。
272
我们也想要一种温暖、友好但不要太友好的感觉。
273
你知道我的意思吗?
274
我认为我们也在探索的一种方式是让人们驾驭性格。
275
可能有一些默认随盒提供的东西,但有些人确实希望在某些情况下拥有它,我们会看到他们会对我的想法非常苛刻,比如戳洞等等。
276
所以我们想要模型具有一定的可操控性。
277
但我确实认为,对于我们来说,我们并不将其视为你正在尝试爱上或与之建立朋友关系的东西。
278
它是一个工具,并且最终希望它是有用和有帮助的。
279
呃,对于刚刚开始使用Gemini的人来说,您提到了有些人要求AI不同意一切或像我说的那样
280
你有没有个人因为例如我有一个名为个人宪法的MD文件,其中讨论了我的原则。
281
所以我将它上传到我正在使用的每个AI中,以便它学习我的原则或语气或像人的档案一样,因为我使用AI来撰写大量文本,我不想让它产生事实。
282
你有没有自己的个人生产力设置可以推荐给每个人?
283
哦,这很有趣。
284
嗯,你的听起来不错。
285
我非常喜欢,因为这样AI就真正成为了您的战略合作伙伴,而不仅仅是...
286
好吧,这就是我要说的。几年前我做的最大改变之一就是从一次性的简单使用,实际上尝试构建上下文,就像您现在使用的MD文件一样,听起来很不错。
287
那么,你是如何创建这个上下文的?你如何存储它?
288
嗯,我有一些文件,比如你现在拥有的Gemini Spark这些都已经成为技能了。
289
我已经打开了个人智能功能,这样它就知道了我的Gmail、日历和驱动器的背景故事。
290
另外一件事是如果你问它,通常会非常好。
291
所以,我尝试定期做的一件事就是我会问它,我不应该再做的事情是什么?
292
嗯。
293
或者你看到Gemini中我正在使用的一些模式,我就不应该这样做或我可以做得更好吗?
294
因此,我几乎将其用作一种镜子,以某种方式进行反思。
295
嗯,这很有趣。
296
我还有很多笔记本,现在我和Jim一起同步它们,这些都非常棒。
297
所以我有一些包含我所有写作的笔记,我认为这是我最好的写作。
298
不一定是为了风格,尽管它会吸收一些,但也只是想法。
299
是的。
300
我读了很多书,然后...回到这一点上。
301
所以当你将所有新闻简报放在笔记本中时,并向Gemini提出问题,它会引用那些新闻简报,因为这是一个完整的生态系统。
302
你是否需要特别指出像去我的笔记本吗?还是它知道?
303
是的,通常情况下,产品如笔记本LM就像你知道的那样,你可以更改其使用的来源以塑造答案。
304
但是我们发现这些模型非常喜欢上下文,但找到正确的上下文却很难。
305
找到正确的上下文而不是吞食所有令牌,因为我从2015年开始使用Gmail。
306
对。
307
太多电子邮件了。
308
正是如此。
309
我们所有人都收到了太多的电子邮件。
310
就是这样。
311
但是我认为你会发现,随着模型的不同和这种三点闪光模型,这些事情做得更好。
312
我们已经对它们进行了所有测试。
313
它能否检索到正确的内容?
314
它可以合成正确的内容吗?
315
非常擅长这些事情,我认为这只会变得越来越好。
316
好的。
317
所以你会推荐。
318
所以你去你的最佳新闻通讯。
319
是的,我就是这样做的。
320
嗯,我会放进去。
321
呃,我还有一些地方会阅读很多东西。
322
所以任何笔记或书籍,你知道的,我做了大量的笔记。
323
我使用Readwise来同步Kindle高亮。
324
我都会同步所有内容。
325
所以你可以想象我的专家收藏,他们引用了塑造我思考方式的事情。
326
这也有另一个领域我会放进去。
327
是的。
328
好的。
329
所以我们生活在一个每个人都必须组织个人上下文的时代,因为这很重要,以启动他们的代理人,因为他们需要有适当的基础来行动。
330
这改变了我的团队的工作方式。
331
我一直在做这样的事情。
332
为了分享这些不适合播客的内容,我开始了自己的新闻通讯。
333
每周我会写关于我在自己的业务中运行的AI工具、策略和实验,带有实际数字、真实结果、你可以使用的模板,以及诚实的错误。
334
如果你想了解更多信息,请在描述中等待链接。
335
好的,让我们谈谈AGI。
336
我听说过这个词。
337
昨天我在舞台上听到过,就像去年我记得Deis在这里在Google IO与Sergey交谈时预测的那样,他们说可能五年后。
338
昨天De说,我们通过这个模型又向AGI迈进了一步。
339
是的。
340
那么AGI对我来说是什么?
341
对普通人来说意味着什么?
342
是的。
343
而且在这个阶段,这个词被抛来抛去已经失去了很多含义。
344
老实说,我并不总是考虑它。
345
有些人每次上台都会谈论它。
346
我可能更在另一边。
347
我认为在某种程度上,可能是有一个应用程序或某种体验软件你可以和它交谈,能够回答几乎像超人类问题一样的东西。
348
我一直认为最好的产品会让你有感觉。
349
是的。
350
所以对我来说,我更少考虑它离我们还有多久,更多的是可能你会有什么感受或体验与那么好的东西互动。
351
它可能会感觉就像节省了大量时间。
352
这是心理上的解脱。
353
我知道,或者我想象我希望这会很有趣。
354
能够提出你不会自己做的一些事情,并将点联系起来。
355
所以从产品角度来看,我倾向于这样思考,而不是一些可能更大的想法、时间线和具体定义。
356
你怎么认为它会改变我们的工作流程?
357
因为你为工作流发布了这么多功能。
358
如果AI能够完成那么多任务,那么工作流还存在吗?
359
是的,我实际上认为它仍然会存在,因为我认为仍然会有巨大的优势,并且事实上我对人类判断、人类品味这些事情比今天或过去更有价值这一点表示同情。
360
但AI也可以学习你的品味。
361
这就是我正在我的团队中尝试做的事情。
362
教AI我的口味。
363
所以我们正在收集我给团队的所有反馈,让AI学习这些信息,帮助我做出决策。
364
嗯。
365
我认为这可能会发生,并且很可能会发生。
366
我们做一些类似的事情,你几乎可以在会议之前模拟会议,你可以预见到你会得到的反馈。
367
也许这就是你在团队中做的事情。
368
另外我想说的是,在工作流程方面,我们现在看到AI可以让你获得一个很好的初稿,并且假设它可以让你达到第二、第三或第四次草稿。
369
它会变得更好,但是创造事物对我来说很有趣。
370
很难想象。
371
我不知道。
372
我不愿意放弃。
373
你可以想象会有像单人巨型公司这样的情况,或者任何预测的情况。对我来说,生活不仅仅是创造的回忆和与你一起工作的人。
374
所以感觉像是我们要把很多强大的工具放在桌子上,让小团队创造出惊人的东西。
375
嗯。
376
你会对现在刚开始职业生涯并担心AI的人说什么?
377
我继续尝试给自己的建议是,每周都要接触这些工具,并试图弄清楚它们真正擅长什么以及不擅长什么,然后最重要的是,可能的。
378
因为模型的改进可能会变得可能。
379
所以我认为这可能是一种新的技能集。
380
我认为在一些软技能和EQ方面,如何处理不确定性、如何发明事物、如何适应事物也很重要。
381
所以除了核心工具使用之外,还有很多其他的东西。
382
完全同意。
383
嗯。
384
呃,我们也能学到一些文化吧?因为你正在推出这么多产品,就像你提到的这个语音功能,两周前你编码了它,昨天就在舞台上出现了。
385
你是如何管理这一切的呢?
386
更不用说有四个孩子了。
387
我无法想象这一点。
388
有没有原则?
389
有没有生活技巧?
390
哦,我希望有生活技巧。
391
如果你找到了,请告诉我。
392
我意思是,嗯,这有很多东西。
393
我认为作为一个个体,我想思考生活中我真正想优先考虑的事情,其中一些是在工作上,但很多都是在工作之外。
394
毕竟生活不仅仅是工作,对吧?
395
所以这更多的是个人的事情。
396
我认为在工作中,我认为是小团队和这些工具可以做惊人的事情。
397
所以已经发生了很多变化。
398
我们很多Google实验室项目都从五、六个人开始,你只是在寻找一个真正能改变某些人生活的问题。
399
然后让他们去烹饪。
400
嗯。
showing first 400 segments · view full transcript ↗