EPISODE· generated 2026-06-25 03:53:30· 11 min
The Story Behind ElevenLabs | Interview with CEO Mati Staniszewski
Marty和Peter,ElevenLabs的联合创始人,讨论了语音技术从历史上的尝试到现代数字合成器的发展历程,展望了一个未来,在这个未来中,语音将成为人机交互的基本界面,使无缝的语言和文化沉浸成为可能。在ElevenLabs,他们的非传统雇佣团队和全球人才自种子前阶段以来迅速增长,专注于通过直接的产品反馈加速研究,以开发先进的语音和图像技术。
智能体语音技术合成器全球人才elevenlabs
ready · seed-vc · qwen3-tts
0:00/0:00
⚠ The Chinese audio is an AI-generated dub (speech synthesis / voice conversion), not a real recording and may contain errors. Based on the original English interview; all rights remain with the original creator.
original lang
EN
dubbed into
中文 (ZH)
pipeline
Plan C · voice conversion
voice model
seed-vc · qwen3-tts
001
我们从1700年代就开始尝试制造这些人类的声音了。
002
到了20世纪初,我们有了第一批数字合成器。
003
你是说
004
它并没有真正达到听起来像人类并让你产生某种感觉的门槛。
005
然后它转变成了Siri,它有一些来回的互动。
006
听起来更真实,但再次,它并没有真正达到听起来像人类并让你产生某种感觉的门槛。
007
Marty,很高兴你来到ElevenLabs的总部。
008
不,非常感谢你邀请我。
009
能在这里与你一起讨论我们的一些工作,真是令人难以置信。
010
你曾说过,声音正准备成为人类与计算机交互的下一个基本界面,就像鼠标、触摸屏和键盘一样。
011
请帮助我们想象一下这会是什么样子。
012
很多事情都是以屏幕为主。
013
大多数人一整天大部分时间都会把笔记本电脑和手机放在面前。
014
我认为很多内容会逐渐进入背景,这样你就能更加专注于当下。
015
当我想象未来在教室里学习时,你可以戴上耳机,有最聪明的物理学家、数学家、历史学家帮助你学习这门学科。
016
将出现一个有趣的转变,声音将成为技术的重要组成部分。今天,当你去其他国家、其他文化时,
017
除非你懂那里的语言,否则你无法完全沉浸其中。但有了声音和科技,这将变得可能,你可以用世界上任何一种语言说话,并
018
完全理解所说的内容,以及说话的方式,从而更贴近地感受其中的含义,这将是令人难以置信的未来,真正消除语言障碍,以及文化
019
障碍,还有我们从未学习过的事物,都将成为可能。
020
让我们从头开始。你和Peter在波兰长大。告诉我们是什么经历激发了你们创立ElevenLabs的想法。如果你在波兰看一部外语电影,所有声音中,如果是一个男性
021
或者女性的声音都由一个单一角色来配音。所以,一个声音说出所有台词。
022
他们应该在那天 什么?
023
好吧,现在是8点,这不是一个好日子。
024
所有情感,所有语调都消失了。然后在2021年,我们意识到这种情况仍在发生。K在谷歌,我在Palantir。我们会在周末一起探索不同的项目
025
并邀请了第一批用户,然后开始更深入地进行一些迭代,之后我们开始获得一些关于哪些使用场景会真正引起共鸣的积极信号。
026
所以当我们在1月初推出时,我们已经知道有几千人排队等待,他们对实际使用产品非常感兴趣。
027
但当然,几千人迅速增长到几十万人,这可能比我们最初预期的要高一个数量级。
028
介绍ElevenLabs V3。
029
介绍ElevenLabs图像和视频。
030
自豪地推出Studio 3.0。
031
产品的哲学理念是什么?
032
它一直是我们认为可以在某些研究工作中提供价值的地方,然后在上面构建产品。
033
第二,我们觉得哪里存在真正的问题?
034
比如,有些公司有研究,有些公司有产品,我们试图两者兼有,我认为这很好,因为产品可以直接与
035
提供反馈,告诉研究需要什么,然后研究可以立即进行迭代。他们也可以直接在产品上测试他们的模型,这样两者都能加速。
036
谈到团队,你们从预种子轮时的两个人,到我猜在A轮融资和推出产品时有七个人,然后一年后迅速增长到几十人。
037
你们是如何组建团队的?
038
在招聘时,你们看重哪些品质?
039
我们特别在早期阶段从非常非传统的背景中招聘。
040
所以我在本科时学习了天体物理学,然后在研究生阶段学习了应用物理学。
041
是的。我第一次见到Mattie是在我们21岁的时候一起参加了一个黑客马拉松。
042
我当时在白宫为拜登总统工作,而一位ElevenLabs的投资者告诉我,我应该尽我所能去那里工作。我一直都很有野心,但就像大多数人一样
043
我的野心大部分都投入到了电子游戏中。我玩了大约12000小时的Dota之类的。我实际上在欧洲排行榜上排名250左右。
044
我们在早期特别努力寻找一些能证明优秀能力的证据,这可能是开源项目。
045
这可能是做一些与工作无关的事情。
046
是的,我当时正在读硕士。
047
我并没有经常去大学。
048
我正在开发这个文本转语音项目,而Peter像教我弹吉他一样教我。
049
当我完成论文时,我在线上发布了音乐生成模型的一个样本,Peter看到了这个例子并联系了我。
050
所以当我第一次加入时,我们有一个11人的房间。
051
现在我们在11个城市有办公室,有超过300名员工。
052
我们每六个月就翻一番。
053
但由于我们以远程为主,并且以非常小的团队工作,拥有高度的自主权,你实际上会忘记公司有多。
054
大。
055
我们想雇佣世界上最优秀的人,我们认为世界上能到那个顶尖水平的研究人员并不多,尤其是在语音方面,可能有50人,也可能有100人。
056
所以我们想在哪里找到他们就在哪里雇佣他们。
057
你知道,有一种非常强烈的文化偏执,认为必须亲自到场。
058
你如何对比这两种不同的设置?
059
当我们开始时,我们的目标是非常全球化的,无论我们想创造什么技术。
060
我们希望它能适用于所有语言,所有地区。
061
我刚加入时,ElevenLabs 有其独特的文化,我想这也是吸引我的原因之一。
062
我理解了Matty和Peter对于他们想要建立的公司类型以及他们想要吸引的人才类型的愿景
063
这正是它们所体现的文化。
064
Matty和Peter,他们是童年时期最好的朋友。他们彼此非常了解。他们都是非常出色的操盘手,而且彼此之间高度信任。说实话,真正让我们对投资感到兴奋的是
065
这家公司曾与创始人Maddie和Podor进行过交谈。他们对未来世界有着非常独特的愿景,这种愿景是很多人尚未看到的。
066
Matty 和 Peter 有点像阴阳。Peter 非常专注于研究,他在那个领域绝对是天才。
067
和他一起工作非常愉快,因为他技术上非常深入。我认识的第二聪明的人,和他相比差很多。比如让我们
068
我刚加入ElevenLabs时,这里有一种文化,我想这也是吸引我的地方。我理解了Matty和Peter对想要建立的公司类型以及他们希望吸引的人才类型所拥有的愿景。
069
Matty 和 Peter 有点像阴阳。Peter 非常专注于研究,他在那个领域绝对是天才。
070
和他一起工作非常棒,因为他技术上可以深入探讨。我认识的第二聪明的人,和他相比差很多。比如让
071
现在我在迪拜。
072
随着团队变得更大、更加远程,你的角色是如何演变的?是的,你肯定不可能认识所有工程师,这确实令人感到遗憾,因为总有一天你将无法认识所有这些人
073
公司里的人。
074
Matthew 在上一次的 offsite 时就已经认识所有在场的 100 个人了。
075
运营公司所需的努力很小,因为你可以信任这些众多的创始人。
076
真正承担责任并关心公司的人,因为你们热爱在这里工作,也热爱这个产品。
077
当产品是出于热爱而构建时,用户就能看到 每个人都有非常高的自主权。
078
它们官僚主义很少,非常扁平,层级模糊。
079
他们正在做任何必要的事情,以推动客户快速交付产品。
080
我们去掉了所有头衔,这在最初阶段是一个很好的方式,可以筛选出那些自尊心非常低的人。
081
所以如果你进来,是的,我想成为VP of blahy blah,你不是。
082
将获得VP。实际上,这会阻止那些人。但我会认为这是好事。没有隐含的偏见,比如提问或请求帮助或给某人建议或提出想法,因为没有明确的等级制度。获得一个训练集群的访问权限,并训练一个你有想法的模型。
083
想法,因为没有明确的等级制度。获得一个训练集群的访问权限,并训练一个你有想法的模型。
084
我们在确保文化契合方面进行了严格的筛选,然后再引入某人。我认为这是能够快速扩展并仍然保持文化的关键。事实上,当我
085
第一次公开谈论这个话题,我们提出了去掉头衔的想法,我以前的一位同事联系了我,她说:"我听说你们去掉了头衔。我喜欢这个想法。你们有哪些职位?我想加入。" 现在她负责招聘,非常成功。
086
现在她负责招聘,非常成功。
087
目前,我们有专门用于音频、音效和音乐的模型。我认为声音的未来可能是一个模型,可以生成任何类型的音频。你
088
可以想象看到一些声音被转换成音乐,或者像唱歌一样,把唱歌变成音效。我们给自己设定的新挑战是
089
我们能否成为第一家跨越语音挑战测试门槛的公司。你如何拥有一个真正听起来像人类的AI,你可以与之来回互动,但
090
超级聪明,超级富有同理心?我认为在不久的将来,我们与机器的大部分沟通可能会通过音频进行,因为一方面沟通更快,另一方面因为信息更丰富。
091
现在有一些事情,机器或大语言模型无法捕捉到。
092
如果你在文本上训练一个模型,你基本上使用的是由人类创建的文本单元token。但如果你训练一个通用音频生成模型,你训练的是原始音频。
093
如果你能制造一个在音频方面聪明的模型,你可以想象你也能制造一个在任何原始数据领域都聪明的模型。
094
我认为这是最有趣的事情之一。
095
声音是唯一的AI。
096
模态,它实际上能让你感受到一些东西。所以当你看到文本时,是的,你可以看到一首诗或一个故事,但它不会给你同样的情感体验。而当你听到
097
声音时,无论是像ASMR耳语的声音,还是像深沉的电影声音,它真的可以让你身临其境,让你感受到生命的活力。
098
我喜欢用这个问题结束对话。是什么驱动你个人?
099
看到人们的反应绝对是最好的时刻之一。但我觉得我非常幸运,因为我可以和我最好的朋友一起工作。但
100
现在感觉我们有一个非常棒的团队,介于运动队和家庭之间,每个人都在同一个热情和愿景上推动前进。
101
但我觉得现在尤其难得,你有机会成为变革或技术的声音,能够站在前沿并定义声音如何成为我们周围每个人的一种界面。
102
这只是一个独特的机会,能够创造突破,我们很幸运也很高兴能够参与其中。
end of transcript · 102 segments