语音AI之路:约翰霍普金斯大学CLSP群英谱新浪财经

“吴军、徐鹏、李志飞、陈果果、姚旭晨……这是一个有志青年从约翰霍普金斯大学离开之后,用AI改变世界的故事。”

作者|董子博黄楠

编辑|陈彩娴

这是一个,一群人用语言和语音技术探索前路、希望改变世界的故事。

1

开启徐鹏的CLSP之旅

彼时的徐鹏,刚刚结束在中科院自动化所三年的研究生项目,告别导师黄泰翼,来到了大洋彼岸的布朗大学进修,研究语音识别和麦克风阵列。

布朗大学虽是藤校,但在语音识别领域里的名声,却难望JHUCLSP的项背。而真正令徐鹏印象深刻的,是世界级语音大牛——Jelinek的亲自致电。

行家一出手,便知有没有。两人只是短暂交流,Jelinek便给了徐鹏Offer,只是希望徐鹏能够早点来到学校,进入CLSP的状态。

于是,在布朗大学的第一年读完,刚放暑假,徐鹏就带着行李从罗得岛离开,去往位于美国东部、马里兰州巴尔的摩里的JHU。

巴尔的摩是世界著名的港口之一,这里四季分明,气候温和潮湿,比起纽约、洛杉矶等发达且“时髦”的城市,稍显朴素。

有些人会将JHU的某些特质和中科大进行对比——地处二线城市,学风淳朴。

事实上,在哈佛、耶鲁等教会学校大行其道的当时,JHU第一任校长DanielCoiteGilman(卡内基-梅隆大学的前身卡内基学院创始人),特意远渡重洋招徕了六名知名教授,并引入德国的大学教育体系,成立了北美第一所研究型大学JHU,分专业录取本科生、以讨论班形式授课,意在将学术体系更细分化、专业化。

然而,能让徐鹏放弃藤校的学位,最重要的,还是在JHUCLSP的学术领军人物、美国工程院院士Jelinek。

Jelinek来自捷克,麻省理工毕业后,他曾在康奈尔教书十载,后加入IBM研究院,于1972年带领IBM华生实验室,提出了基于统计的语音识别框架,以提升语音识别的准确率和识别范围。

看山不是山,Jelinek将语音的问题看作一个通信问题,使用声学和语言两个概率模型,精准地概括了语音识别,将IBM的语音识别率从70%提升至90%,单词识别的规模也从数百上升到了两万——此后,语音识别技术有了初步应用落地的可能性。

而没过几年,Jelinek在IBM又有了一项新的成果:基于语料库n-gram语言模型的大词表连续语音识别方法。简单来说,把语音识别的单位从“单词”拓展到了“整句”,不仅让语音识别的性能大大提升,也深远的影响了未来20年左右的语音识别和机器翻译技术发展进程。

对IBM当时的语音工作,黄学东对雷峰网如此评价:“做语音最早的就是IBM,如果从历史的维度讲述,IBM内部将做语音的方法应用至机器翻译、改写了历史,也影响了后面的Transformer。IBM对语音领域的研究做出了巨大的贡献。”

而彼时,前沿的语音研究,中心仍然在高校。Jelinek从IBM来到JHU,并且主掌CLSP的研究和人才招募。

研究和行政之外,Jelinek也会亲自带博士,而徐鹏则是他的第四号博士。

Jelinek素来以严格治学闻名,他的想法明确、学术视角毒辣,即使已是学术领军,仍然与学生交流紧密。讲课并非他最突出的能力,来到CLSP,Jelinek就已经是花甲之年,也不会亲自写代码。于是,徐鹏必须得把每一个实验的肌理分析得足够清楚细致、追根问底,还得能够把成果汇报给Jelinek。

对徐鹏,Jelinek常常一次性给他20个问题,让他写出代码实现验证。徐鹏和其他学生办公的地方,是一个狭长的长条形房间,而Jelinek的办公室就在门外,常常给出问题没多久,Jelinek就会亲自来到徐鹏桌前询问进度,或干脆把徐鹏叫进办公室讨论。

Jelinek的严格,由此可见一斑。

另外,在批改论文时,Jelinek甚至会标出文中的英文语法错误。在中国学生越来越多的时候,Jelinek还还专门让他秘书在办公室挂了一个“只能说英文”的牌子,甚至还出钱雇老师给徐鹏他们上英文课。

在Jelinek初到美国时,他的梦想本是研修法律,只愁捷克口音太重,英文发音稍逊一筹,便不得已选择了麻省理工的电子工程系——他之所以如此,也是怕学生再吃语言的亏,重蹈他的“覆辙”。

每年暑期,CLSP也会联合各大高校开展workshop。不同院校的学生、老师、企业的研究院都来到JHU,申报课题后,一起完成两三个月的研究工作。

90年代末,正是统计方法开始被语音识别学界所重视起来的时候。在这个方向,当时涌现出了一批重要学者。从MichaelCollins、斯坦福的ChristopherManning和他的学生等等,Jelinek也经常邀请他们来到CLSP访问交流,一时CLSP称得上“谈笑有鸿儒,往来无白丁”。

而DanielPovey主创的语音识别开源工具Kaldi,也正是诞生于CLSP的workshop。不过这是后话,先按下不表。

在学术之外,Jelinek的生活作风相当简朴,没有什么做派。他开一辆老丰田开了20年,启动时的声音像飞机发动机一样,别人问起,他只说:“我要像用我的人一样,用我的车。”老车报废之后,Jelinek只是花了几千美金,买了一辆很旧的二手车。

2001年,徐鹏跟Jelinek一起,去意大利参加一场重要的活动。从米兰落地,Jelinek租了一辆车,载着徐鹏在米兰的山路上近乎狂飙,抓住一切机会超车,绝不落人后,把副驾驶上的徐鹏惊出一身冷汗。

也正是在那场活动上,当时台上不少语音领域的大牛,都在讨论语音识别该怎么做、往哪个方向走,但各说各话,争论不下。

在台下,Jelinek再看不下去了,于是站起来,对着台上说:“在这里争论这么久,仿佛这个事情是我们能决定的,我们就是各个政府的奴隶,他们给我们钱、让我们干什么就得干什么,不要讲得这么冠冕堂皇,实际上我们也影响不了研究方向。”

是时,台下数百观者,台上一众嘉宾,无不瞠目结舌,Jelinek也不愿退让,最后还是有人圆场,尴尬的气氛才缓解了几分。

“我觉得,他(Jelinek)看事情时,更希望看到本质——能做什么就做什么,不能做的事情干脆放弃,没必要粉饰太平,说话直接,常常直戳痛点。”谈到恩师Jelinek时,徐鹏如此评价道。

Jelinek最出名,也最令人咋舌的一句名言——“EverytimeIfirealinguist,theperformanceofthespeechrecognizergoesup.”(我每开掉一个语言学家,我语音识别的效果就能上升一点)也曾在业界掀起轩然大波。

即使外界一片争议和误解之下,Jelinek也只和身边亲近的人解释过。其实,Jelinek很希望能够将语法的解析,和语音识别、语音模型结合起来。

当时徐鹏和一个师兄一起,在这个领域做过尝试,而最后结果证明是,语法解析对模型效果确实能够起到一定作用,只是跟Jelinek的想象相差甚远。

而Jelinek反对的,是用规则的方式做语音,他认为语法应该跟统计结合起来,加上他本就是做信息论出身,相较之下,更欣赏用概率论统计的方法去做研究。

而实际上,规则学习的方式,也在世纪之交时遇到了瓶颈——只用语法规则无法完全解释语言,而语言学家标注出的规则又无法穷尽使用者的语言使用;而就在这时,Jelinek所一贯主张的统计学习,则一举登上了语音领域机器学习的主流舞台。

早期在Jelinek治下,徐鹏的研究谈不上有什么自由度,直到做出成果让导师信服后,才得以逐渐开展自己感兴趣的的研究。

对RandomForest(随机森林)算法效果提升的研究,是徐鹏心中,自己在CLSP时比较有新意的一个工作。这种机器学习算法,基于集成学习理论,根据随机选择的特征训练一棵一棵的“决策树”,再根据多数投票的方式,把每棵树的预测结果合并为最终的预测结果。

欣赏徐鹏的研究,Jelinek特意将随机森林算法的创始人之一——LeoBreiman请到了实验室,让徐鹏把自己的工作给他汇报。比起Jelinek,LeoBreiman还要大上四岁,已经几近古稀,特意从西海岸赶来巴尔的摩,称赞了徐鹏的工作。

而在JHU进修数年之后,徐鹏以亲身领略到了最前沿的语音技术。而和不少心怀天下的AI探索者一样,他不想把一身本领留在象牙塔——他的梦想是长风破浪,直济沧海,用语音AI改变世界。

PhD毕业后,徐鹏的下一站,选择了一家年轻的公司——创始于硅谷山景城的谷歌。

2

谷歌:CLSPer从学术界走向工业界

“我认为,谷歌对AI的贡献,今天很多人都没有看到——其中最核心的一件事,就是在2004、05年左右,用分布式、云计算的方式来做语音识别和机器翻译,把技术变成了一项实打实的产品。”李志飞——徐鹏在CLSP的师弟,后来出门问问的创始人——如是说道。

21世纪初,语音AI正有从高校向工业界转移的趋势。谷歌的不断壮大,也吸引着越来越多华人AI新星的加入。而其中,同样来自JHUCLSP的吴军,就是谷歌最早一批的贡献者。

吴军比徐鹏大三届,算得上是徐鹏的师兄,由于都是华人,两人时常在实验室一起吃饭,吴军时不时会请徐鹏来家里吃饭,徐鹏也帮吴军搬过家。

徐鹏2005年毕业,就直接加入了谷歌,成为了当时谷歌为数不多的华人员工。当年谷歌来到巴尔的摩,在JHU校招,吴军还亲自作为宣讲的一员随队前往。

然而,招收徐鹏进入谷歌的,并不是吴军。

事实上,一年前的谷歌校招,吴军就鼓动徐鹏来试试,彼时徐鹏正读到博士最后一年,到了面试才发现自己准备得并不完备,发挥不尽人意,面试阶段被刷了下去。

一个寒暑过去,再有两天徐鹏就要毕业。或许是命运的安排,在一次会议上,徐鹏遇上了执掌谷歌机器翻译的FranzOch。

两人简单交流,Och十分赏识面前的这位年轻人,便问徐鹏,为什么没有申请谷歌的工作。而徐鹏仍在一年前面试失败的阴影之下,感觉希望渺茫——谷歌当时四五千人的规模,研究岗只有寥寥数十人。而Och却想要给予徐鹏一个机会,当时谷歌的机器翻译组也急需科研人才,便为徐鹏安排了一次线上面试。

这次,徐鹏没有浪费机会,过五关斩六将,一周后就拿到了Och发来的Offer。

5月进入谷歌,徐鹏便开始享受着相当自由的工作氛围:研究主要依靠研究员的自驱;地点也十分自由,只需要提报一个简单的差旅手续,就可以想去哪里去哪里;甚至有一次,徐鹏因为专注工作,错过了PeterNorvig(徐鹏在谷歌的第一个director)的年末绩效汇报,迟到了足足20分钟,尽管是两人的第一次会面,Norvig也只是轻飘飘一句:“做事去吧”。

在谷歌期间,徐鹏所在的机器翻译组,是谷歌最早一批将统计方法机器学习做进产品中的人。最早期,机器翻译组只有十人不到,研究和产品化都有专人负责。徐鹏则被归入了产品化团队中,从前端到后端、工程到产品均有涉猎。

2013年,深度学习的风潮兴起,AI的风向再次变天。

硅谷的谷歌内部,也清晰地感受到了这种变化,机器翻译组的Och也被深度学习技术的发展所震撼,想要从底层研究到落地实现大包大揽;而徐鹏和Och的理解并不一致,他认为,和谷歌大脑协作能更加集中公司内部的资源,各取所长。

彼时,谷歌大脑的办公室就在机器翻译组的斜对面,门牌也只是贴在门上,一张写着“谷歌大脑”的打印纸。而在那里,今天OpenAI的首席科学家、创始人之一——Ilya和组员正在完成的却是改变世界的研究:

在徐鹏的帮助下,谷歌大脑完成了LSTM在机器翻译领域上技术研究,以及papersequencetosequencetranslation背后数据的预处理等工作——Ilya做的是模型和方法,徐鹏则用自己的模型和统计方法与Ilya方案对比,统计方法给基于LSTM的深度学习方法提供了很好的验证,让深度学习模型更容易看到当时的不足,并最终得以改进,取得了比统计模型更好的效果。

而和谷歌大脑的合作,让徐鹏意识到继续进行统计方法研究的局限,在Och主导的翻译团队进行深度学习探索的自由度也受到了一定的限制。虽然徐鹏已经是组里的manager,主管工程和部分研究,但是他还是提出了转组,想去机器翻译之外的地方尝试。

年轻人名叫李志飞,2004年入学,和吴军一样,拜在SanjeevKhudanpur门下。

Sanjeev,常常被中国学生戏称为“三姐夫”,是Jelinek在早期招募进入CLSP的学术精英,研究方向和Jelinek一脉相承,Sanjeev也是一位“神人”。传说每次有人来参加研讨会,Sanjeev总能一眼看出对方数学公式中的错漏。

原先也曾在CLSP读书的云启资本合伙人陈昱回忆,Sanjeev对学生要求极严——不仅编程技术需要过关,数学水平也要足够高。开课时,教室里还满满当当坐了几十号人,而随着课业进行,学生便变得越来越少。

在电子工程系,李志飞的奖学金是Sanjeev帮忙出的;而带他做事情的导师,是一位叫JasonEisner的计算机科学教授。

初到JHU,李志飞最开始做的是分布式网络系统——不同于语音、NLP,这并不是CLSP的主要研究方向。而他当时的导师是一个来自MIT的犹太人,对学生主动性要求比较高。在上算法课时,常常公式写了两条,就停下来看自己的股票是涨是跌,李志飞深感如果在他手下恐难毕业,于是才跳槽到了JasonEisner的手下。

JasonEisner也是JHU强大师资中的一员,他不仅是计算机科学系的教授、编程语言Dyna的首席设计师,也执掌着微软SemanticMachines(2015年DanKlein和华裔科学家PercyLiang的NLP项目,后被微软收购)研究,在解析算法、机器翻译和加权有限状态机等多个领域建树颇深,并且获得了ACL2017最佳长论文奖。

而在李志飞眼中,Jason是一位超级聪明的NLP大神。他说话语速极快,脑子转得也快——在CLSP办的会上,受邀参加演讲的嘉宾,不少都是带着不懂的问题来找到Jason,来请他帮忙解答。

而在教书育人的角度,Jason也有自己的一套风格。在课堂上,他每年都会根据业界最新的动态,来增删课程的内容,以让课堂能够跟上科技发展的前沿。

除了有JasonEisner传道解惑,李志飞在JHU里也和另一位NLP大神——DavidYarowsky有过合作,一起完成过一篇有关中文缩略语翻译的论文。

DavidYarowsky,和刚刚提到的JasonEisner、以及哥伦比亚大学的MichaelCollins都师承于宾夕法尼亚大学的MitchellMarcus教授。而Mitchell也正是“宾州树库”(PennTreebank)的作者,为后世的NLP研究提供了一套成熟的句法分析数据集。

师出名门,DavidYarowsky在研究词义消歧、跨语言学习等领域成果斐然。他性格有些可爱的古怪,被李志飞等一众学生称为“上帝”——David从来不回复邮件,常常窝在四面都被书籍包围的办公室里,但几乎对天下事无所不知,颇有当年康德的风范。

早年间,吴军也曾在他门下学习。对同样酷爱读书的David,吴军评价道:“他的藏书量和读书量可能都是我的十倍,但是他95%的书都只是浏览过。按照他的观点,绝大多数的书都不值得仔细读,但是阅读量大是有好处的,除了拓宽知识面,更重要的是能够让自己的想法保持客观中立。”

在CLSP,李志飞一个主要成就,是开源统计型机器翻译工具包Joshua的开发。使用并行和分布式计算技术,Joshua的可拓展性很强,并且在WMT09的法-英转译上,实现了当时最先进的翻译性能和翻译任务,给后世留下了很深远的影响。

2010年,李志飞也顺利从JHU博士毕业。5年过去,谷歌的规模增长了十倍左右;仅2009年前后,谷歌在一年内就招收了8000名新人,甚至总部专门为此发函,谈“如何在增加招聘人数的情况下,不影响招聘质量”。

尽管都是谷歌,陈昱待过的地方是谷歌纽约,后来又去往上海;李志飞则是一头扎向了位于硅谷的谷歌总部,并且在那里一直待到回国创业出门问问。

彼时,谷歌研究院在硅谷的华人几乎凤毛麟角,除了李志飞,雷欣、赵勇、和李志飞在CLSP的学长徐鹏,加在一起不超过十个人。

尽管风光正好,但李志飞并未在硅谷做过多停留。仅仅两年后,他就决定回到中国创业,这才有了后来的出门问问。

而另一位谷歌前员工安舍也表示:因为翻译的项目不赚钱,所以谷歌当时也没有投资源,算作一个纯粹研究性质的项目——而谷歌又想把它做得更大,所以在前两年,机器翻译组做的事情每年都要上公司的OKR,Och要亲自向高层汇报进展,其中一项就是机器翻译要做到什么程度。

在谷歌离线翻译的项目上,李志飞和Och也曾经有过一些想法上的摩擦。Och认为这个项目很难做出实际用途——他认为,只需三年,所有终端都可以完成联网,到了那时,离线包也就再也没了用途。

而同样在Och手下工作的徐鹏,知道前者是个“个人色彩浓烈”的领导,也更理解李志飞的处境,于是给了李志飞不少支持,也让李完成了第一版谷歌翻译的离线包。

直到今天,这个离线包都支持用户下载。

在象牙塔,李志飞多年的心血全部投入在机器翻译上,来到谷歌,却发现自己的专攻难有用武之地,肯定心里难受。技术先进和商业成果的矛盾,也是不少进入大厂的科学家们,所共有的一个命门。

在这个角度,出门问问的诞生也就成了必然。

2010年,除了谷歌退出中国,李志飞加入谷歌,CLSP还发生了另外一件大事——徐鹏的导师,CLSP的扛鼎之人,FrederickJelinek在一个普通的星期二,在实验室工作时突然伏案不起,倒在了工作岗位上,终年78岁。

失去了先驱的引领,CLSP和却并未停步,未来的十年,随着一批又一批的人才加入,仍然群星荟萃,引领着AI语音语义技术的前进方向。

3

语音AI浪潮下的创业青年

而此前,纯粹的技术至上主义、淳朴的学风,在Jelinek影响下的CLSP风格独特,许多青年学者慕名前来,Jelinek的离去,不仅是语音识别领域发展的损失,对CLSP而言更是莫大的打击。

陈果果便是受到过Jelinek直接影响的学生之一。

陈果果是2006年绍兴市的高考状元,本科就读于清华大学电子工程系。

第一、承诺给充足的研究资金;

第二、提供奖学金和生活费;

第三、在博士第一年结束时,可以去IBM、Google等大公司实习,做产学研结合。

对从事语音识别处理研究的学生而言,CLSP是顶级学府、在语音、NLP和分布存储系统领域极具话语权,可以接触到最前沿的技术;更不用说Jelinek亲自邀请,陈果果几乎受宠若惊,欣然接下了Offer。

同年8月末,陈果果乘上了飞往美国马里兰州的航班;也是那时,李志飞刚刚好毕业离开,横跨美国飞往硅谷,二人几乎擦肩而过。

随后两年里,陈果果跟随Sanjeev学习。那时候,CLSP整个实验室的中国学生为数并不多,而陈果果惊喜地发现,和自己同年入学的姚旭晨,同样有着一颗“不安分”、喜欢折腾的心,因此两人早早便相约毕业以后一起创业。

姚旭晨本科就读于南京大学,在格罗宁根大学和萨尔兰德大学读的硕士。有两位NLP领域宗师级别的人此前都曾在萨尔兰德大学教书,一位是欧洲科学院院士、北京深知无限人工智能研究院院长HansUszkoreit,另一位则是他的妻子、联想集团前副总裁徐飞玉。

陈果果在电子系做语音,姚旭晨则是计算机系NLP方向。由于JHU电子系和计算机系均归属于工程学院,因此,陈果果和姚旭晨虽然专业不同,但使用的是同一个实验室,两个人性情相投,经常一起玩耍。

这段时期,Sanjeev也在不停地为实验室物色新的教授人选。CLSP研讨会的发展,对优秀师资的纳新起到了至关重要的作用。而前面提到的,开源语音识别工具Kaldi的主要开发者DanielPovey就在这个时候登场了。

2012年,陈果果迎来了他的另一位导师,语音识别大牛——DanielPovey、现任小米语音首席科学家。

Daniel的故事,世间流传不少。他最主要的成就,莫过于语音识别开源工具Kaldi,而这正是他在2009年一个JHUSummerWorkshop发起的。集成了隐马尔可夫等多种语音识别模型,Kaldi自推出以来下载量多达2万余次。在JHU期间,陈果果也深度参与了Kaldi的工作,在上面贡献过大量代码。

20世纪90年代,得益于基于GMM-HMM声学模型的区分性训练准则和模型自适应方法的提出,语音识别迎来了第一次产业应用的小高潮。为了降低研究门槛,剑桥大学发布HTK(HiddenMarkovModelToolkit)开源工具包,彼时还在剑桥大学读书的Dan也深度参与了这项工作。

但到了2010年前后,HTK开发步入停滞期,市面上几乎找不出第二个专门为语音识别而生的开源工具。那时候的Dan已经离开了IBM、加入微软研究院工作。

觉察到开发者对产品内部维护的迫切需求,Dan决心要为语音识别再做一个工作、类似于谷歌或微软用于内部维护的代码库,并以开源工具包的方式呈现。

这一想法受到了普遍开发者和企业的追捧。Kaldi推出后,很快便在开源社区中占据了一席之地。

Dan将Kaldi的成功归功于“除了HTK之外没有任何真正的竞争对手”,虽然Kaldi取得了阶段性的胜利,不过在ASR(AutomaticSpeechRecognition,自动语音识别)软件包领域,仍旧没有能免费使用的替代方案。降低WER(语音识别词错率)、给大家提供免费的语音识别工具,这是Dan的毕生所求。

但是,受限于自己在微软研究院的员工身份,早年想要在企业里做开源并非易事,微软的内部律师要求Dan不许更新Kaldi的新版本。

这意味着,如果想继续做开源,留给他的只有大学一个选择。

由于此前Kaldi和CLSP研讨会的渊源,因此,Dan也自然而然地选择了加入JHU。

JHU期间,Dan的研究工作主要由四部分组成,包括Kaldi的项目推广,关于无网格MMI训练和时延神经网络(TDNN,这也是当时许多开源项目中具有前沿性的工作,与学生、开发者合作研究用于说话人识别的d-vector,之后又与VassilPanayotov、陈果果以及Sanjeev合作完成了Librispeech数据集。

话音刚落,陈果果起初根本不相信,他心想:怎么可能有谁会一直在线呢?但没过多久,这个想法就被事实打脸了。

在陈果果整个博士期间,无论是工作日或周末,他发给Dan的绝大部分邮件,都会在5分钟内收到回复。对于Kaldi论坛上的问题邮件,Dan也是如此,几乎每个问题他都会回答。即便后来端到端开始流行、原本的Kaldi版本落后,Dan在加入小米后仍一直冲在前线、带队做出了Next-genKaldi,到今天,Dan每天还会自己写代码,在Github上的状态永远是绿。

可以说,“工作狂人”是刻在Dan身上最显著的标签之一。

有一次,实验室到华盛顿哥伦比亚特区附近参加一个Babel的项目会,会议结束时是下午三点多,即将开始下班高峰期。为了避免被堵在路上,Dan便怂恿陈果果和自己先撤退。临出发时,因为陈果果倒车速度比较慢,Dan主动要求自己来开车。

于是,陈果果目睹了Dan敲代码的双手迅速转动方向盘、飘逸倒车,一路飞奔往JHU的方向开,直到踏进CLSP的办公室才松了口气,开心地工作起来。

说回陈果果。跟他的许多师兄弟一样,陈果果在读博期间也曾在谷歌实习过。

那时候深度学习刚刚兴起,而谷歌的语音团队也开始逐渐拥抱DNN(DeepNeuralNetworks)技术。2013年6月,陈果果进入谷歌,也是在这里,他初次感受到了一项技术走出实验室、从研究到落地的产品魅力。

在谷歌期间,“OkayGoogle”的热词检测系统,是陈果果完成的最具代表性的工作。在此后的十多年间,“OkayGoogle”作为GoogleAssistant的标志性交互方式之一,进入了数以亿计的安卓设备,并让其他的语音助手如亚马逊的Alexa、苹果的Siri也都采用类似的语音交互方案。可以说,陈果果当时在谷歌的工作从某种程度上定义了接下来十多年间绝大部分主流语音助手以热词(又称为唤醒词)为主的交互方式。

“OkayGoogle”是一个热词检测系统。传统的语音识别交互方式中,如果用户想要使用语音功能,意味着麦克风功能必须保持长期在线,并对语音做持续识别转写,这种方法不仅功耗大、同时还会出现许多噪声引起的错误识别。为了改善这个问题,早期的语音助手一般采用Push-to-Talk(随按即说)的方式,也即用户需要和语音助手进行交互的时候,需要首先点击一个说话按钮,再进行交互,这意味着和语音助手的交流依然离不开手的帮助。

陈果果提出的想法是,可否通过定义一个热词,算法随时监控该热词,当热词被触发之后唤醒麦克风来接收后续的用户信息,这便是“OkayGoogle”提出的初衷。这个不经意间的想法无意之中改变了主流语音助手的交互方式,比如2014年亚马逊推出的Alexa即采用了此种交互方式,2015年苹果也给其语音助手“Siri”添加了“HeySiri”热词唤醒。

陈果果在谷歌期间的另外一个重要收获是找到了自己此后的创业伙伴。彼时姚旭晨正好也在谷歌实习,两人在工作间隙便经常一起打球以及畅聊人生。两人惊喜的发现,不同于大多数人的选择,两人都希望在毕业之后可以做出一个属于自己的公司,而不是加入一个大公司。于是一拍即合,相约在毕业之后一起创业。

同一时期选择了创业的,还有已经回国的李志飞。

2012年,李志飞手握红杉资本和真格基金的天使投资,回国创立出门问问,他的目标只有一个:探索下一代人机交互。

过去在谷歌的两年里,李志飞专攻NLP,软件、硬件都做过,而李志飞当年的demo是有个简陋的交互界面的,就和搜索引擎一样,有个文本输入框,用户输入一句话,它在网上把答案找出来

值得一提的是,在早期开发阶段,出门问问正是围绕着Kaldi来做的。由此可见Kaldi在当时的影响力之大。

对陈果果和姚旭晨来说,2015年也是至关重要的一年。

但2017年,这样一件小概率事件突然降临到了陈果果和姚旭晨身上。“我们是属于比较幸运的一批人,赶上了AI的第一波浪潮。”陈果果说。

2017年7月5日,百度第一届AI开发者大会在北京的国家会议中心里召开。会上,时任百度度秘事业部总经理景鲲宣布,百度全资收购语音技术公司KITT.AI。

在投资者看来,KITT.AI的资本背书极为优越。它是全球唯一一家获得亚马逊AlexaFund和微软联合创始人PaulAllen投资的创业公司,曾入选CBInsights人工智能创业TOP100。

但令人惊讶的是,KITT.AI的两位创始人却如此年轻。

主导收购KITT.AI的,是时任百度集团总裁兼首席运营官陆奇。西雅图被视为创业“圣地”、恰如今天大模型下的新加坡,许多国内投资人纷纷奔波海外,用敏锐的嗅觉,把握着信息和风向。KITT.AI背靠亚马逊资本,有技术、又有业务,自然成为投资人眼中的香饽饽。在百度之外,姚旭晨也见了不少其他的潜在收购方。但百度战投的投资总监PeterFang及其团队给他印象最深刻交流也最通畅。

最终选定百度,一方面是其开价足够有诚意,另一方面,也与百度在带屏音箱的布局有一定的关系。被收购后,KITT.AI团队三个中国博士——姚旭晨、陈果果,以及曹原,一起加入了度秘事业部。

曹原也是CLSP的博士,主攻NLP,毕业后参与开发了谷歌第一代基于神经网络的翻译(Google’sNeuralMachineTranslationSystem)系统,是其论文作者之一。之后加入KITT.AI任首席科学家,他性格低调沉稳,属于喜欢默默钻研技术的人。

不过,有着雄心壮志的青年往往并不止步于短暂的胜利,持续创造、并改变世界是他们前行的坐标。

就在陈果果和姚旭晨还考虑是否二次创业时,2019年,由于“学生抗议”事件,DanielPovey考虑离开欧美“政治正确”的舆论环境,Dan想到了遥远东方大陆上一个正冉冉升起的国家——中国。

那些有过短暂交汇、散落世界各地的CLSPer们,最终在中国得以汇聚。他们的到来,也深深地影响了中国语音AI发展。

4

永不止步

今天的大模型赛道,徐鹏与之也有颇深的渊源:在谷歌时期,他就用统计方法做过N-gram,调用了四五千台服务器,做到了三千亿的参数规模。

在当时,把模型做到线上,对系统功能的挑战很大。于是,徐鹏当时与JeffDean合作很多——徐鹏负责使用mapreduce做语言模型,JeffDean主做survey。

多年后,在中国崛起的蚂蚁把眼光放到了海外,意图在湾区建立一个团队,漆远就找到了彼时正在谷歌的徐鹏。

而2年过去,徐鹏在谷歌的日子过得也并不舒坦。一个七八十亿美元盈利的项目,本来是徐鹏主导的开发,却因为公司内繁琐冗杂的跨团队沟通协同影响,比预期的进展慢了很多——这让徐鹏的心中也萌生了退意。

而蚂蚁给出的Offer则诚意满满:徐鹏加入即P10,而蚂蚁在国内也挖到了李小龙、万昊、蒋松,在硅谷找来了宋乐,一同在湾区建设团队。当时,蚂蚁的AI路径还并不明确,徐鹏就保持了一个十人左右的小团队规模,只做对话机器人。

2020年,已经成立了8年的出门问问,开始琢磨进军深圳。在深圳,李志飞在机缘巧合之下,见到了中国工程院院士、彼时已是ACMFellow的高文,两人见面短暂探讨,话里就谈到了大模型。但高文当时行程拥挤,急着赶往下一个会,话并没有谈透。

当晚,高文组局,请李志飞吃饭,便不提大模型,只是希望李志飞帮他做机器翻译的老本行,有关大模型的事情,也就不了了之。

没有ChatGPT引爆市场,资本对大模型往往并不青睐。李志飞的团队,就在没有大笔外来资金注入的情况下,先训出了一个7B规模的模型。

继续寻找支持自己做大模型的人,李志飞又辗转跑了南京、北京等几个城市的经信委,当时能听懂大模型人的并不多。反而上海经信委的人,有关GPT-3更加看好,来过出门问问几趟探清虚实,最终决定支持,只是钱打来的时候,已经是2022年的10月份。

同是2020年,陈果果和姚旭晨两位好友又再度携手,在西雅图共同成立Seasalt.ai,瞄准了云端通信方案及AI技术方向,推出了全渠道客户体验平台SeaX,生成式AI自动化工具SeaChat以及对话智能平台SeaMeet。目前Seasalt.ai以美国市场为主,在新加坡和台湾也有客户,类型涵盖了出海电商、旅游、银行等等。

按姚旭晨的规划,接下来Seasalt.ai的主战场还是会更聚焦在北美,一方面夯实东南亚基础,把大企业级应用做深做透,另一方面,此前KITT.AI创业时就是在北美,面对北美市场的客户自己也更有经验,聚焦SaaS企业服务。

而元旦刚过,2021年1月的陈昱,在云启资本上海办公室附近的咖啡厅内,正在招待一位JHU女校友——贠烨祎。烨祎年纪轻轻,小陈昱十几届,却在谈吐中显露出了一众同年龄女性所难以具备的成熟和老练。

中国的科技圈,从不缺“千里马与伯乐”的故事。听过项目,陈昱的心动了——早对大模型有意的他,也曾在科技圈寻寻觅觅,但一个看得上的应用公司也没找到。

良机难得,陈昱敲定了这位JHU师妹带来的项目。短短三年过去,这家名叫MiniMax的AI公司,估值翻了8倍左右,也成为了在大模型赛道竞逐中的一号“种子选手”。

从CLSP走出的AI精英们,是彼时最具硅谷精神的一批人:他们接受了学界最前沿的教育,亲眼见证过语音、语言AI科学的发展和演进;

在象牙塔取得了成就,他们却不甘止步于实验室,偏要学以致用,把技术带向工业界。

怀着热忱,尽管经历风雨,他们改变世界的少年之心仍然火热地跳动,牵动着AI时代的每一次脉搏。

THE END
1.2023热门手机读书app下载2023热门手机读书app免费版下载2023热门手机读书app是一款十分有趣的读书软件专区,app允许你在任何时间、任何地点通过手机进行阅读,无需携带实体书籍。你可以随时随地利用碎片时间进行阅读,如在公交车上、排队等待或者在床上。https://www.paopaoche.net/zt/2023rmsjdsdq/
2.绘本阅读器app下载安装绘本阅读器app免费版相关合辑 pdf阅读器app英语绘本阅读app本地阅读器app手机pdf阅读器免费英语绘本阅读appipad阅读软件阅读器apppdf有声阅读软件手机阅读器txttxt手机阅读器自动阅读器app手机有声小说阅读器专用app播放器漫画阅读器app手机阅读器软件日本轻小说阅读app手机小说阅读器读书app免费手机txt阅读器 https://m.liqucn.com/rj/9389961938810.wml
3.蚂蚁读书app下载蚂蚁读书手机版下载v1.1.0安卓版应用介绍应用截图网友评论下载地址 单机100网为您推荐:阅读app蚂蚁读书 蚂蚁读书免费阅读版旨在为学生提供一个更便捷的阅读和图书共享平台,通过数字化方式管理图书馆资源,使阅读和学术交流更加便利和互动。 蚂蚁读书官方简介 旨在优化学生阅读体验和促进图书共享的应用程序。 http://www.danji100.com/app/200151.html
4.蚂蚁读书APP下载2024最新版蚂蚁读书下载安装儿童读书app下载 查看更多 爱读书下载 查看更多 蚂蚁读书app下载 查看更多 简单读书app下载 查看更多 读书汇app下载 查看更多 来读书app下载 查看更多 游戏排行榜 开心消消乐 440.63MB 安全下载 优先用豌豆荚 A P P 下载 植物大战僵尸2 安全下载 优先用豌豆荚 A P P 下载 https://www.wandoujia.com/bangdan/580826/
5.蚂蚁读书下载蚂蚁读书最新版下载蚂蚁读书app下载蚂蚁读书下载栏目提供了最全的蚂蚁读书版本内容,喜欢这款软件的用户,可以下载最新的官方版本,还能够找到相同类型的APP,保证每一位来到这里的玩家都能够找到感兴趣软件版本。更新时间:2024-11-01蚂蚁读书版本大全 官方版 蚂蚁读书相关软件 微信读书 苹果版 学习教育|93.73MB 起点读书 安卓版 小说漫画|44.38MB 十https://shouyou.3dmgame.com/zt/33603_game/
6.蚂蚁读书app下载蚂蚁读书手机版下载安装v1.0.0蚂蚁读书这款小说软件无疑为热爱阅读的读者们带来了极大的便利和愉悦。在这里,你可以轻松找到并阅读各种各样的小说,无论是经典名著、热门畅销,还是小众佳作,都能在这里找到。蚂蚁读书不仅提供了丰富的小说资源,更为用户构建了一个极为舒适的阅读环境。无论你是喜欢安静阅读,还是喜欢有声阅读,蚂蚁读书都能满足你的需https://www.wz2sc.com/down/12311.html
7.蚂蚁读书免费版下载蚂蚁读书免费版v1.0.5安卓版Boss直聘app官方版v12.060 安卓版商务办公分类:浏览阅读 大小:8.8M 语言:中文 版本:v1.0.5 安卓版 时间:2023-09-22 18:03 星级: 官网:暂无 厂商: 平台:Android 标签:免费小说阅读器轻小说这里有好多好看的小说。应用截图应用介绍 蚂蚁读书免费版是一款非常不错的阅读软件,你可以在这里看到各种你想看的书籍,非https://www.qqtn.com/azsoft/875585.html
8.手机阅读app软件排行手机阅读appapp下载在蚂蚁读书app中,无论是哪种书,都能很快被搜索到。所有的图书资源都是免费的,用户可以选择,而且操作起来超级简单。你可以直接在这里搜索任何你想看的书。它非常方便,在这里一定会给你很好的阅读体验。 下载 野果阅读追书 72.84M | 更新时间:2023-05-12 16:52:04 野果阅读追书APP这是一款免费阅读软件,野果阅http://m.9k9k.com/app/6/
9.微信读书app官方下载微信读书app官方下载最新版本v8.0.1微信读书是一款专属的手机软件阅读风格,通过微信读书app大家可以快速的掌握最新最全面读书阅读服务,同时支持语音听书。有兴趣的小伙伴可以微信读书app官方下载体验吧。 微信读书app官方下载特点 根据手机微信的现实社交媒体关联,你能在微信读书里见到好友们的阅读文章排名、给他们关注点赞;微信读书app下载点一下某一好友的https://m.ali213.net/android/336679.html
10.www.scmc草莓视频app下载ios最新版下载安装 人人操人人射免费 线路检测_原神女角色脸红流汗吐舌_可莉被操_黑丝追魂腿_悦文天下 43.56MB 88好评 好色先生免费下载 黃色三級片全免费 クロアXスクランブル 416.64MB 307好评 孕妇xxx小说 别着急一个一个c 亲情会全文阅读_亲情会_最新章节_双惠读书 211.38MBhttp://www.scmc-xa.com/xxxr/171304.shtml
11.香蜜之君非良人下载APK高速下载 下载女生把腿张开让男人爽桶安装你想要的应用 更方便 更快捷 发现更多 28好评(2883人) 187 详细信息 软件大小:70.47MB 最后更新:2024-11-02 23:33:55 最新版本:V5.1.16 文件格式:apk 应用分类:ios-Android熟女风间由美交尾视频 使用语言:中文 http://www.qcyc.cn/adaplp10422.htm
12.蔬铭:大力蚂蚁,QQ阅读app看后续蔬铭:大力蚂蚁,QQ阅读app看后续 蔬铭:大力机甲,起点读书app看后续 蔬命:大力蚂蚁,QQ阅读app看后续 蔬铭:蚂蚁道长 QQ阅读app搜“蚂蚁道长”看后续 蔬铭:大肚唐三,QQ阅读app看后续 蔬铭:大力蚂蚁,QQ阅读app 看后续 蔬铭:疯狂生肖,QQ阅读app看后续 https://xbeibeix.com/video/BV1zg4y1T7UK
13.读书app免费版下载读书软件大全下载安装读书app,一般代指能够进行小说、名着等文章文字阅读的一类手机应用程序,通过读书app用户可以找寻到自己喜爱的文字文章阅读,在书海中感悟人生,放松自我,不少的读书app拥有极大的教育功能,让您以更好的姿势去拥抱生活。本次小编给大家推荐多款好用的读书app,喜欢的朋友们,快来旋风软件园下载吧!http://win8zhijia.com/k/dushuapp/index.html
14.淘宝豆豆免费读书小说app下载社会新闻_软件问,《小姐好白》喜剧片免费高清在线观看2004美国,蚂蚁庄园今天答案,谢俞反攻成功贺朝怀孕流产,传播潮汕文化 凝聚潮人力量 – 潮汕网-追踪潮商/潮汕/,首辅每天要不够PO一枝独秀最新更新免费阅读首,今夜花开小说免费全文。 12月18日,【蹲坑版】耗时99999秒制作,御兽战神究极无敌大合集!!,俄罗斯人球大又http://m.ouzhehua.com/v/video/20241211/6131948436.shtml?id=202412170Tlpm-scm
15.蚂蚁私塾Offers In-App Purchases iPhone Screenshots Description 抱团读书、听书,就用蚂蚁私塾。蚂蚁私塾是一个集读书与社群为一体的综合性学习应用,10几20分钟听完一本书,全方位了解书的所有维度,还能快速加入兴趣社群,让你真正做到高效学习、快乐学习。 『好书解读』 https://apps.apple.com/us/app/id1456084734
16.quinovare.com/xxxr84821217<!DOCTYPE/122059.shtmlXVIDEOS国产在线视频下载 性女vodafonewifi片 欧美性爱操奶逼 一级毛色视频 婷婷东京热 原神被?超污网站 操逼APP嗯啊啊啊 进监狱的指检 星欧娱乐今日蚂蚁庄园答案 小舞搡BBBB搡BBBB 嗯…嗯…啊…啊 国产成人免费一区二区三区_亚洲无日韩码在线观看_欧美日韩 久草久爱 人人看人人玩 女性隐私http://quinovare.com/xxxr84821217%3C!DOCTYPE/122059.shtml
17.c7app官网版c7app官网版最新版下载V.1.7.7皖事通app官方最新版 219.33MB 查看 汽车之家2024最新版 284.64MB 查看 肯德基宅急送app 664.88MB 查看 趣读书免费小说 456.55MB 查看 豆豆钱借款蚂蚁浏览器手机版 938.52MB 查看 完美世界电竞app 772.12MB 查看 火狐浏览器手机版 183.53MB 查看 招商银行信用卡app 832.64MB 查看 美册视频编http://www.zhengfuxinfang.com/
18.小蚂蚁app跑路了蚂蚁钱包架构设计 蚂蚁钱包app下载安装 300、商城业务-支付-支付宝沙箱&代码1、进入“蚂蚁金服开放平台” https://open.alipay.com/platform/home.htm2、下载支付宝官方demo,进行配置和测试文档地址https://open.alipay.com/platform/home.htm 支付宝&蚂蚁金服开发者平台https://docs.open.alipay.com/catalog https://blog.51cto.com/topic/xiaomayiapppaolule.html
19.斗球手机版斗球直播app下载最新版本2024免费NBA直播斗球直播是一款游戏视频直播软件app下载、手机版(苹果版IOS/安卓版androi)、登录入口、官方网站、网页版、平台、网址、地址、注册、娱乐,在这里可能看到很多高清优秀的游戏直播:包括世界杯足球游戏、LOL英雄联盟全球总决赛、炉石、DOTA等;并且虎牙直播助手可以帮助用户直播自己正在录制的视频,支持CF、DOTA、dnf等海量游戏直http://read.share.05641688.com/PGZ/detail/nkfPgz.html