思必驰联合创始人兼首席科学家俞凯:ChatGPT是继AlphaGo之后最大的里程碑进步财专访股票频道

(原标题:思必驰联合创始人兼首席科学家俞凯:ChatGPT是继AlphaGo之后最大的里程碑进步|财专访)

本期访谈人物:

思必驰联合创始人兼首席科学家俞凯

“GPT是人工智能发展的一个集中式突破,包括对话智能技术、深度学习大模型技术、工程化能力以及大数据的整体突破。”

▍个人介绍

思必驰联合创始人兼首席科学家、上海交通大学教授。

清华大学本科、硕士,剑桥大学博士。

入选国家级重大人才工程,上海市“东方学者”特聘教授。

IEEESpeechandLanguageProcessingTechnicalCommittee委员(2017-2019),中国计算机学会语音对话及听觉专委会副主任,中国人工智能产业发展联盟学术和知识产权组组长。世界顶尖科学家论坛(WorldLaureatesForum)青年科学家委员会委员,全国信标委用户界面分委会委员。

发表200余篇国际论文,获得多个国际研究挑战赛冠军,担任InterSpeech、ICMI等国际会议程序委员会主席和ACL、NAACL、EMNLP等国际会议对话交互领域主席。

曾获中国人工智能学会吴文俊人工智能科学进步奖、中国计算机学会青竹奖、2016年《科学中国人》年度人物。

▍第一标签

引领人工智能领域发展的长期主义者

▍公司简介

Q:在类ChatGPT的对话机器人研发方面,公司目前有何进展?

俞凯:在技术的迭代发展上,ChatGPT本质就是一个统计类的深度学习对话通用大模型。

思必驰应该算是国内最早一批去进行统计类对话模型的产业化研究的公司之一,并且在任务型对话上也取得了很多很好的研究成绩和应用成绩。思必驰已有的语音和语义的通用基础模型,已经达到亿级参数。

在通用基础模型技术方面,目前思必驰使用千块GPU卡量级的超算资源,正在整合扩展资源,在已有算法研究和数据积累的基础上,将亿级参数模型扩展到百亿以上量级。

Q:在类ChatGPT的对话机器人研发方面,公司未来有何计划?

俞凯:现在的ChatGPT还是以文本机器人的形式来出现,我相信这只是一个开始,未来一定会往语音对话机器人去进阶,会逐渐强化对语音和文本的深度融合。在听觉感知技术方面,思必驰能够实现高精度的语音转文字和高质量的声音播报效果;能够解决在人机交互过程中面临的远距离、复杂声场的多噪音干扰、多说话人判断;满足用户对方言、外语的识别及合成的需求。

在聊天机器人方向,融合语音、文本、图像信号的多模态交互技术也有很大机会。以当前新起的虚拟数字人为例,多模态、智能化的完整解决方案可以更好地应对不同场景的复杂变化,多模态交互成为行业发展的必然趋势。在多模态及交互技术方向,思必驰公司在业界率先发布了全双工对话架构,形成了独特的闭环人机对话系统构建的底层综合技术优势,与国际主流先进技术相比,取得声纹验证、语音分离等指标的显著提升。

Q:您怎么看此次ChatGPT火出圈?可能存在哪些原因?

俞凯:ChatGPT可以算是继AlphaGo之后最大的一个里程碑进步。AlphaGo解决的是确定规则情况下的搜索和处理,而GPT在无确定语法规则前提下,部分解决了自然语言交互的问题。我们并不能把GPT简单理解为某一个特定单点技术的突破,而是人工智能发展的一个集中式突破,包括其中的对话智能技术、深度学习大模型技术、工程化能力以及大数据的整体突破。

ChatGPT爆火还有个原因,即产业应用的需求对技术的召唤得到了回应。各种智能硬件发展到现在,功能上逐渐愈发同质化,体验上也很难做出自己的特色。ChatGPT的创作能力则满足了产业应用级的需求,打开了新的空间。

Q:据路透社记者统计,AI、生成式AI、机器学习等词出现在美国科技巨头最新季财报会议中的频率是上一季度的2-6倍。巨头纷纷发力生成式AI,您认为有哪些原因

其次,生成式AI有“创作性”的天然属性:即没有绝对的正确错误之分,甚至有些仁者见仁、智者见智的意味。决策性AI的结果一旦错误,很容易被诟病;而内容创作的多样性结果,则会被欣然接受。比如,现在的ChatGPT,在对一些事实性内容的结果是不太准确的,但大家仍然能够宽容接受,因为它的对话是流畅的、回复是有效的。

Q:您预判未来随着生成式AI能力的提升,将在哪些行业快速渗透

俞凯:短期来看,关于需要基于一定背景知识的创作型产业,以及一切刚需AIGC的场景、重视SOP(标准作业程序)的行业,能够快速突破。比如智能写作、文档管理、代码生成、流程管理、甚至游戏NPC等。

俞凯:中美的差距,其实是在工程化能力、基础架构设置方面,另外还有人员经验的问题、长期信念决心的问题。

ChatGPT的核心是大模型技术和对话智能技术,大模型是指通用基础模型,当参数足够大的时候,比如当有千亿级以上的大模型的时候,不再需要额外的采取数据对各个领域进一步训练。大模型的算法是通用的,而数据量在超过千亿级之后,对比也就不再那么明显。

底层基础的算法是公开的,并且国内外一流的研究机构都有非常不错的研究成果,在算法的迭代创新方面并不存在明显差距。当数据量足够大,微不足道的数据差距影响也没那么明显。

Q:您预判,中国何时能有产品对标ChatGPT

新技术出现的本质,是为了投入应用,而不是停留在技术指标层面的对比。我很期待中国的创业公司能够基于用户需求、产品情况,去探索出更多的类GPT应用,不管是在AI辅助、智慧办公、智能客服,还是在更大层面的产业应用上。

Q:近期围绕着ChatGPT成本、法律与伦理问题有诸多讨论,您认为生成式AI面临哪些主要挑战

俞凯:大模型的训练的确是很昂贵,所以从成本来说,目前只有巨头能负担起高昂的投入,但当大规模应用起来,从长远看,大模型技术反而能够降低机器学习的成本、提高应用效率。

伴随人工智能技术发展的,便一直是“AI有所为、有所不为”的讨论。技术本身是中性的,关键是运用技术的人,应该向善、不作恶。

人工智能,说到底还是人的智能。ChatGPT可以基于上下文理解的基础上,根据对话聊天来不断完善自我学习和进化,但是这种学习进化的机制,本质上也是由人类设计的。当然,为了保证AI的良序发展,我们的确需要去嵌入一些相应的限制手段和规则约束。

Q:近期Google对外指出了AI技术发展迅速而大公司行动缓慢的原因:需要将AI融入现有的产品与服务中,符合公司的业务战略才能展开,并不能如OpenAI这样只需要研发一款最佳模型就可以。对此您怎么看

俞凯:基础AI技术创新,必须最终走入产业,结合场景应用才会变得有价值。

作为新基建一环的AI技术,不能单靠底层原始创新来推动发展,其落地应用需要结合行业认知和客户需求输出整体性、结果导向性的实用解决方案。当然,OpenAI这样的基础模型工具也具有巨大价值。基础研究和应用研究本身就属于不同范畴,商业公司更多的还是要为市场负责,要计算投产比,更倾向于投入应用型研究;但基础性研究却可以更纯粹地去看更底层的算法工具和更前瞻性的技术未来。

近几年,行业也在加强产学研一体化合作,技术型企业和高校之间展开紧密合作,以推动基础研究和应用研究的融合,例如讯飞和中科大,思必驰和上交大。毕竟人工智能发展是一个长期主义,为了将来更稳定、更强的突破,必须重视基础创新和原始创新能力,短期内看研发投入会很高,但长远看却能降低成本、提高整体效率,也有利于建立中国人自己的“AI矿场”,更好地赋能传统百业。

THE END
1.目前主流的人工智能学习框架有哪些? 支持分布式训练和 GPU 加速。 使用场景: PyTorch 在学术界和工业界都非常受欢迎,尤其适合快速迭代的研究项目和需要灵活性的生产环境。 Keras Keras 最早是作为一个独立的深度学习框架推出的,后来成为 TensorFlow 的高级 API。它以易用性著称,是初学者学习深度学习的首选。 https://blog.csdn.net/Xhz181888/article/details/144437120
2.微软开发首个AI认知训练框架训练效率提升300%人工智能根据上海市精神卫生中心与微软亚洲研究院联合研究,利用多模态大模型开发了“忆我”(ReMe)个性化认知训练框架。该框架基于Azure OpenAI服务,并在易用性、界面友好性、功能专业性和入门难易度等多个维度进行设计。 “忆我”框架支持文字、图像、语音等多种模态的输入输出,以对话机器人的形式为用户提供全新的认知训练体验https://ai.zol.com.cn/901/9016520.html
3.火箭发射:一种有效轻量网络训练框架像点击率预估这样的在线实时响应系统对响应时间要求非常严格,结构复杂,层数很深的深度模型不能很好的满足严苛的响应时间的限制。为了获得满足响应时间限制的具有优良表现的模型,我们提出了一个新型框架:训练阶段,同时训练繁简两个复杂度有明显差异的网络,简单的网络称为轻量网络(light net),复杂的网络称为助推器网络(bohttps://www.51cto.com/article/563252.html
4.字节最新复杂召回模型,提出深度检索DR框架解决超大规模推荐系统中在本文中,我们提出了一个端到端的模型框架深度检索DR。DR将所有的候选集编码到离散的隐式空间中,随着其他的网络参数一起学习。模型训练完成后的在线服务阶段,则通过beam search的方式获取最相关的候选集。实验证明了DR可以接近线性的计算复杂度,同时取得了与暴力算法相当的效果。https://cloud.tencent.com/developer/article/1698045
5.科学网—[转载]群视角下的多智能体强化学习方法综述依靠分布式训练框架IMPALA,DeepMind在开发星际争霸AlphaStar时,采用了集中式训练分布式执行的范式设计了三大类智能体对象:主智能体(main agent)为正在训练的智能体及历史数据,采用优先级虚拟自对弈的方式来选取;联盟利用者(league exploiter)能打败联盟中的所有智能体,按照有优先级虚拟自对弈的方式与全联盟的对手进行训练;https://blog.sciencenet.cn/home.php?mod=space&uid=3472670&do=blog&id=1422698
6.计算机学院七篇论文入选数据库领域顶级会议VLDB2023文章“Galvatron: Efficient Transformer Training over Multiple GPUs Using Automatic Parallelism”提出了一套面向大规模Transformer模型的自动并行训练框架。相比于现有工作,该工作主要有三方面优势:1)可以支持更多的并行维度,并且具备面对差异化的模型结构和不同集群硬件条件下的自适应调优能力;2)面对庞大的搜索空间,设计https://news.pku.edu.cn/jxky/3347dc1aea5547b28f167b4110d74f8e.htm
7.TinyMaix:超轻量级推理框架即将支持 MaixHub 在线模型训练 在Arduino ATmega328上运行 mnist demo 实例 mnist demo 0000000000000000000000000000 0000000000000000000000000000 0000000000000000000000000000 000000000077AFF9500000000000 000000000AFFFFFFD10000000000 00000000AFFFD8BFF70000000000 00000003FFD2000CF80000000000 00000004FD10007FF40000000000 00000000110000http://en.wiki.sipeed.com/news/others/tinymaix_cnx/tinymaix_cnx.html
8.2019机器之心人工智能年度奖项正式公布:关注创业先锋,聚焦产品一流科技推出的分布式深度学习训练框架 OneFlow,是完全独立自主研发的面向大模型大数据大规模的流式计算框架,目前已经达到市场产品级应用水平。并于 2019 年落地了诸多代表性案例客户,包括头部互联网公司以及高校、研究院所、人工智能园区与政务服务等行业的核心机构。案例主要覆盖海量图像识别、自然语言处理大模型应用,广告https://www.zhuanzhi.ai/document/2abfb47db9cd9ab70b4144f329e147b8
9.朱庆华宋珊珊风险视角下生成式人工智能的司法应用路径智能作为促进人类发展的“工具”价值定位,有效识别法律算法化与算法法律化的冲突和风险,从而确立风险控制模式下技术介入司法的边界,据此以技术弥补智能司法应用功能应然性发挥不足困境,探索“司法数据—法律监督—辅助办案—社会治理”多维司法应用构面,并从“伦理原则—法律规则—技术方法”三个层面完善应用场域的框架策略https://www.jfdaily.com/sgh/detail?id=1247369
10.CVPR2021有的放矢,用图像分割与像素投票找到预定义的地标点在定义了真实地标分割图和真实方向投票图后,我们可以监督所提出的 VS-Net 预测这两个图。经过训练,VS-Net 可以预测查询图像的分割图和投票图,我们可以据此建立精确的二维到三维的对应关系,以实现稳健的视觉定位。 基于原型的在线学习三元监督投票分割网络: https://www.sensetime.com/cn/technology-new-detail/41164696?categoryId=48
11.华为机器学习人工智能详解MindSporeAI计算训练推理框架实践当当乐学者图书专营店在线销售正版《深度学习与MindSpore实践 华为机器学习人工智能详解 MindSpore AI计算训练推理框架实践 卷积神经网络实现指南 深度学习实例书籍》。最新《深度学习与MindSpore实践 华为机器学习人工智能详解 MindSpore AI计算训练推理框架实践 卷积神经http://product.dangdang.com/1649993316.html