思必驰联合创始人兼首席科学家俞凯:ChatGPT是继AlphaGo之后最大的里程碑进步财专访股票频道

(原标题:思必驰联合创始人兼首席科学家俞凯:ChatGPT是继AlphaGo之后最大的里程碑进步|财专访)

本期访谈人物:

思必驰联合创始人兼首席科学家俞凯

“GPT是人工智能发展的一个集中式突破,包括对话智能技术、深度学习大模型技术、工程化能力以及大数据的整体突破。”

▍个人介绍

思必驰联合创始人兼首席科学家、上海交通大学教授。

清华大学本科、硕士,剑桥大学博士。

入选国家级重大人才工程,上海市“东方学者”特聘教授。

IEEESpeechandLanguageProcessingTechnicalCommittee委员(2017-2019),中国计算机学会语音对话及听觉专委会副主任,中国人工智能产业发展联盟学术和知识产权组组长。世界顶尖科学家论坛(WorldLaureatesForum)青年科学家委员会委员,全国信标委用户界面分委会委员。

发表200余篇国际论文,获得多个国际研究挑战赛冠军,担任InterSpeech、ICMI等国际会议程序委员会主席和ACL、NAACL、EMNLP等国际会议对话交互领域主席。

曾获中国人工智能学会吴文俊人工智能科学进步奖、中国计算机学会青竹奖、2016年《科学中国人》年度人物。

▍第一标签

引领人工智能领域发展的长期主义者

▍公司简介

Q:在类ChatGPT的对话机器人研发方面,公司目前有何进展?

俞凯:在技术的迭代发展上,ChatGPT本质就是一个统计类的深度学习对话通用大模型。

思必驰应该算是国内最早一批去进行统计类对话模型的产业化研究的公司之一,并且在任务型对话上也取得了很多很好的研究成绩和应用成绩。思必驰已有的语音和语义的通用基础模型,已经达到亿级参数。

在通用基础模型技术方面,目前思必驰使用千块GPU卡量级的超算资源,正在整合扩展资源,在已有算法研究和数据积累的基础上,将亿级参数模型扩展到百亿以上量级。

Q:在类ChatGPT的对话机器人研发方面,公司未来有何计划?

俞凯:现在的ChatGPT还是以文本机器人的形式来出现,我相信这只是一个开始,未来一定会往语音对话机器人去进阶,会逐渐强化对语音和文本的深度融合。在听觉感知技术方面,思必驰能够实现高精度的语音转文字和高质量的声音播报效果;能够解决在人机交互过程中面临的远距离、复杂声场的多噪音干扰、多说话人判断;满足用户对方言、外语的识别及合成的需求。

在聊天机器人方向,融合语音、文本、图像信号的多模态交互技术也有很大机会。以当前新起的虚拟数字人为例,多模态、智能化的完整解决方案可以更好地应对不同场景的复杂变化,多模态交互成为行业发展的必然趋势。在多模态及交互技术方向,思必驰公司在业界率先发布了全双工对话架构,形成了独特的闭环人机对话系统构建的底层综合技术优势,与国际主流先进技术相比,取得声纹验证、语音分离等指标的显著提升。

Q:您怎么看此次ChatGPT火出圈?可能存在哪些原因?

俞凯:ChatGPT可以算是继AlphaGo之后最大的一个里程碑进步。AlphaGo解决的是确定规则情况下的搜索和处理,而GPT在无确定语法规则前提下,部分解决了自然语言交互的问题。我们并不能把GPT简单理解为某一个特定单点技术的突破,而是人工智能发展的一个集中式突破,包括其中的对话智能技术、深度学习大模型技术、工程化能力以及大数据的整体突破。

ChatGPT爆火还有个原因,即产业应用的需求对技术的召唤得到了回应。各种智能硬件发展到现在,功能上逐渐愈发同质化,体验上也很难做出自己的特色。ChatGPT的创作能力则满足了产业应用级的需求,打开了新的空间。

Q:据路透社记者统计,AI、生成式AI、机器学习等词出现在美国科技巨头最新季财报会议中的频率是上一季度的2-6倍。巨头纷纷发力生成式AI,您认为有哪些原因

其次,生成式AI有“创作性”的天然属性:即没有绝对的正确错误之分,甚至有些仁者见仁、智者见智的意味。决策性AI的结果一旦错误,很容易被诟病;而内容创作的多样性结果,则会被欣然接受。比如,现在的ChatGPT,在对一些事实性内容的结果是不太准确的,但大家仍然能够宽容接受,因为它的对话是流畅的、回复是有效的。

Q:您预判未来随着生成式AI能力的提升,将在哪些行业快速渗透

俞凯:短期来看,关于需要基于一定背景知识的创作型产业,以及一切刚需AIGC的场景、重视SOP(标准作业程序)的行业,能够快速突破。比如智能写作、文档管理、代码生成、流程管理、甚至游戏NPC等。

俞凯:中美的差距,其实是在工程化能力、基础架构设置方面,另外还有人员经验的问题、长期信念决心的问题。

ChatGPT的核心是大模型技术和对话智能技术,大模型是指通用基础模型,当参数足够大的时候,比如当有千亿级以上的大模型的时候,不再需要额外的采取数据对各个领域进一步训练。大模型的算法是通用的,而数据量在超过千亿级之后,对比也就不再那么明显。

底层基础的算法是公开的,并且国内外一流的研究机构都有非常不错的研究成果,在算法的迭代创新方面并不存在明显差距。当数据量足够大,微不足道的数据差距影响也没那么明显。

Q:您预判,中国何时能有产品对标ChatGPT

新技术出现的本质,是为了投入应用,而不是停留在技术指标层面的对比。我很期待中国的创业公司能够基于用户需求、产品情况,去探索出更多的类GPT应用,不管是在AI辅助、智慧办公、智能客服,还是在更大层面的产业应用上。

Q:近期围绕着ChatGPT成本、法律与伦理问题有诸多讨论,您认为生成式AI面临哪些主要挑战

俞凯:大模型的训练的确是很昂贵,所以从成本来说,目前只有巨头能负担起高昂的投入,但当大规模应用起来,从长远看,大模型技术反而能够降低机器学习的成本、提高应用效率。

伴随人工智能技术发展的,便一直是“AI有所为、有所不为”的讨论。技术本身是中性的,关键是运用技术的人,应该向善、不作恶。

人工智能,说到底还是人的智能。ChatGPT可以基于上下文理解的基础上,根据对话聊天来不断完善自我学习和进化,但是这种学习进化的机制,本质上也是由人类设计的。当然,为了保证AI的良序发展,我们的确需要去嵌入一些相应的限制手段和规则约束。

Q:近期Google对外指出了AI技术发展迅速而大公司行动缓慢的原因:需要将AI融入现有的产品与服务中,符合公司的业务战略才能展开,并不能如OpenAI这样只需要研发一款最佳模型就可以。对此您怎么看

俞凯:基础AI技术创新,必须最终走入产业,结合场景应用才会变得有价值。

作为新基建一环的AI技术,不能单靠底层原始创新来推动发展,其落地应用需要结合行业认知和客户需求输出整体性、结果导向性的实用解决方案。当然,OpenAI这样的基础模型工具也具有巨大价值。基础研究和应用研究本身就属于不同范畴,商业公司更多的还是要为市场负责,要计算投产比,更倾向于投入应用型研究;但基础性研究却可以更纯粹地去看更底层的算法工具和更前瞻性的技术未来。

近几年,行业也在加强产学研一体化合作,技术型企业和高校之间展开紧密合作,以推动基础研究和应用研究的融合,例如讯飞和中科大,思必驰和上交大。毕竟人工智能发展是一个长期主义,为了将来更稳定、更强的突破,必须重视基础创新和原始创新能力,短期内看研发投入会很高,但长远看却能降低成本、提高整体效率,也有利于建立中国人自己的“AI矿场”,更好地赋能传统百业。

THE END
1.学堂在线学堂在线是清华大学于2013年10月发起建立的慕课平台,是教育部在线教育研究中心的研究交流和成果应用平台,是国家2016年首批双创示范基地项目,是中国高等教育学会产教融合研究分会副秘书长单位,也是联合国教科文组织(UNESCO)国际工程教育中心(ICEE)的在线教育平台。目https://next.xuetangx.com/search?query=%E6%95%B0%E5%80%BC%E5%88%86%E6%9E%90%E2%80%98%E2%80%99
2.国家高等教育智慧教育平台学堂在线1万+人选课25 机器学习入门 周红 本课程为是一门系统、科学、专业的机器学习普及课程。既包含传统的机器学习内容,也包括深度学习的内容。涵盖了机器学习和深度学习的基础理论、算法原理、数据处理技术以及实际案例分析等内容,学生可以全面系统地学习机器学习的各个方面,为日后的学习和工作打下坚实的基础。1. https://www.chinaooc.com.cn/search?school=%E6%88%90%E9%83%BD%E9%94%A6%E5%9F%8E%E5%AD%A6%E9%99%A2
3.500多个全球及各国重要数据网站集锦(老素材,而且里面的内容需要数据网 耶鲁大学社会科学数据库http://statlab.stat.yale.edu/SSDA/ssda.html 美国统计署http://www.census.gov/ 美国劳动统计署http://www.bls.gov/ (美国)健康统计中心http://www.cdc.gov/nchs/default.htm (美国)社会保障管理局http://www.ssa.gov/ https://www.shangyexinzhi.com/article/2689667.html
4.seo综合信息www.xuetangx.comTDK查询结果学堂在线 - 精品在线课程学习平台 关键词(Keywords) 398个字符 (一般不超过100字符) 学堂在线 - 国家精品在线课程学习平台,在线学习,在线教育,在线直播,在线课程,网络公开课,视频公开课,大学公开课,计算机、人工智能、数据科学、英语、商业、经济学、训练营、邓俊辉数据结构、清华认证、经济学、同等学历、微学位、名校http://titantion.com/tools/seo-lookup/www.xuetangx.com
5.经济学网站大全数据网 18.耶鲁大学社会科学数据http://statlab.stat.yale.edu/SSDA/ssda.html 19.美国统计署http://www.census.gov/ 20.美国劳动统计署http://www.bls.gov/ 21.(美国)健康统计中心http://www.cdc.gov/nchs/default.htm 22.(美国)社会保障管理http://www.ssa.gov/ https://m.douban.com/note/72892550
6.北京科技大学图书馆今年读书文化节的活动有40余项,全部为线上活动,分为阅读推广、数据库大讲堂、专利讲堂、竞赛答题、资源推广、观影活动、文献需求与建设等七大类。在第25个世界读书日当天(4月23日)图书馆将在线上举办丰富多彩的活动,如“阅读照进现实,你我共读《鼠疫》”活动、与优谷朗读合作的“‘英雄中国’名家线上朗诵会”等http://lib.ustb.edu.cn/info/81498.jspx
7.爱思益求职AceOffer专注大学生名企求职易观数据沙龙 11 nov. 2017 “在线学堂Ace academy”上线 09 sep. 2017 首届“爱思益-赢在校园Offer挑战赛”在全国211、985近百所高校中进行 09 sep. 2017 爱思益研究院正式成立;“V计划”二次升级 08 aug. 2017 爱思益求职被沪江网校评为CCTalk认证机构 06 jun. 2017 爱思益求职CEO孙静博参加《合伙https://www.aceoffer.com/m/events/index.html
8.80个免费学习的网站,让你偷偷变强大!提供各类文档的在线预览和免费下载。 7、国家哲学社会科学文献中心 资源丰富,免费下载论文。 8、中国统计网 提供数据分析行业资讯和技能学习资料。 9、万方数据库 与中国知网齐名的专业学术数据库。 10、艾瑞网 免费的行业报告,可作为论文参考。 技能学习类 https://www.jianshu.com/p/2f180e6a36c3
9.这里有一份清华大学数据科学学习资料,请注意查收!数据科学认证证书项目中的课程均以线上录播课形式进行,辅以讨论区答疑+直播课答疑,配合专门的习题及测试内容,最大化保证学习效果。 6门课程全部支持PC端(访问:www.xuetangx.com)和手机端(下载学堂在线APP)学习;其中学堂在线APP支持课程缓存,可以离线学习。 https://cloud.tencent.com/developer/article/1349561
10.java毕业设计选题大全,题目仅供参考基于springboot在线装修管理系统 基于ssm jsp档案管理系统 基于ssm+vue吃了吗管理系统 基于springboot小学家校一体“作业帮”管理平台 SSM+线上新冠疫苗管理系统 springboot大学生智能消费记账系统的设计与实现205 ssm三省学堂—学习辅助系统和论文答辩PPT723 【787】基于ssm飞机票预定购票系统 https://blog.csdn.net/weixin_46437112/article/details/143503349
11.北京Python编程培训北京计算机考研培训北京学堂在线为学员设置Python编程培训班,主要针对报名计算机考研的学员设置专业能力提升课,课程分为计算机科学和Python编程导论及计算思维和数据科学导论两部分授课,帮助从未接触过计算机科学或编程的人们计算思维、编写程序解决问题。 课程简介: “ 本课程是两部分课程的上半部分:即计算机科学和Python编程导论及计算思维http://www.tupdt.cn/course/2824.html
12.将所有的carData数据存放到csv文件数据科学与大数据分析专业 计算机科学与技术专业的学生 信息管理与信息系统专业的学生 统计学专业的学生 新能源汽车行业的从业者 数据分析师和数据科学家 IT项目经理和产品经理 你将会学到 掌握大数据实战项目 掌握python爬虫技术 掌握Django的MVT模式 掌握vue可视化技术 掌握pip安装模块指令 掌握数仓建模技术 掌握大数据分https://edu.51cto.com/lesson/1094566.html
13.四川大学《医学数据科学概论》线上慕课课程正式开课该课程目前已在“全国医学专业学位研究生教育指导委员会医药学研究生在线教育平台”和“学堂在线”两个平台上线。 本课程的目标是打开医学生大数据视角,了解医学大数据研究进展,初步培养医理工交叉研究的基本技能。 本课程内容包括四个板块:绪论;方法篇;应用篇;数据篇。课程内容涵盖医学数据库建设与数据安全;数据分析常https://www.wchscu.cn/dsj/news/science/75478.html
14.学堂在线科学研究方法与论文写作(复旦)期末考试答案.docx学堂在线科学研究方法与论文写作(复旦)期末考试答案.docx 关闭预览 想预览更多内容,点击免费在线预览全文 免费在线预览全文 青春须早为,岂能长少年。 PAGE2 / NUMPAGES2 科学研究方法与论文写作(复旦) 解忧书店 JieYouBookshop 期末考试 1.单选题?(1分) 这门课程包含的三个模块核心内容是什么?( ) A?学习论文发https://max.book118.com/html/2022/0114/6241210143004113.shtm
15.学堂在线课程(TWX课程)20202021学年春学期开课清单TWXGEC0016 走进性科学 江剑平 福建师范大学 TWXGEC0017 职业探索与选择 金蕾莅 清华大学 TWXGEC0018TWXGEC0025 决胜移动互联网:创业者的商业模式课 沈拓 学堂在线 TWXGEC0026 创业成功第一步:写好商业TWXGEC0043 数据结构 邓俊辉 清华大学 TWXGEC0044 庄子哲学导读 陈怡 清华大学 TWXGEC0045 《论语》https://jwc.hbu.cn/info/1046/1449.htm
16.数据科学人工智能必备数学基础数据科学人工智能-必备数学基础 时长19 小时· 评分5.0 讲师信息 唐宇迪 讲师 同济大学硕士,华东理工大学博士,精通机器学习算法,主攻计算机视觉方向,著有《跟着迪哥学Python数据分析与机器学习实战》,线上选课学员30W+,累计开发课程50余门覆盖人工智能热门方向。联通,移动,中信等公司特邀企业培训导师,全国高校教师培训讲师https://developer.huawei.com/consumer/cn/training/course/video/C101645151660495658
17.山西省教育厅关于做好因疫情防控延迟开学期间高校教学和管理工作的通学堂在线平台。将为全省高校免费提供1400余门在线课程,课程覆盖12大门类83个系列,以及独家授权的清华大学所有慕课课程,并免费为各大高校提供技术支持、教学数据、教师培训等平台服务,免费为各高校提供雨课堂技术支持和相关培训服务,协助各高校通过雨课堂开展直播课堂教学。 https://www.thepaper.cn/newsDetail_forward_5748562
18.最新!东莞市中小学幼儿园居家学生线上教育指引为加强疫情防控工作,更好地保障全体师生生命安全和身体健康,支持疫情期间教师停课不停教、学生停课不停学,按照“提高站位,强化保障,按需供给,专业规范,科学稳妥”的原则,现对做好线上教育工作提出以下指引,供各有关单位参照执行。一、更新观念,统一思想 http://www.dg.gov.cn/ztzllm/yqfk/dgzxd/content/mpost_3768736.html
19.数据科学LTD营销枢纽云(软件) 运营学堂 LTD建站教程 LTD编辑器建站与网页制作教程 营销枢纽系统功能教程 功能设置操作视频,快速掌握新技巧 直播课程 系统功能、营销干货视频讲解 全视频官网Vlog 基于营销SaaS官微中心一个后台的数据,将里面的视频内容,通过全视频网站的方式进行展示 帮助中心 为您整理出可能遇到的常见问题并解答 客户中心 LTDhttps://ltd.com/search?types=article&keywords=%E6%95%B0%E6%8D%AE%E7%A7%91%E5%AD%A6
20.免费课程网站有哪些免费自我提升的网站→MAIGOO知识3、中国教育在线开放资源平台 包括哈佛大学、耶鲁大学、斯坦福大学、复旦大学、浙江大学等国内外知名高校开放课程。 http://www.class.cn/index/open 4、学堂在线 免费公开的在线课程平台,有国内外一流名校开设的免费网络学习课程。 http://www.xuetangx.com/ https://www.maigoo.com/goomai/265436.html