开通VIP,畅享免费电子书等14项超值服
首页
好书
留言交流
下载APP
联系客服
2023.02.27浙江
2021年,腾讯AILab迈入第5个年头。作为一个尚属「年轻」的实验室,在未知而广袤的科学世界中,我们还有很长的路要走。
回望过去这一年,似乎并不特殊:我们依然在坚持「学术有影响,工业有产出」的理念,在踏实科研、创新应用两个方向,稳步向「MakeAIEverywhere」的愿景迈进。
同时,我们又确实看到一些特殊之处:疫情让日常生活的数字化需求陡然提升,也让AI有了更多用武之地。五年的积淀让我们能从事更深入、更前沿的研究,并在与学界和工业界的合作交流中,发挥企业视角的影响力;同时,我们的技术能够给更多现实问题提供解决方案,以有价值的产出让生活变得更美好。
下面首先将介绍2021年腾讯AILab在虚实集成世界、虚拟人、机器人三大研究方向上的重要探索,然后会分医疗、医药、游戏、内容等主题总结这一年的行业应用成果,最后会概述这一年在不同研究方向上的学术进展。
一、加速迈向虚实集成世界:
虚拟人及机器人前沿研究
2021年最火热的,莫过于对下一代互联网,也被称为「全真互联」这一概念的热烈讨论。我们看到,世界朝着数字化和虚拟化方向加速迈进,线上和线下更全面地一体化,实体和电子方式更深度地融合,从而把人、信息、物、服务、制造紧密连接在一起。
虚拟人与机器人是虚实集成世界中的两大重要组成,下面将介绍实验室今年在这两方面的进展。
虚拟人:多模态AI技术驱动的虚拟世界新伙伴
腾讯AILab自2017年起开始虚拟人研究,目标是从语音、口型、表情到全身动作都实现高度拟人,并掌握听、说、读、写、想等全方位技能。团队将计算机视觉、语音/歌声合成和转换、图像/视频合成和迁移、自然语言理解等多模态的AI能力和技术融为一体,生成清晰、流畅、高质的可交互内容,未来将逐步探索虚拟人在虚拟偶像、虚拟助理、在线教育、数字内容生成等领域的应用。
诞生于2020年的AI虚拟人艾灵,是业内首个由AI驱动的虚拟偶像。经过一年「学习」,她新掌握了不少国风才艺:
这套多模态技术系统框架适用于不同风格的虚拟人。在今年11月的数字生态大会,超写实3D虚拟人「小志」首度亮相,可以通过输入文本来合成语音「说话」,还能基于文本或语音自动生成准确的口型及生动自然的表情。
机器人家族「上新」:移动能力升级,探索工业场景
自2018年在深圳建立以来,腾讯RoboticsX机器人实验室持续与腾讯AILab携手推进「AI机器人」发展。继2020年推出四足机器人Jamoca后,机器人实验室今年发布了3项重要进展。
二、行业应用向善
医疗、医药、游戏到内容
作为AI科技的前沿探索者,腾讯AILab深知AI变革世界的潜力。因此,腾讯AILab在积极探索最前沿的AI技术的同时,也致力于将这样的潜力转化为切实可行的应用,以更好地为世界带来正向的改变。
AI医疗:初步落地临床,提升病理阅片效率
AILab参与开发了迈瑞血细胞形态分析系统算法,细胞分析的多中心临床研究试验已在全国多家顶级三甲医院开展,算法性能比传统设备显著优越。宫颈癌AI也在与国内试剂厂商合作,搭载其技术的宫颈细胞AI辅助帮教系统已在全国800多家各级医院参与线上教学,累计分析超过120万次,算法准确度远超同类竞品。
应用侧,由腾讯AILab医疗中心提供底层技术的觅影病理云平台(病理影像存储与传输系统软件)也于今年获得国家二类医疗器械许可证,落地应用于临床诊疗场景,为医院病理科室提供图像管理、浏览、分析等数字病理服务,并具备病患数据上云、远程精准诊疗和多专家云上会诊等功能,为将推动AI医疗普惠至偏远地区打下坚实基础。
AI医药:深入前沿研究,增强平台能力
在诊疗之后,如何快速研发出治疗疾病的药物,也是AI可发力的方向。2020年7月,腾讯AILab发布了首个AI驱动的药物发现平台「云深」,整合了腾讯AILab和腾讯云在前沿算法、优化数据库以及计算资源上的优势,提供覆盖临床前新药发现流程的五大模块,包括蛋白质结构预测、虚拟筛选、分子设计/优化、ADMET属性预测及合成路线规划。
今年平台取得2项新进展:
利用GraphGMVAE进行骨架跃迁,该项成果发表于行业知名期刊ACSOmega上
AI游戏:拓展能力边界,距现实更近一步
计算机科学家们一直对「AI游戏」保持热情,希望运用可自由定制、监测的游戏环境,解决AI算法测试困难、场景稀缺的问题,提升AI算法处理复杂问题的能力。
「AI游戏」正是腾讯AILab长期深耕的领域。在过往围棋、MOBA等游戏环境中取得的成果之上,今年团队继续深耕,让AI的足迹走向了麻将、足球、3D开放世界(Minecraft)、即时战略(RTS)等多类游戏环境,不断积累国际一流的学术成果,还在行业全链条应用和生态建设上迈出了坚实步伐。
棋牌拥有简单清晰的规则,清晰的胜负判定条件和行动准则,并在公众认知中被认为代表了人类的智力水平。在今年,实验室棋牌类AI「绝艺」的能力,从传统强项围棋(完全信息博弈)到麻将(非完全信息博弈)都不断提升。
为训练AI的决策智能水平,腾讯AILab自2018年起在「王者荣耀」MOBA(多人在线战术竞技)环境中训练「绝悟」AI。今年它的能力迎来了进一步提升。
「绝悟」团队(X3)获得历史最高分。完整榜单详见:
即时战略(RTS)游戏一直被认为是竞技性和策略性方面最具有挑战的一类游戏,其更为巨大的观测、动作以及策略空间,对训练高水准的AI智能体带来了非常大的困难。
在今年4月,通过之前积累的经验以及吸收AlphaStar中的优势技术,实验室提出了TStarBot-X:在使用比AlphaStar算力资源少1-2个数量级(数据消耗速度为AlphaStar的1/30,数据生成速度是AlphaStar的1/73),且和人类操作可比拟的情况下,TStarBot-X在虫族对虫族对战测试中击败国服和韩服宗师级别人类选手。
其背后的强化学习技术进一步提升,包括高效的联盟训练方式(EfficientLeagueTraining),简洁规则引导的策略搜索方式(Rule-guidedPolicySearch)、以及差异增大的策略优化算法(Divergence-ArgumentedPolicyOptimization)。
除了攻克更多游戏环境,「绝悟」团队还初步尝试将AI能力应用于游戏开发和运营流程中。7月,腾讯AILab在全球游戏行业顶级会议「2021游戏开发者大会」(GDC)亮相,全面展示了以「绝悟」为代表的AI技术在游戏产业全链路中的研究应用能力。
具体而言,AI在游戏全链路的研究和应用包括两部分:横向上,覆盖游戏制作、运营及周边生态全生命周期,提升游戏品质,丰富玩家体验;在纵向上,AI正拓展更多元的游戏品类,如围棋、麻将等棋牌类,足球等体育类,以及MOBA、FPS(第一人称射击游戏)等复杂策略类游戏。
为帮助AI学界克服算法、数据、算力、场景等四大要素的挑战,腾讯AILab与王者荣耀于2019年宣布共建「开悟」AI开放研究平台,依托于腾讯太极机器学习平台,基于双方在算法、脱敏数据、算力方面的核心优势,为学术研究人员和算法开发者开放的国内领先、国际一流研究与应用探索平台。
这是「开悟」举办高校大赛的第二年,作为业内首个基于MOBA游戏场景的AI开放平台,它为学生提供的多智能体复杂策略研究环境,其科研及教育价值已获得社会各界的全面认可:
AI内容:技术融合场景,提供更好的内容服务
◆翻译
腾讯交互翻译TranSmart是目前业界领先的「以人机交互为核心」的机器翻译产品,覆盖按键到句子、术语到存量语料的人工翻译全流程支持,并在复杂文件格式解析与带标记文档翻译等方面表现突出。
经过四年技术积累与一年商业化探索,TranSmart已支持Memsource、腾讯自选股、腾讯音乐娱乐集团(TME)、华泰证券、阅文集团、腾讯云官网等垂直领域头部客户,提供的服务包括交互翻译、文件翻译、自动翻译、定制引擎等,并可支持计算机辅助翻译(CAT)软件对接,辅助全球众多译员完成严肃翻译工作。
今年TranSmart继承和发展了交互翻译的技术概念,提升复杂场景的译文干预能力,相较于通用自动翻译产品而言,量身定制的人机交互特性全方位赋能人工翻译过程:
◆搜索与推荐
三、前沿学术研究与合作
同时,我们一直秉承开放合作的理念,与全球高校和研究机构共同前进。2021年,「腾讯AILab犀牛鸟专项研究计划」完成第4年度闭环,共发表高水平论文近50篇,多项成果已应用于AI药物发现平台「云深」、自然语言理解系统「TexSmart」、智能辅助翻译「TranSmart」和腾讯会议等产品。
机器学习
机器学习是AI的核心过程和标志性能力,近些年的AI发展热潮正是源自深度学习这种机器学习技术的突破。2021年,腾讯AILab在多个机器学习方向上都得到了重要的研究成果。
◆深度图学习
实验室该领域的研究应用上取得了丰硕的成果。针对图神经网络的鲁棒性问题,所研发的GCN-LFR框架[1],显著提升了不同图神经网络模型的稳定性和鲁棒性。在图神经网络的可解释性方面,基于信息瓶颈论的子图识别网络算法[2,3],为图的可解释性提供有效的方法。腾讯AILab还创新地提出了分层图胶囊网络,来联合学习节点嵌入并自动提取图层次结构[4]。针对图神经网络的自蒸馏,研发的基于邻居差异率(NDR)的方法,显著提升了图神经网络的训练效率和泛化能力[5]。在图神经网络的应用方面,还探索了图神经网络在组合优化,图论领域,以及图的节点匹配上的应用[6,7,8,9]。
此外,在2021年的TheWebCof会议上,腾讯AILab、清华大学、香港中文大学等机构联合组织一场图神经网络Tutorial[10]。详见:
◆自动化机器学习
在自动化机器学习中的元学习和网络结构搜索等研究领域,腾讯AILab也取得了诸多成果。
在研究方面,针对元学习中的过拟合问题,AILab所提出的MetaMix算法[11],从样本输入特征/标签和网络隐含层特征两个层面进行任务增广,从而提高元学习算法的泛化能力。在提升自动超参数优化的搜索效率方面,TNP算法[12]基于神经过程方法,将过往在其他数据集上进行的超参数搜索过程,迁移到当前任务上,以降低超参数搜索过程中试错次数,提升优化效率。
在实际应用方面,针对药物活性预测中不同靶点数据差异性的问题,AILab提出了一个基于相似性的功能区块化的元学习模型[13],根据靶点活性预测模型的相似度建模预测模型,提高了不同靶点预测任务在元学习算法中的利用程度。此外,针对在线增量数据的应用场景,AILab提出了AdaXpert网络结构搜索算法[14],可以根据数据分布差异情况自行确定是否对网络结构进行调整,从而平衡模型的预测性能和效率。
自然语言处理
在自然语言处理(NLP)领域,一方面BERT、GPT等基于Transformer的大规模神经网络语言模型的出现带来了深刻影响;另一方面,大规模语言模型并没有从根本上解决AI在语言理解上能力低下的问题,NLP领域仍需持续研究投入和更多技术突破。腾讯AILab在自然语言处理方向的目标是开展NLP基础研发工作,促进NLP技术的发展,提升人类的生活便捷性和工作效率。
在前沿研究上,NLP团队提出基于二分图匹配的词典语义对齐算法,将分散在不同词典中语义知识融合成为一个整体,并利用迁移学习框架,训练通用精确语义模型,使其根据上下文语境自动化确定一个多义词在句中的精确含义,提升机器理解力[16]。团队还提出了一种新型的句子切分模型[17],及一种简单有效的方法来解决命名实体标注遗漏问题[18]。在细粒度实体分类任务上,团队提出了一种利用多信息源的融合模型[19],及一种不依赖知识图谱产生训练数据而又具有优异性能的实体分类方法[20]。
在文本生成和对话方面,我们持续探索多轮对话、对话知识理解、可控文本生成等核心问题,提出基于新闻知识的自然对话研究并发布NaturalConv数据集[21],提出过生成和打分算法显著提升抽取型摘要模型效果[22],并利用UnlikelihoodTraining在低资源场景下训练人设一致的对话系统[23],基于层级式课程学习和稠密向量检索的多轮对话系统[24],提出多种基于检索结果引导的可控文本生成方法[25],以及一种基于预训练的非自回归文本生成模型[26]。同时,我们研究如何有效公平地评价度量各种生成任务中生成文本的质量[27],如何普适性地理解数据增强在文本生成任务中的作用[28]等重要问题。
在自动机器翻译方面,我们专注于核心翻译问题,致力于改善翻译系统的效果和易用性。我们继续深耕如何更高效利用翻译数据[29],并探索预训练[30]、非自回归模型[31]等机器翻译领域的前沿方向。受益于此,我们的自动翻译(中英和英中)系统准确度继续保持国内前列,在国际翻译比赛WMT2021中也取得了5项第一的成绩。
在交互翻译方面,我们聚焦于翻译记忆[32]和翻译输入法[33]。我们提出了一种快速且准确的融合翻译记忆方法;特别地,我们提出的基于单语的翻译记忆模型获得了ACL2021杰出论文奖。另外,我们从实际应用中抽象出了一种词级别翻译提示任务[33];基于该任务,我们发起了第一个面向交互翻译的SharedTask,它将作为一个新赛道在明年的WMT2022上亮相。
视觉计算
数字经济的高速发展和虚实结合的业界应用对于视觉计算技术提出了新的挑战。首先,视觉理解面临着海量无标注数据,如何有效利用这些数据来优化视觉理解模型成为一个研究热点。其次,作为人机交互的新模式,如何快速生成高清、超写实、可编辑、易控的虚拟人形象成为工业应用的瓶颈。最后,大规模3D场景重建和动态场景的4D捕捉和建模成为了构建虚拟世界的支撑技术。
2021年,视觉顶级期刊和会议,包括T-PAMI、TIP、ICCV、CVPR和NeurIPS等共接收了35篇腾讯AILab论文,其中既有视觉理解的底层网络结构探索,也有图像和视频编辑的新方法,还有跨模态的从文字生成图像的新尝试,以及涉及AI安全的对抗攻击新成果。
基于美学的外插图像智能裁剪[34]
跨模态可控图像生成[35]
语音
语音识别上,相对安静环境和高质量识别基本解决,但实际应用中,复杂场景中噪声和多个干扰人声同时存在(鸡尾酒会问题),及人们自由聊天口语化表达风格多样复杂问题依然存在。语音合成上,高度的自然度、表现力、定制化、可控制等能力仍需努力。
在2021年,信号处理顶级会议ICASSP接收了实验室的12篇论文,ASRU接收4篇,而语音领域顶级会议Interspeech则接收了9篇论文,其中既有在语音前沿技术方向的进一步探索,也包含一些理论研究和分析,同时还有在科技向善与文化遗产保护等方面的应用成果。
在研究中,实验室为解决鸡尾酒会问题提出了多项开拓性的解决策略。
一是围绕多通道语音前处理系统,在基础算法方面提出全新时域GeneralizedWienerFilter波束形成方法[39],在分离/增强任务中较频域波束成形方法在相同windowsize、同等模型复杂度下SI-SDR绝对性能提升3.0dB,相对性能提升29.7%;在去年提出的全新基于递归神经网络的波束形成方法[40],突破传统波束形成技术效果的基础上,今年进一步优化了模型结构[41],并且围绕多人同时讲话这样一个最具挑战的任务上,为了提高应用效率实现了具有多说话人方向特征的多通道输入和多说话人语音分离输出(MIMO)模型[42],把原本分别进行多路目标语音的处理的操作合并在一个模型之中,大幅降低计算复杂度,达到流式,实时,可部署。
传统前端系统从整个系统层面来看,存在着模块相对独立、难以联合调优、误差级联影响大的问题,今年实验室提出构建一套集合全链路,包括回声消除、声源定位、语音分离、去混响及波束增强等多个功能的神经网络模型方案,能克服模块相对独立的缺陷,实现场景深度定制,多模块自动联合优化。
二是在多模态系统方面,在过去从视觉模态中提取人脸,方位,唇动,声纹等信息,将不同模态信息流通过神经网络模型自动整合,构建多模态语音分离增强与识别系统的基础上,今年提出将空间定位从2D扩展到3D,引入了俯仰角高度信息,3D特征利用更精确的球面波传播模型,同时还引入与麦克风的深度距离信息,大大突破原有空间分辨精度,实现同一方向的两个说话人,距离不同时也可区分,在高强度噪声、更多说话人的复杂场景下的稳定优越性能。
在语音识别方向,腾讯AILab首次提出将动态神经网络思想引入语音识别模型中,提出基于Mixture-of-Expert结构的语音识别模型SpeechMoE[43]和SpeechMoE2[44],针对语音识别任务设计优化了模型多个细节,包括稀疏化,路由损失,训练策略。在模型训练和应用过程中,模型可通过局部及全局信息自动选取网络中的部分路径进行计算,模型容量相对传统模型可以扩大一个数量级,同时又保证在应用时计算复杂度不增加。能够更好的处理语音中存在的各种维度的包括噪声,口音,远近场等复杂变化,最新实验的conformer-moe模型相比业界最多应用的conformer这类网络结构基础上可进一步获得相对10%的提升。另外,AILab也提出了利用LattceFreeMMIloss从训练到解码改进了基于RNN-T端到端识别系统[45],在中文标准BenchmarkAIshell1和AIshell2上均取得超越SOTA的性能。
在语音合成方向,在原有DurIAN合成系统基础上,探索新的生成模型方案[46],提高语音合成的表现力和可控性。增加对语音音韵、拖音及重音等特征的引入建模,进一步显著提升语音合成系统可控性及表现力,实验室配合王者电竞语音合成应用与游戏解说任务。今年还首次实现语音合成在游戏内素材生成场景上应用突破。通过进一步对语音转换中基于GAN的声码器进行改进,效果达到游戏内素材水平,转换后语音MOS分数逼近配音录制语音(4.62vs4.70)。在生成模型理论研究方面,提出全新基于Diffusion的生成模型BilateralDenoisingDiffusion[47],与基线系统DiffWave相比在生成语音MOS相当情况下Denoise过程步数大大缩减。在个性化定制任务方面,在业内较早提出将meta-learning思想引入小数据量定制任务中[48],通过在训练过程中将向训练单位由一条条音频扩展为一项项定制任务,模型可更快达到定制效果,定制周期显著缩短。
四、总结与展望
在即将过去的2021年,人类的生活方式持续改变,对虚拟的世界多一份期待,对现实的美好多一份珍惜。唯一不变的是,前沿科学依然是驱动人类前行的主要动力。
在这一年中,腾讯AILab以虚实集成世界为目标,持续投入虚拟人、医疗、医药、游戏、内容、机器人等多个领域的研究与应用实践,并取得了不少令人鼓舞的成果,为「MakeAIEverywhere」,用科技创造美好世界而做出切实的努力。
相比起我们所追寻的目标,5年只是一个小小的起点。在未来的1年,乃至5年、10年,我们将持续攀登学术的高峰,同时积极拓展AI技术的更多行业应用,面对未来更多的未知挑战,以开放的心态与各界伙伴共同成长。