朱松纯教授团队提出通用人工智能测试评级的标准与平台TongTest

人类正在迈入智能时代,其区别于信息时代的显著特征是大量通用智能体的出现,而通用人工智能作为引领和推动智能时代发展的核心科技,是目前及未来国际人工智能研究的焦点。11月1日,首届人工智能安全峰会于英国召开,围绕人工智能的风险管控与治理展开激烈讨论,通用人工智能将对未来世界政治经济格局产生重大而深远的影响。

2023年11月30日,光明日报报道《为通用人工智能搭建新测试体系》

通用人工智能的关键在于“通用”,目标是让智能体具有自主的感知、认知、决策、学习、执行和社会协作能力,符合人类情感、伦理与道德观念,能够胜任不同领域任务。然而,目前就如何刻画和评估通用人工智能这一问题,仍然缺乏更深入的系统研究。

图示UV双系统理论

通用人工智能的3个基本特征

近期的基础模型显示出在特定领域内的泛化能力,如自然语言处理(NLP)领域的GPT-4、图像分割领域的“分割一切”模型(SAM),以及自然语言处理和机器人领域的PaLM-E等。但是,对于基础模型中是否出现了类似人类的特征,如心智理论(ToM)或认知能力,还存在争议。研究团队提出,通用人工智能应具备3个基本特征:实现无限任务、自主生成任务、价值驱动且能实现价值对齐。

实现无限任务

泛化能力是评价模型优劣的最关键指标之一。传统的专用人工智能的通用性主要体现在数据泛化,即希望模型经过训练后应用于测试集或新数据集时依然能够表现良好;而通用人工智能的“通用”强调的则是任务泛化。当前,随着基础模型的发展,大模型的设计逐渐由处理专一任务转向处理多任务,以实现任务泛化。任务集合的量变虽然可以通过人为叠加任务数量的方式来实现,但这却不是通用人工智能所需“通用”的题中之义,因为新任务会不断涌现,无法被完全定义。那么,一个系统需要多少任务才能被视为“通用”呢?假使100项任务还不够,101项任务又怎么能被认为是足够了呢!以此类推,如果N项任务不能构成“通用”智能,N+1项任务自然也不能。因此,一个智能体需要完成无穷无尽的任务才能称之为“通用”。换句话说,完成有限数量的人为定义的任务不能作为衡量通用人工智能的标准,真正的标准应该是在复杂环境中处理无限多项没有预先设定的任务[2]。

图示机器人完成系列任务[3]

自主生成任务

为了评估通用智能体能否生成无限任务,我们需要一个适合的评估环境。如果评估环境与目标应用场景的差异过大,评估结果的参考意义必将会大打折扣,这就好像温室里的草木恐怕很难经受得住大自然的洗礼。因此,研究团队主张通用人工智能的评估应当在具备DEPSI的环境中开展,而人类日常生活就是一种很典型的DEPSI环境,即以具身形式体验动态的物理交互和社会交互。

图示真实的人类社会物理和社交场景

图示人在虚拟环境中演示真实世界中的三仙归洞魔术

价值驱动和对齐

为了让智能体能够自主生成并完成符合人类需求的任务,一套合适的价值系统至关重要。这一系统必须融入人类的基本价值观,使智能体有能力学习和理解人类的价值偏好,并最终实现与人类价值的对齐。在心理学领域对人类价值观的研究成果颇丰,例如,著名的马斯洛需求层次理论,其从基础的生理需求扩展到最高层次的超越需求,详尽地划分了人类的需求层次;再如,生存、相互关系、成长三核心需要理论(ERG理论),以及罗克奇价值观调查表等。

图示以经典的马斯洛需求层次为代表的价值观

综合经典的价值理论和智能体与人类价值的一致性要求,智能体的价值系统理应涵盖从基础的生存需求到中层的情感和社会价值,乃至更高层次的集体价值。价值不仅应是驱动通用人工智能自主任务生成的根本内驱力,也是保障通用人工智能对人类社会安全的关键体系。人工智能可以通过与人类价值的对齐来获得人类的信任。这种信任一方面来自对人工智能能力的信任,相信人工智能可以正确执行任务并实现任务泛化,另一方面来自对人工智能安全价值观的信任,相信人工智能的行为符合人类社会的规则和道德。

总之,为了适应人类的生活环境,通用人工智能需要在复杂环境中学习和执行任务,而这一切应该是由价值驱动并基于因果理解的。这也是我们提出通智测试的原因,作为一种新的通用人工智能测试方向,它更注重通用人工智能的实际能力和价值。这种测试将指导通用人工智能更好地学习和提高能力,更安全、更有效地服务于人类社会。

图示通用智能体可以基于价值进行自我纠正、主动学习和无限任务生成,通过人类的反馈和交互学习还可以与人类的价值观保持一致。

现有人工智能测试方法的局限性

图示已有的测试类型

现有的人工智能测试多集中在人类鉴别、任务导向和虚拟环境测试这三大方向,但其各自所呈现出的局限性已然无法满足通用人工智能的研究诉求。

图灵测试是人类鉴别测试中的代表性方法,主要用来判断人工智能是否能以人类的方式进行交流,也就是能否让真人相信与其交流的也是一个人。如果人工智能能通过图灵测试,就说明它已经能模仿人类的交流方式。但是,图灵测试只能告诉我们这个人工智能是否达到了人类的交流水平,并不能测量它的智能程度有多高。而且,图灵测试依赖于测试人员的判断,所以它也受到了人的知识和理解能力的限制。

任务导向基准测试方法通过让人工智能执行特定的任务,并根据任务的完成情况来评价人工智能的性能。比如,人工智能要在某个数据集上执行任务,我们以它在这个数据集上的表现来做出评价。这种方法的问题在于,人工智能可能会过于有针对性地学习并完成这些任务,也就是说,它可能会由于过度适应特定数据集而导致在其他数据上表现不佳,即泛化能力下降。而且,这样的人工智能很可能只在某项任务上表现不错,但却无法在现实世界的复杂场景中很好地运作。

图示VRGym虚拟测试环境,获得2019年ACM图灵大会最佳论文奖[4]

基于能力与价值双系统的通智测试评级理论

在搭建新的通用人工智能测试标准时,研究团队采取了一种全新的策略。依据发展心理学和智力理论,参考人类的发展阶段,研究总结并归纳了在特定发展阶段应达到的智能水平。以婴幼儿发展为例,心理学家发现3-4个月大的婴儿已经具备因果推理,能够识别魔术,即不满足因果常识的物理现象。18个月大的婴儿已经能够开始识别出陌生人的意图并开始主动帮助。

图示:眼里有活-机器人在看到人洒了可乐后自主生成拿纸巾的新任务

这些婴儿所具有的理解社会和物理常识的能力对于人造的通用智能体亦十分关键。因此,基于婴幼儿的系列研究,研究者构建了一个以视觉、语言、认知、运动和学习等5个主要能力为维度的评估框架,每个维度又设计有5个不同的能力层级,并在各层级中详细定义了每个维度的任务。能力层级越高,任务的复杂程度越高,层级所代表的能力空间就越大,能力空间所涵盖的对现实世界规律的理解越深入、表征越广泛。例如,从第1层级到第5层级,语言能力会从理解单词和短语相继扩展到理解上下文语句、理解推理知识图谱和常识、认知理解智能体交互心理模型以及理解多人、多智能体交互,运动能力会从控制自身运动相继扩展到操纵周围物体、与环境的交互、与其他智能体的交互以及社会交互与价值流动。

图示通智测试的在UV两个系统的5个等级

图示8-12月大的婴幼儿的价值体系中:族裔认同>公平正义

为了具体衡量和评估通用人工智能,研究团队将能力空间和价值空间进行联合考虑,设置了5个通智测试等级(Level1~5),进而形成了一套基于能力与价值双系统的通智测试评级理论。随着通智测试等级的提升,价值系统和能力系统会逐渐融合,例如在能力系统的高层级开始产生由价值驱动的自主性。由此,能力和价值成为描述任务的两个基本核心单元,定义和列举的任务均能够明确对应到这5个通智测试等级,而这些任务的选取又都强调了实用性、可测量性以及与人类智能发展的一致性。这意味着所选任务不仅具有实际应用价值,还容易被准确地衡量和评估。

通智测试平台的架构

通智测试要求通用人工智能的心具备两个结构,其一为价值体系,具备符合人类价值观的通用智能体才能被人类所广泛接纳;其二为认知架构,这是通用智能体与人交流、合作的基础。价值体系、认知架构不仅应是驱动通用人工智能自主任务生成的根本内驱力,也是保障通用人工智能对人类社会安全的关键。智能体只有具备了“良知”的知识体系与可以与人类沟通解释的“认知架构”,才能形成人机信任关系,实现未来的人机和谐共生。

针对以上标准,通智测试从智能体探索和认知世界规律的各自感知、认知、运动、交互、社会、学习等能力,以及对自我、他人和群体的价值理解学习这两个角度入手,搭建了具体可行的测试平台架构。该平台通过模拟复杂的物理与社会场景,基于交互场景进行无限任务的采样设计,运用科学合理的评级体系和统一规范的测试方法,支持从通用智能体的3个基本特征来测试当下各种人工智能算法。

通智测试平台满足了以下3个条件:其一,多样化仿真交互场景,模拟复杂的物理-社会场景,来测试智能体是否理解人类生活和工作的特征;其二,基于交互场景的无限任务采样设计,来看智能体是否能泛化知识与技能;其三,科学合理的评级体系和统一规范的测试方法,来从多个维度综合评级智能体。

图示虚拟现实训练平台:环境展示

图示虚拟现实训练平台:物理仿真展示

图示通智测试平台中的各类原子任务

图示通智测试平台中的复杂任务——鲜榨果汁

在工程实践方面,通智测试平台主要由3个部分组成:DEPSI环境及测试接口、任务生成系统和评级测试系统。第一,需要把智能体放在一个DEPSI环境中,这样可以测试它参与真实世界人类社会活动的能力。要建立这样的测试平台,研究团队需要模拟物理环境和社会环境,包括物理世界和人类社会的各类规则,以提高测试的灵活性和真实性。第二,需要开发任务生成系统。这个系统由基础库和功能组件组成。任务生成器会创建对基础库的资源请求,场景管理器会接收资产和算法模型,为任务建立各种环境。第三,需要以价值和能力为导向的评级测试系统,包括任务分解和性能评估两个模块。性能评估模块会将每个维度的测试分数整合,计算得到最终分数。

图示通智测试平台示意图

总结与展望

[1]Peng,Y.,Han,J.,Zhang,Z.,Fan,L.,Liu,T.,Qi,S.,Feng,X.,Ma,Y.,Wang,Y.andZhu,S.C.,2023.Thetongtest:Evaluatingartificialgeneralintelligencethroughdynamicembodiedphysicalandsocialinteractions.Engineering.

[2]Ma,Y.,Zhang,C.andZhu,S.C.,2023.Braininavat:Onmissingpiecestowardsartificialgeneralintelligenceinlargelanguagemodels.arXivpreprintarXiv:2307.03762.

[3]Han,M.,Zhang,Z.,Jiao,Z.,Xie,X.,Zhu,Y.,Zhu,S.C.andLiu,H.,2022.Scenereconstructionwithfunctionalobjectsforrobotautonomy.InternationalJournalofComputerVision,130(12),pp.2940-2961.

[4]Xie,X.,Liu,H.,Zhang,Z.,Qiu,Y.,Gao,F.,Qi,S.,Zhu,Y.andZhu,S.C.,2019,May.Vrgym:Avirtualtestbedforphysicalandinteractiveai.InProceedingsoftheACMTuringcelebrationconference-China(pp.1-6).

THE END
1.AI应用如何进行测试!怎么测试ai的能力文章浏览阅读1.5k次,点赞19次,收藏26次。人工智能技术正在世界范围内以一种前所未有的速度发展,大量的AI应用在短时间内被构建出来,当开发人员正在热火朝天的追赶进度时,测试人员也需要及时跟上这个时代的步伐。值得庆幸的是,随着人工智能的快速进步,测试、自动化和质https://blog.csdn.net/qq_39185255/article/details/138687097
2.深入浅出:人工智能(AI)测试方法与实践本文简明扼要地介绍了人工智能(AI)测试的核心方法,包括功能测试、性能测试、安全测试等多个方面,并辅以实际案例,旨在为非专业读者提供可操作性的建议和解决方案。https://developer.baidu.com/article/details/3324520
3.Ai测评是什么,有什么技巧人工智能面试,又称自动化面试或人工智能驱动面试,求职者与人工智能系统而非真人面试官进行互动。这些面试通常使用先进的算法来分析应聘者的回答、面部表情、肢体语言和其他非语言线索,以初步评估他们是否适合该工作。 AI测评也有一些小技巧: 1. 练习常见问题: 就像传统面试一样,AI面试通常也会问一些关于你的背景、技能https://myoule.zhipin.com/articles/a135246fa144e000qxB73t6_ElE~.html
4.百度智能测试面相什么叫做智能测试?AI智能测试的应用非常广泛,例如在教育、人力资源、医疗保健等领域都有应用。它可以节省时间和成本,提高效率和准确性 七、百度智能创作在哪下载? 在官网下载,因为官网是智能创作浏览器的唯一的合法下载途径。 八、智能盖板测试 智能盖板测试 智能盖板是现代科技与建筑领域的结合产物,通过内置的传感器和控制系统,能够实现https://tool.a5.cn/article/show/75537.html
5.车联网测试工程师(车载测试工程师)的未来前景怎么样?而车载测试在人工智能和新能源汽车领域中扮演着至关重要的地位,因为它涉及到车辆的安全性、性能、可靠性以及与车辆相关的智能系统的验证和测试。以下是车载测试在这两个领域的关键作用, 而车载测试在人工智能(AI),特别是在自动驾驶和智能交通系统方面中起着重要的作用: https://www.yoojia.com/ask/17-12261766035434020886.html
6.人工智能测试:关于无人车测试的案例研究雷峰网智能性测试和机器学习的过程类似,两者如同一个硬币的两面。https://www.leiphone.com/news/201812/8cedlhuNGrryHTIO.html
7.拷机和AI智能超频测试游戏硬件主板AI Suite BIOS AI智能超频可以通过AI Suite这款软件进行调控,开启之后电脑会重启,从而去自动对你你的电脑进行调校和评估。我们也对开启前后处理器的性能进行了测试。 AI智能超频 在AI智能超频开启之后,处理器性能会有一定的提升,而且这种提升性能的方法非常简单,只需求通过AI Suite软件或者BIOS设置就可以打开,完全不用https://diy.zol.com.cn/743/7438893.html
8.AppStore上的“趣味解读趣味解读 - 性格测试 & AI智能换脸 9+ 生活冥想,宝宝预测和财运解读 AI Fantasy Studio “娱乐”类第 141 名 3.9 ? 5,734 个评分 免费 提供App 内购买项目 截屏 iPhone iPad 简介 使用这个强大的魔法照片应用程序,你可以轻松获得很多乐趣。有趣和简单的方式来满足你的好奇心:如宝宝长相预测,灵魂动物,和https://itunes.apple.com/us/app/%E8%B6%A3%E5%91%B3%E8%A7%A3%E8%AF%BB-%E6%80%A7%E6%A0%BC%E6%B5%8B%E8%AF%95-ai%E6%99%BA%E8%83%BD%E6%8D%A2%E8%84%B8/id1523323143?l=zh
9.龙源AI检测官网智能AI写作检测系统提升信息可信度和社区安全,维护网站和媒体信誉。 政府及公共机构 用于政府检测各类科研补贴、政策申请,确保不被AI套取科研经费,错误引导政府决策。监测预警虚假信息和恶意行为,保障社会稳定和公共安全。 去伪存真,洞见不凡 让人工智能更好的为知识应用和信息传播服务http://cc.qikan.cn/
10.一文让你了解AI产品的测试评价人工智能算法模型的几个重要指标A(0,0):表示真阳率与假阳率均为0,表示什么都没有测试到; B(1,1):表示真阳率与假阳率均为100%; C(0,1):真阳率为100%,假阳率均为0,测试到的全是真的; D(1,0):真阳率为0,假阳率均为100%,测试到的全是假的。 由此可见C点的情况最高,所以曲线越靠近左上角说明算法最好。 https://cloud.tencent.com/developer/article/1642146
11.智能测试实践之路UI遍历技术背景 目前京东APP整体UV相对于去年日增加2000w以上,且处于逐年递增的状态,业务需求激增的同时也带来页面数量和功能的成倍增加,测试人员的业务压力也随之增大。京购小程序也面临同样的问题,作为京东创新业务和POP商家生态主要阵地,全功能对标京东App,在22年承接微信一https://maimai.cn/article/detail?fid=1755988749&efid=pyOhf1KYg5nL880CdIBLRQ
12.人工智能系统测试.pptx人工智能系统测试.pptx 33页内容提供方:布丁文库 大小:275.61 KB 字数:约6.62千字 发布时间:2023-12-04发布于上海 浏览人气:77 下载次数:仅上传者可见 收藏次数:0 需要金币:*** 金币 (10金币=人民币1元)人工智能系统测试.pptx关闭预览 https://max.book118.com/html/2023/1203/6205105202010014.shtm
13.AI超频与手动超频测试AI超频与手动超频测试 AI智能超频 AI智能超频是华硕Z390全新加入的功能,它可以自动评估CPU的体质超频能力和用户所使用的散热器的散热能,开启后它会不断的评估CPU能达到最佳频率和到达那个频率的电压,开启这个功能的时间越长得出的结果就越准确,最终结果会近似于通过人手反复调校所得出的频率和电压。 https://www.expreview.com/65158-7.html
14.人工智能,应该如何测试?(二)数据挖掘篇人工智能,应该如何测试?(二)数据挖掘篇 前言 数据决定模型的上限,而算法调参只是尽量的帮你逼近那个上限,建模工程师 80% 的时间都是在跟数据打交道,国内在 AI 上的发展与国外最大的差距不是在算力上,而是高质量的数据。 相信大家在网络上都见过类似的说法,事实上这些说法都是正确的。并且对于测试人员来说也是https://www.nowcoder.com/discuss/606484136173252608
15.世界人工智能智商最新测试结果公布世界人工智能智商最新测试结果公布 文|人工智能学家(微信公众号:AItists) 谷歌AlphaGo4:1战胜前围棋冠军韩国选手李世石后,人工智能威胁论进一步弥漫在社会各个领域,认为谷歌阿尔法狗的胜利标志着人类没落的开始,其实在本次比赛前,不同领域的科学家,企业家如物理学家霍金,微软创始人比尔盖茨等人,已经纷纷对人工智能的https://tech.163.com/16/0328/09/BJ82BEKN000948V8.html
16.GPTGPT-4 无法通过图灵测试!UCSD 团队研究证明 60 年前 AI 在测试中打败了 ChatGPT,更有趣的是人类在测试中的胜率仅有 63%。https://www.ithome.com/0/736/711.htm
17.智能人脸测试智能人脸测试,基于人工智能和大数据,提供颜值测试、皮肤测试等多个人脸分析功能,让您对于自己有更多的了解。 颜值测试 颜值测试功能,基于人工智能及大数据分析你的面容,依据眼睛、嘴巴、鼻子、脸型等维度计算颜值. 皮肤测试 皮肤测试功能,基于人工智能及大数据评估你的皮肤,依据色斑、青春痘、黑眼圈、皮肤健康等维度来分析http://www.pcqweb.com/
18.人工智能(AI)测试方法人工智能(AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学(定义)。**人工智能利用机器学习技术**,通过对现有的经过处理(筛选、消噪、过滤等)的数据,不断进行矫正(设置阀值等方法)机器模型的输出,此过程称为训练,期望通过训练可以得到在未来新数据上有良好表现的模型,https://www.jianshu.com/p/3966b2a18610
19.儿童手表现“毒答案”第三方App下架整改记者走访测试要闻近日,儿童智能手表因“已读乱回”频发,多次陷入舆论漩涡。9月2日、3日,华商报大风新闻记者找到多款不同品牌儿童手表及人工智能产品进行测试,并走访儿童手表市场,大多儿童手表中的AI问答功能都在升级整改。 家长心病 儿童手表AI问答多次“瞎答” 孩子下载游戏半夜摸黑完成“任务” https://news.hsw.cn/system/2024/0906/1781431.shtml
20.ErgoAI智能人机交互产品可用性测试实验室ErgoAI智能人机交互产品可用性测试实验室,ErgoAI智能人机交互产品可用性测试实验室一、系统简介ErgoAI智能人机交互产品可用性测试实验室是北京津发科技股份有限公司在人工智能、大数据、情感计算、多通道人机交互等技术快速发展与应用的背景下,结合人因工程https://www.bio-equip.com/show1equip.asp?equipid=4889399