朱松纯教授团队提出通用人工智能测试评级的标准与平台TongTest|ai智能测试怎么测试_在线设计

人类正在迈入智能时代，其区别于信息时代的显著特征是大量通用智能体的出现，而通用人工智能作为引领和推动智能时代发展的核心科技，是目前及未来国际人工智能研究的焦点。11月1日，首届人工智能安全峰会于英国召开，围绕人工智能的风险管控与治理展开激烈讨论，通用人工智能将对未来世界政治经济格局产生重大而深远的影响。

2023年11月30日，光明日报报道《为通用人工智能搭建新测试体系》

通用人工智能的关键在于“通用”，目标是让智能体具有自主的感知、认知、决策、学习、执行和社会协作能力，符合人类情感、伦理与道德观念，能够胜任不同领域任务。然而，目前就如何刻画和评估通用人工智能这一问题，仍然缺乏更深入的系统研究。

图示UV双系统理论

通用人工智能的3个基本特征

近期的基础模型显示出在特定领域内的泛化能力，如自然语言处理（NLP）领域的GPT-4、图像分割领域的“分割一切”模型（SAM），以及自然语言处理和机器人领域的PaLM-E等。但是，对于基础模型中是否出现了类似人类的特征，如心智理论（ToM）或认知能力，还存在争议。研究团队提出，通用人工智能应具备3个基本特征：实现无限任务、自主生成任务、价值驱动且能实现价值对齐。

实现无限任务

泛化能力是评价模型优劣的最关键指标之一。传统的专用人工智能的通用性主要体现在数据泛化，即希望模型经过训练后应用于测试集或新数据集时依然能够表现良好；而通用人工智能的“通用”强调的则是任务泛化。当前，随着基础模型的发展，大模型的设计逐渐由处理专一任务转向处理多任务，以实现任务泛化。任务集合的量变虽然可以通过人为叠加任务数量的方式来实现，但这却不是通用人工智能所需“通用”的题中之义，因为新任务会不断涌现，无法被完全定义。那么，一个系统需要多少任务才能被视为“通用”呢？假使100项任务还不够，101项任务又怎么能被认为是足够了呢！以此类推，如果N项任务不能构成“通用”智能，N+1项任务自然也不能。因此，一个智能体需要完成无穷无尽的任务才能称之为“通用”。换句话说，完成有限数量的人为定义的任务不能作为衡量通用人工智能的标准，真正的标准应该是在复杂环境中处理无限多项没有预先设定的任务[2]。

图示机器人完成系列任务[3]

自主生成任务

为了评估通用智能体能否生成无限任务，我们需要一个适合的评估环境。如果评估环境与目标应用场景的差异过大，评估结果的参考意义必将会大打折扣，这就好像温室里的草木恐怕很难经受得住大自然的洗礼。因此，研究团队主张通用人工智能的评估应当在具备DEPSI的环境中开展，而人类日常生活就是一种很典型的DEPSI环境，即以具身形式体验动态的物理交互和社会交互。

图示真实的人类社会物理和社交场景

图示人在虚拟环境中演示真实世界中的三仙归洞魔术

价值驱动和对齐

为了让智能体能够自主生成并完成符合人类需求的任务，一套合适的价值系统至关重要。这一系统必须融入人类的基本价值观，使智能体有能力学习和理解人类的价值偏好，并最终实现与人类价值的对齐。在心理学领域对人类价值观的研究成果颇丰，例如，著名的马斯洛需求层次理论，其从基础的生理需求扩展到最高层次的超越需求，详尽地划分了人类的需求层次；再如，生存、相互关系、成长三核心需要理论（ERG理论），以及罗克奇价值观调查表等。

图示以经典的马斯洛需求层次为代表的价值观

综合经典的价值理论和智能体与人类价值的一致性要求，智能体的价值系统理应涵盖从基础的生存需求到中层的情感和社会价值，乃至更高层次的集体价值。价值不仅应是驱动通用人工智能自主任务生成的根本内驱力，也是保障通用人工智能对人类社会安全的关键体系。人工智能可以通过与人类价值的对齐来获得人类的信任。这种信任一方面来自对人工智能能力的信任，相信人工智能可以正确执行任务并实现任务泛化，另一方面来自对人工智能安全价值观的信任，相信人工智能的行为符合人类社会的规则和道德。

总之，为了适应人类的生活环境，通用人工智能需要在复杂环境中学习和执行任务，而这一切应该是由价值驱动并基于因果理解的。这也是我们提出通智测试的原因，作为一种新的通用人工智能测试方向，它更注重通用人工智能的实际能力和价值。这种测试将指导通用人工智能更好地学习和提高能力，更安全、更有效地服务于人类社会。

图示通用智能体可以基于价值进行自我纠正、主动学习和无限任务生成，通过人类的反馈和交互学习还可以与人类的价值观保持一致。

现有人工智能测试方法的局限性

图示已有的测试类型

现有的人工智能测试多集中在人类鉴别、任务导向和虚拟环境测试这三大方向，但其各自所呈现出的局限性已然无法满足通用人工智能的研究诉求。

图灵测试是人类鉴别测试中的代表性方法，主要用来判断人工智能是否能以人类的方式进行交流，也就是能否让真人相信与其交流的也是一个人。如果人工智能能通过图灵测试，就说明它已经能模仿人类的交流方式。但是，图灵测试只能告诉我们这个人工智能是否达到了人类的交流水平，并不能测量它的智能程度有多高。而且，图灵测试依赖于测试人员的判断，所以它也受到了人的知识和理解能力的限制。

任务导向基准测试方法通过让人工智能执行特定的任务，并根据任务的完成情况来评价人工智能的性能。比如，人工智能要在某个数据集上执行任务，我们以它在这个数据集上的表现来做出评价。这种方法的问题在于，人工智能可能会过于有针对性地学习并完成这些任务，也就是说，它可能会由于过度适应特定数据集而导致在其他数据上表现不佳，即泛化能力下降。而且，这样的人工智能很可能只在某项任务上表现不错，但却无法在现实世界的复杂场景中很好地运作。

图示VRGym虚拟测试环境，获得2019年ACM图灵大会最佳论文奖[4]

基于能力与价值双系统的通智测试评级理论

在搭建新的通用人工智能测试标准时，研究团队采取了一种全新的策略。依据发展心理学和智力理论，参考人类的发展阶段，研究总结并归纳了在特定发展阶段应达到的智能水平。以婴幼儿发展为例，心理学家发现3-4个月大的婴儿已经具备因果推理，能够识别魔术，即不满足因果常识的物理现象。18个月大的婴儿已经能够开始识别出陌生人的意图并开始主动帮助。

图示：眼里有活-机器人在看到人洒了可乐后自主生成拿纸巾的新任务

这些婴儿所具有的理解社会和物理常识的能力对于人造的通用智能体亦十分关键。因此，基于婴幼儿的系列研究，研究者构建了一个以视觉、语言、认知、运动和学习等5个主要能力为维度的评估框架，每个维度又设计有5个不同的能力层级，并在各层级中详细定义了每个维度的任务。能力层级越高，任务的复杂程度越高，层级所代表的能力空间就越大，能力空间所涵盖的对现实世界规律的理解越深入、表征越广泛。例如，从第1层级到第5层级，语言能力会从理解单词和短语相继扩展到理解上下文语句、理解推理知识图谱和常识、认知理解智能体交互心理模型以及理解多人、多智能体交互，运动能力会从控制自身运动相继扩展到操纵周围物体、与环境的交互、与其他智能体的交互以及社会交互与价值流动。

图示通智测试的在UV两个系统的5个等级

图示8-12月大的婴幼儿的价值体系中：族裔认同>公平正义

为了具体衡量和评估通用人工智能，研究团队将能力空间和价值空间进行联合考虑，设置了5个通智测试等级（Level1~5），进而形成了一套基于能力与价值双系统的通智测试评级理论。随着通智测试等级的提升，价值系统和能力系统会逐渐融合，例如在能力系统的高层级开始产生由价值驱动的自主性。由此，能力和价值成为描述任务的两个基本核心单元，定义和列举的任务均能够明确对应到这5个通智测试等级，而这些任务的选取又都强调了实用性、可测量性以及与人类智能发展的一致性。这意味着所选任务不仅具有实际应用价值，还容易被准确地衡量和评估。

通智测试平台的架构

通智测试要求通用人工智能的心具备两个结构，其一为价值体系，具备符合人类价值观的通用智能体才能被人类所广泛接纳；其二为认知架构，这是通用智能体与人交流、合作的基础。价值体系、认知架构不仅应是驱动通用人工智能自主任务生成的根本内驱力，也是保障通用人工智能对人类社会安全的关键。智能体只有具备了“良知”的知识体系与可以与人类沟通解释的“认知架构”，才能形成人机信任关系，实现未来的人机和谐共生。

针对以上标准，通智测试从智能体探索和认知世界规律的各自感知、认知、运动、交互、社会、学习等能力，以及对自我、他人和群体的价值理解学习这两个角度入手，搭建了具体可行的测试平台架构。该平台通过模拟复杂的物理与社会场景，基于交互场景进行无限任务的采样设计，运用科学合理的评级体系和统一规范的测试方法，支持从通用智能体的3个基本特征来测试当下各种人工智能算法。

通智测试平台满足了以下3个条件：其一，多样化仿真交互场景，模拟复杂的物理-社会场景，来测试智能体是否理解人类生活和工作的特征；其二，基于交互场景的无限任务采样设计，来看智能体是否能泛化知识与技能；其三，科学合理的评级体系和统一规范的测试方法，来从多个维度综合评级智能体。

图示虚拟现实训练平台：环境展示

图示虚拟现实训练平台：物理仿真展示

图示通智测试平台中的各类原子任务

图示通智测试平台中的复杂任务——鲜榨果汁

在工程实践方面，通智测试平台主要由3个部分组成：DEPSI环境及测试接口、任务生成系统和评级测试系统。第一，需要把智能体放在一个DEPSI环境中，这样可以测试它参与真实世界人类社会活动的能力。要建立这样的测试平台，研究团队需要模拟物理环境和社会环境，包括物理世界和人类社会的各类规则，以提高测试的灵活性和真实性。第二，需要开发任务生成系统。这个系统由基础库和功能组件组成。任务生成器会创建对基础库的资源请求，场景管理器会接收资产和算法模型，为任务建立各种环境。第三，需要以价值和能力为导向的评级测试系统，包括任务分解和性能评估两个模块。性能评估模块会将每个维度的测试分数整合，计算得到最终分数。

图示通智测试平台示意图

总结与展望

[1]Peng,Y.,Han,J.,Zhang,Z.,Fan,L.,Liu,T.,Qi,S.,Feng,X.,Ma,Y.,Wang,Y.andZhu,S.C.,2023.Thetongtest:Evaluatingartificialgeneralintelligencethroughdynamicembodiedphysicalandsocialinteractions.Engineering.

[2]Ma,Y.,Zhang,C.andZhu,S.C.,2023.Braininavat:Onmissingpiecestowardsartificialgeneralintelligenceinlargelanguagemodels.arXivpreprintarXiv:2307.03762.

[3]Han,M.,Zhang,Z.,Jiao,Z.,Xie,X.,Zhu,Y.,Zhu,S.C.andLiu,H.,2022.Scenereconstructionwithfunctionalobjectsforrobotautonomy.InternationalJournalofComputerVision,130(12),pp.2940-2961.

[4]Xie,X.,Liu,H.,Zhang,Z.,Qiu,Y.,Gao,F.,Qi,S.,Zhu,Y.andZhu,S.C.,2019,May.Vrgym:Avirtualtestbedforphysicalandinteractiveai.InProceedingsoftheACMTuringcelebrationconference-China(pp.1-6).

THE END

朱松纯教授团队提出通用人工智能测试评级的标准与平台TongTest

ai软件测试有哪些条件要求与方法概述

AI测试人工智能(AI)测试开篇胖儿1018

可以用IQ量表测试AI智商吗？且听ChatGPT怎么说！

可以用IQ量表测试AI智商吗？且听ChatGPT怎么说！

朱松纯教授团队提出通用人工智能测试评级的标准与平台TongTest

人工智能测试题

鲁大师发布AI评测：手机也能测“智商”了？

测试AI时需要考虑的10件事

19个测试用例生成的AI工具！卷起来！——软件测试圈软件测试文章

AI算法测试之浅谈

你的手机智能吗？安兔兔AI测试发布月度榜单

全面开测：AI智能编码辅助工具通义灵码

首发第一代酷睿Ultra小新Pro16AI超能本2024