AI算法测试之浅谈 |ai智能测试怎么测试_在线设计

开通VIP，畅享免费电子书等14项超值服

首页

好书

留言交流

下载APP

联系客服

2023.05.30北京

转自：图灵人工智能

作者：李云敏京东物流

01人工智能

人工智能，英文ArtificialIntelligence，简称AI，是利用机器学习技术模拟、延伸和扩展人的智能的理论、方法、技术及应用的一门新的技术科学。

人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能，但能像人那样思考、也可能超过人的智能。

通俗地说，就是让机器可以像人类一样有智能，让机器看得懂、听得懂、会思考、能决策、能行动，实现原来只有人类才能完成的任务。

AI的本质是通过软件来实现特定的算法。

一个优秀的人工智能系统，应该具有三个方面的特征：知识运用的能力、从数据或经验中学习的能力、处理不确定性的能力。

知识是智能体现的一个最重要的维度。听说看能力如果不考虑内容的深度，则仅仅是停留在感知智能的层面，只能与环境交互和获取环境的信息，其智能表现的空间非常有限。一个智能系统应该能够很好地存储与表示、运用知识，并基于知识进行归纳推理。

从数据中或过去的经验中学习的能力，这通常需要运用机器学习算法。具备一个不断进化和进步的学习能力，那么就可能具备更高的智能水平。同时，学习过程应该能够融入尽可能多的知识类信息，才能够达到支持智能系统的要求。

能够很好地处理数据中不确定性，像噪声、数据属性缺失，模型决策的不确定性，甚至模型内部参数的不确定性。无人驾驶系统就需要处理各种各样的不确定性如环境的不确定性、决策的不确定性。

人工智能分为弱人工智能和强人工智能，前者让机器具备观察和感知的能力，可以做到一定程度的理解和推理。而强人工智能期待让机器获得自适应能力，解决一些之前没有遇到过的问题。

也有人将人工智能分为弱人工智能、一般人工智能和强人工智能，后超级人工智能。

人工智能分为弱人工智能和强人工智能，前者让机器具备观察和感知的能力，可以做到一定程度的理解和推理。目前的科研都集中在弱人工智能这部分。而强人工智能期待让机器获得自适应能力，解决一些之前没有遇到过的问题。

2017年发布的一项针对AI研究人员的调查报告称，高级机器智能（HLMI）实现的总体平均估计值是到2061年。

目前人工智能应用最广泛的领域主要有四个，分别是语音识别和自然语言处理、图像识别与处理、推荐系统、机器学习。

语音识别，如语音的自动翻译、语音转文字等。目前微软的语音识别技术已经达到了人类同等水平，翻译机器人已经超越专业翻译水准。

图像识别，如高速车牌识别、人脸识别等，目前已经广泛应用在道路监控、停车场、门禁、金融系统访问身份识别等领域。刷脸解锁、刷脸支付也已经进入我们生活的很多领域。

推荐系统，如电商系统根据用户的购买习惯，推荐可能需要购买的产品；今日头条的内容推荐算法等。

02人工智能和机器学习的关系

机器学习所研究的主要内容，是关于在计算机上从数据中产生“模型”的算法。即学习算法，有了学习算法，我们把数据提供给它，它就能基于这些数据产生模型；在面对新的数据时，模型会给我们提供相应的预测结果。

机器学习的按学习方式来可以划分四类：监督学习、无监督学习、半监督学习和强化学习。

无监督学习，指在数据集中没有“正确答案”，期望从数据本身发现一些潜在的规律，无监督学习倾向于事物本身特性的分析，常用的技术包括数据降维和聚类问题。

半监督学习，训练数据集中有一部分答案，一部分没答案的称为半监督学习。

强化学习相对来说比较复杂，是指一个系统和外界环境不断地交互，获得外界反馈，然后决定自身的行为，达到长期目标的最优化。也就是从一开始什么都不懂,通过不断地尝试,从错误中学习,最后找到规律,学会了达到目的的方法。比如AlphaGo用的深度强化学习。

机器学习三要素包括数据、模型、算法。简单来说，这三要素之间的关系，可以用下面这幅图来表示

总结成一句话：算法通过在数据上进行运算产生模型。

如图中不同的动物，给它们分别打上正确的标记。通过算法训练后，达到正确分类的目的。要进行机器学习，首先要有数据。有了数据之后，再对数据进行标注，利用人工标注的数据给到机器进行学习，使机器智能化。

大家来做下这个猜数字游戏，1,4,16…（）…256…括号里的是什么。为什么是64，不是其他数字，又为什么是数字，不是一个汉字或者一个字母。我们找到了数字之间的规律，逻辑关系，并且抽象成了模型，我们才能知道括号里是什么。

举个生活中的例子，小米硬件中手机外壳，在大批量生产前需要先设计手机外壳的模具，然后所有同型号的手机外壳都按这个模具样版生产出来。这个模具也是个硬件上的模型。

算法的模型又是什么？模型是从数据里抽象出来的，用来描述客观世界的数学模型。通过对数据的分析，找到其中的规律，找到的规律就是模型。

机器学习的根本目的，是找一个模型去描述我们已经观测到的数据。

例如，你可能会在研究论文和教科书中看到用伪代码或线性代数描述的机器学习算法。你可以看到一个特定的机器学习算法与另一个特性算法相比的计算效率。

学术界可以设计出很多机器学习算法，而机器学习实践者可以在他们的项目中使用标准的机器学习算法。这就像计算机科学的其他领域一样，学者可以设计出全新的排序算法，程序员可以在应用程序中使用标准的排序算法。

·线性回归

·逻辑回归

·决策树

·人工神经网络

·K-最近邻

·K-均值

你还可能会看到多个机器学习算法实现，并在一个具有标准API的库中提供。一个流行的例子是scikit-learn库，它在Python中提供了许多分类、回归和聚类机器学习算法的实现。

03AI算法模型测试

泛化能力指的是学习方法对未知数据的预测能力。就好比运动员平时都是在训练场进行训练，而评估运动员的真实实力要看在大赛中的表现。

我们实际希望的，是在新样本上能表现得很好的学习器，为了达到这个目的，应该从训练样本中尽可能推演出适用于所有潜在样本的“普通规律”，这样才能在遇到新样本时做出正确的预测，泛化能力比较好。

当学习器把训练样本学得“太好”了的时候，很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质，这样就会导致泛化性能下降。这种现象在机器学习中称为“过拟合“，与之相对是“欠拟合”指的是对训练样本的一般性质尚未学习。

有多种因素可能导致过拟合，其中最常见的情况是由于学习能力过于强大，以至于把训练样本所包含的不太一般的特性都学到了，而欠拟合则通常是由于学习能力低下而造成的。

首先有关TP、TN、FP、FN的概念。大体来看，TP与TN都是分对了情况，TP是正类，TN是负类。则推断出，FP是把错的分成了对的，而FN则是把对的分成了错的。

【举例】一个班里有男女生，我们来进行分类，把女生看成正类，男生看成是负类。我们可以用混淆矩阵来描述TP、TN、FP、FN。

混淆矩阵

准确率、召回率、F1

人工智能领域两个最基本指标是召回率(RecallRate)和准确率(PrecisionRate)，召回率也叫查全率，准确率也叫查准率，概念公式:

准确率和召回率是互相影响的，理想情况下肯定是做到两者都高，但是一般情况下准确率高、召回率就低，召回率低、准确率高，当然如果两者都低，那是什么地方出问题了。一般来说，精确度和召回率之间是矛盾的，这里引入F1-Score作为综合指标，就是为了平衡准确率和召回率的影响，较为全面地评价一个分类器。F1是精确率和召回率的调和平均。F1-score越大说明模型质量更高。一般情况，用不同的阀值，统计出一组不同阀值下的精确率和召回率，如下图：

评价指标跑出来看又怎么评判呢？我们来看下2016年的新闻

在不同的领域，对召回率和准确率的要求不一样。如果是做搜索，那就是保证召回的情况下提升准确率；如果做疾病监测、反垃圾，则是保准确率的条件下，提升召回。所以，在两者都要求高的情况下，可以用F1来衡量。

鲁棒性(robustness)，也就是所说健壮性，简单来说就是在模型在一些异常数据情况下是否也可以比较好的效果。也就是我们在最开始讲人工智能三个特征中的处理不确定性的能力。

测试方法就是用尽可能多的异常数据来覆盖进行测试。

模型安全，攻击方法有：试探性攻击、对抗性攻击两种

在试探性攻击中，攻击者的目的通常是通过一定的方法窃取模型，或是通过某种手段恢复一部分训练机器学习模型所用的数据来推断用户的某些敏感信息。主要分为模型窃取和训练数据窃取

对抗性攻击对数据源进行细微修改，让人感知不到，但机器学习模型接受该数据后做出错误的判断。比如图中的雪山，原本的预测准确率为94%，加上噪声图片后，就有99.99%的概率识别为了狗。

白盒测试，先让算法工程师将代码的逻辑给测试人员讲解，通过讲解理清思路。然后测试做代码静态检查，看是否会有基本的bug。可以使用pylint工具来做代码分析。

模型监控，项目发布到线上后，模型在线上持续运行，需要以固定间隔检测项目模型的实时表现，可以是每隔半个月或者一个月，通过性能指标对模型进行评估。对各指标设置对应阀值，当低于阀值触发报警。如果模型随着数据的演化而性能下降，说明模型已经无法拟合当前的数据了，就需要用新数据训练得到新的模型。

大数据辅助，机器学习算法训练和验证是一个持续改进的过程。当数据量逐步放大时候，如何统计算法的准确率呢？这个时候需要引入大数据技术针对数据结果进行统计，根据周期性统计的准确率结果生成线性报表来反馈算法质量的变化。

04常见的机器学习平台或者工具

已经跃居第一位，贡献者增长了三位数。Scikit-learn排名第二，但仍然有很大的贡献者基础。

TensorFlow最初是由研究人员和工程师在Google机器智能研究组织的GoogleBrain团队中开发的。该系统旨在促进机器学习的研究，并使其从研究原型到生产系统的快速和轻松过渡。

是用于数据挖掘和数据分析的简单而有效的工具，可供所有人访问，并可在各种环境中重用，基于NumPy，SciPy和matplotlib，开源，商业可用-BSD许可证。

一种高级神经网络API，用Python编写，能够在TensorFlow，CNTK或Theano之上运行。

Tensors和Python中的动态神经网络，具有强大的GPU加速功能。

允许您有效地定义，优化和评估涉及多维阵列的数学表达式。

是一个免费的Python库，具有可扩展的统计语义，分析语义结构的纯文本文档，检索语义相似的文档等功能。

是一个深刻的学习框架，以表达，速度和模块化为基础。它由伯克利视觉和学习中心（BVLC）和社区贡献者开发。

是一个基于Python的独立开源框架，适用于深度学习模型。Chainer提供灵活，直观和高性能的方法来实现全方位的深度学习模型，包括最新的模型，如递归神经网络和变分自动编码器。

是一个Python模块，允许用户浏览数据，估计统计模型和执行统计测试。描述性统计，统计测试，绘图函数和结果统计的广泛列表可用于不同类型的数据和每个估算器。

是机器学习工具箱，提供各种统一和高效的机器学习（ML）方法。工具箱无缝地允许轻松组合多个数据表示，算法类和通用工具。

是一个机器学习库。它的大部分功能都建立在Theano之上。这意味着您可以使用数学表达式编写Pylearn2插件（新模型，算法等），Theano将为您优化和稳定这些表达式，并将它们编译为您选择的后端（CPU或GPU）。

是Nervana基于Python的深度学习库。它提供易用性，同时提供最高性能。

是一个Python模块，用于快速简便地统计NeuroImaging数据。它利用scikit-learnPython工具箱进行多变量统计，并使用预测建模，分类，解码或连接分析等应用程序。

是新手和专家的开源机器学习和数据可视化。具有大型工具箱的交互式数据分析工作流程。

是一个python模块，它实现贝叶斯统计模型和拟合算法，包括马尔可夫链蒙特卡罗。其灵活性和可扩展性使其适用于大量问题。

是一种新颖的进化计算框架，用于快速原型设计和思想测试。它旨在使算法明确，数据结构透明。它与多处理和SCOOP等并行机制完美协调。

是一个带有Python绑定的C++库，用于搜索空间中接近给定查询点的点。它还创建了大型只读基于文件的数据结构，这些数据结构映射到内存中，以便许多进程可以共享相同的数据。

是一个用于Python的模块化机器学习库。其目标是为机器学习任务和各种预定义环境提供灵活，易用且功能强大的算法，以测试和比较您的算法。

是一个数据管道框架，为您的机器学习模型提供所需的数据。计划由Blocks和Pylearn2神经网络库使用。

THE END

AI算法测试之浅谈

ai软件测试有哪些条件要求与方法概述

AI测试人工智能(AI)测试开篇胖儿1018

可以用IQ量表测试AI智商吗？且听ChatGPT怎么说！

可以用IQ量表测试AI智商吗？且听ChatGPT怎么说！

朱松纯教授团队提出通用人工智能测试评级的标准与平台TongTest

人工智能测试题

鲁大师发布AI评测：手机也能测“智商”了？

测试AI时需要考虑的10件事

19个测试用例生成的AI工具！卷起来！——软件测试圈软件测试文章

AI算法测试之浅谈

你的手机智能吗？安兔兔AI测试发布月度榜单

全面开测：AI智能编码辅助工具通义灵码

首发第一代酷睿Ultra小新Pro16AI超能本2024