AI算法测试之浅谈

开通VIP,畅享免费电子书等14项超值服

首页

好书

留言交流

下载APP

联系客服

2023.05.30北京

转自:图灵人工智能

作者:李云敏京东物流

01人工智能

人工智能,英文ArtificialIntelligence,简称AI,是利用机器学习技术模拟、延伸和扩展人的智能的理论、方法、技术及应用的一门新的技术科学。

人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。

通俗地说,就是让机器可以像人类一样有智能,让机器看得懂、听得懂、会思考、能决策、能行动,实现原来只有人类才能完成的任务。

AI的本质是通过软件来实现特定的算法。

一个优秀的人工智能系统,应该具有三个方面的特征:知识运用的能力、从数据或经验中学习的能力、处理不确定性的能力。

知识是智能体现的一个最重要的维度。听说看能力如果不考虑内容的深度,则仅仅是停留在感知智能的层面,只能与环境交互和获取环境的信息,其智能表现的空间非常有限。一个智能系统应该能够很好地存储与表示、运用知识,并基于知识进行归纳推理。

从数据中或过去的经验中学习的能力,这通常需要运用机器学习算法。具备一个不断进化和进步的学习能力,那么就可能具备更高的智能水平。同时,学习过程应该能够融入尽可能多的知识类信息,才能够达到支持智能系统的要求。

能够很好地处理数据中不确定性,像噪声、数据属性缺失,模型决策的不确定性,甚至模型内部参数的不确定性。无人驾驶系统就需要处理各种各样的不确定性如环境的不确定性、决策的不确定性。

人工智能分为弱人工智能和强人工智能,前者让机器具备观察和感知的能力,可以做到一定程度的理解和推理。而强人工智能期待让机器获得自适应能力,解决一些之前没有遇到过的问题。

也有人将人工智能分为弱人工智能、一般人工智能和强人工智能,后超级人工智能。

人工智能分为弱人工智能和强人工智能,前者让机器具备观察和感知的能力,可以做到一定程度的理解和推理。目前的科研都集中在弱人工智能这部分。而强人工智能期待让机器获得自适应能力,解决一些之前没有遇到过的问题。

2017年发布的一项针对AI研究人员的调查报告称,高级机器智能(HLMI)实现的总体平均估计值是到2061年。

目前人工智能应用最广泛的领域主要有四个,分别是语音识别和自然语言处理、图像识别与处理、推荐系统、机器学习。

语音识别,如语音的自动翻译、语音转文字等。目前微软的语音识别技术已经达到了人类同等水平,翻译机器人已经超越专业翻译水准。

图像识别,如高速车牌识别、人脸识别等,目前已经广泛应用在道路监控、停车场、门禁、金融系统访问身份识别等领域。刷脸解锁、刷脸支付也已经进入我们生活的很多领域。

推荐系统,如电商系统根据用户的购买习惯,推荐可能需要购买的产品;今日头条的内容推荐算法等。

02人工智能和机器学习的关系

机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法。即学习算法,有了学习算法,我们把数据提供给它,它就能基于这些数据产生模型;在面对新的数据时,模型会给我们提供相应的预测结果。

机器学习的按学习方式来可以划分四类:监督学习、无监督学习、半监督学习和强化学习。

无监督学习,指在数据集中没有“正确答案”,期望从数据本身发现一些潜在的规律,无监督学习倾向于事物本身特性的分析,常用的技术包括数据降维和聚类问题。

半监督学习,训练数据集中有一部分答案,一部分没答案的称为半监督学习。

强化学习相对来说比较复杂,是指一个系统和外界环境不断地交互,获得外界反馈,然后决定自身的行为,达到长期目标的最优化。也就是从一开始什么都不懂,通过不断地尝试,从错误中学习,最后找到规律,学会了达到目的的方法。比如AlphaGo用的深度强化学习。

机器学习三要素包括数据、模型、算法。简单来说,这三要素之间的关系,可以用下面这幅图来表示

总结成一句话:算法通过在数据上进行运算产生模型。

如图中不同的动物,给它们分别打上正确的标记。通过算法训练后,达到正确分类的目的。要进行机器学习,首先要有数据。有了数据之后,再对数据进行标注,利用人工标注的数据给到机器进行学习,使机器智能化。

大家来做下这个猜数字游戏,1,4,16…()…256…括号里的是什么。为什么是64,不是其他数字,又为什么是数字,不是一个汉字或者一个字母。我们找到了数字之间的规律,逻辑关系,并且抽象成了模型,我们才能知道括号里是什么。

举个生活中的例子,小米硬件中手机外壳,在大批量生产前需要先设计手机外壳的模具,然后所有同型号的手机外壳都按这个模具样版生产出来。这个模具也是个硬件上的模型。

算法的模型又是什么?模型是从数据里抽象出来的,用来描述客观世界的数学模型。通过对数据的分析,找到其中的规律,找到的规律就是模型。

机器学习的根本目的,是找一个模型去描述我们已经观测到的数据。

例如,你可能会在研究论文和教科书中看到用伪代码或线性代数描述的机器学习算法。你可以看到一个特定的机器学习算法与另一个特性算法相比的计算效率。

学术界可以设计出很多机器学习算法,而机器学习实践者可以在他们的项目中使用标准的机器学习算法。这就像计算机科学的其他领域一样,学者可以设计出全新的排序算法,程序员可以在应用程序中使用标准的排序算法。

·线性回归

·逻辑回归

·决策树

·人工神经网络

·K-最近邻

·K-均值

·

你还可能会看到多个机器学习算法实现,并在一个具有标准API的库中提供。一个流行的例子是scikit-learn库,它在Python中提供了许多分类、回归和聚类机器学习算法的实现。

03AI算法模型测试

泛化能力指的是学习方法对未知数据的预测能力。就好比运动员平时都是在训练场进行训练,而评估运动员的真实实力要看在大赛中的表现。

我们实际希望的,是在新样本上能表现得很好的学习器,为了达到这个目的,应该从训练样本中尽可能推演出适用于所有潜在样本的“普通规律”,这样才能在遇到新样本时做出正确的预测,泛化能力比较好。

当学习器把训练样本学得“太好”了的时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降。这种现象在机器学习中称为“过拟合“,与之相对是“欠拟合”指的是对训练样本的一般性质尚未学习。

有多种因素可能导致过拟合,其中最常见的情况是由于学习能力过于强大,以至于把训练样本所包含的不太一般的特性都学到了,而欠拟合则通常是由于学习能力低下而造成的。

首先有关TP、TN、FP、FN的概念。大体来看,TP与TN都是分对了情况,TP是正类,TN是负类。则推断出,FP是把错的分成了对的,而FN则是把对的分成了错的。

【举例】一个班里有男女生,我们来进行分类,把女生看成正类,男生看成是负类。我们可以用混淆矩阵来描述TP、TN、FP、FN。

混淆矩阵

准确率、召回率、F1

人工智能领域两个最基本指标是召回率(RecallRate)和准确率(PrecisionRate),召回率也叫查全率,准确率也叫查准率,概念公式:

准确率和召回率是互相影响的,理想情况下肯定是做到两者都高,但是一般情况下准确率高、召回率就低,召回率低、准确率高,当然如果两者都低,那是什么地方出问题了。一般来说,精确度和召回率之间是矛盾的,这里引入F1-Score作为综合指标,就是为了平衡准确率和召回率的影响,较为全面地评价一个分类器。F1是精确率和召回率的调和平均。F1-score越大说明模型质量更高。一般情况,用不同的阀值,统计出一组不同阀值下的精确率和召回率,如下图:

评价指标跑出来看又怎么评判呢?我们来看下2016年的新闻

在不同的领域,对召回率和准确率的要求不一样。如果是做搜索,那就是保证召回的情况下提升准确率;如果做疾病监测、反垃圾,则是保准确率的条件下,提升召回。所以,在两者都要求高的情况下,可以用F1来衡量。

鲁棒性(robustness),也就是所说健壮性,简单来说就是在模型在一些异常数据情况下是否也可以比较好的效果。也就是我们在最开始讲人工智能三个特征中的处理不确定性的能力。

测试方法就是用尽可能多的异常数据来覆盖进行测试。

模型安全,攻击方法有:试探性攻击、对抗性攻击两种

在试探性攻击中,攻击者的目的通常是通过一定的方法窃取模型,或是通过某种手段恢复一部分训练机器学习模型所用的数据来推断用户的某些敏感信息。主要分为模型窃取和训练数据窃取

对抗性攻击对数据源进行细微修改,让人感知不到,但机器学习模型接受该数据后做出错误的判断。比如图中的雪山,原本的预测准确率为94%,加上噪声图片后,就有99.99%的概率识别为了狗。

白盒测试,先让算法工程师将代码的逻辑给测试人员讲解,通过讲解理清思路。然后测试做代码静态检查,看是否会有基本的bug。可以使用pylint工具来做代码分析。

模型监控,项目发布到线上后,模型在线上持续运行,需要以固定间隔检测项目模型的实时表现,可以是每隔半个月或者一个月,通过性能指标对模型进行评估。对各指标设置对应阀值,当低于阀值触发报警。如果模型随着数据的演化而性能下降,说明模型已经无法拟合当前的数据了,就需要用新数据训练得到新的模型。

大数据辅助,机器学习算法训练和验证是一个持续改进的过程。当数据量逐步放大时候,如何统计算法的准确率呢?这个时候需要引入大数据技术针对数据结果进行统计,根据周期性统计的准确率结果生成线性报表来反馈算法质量的变化。

04常见的机器学习平台或者工具

已经跃居第一位,贡献者增长了三位数。Scikit-learn排名第二,但仍然有很大的贡献者基础。

TensorFlow最初是由研究人员和工程师在Google机器智能研究组织的GoogleBrain团队中开发的。该系统旨在促进机器学习的研究,并使其从研究原型到生产系统的快速和轻松过渡。

是用于数据挖掘和数据分析的简单而有效的工具,可供所有人访问,并可在各种环境中重用,基于NumPy,SciPy和matplotlib,开源,商业可用-BSD许可证。

一种高级神经网络API,用Python编写,能够在TensorFlow,CNTK或Theano之上运行。

Tensors和Python中的动态神经网络,具有强大的GPU加速功能。

允许您有效地定义,优化和评估涉及多维阵列的数学表达式。

是一个免费的Python库,具有可扩展的统计语义,分析语义结构的纯文本文档,检索语义相似的文档等功能。

是一个深刻的学习框架,以表达,速度和模块化为基础。它由伯克利视觉和学习中心(BVLC)和社区贡献者开发。

是一个基于Python的独立开源框架,适用于深度学习模型。Chainer提供灵活,直观和高性能的方法来实现全方位的深度学习模型,包括最新的模型,如递归神经网络和变分自动编码器。

是一个Python模块,允许用户浏览数据,估计统计模型和执行统计测试。描述性统计,统计测试,绘图函数和结果统计的广泛列表可用于不同类型的数据和每个估算器。

是机器学习工具箱,提供各种统一和高效的机器学习(ML)方法。工具箱无缝地允许轻松组合多个数据表示,算法类和通用工具。

是一个机器学习库。它的大部分功能都建立在Theano之上。这意味着您可以使用数学表达式编写Pylearn2插件(新模型,算法等),Theano将为您优化和稳定这些表达式,并将它们编译为您选择的后端(CPU或GPU)。

是Nervana基于Python的深度学习库。它提供易用性,同时提供最高性能。

是一个Python模块,用于快速简便地统计NeuroImaging数据。它利用scikit-learnPython工具箱进行多变量统计,并使用预测建模,分类,解码或连接分析等应用程序。

是新手和专家的开源机器学习和数据可视化。具有大型工具箱的交互式数据分析工作流程。

是一个python模块,它实现贝叶斯统计模型和拟合算法,包括马尔可夫链蒙特卡罗。其灵活性和可扩展性使其适用于大量问题。

是一种新颖的进化计算框架,用于快速原型设计和思想测试。它旨在使算法明确,数据结构透明。它与多处理和SCOOP等并行机制完美协调。

是一个带有Python绑定的C++库,用于搜索空间中接近给定查询点的点。它还创建了大型只读基于文件的数据结构,这些数据结构映射到内存中,以便许多进程可以共享相同的数据。

是一个用于Python的模块化机器学习库。其目标是为机器学习任务和各种预定义环境提供灵活,易用且功能强大的算法,以测试和比较您的算法。

是一个数据管道框架,为您的机器学习模型提供所需的数据。计划由Blocks和Pylearn2神经网络库使用。

THE END
1.AI应用如何进行测试!怎么测试ai的能力文章浏览阅读1.5k次,点赞19次,收藏26次。人工智能技术正在世界范围内以一种前所未有的速度发展,大量的AI应用在短时间内被构建出来,当开发人员正在热火朝天的追赶进度时,测试人员也需要及时跟上这个时代的步伐。值得庆幸的是,随着人工智能的快速进步,测试、自动化和质https://blog.csdn.net/qq_39185255/article/details/138687097
2.深入浅出:人工智能(AI)测试方法与实践本文简明扼要地介绍了人工智能(AI)测试的核心方法,包括功能测试、性能测试、安全测试等多个方面,并辅以实际案例,旨在为非专业读者提供可操作性的建议和解决方案。https://developer.baidu.com/article/details/3324520
3.Ai测评是什么,有什么技巧人工智能面试,又称自动化面试或人工智能驱动面试,求职者与人工智能系统而非真人面试官进行互动。这些面试通常使用先进的算法来分析应聘者的回答、面部表情、肢体语言和其他非语言线索,以初步评估他们是否适合该工作。 AI测评也有一些小技巧: 1. 练习常见问题: 就像传统面试一样,AI面试通常也会问一些关于你的背景、技能https://myoule.zhipin.com/articles/a135246fa144e000qxB73t6_ElE~.html
4.百度智能测试面相什么叫做智能测试?AI智能测试的应用非常广泛,例如在教育、人力资源、医疗保健等领域都有应用。它可以节省时间和成本,提高效率和准确性 七、百度智能创作在哪下载? 在官网下载,因为官网是智能创作浏览器的唯一的合法下载途径。 八、智能盖板测试 智能盖板测试 智能盖板是现代科技与建筑领域的结合产物,通过内置的传感器和控制系统,能够实现https://tool.a5.cn/article/show/75537.html
5.车联网测试工程师(车载测试工程师)的未来前景怎么样?而车载测试在人工智能和新能源汽车领域中扮演着至关重要的地位,因为它涉及到车辆的安全性、性能、可靠性以及与车辆相关的智能系统的验证和测试。以下是车载测试在这两个领域的关键作用, 而车载测试在人工智能(AI),特别是在自动驾驶和智能交通系统方面中起着重要的作用: https://www.yoojia.com/ask/17-12261766035434020886.html
6.人工智能测试:关于无人车测试的案例研究雷峰网智能性测试和机器学习的过程类似,两者如同一个硬币的两面。https://www.leiphone.com/news/201812/8cedlhuNGrryHTIO.html
7.拷机和AI智能超频测试游戏硬件主板AI Suite BIOS AI智能超频可以通过AI Suite这款软件进行调控,开启之后电脑会重启,从而去自动对你你的电脑进行调校和评估。我们也对开启前后处理器的性能进行了测试。 AI智能超频 在AI智能超频开启之后,处理器性能会有一定的提升,而且这种提升性能的方法非常简单,只需求通过AI Suite软件或者BIOS设置就可以打开,完全不用https://diy.zol.com.cn/743/7438893.html
8.AppStore上的“趣味解读趣味解读 - 性格测试 & AI智能换脸 9+ 生活冥想,宝宝预测和财运解读 AI Fantasy Studio “娱乐”类第 141 名 3.9 ? 5,734 个评分 免费 提供App 内购买项目 截屏 iPhone iPad 简介 使用这个强大的魔法照片应用程序,你可以轻松获得很多乐趣。有趣和简单的方式来满足你的好奇心:如宝宝长相预测,灵魂动物,和https://itunes.apple.com/us/app/%E8%B6%A3%E5%91%B3%E8%A7%A3%E8%AF%BB-%E6%80%A7%E6%A0%BC%E6%B5%8B%E8%AF%95-ai%E6%99%BA%E8%83%BD%E6%8D%A2%E8%84%B8/id1523323143?l=zh
9.龙源AI检测官网智能AI写作检测系统提升信息可信度和社区安全,维护网站和媒体信誉。 政府及公共机构 用于政府检测各类科研补贴、政策申请,确保不被AI套取科研经费,错误引导政府决策。监测预警虚假信息和恶意行为,保障社会稳定和公共安全。 去伪存真,洞见不凡 让人工智能更好的为知识应用和信息传播服务http://cc.qikan.cn/
10.一文让你了解AI产品的测试评价人工智能算法模型的几个重要指标A(0,0):表示真阳率与假阳率均为0,表示什么都没有测试到; B(1,1):表示真阳率与假阳率均为100%; C(0,1):真阳率为100%,假阳率均为0,测试到的全是真的; D(1,0):真阳率为0,假阳率均为100%,测试到的全是假的。 由此可见C点的情况最高,所以曲线越靠近左上角说明算法最好。 https://cloud.tencent.com/developer/article/1642146
11.智能测试实践之路UI遍历技术背景 目前京东APP整体UV相对于去年日增加2000w以上,且处于逐年递增的状态,业务需求激增的同时也带来页面数量和功能的成倍增加,测试人员的业务压力也随之增大。京购小程序也面临同样的问题,作为京东创新业务和POP商家生态主要阵地,全功能对标京东App,在22年承接微信一https://maimai.cn/article/detail?fid=1755988749&efid=pyOhf1KYg5nL880CdIBLRQ
12.人工智能系统测试.pptx人工智能系统测试.pptx 33页内容提供方:布丁文库 大小:275.61 KB 字数:约6.62千字 发布时间:2023-12-04发布于上海 浏览人气:77 下载次数:仅上传者可见 收藏次数:0 需要金币:*** 金币 (10金币=人民币1元)人工智能系统测试.pptx关闭预览 https://max.book118.com/html/2023/1203/6205105202010014.shtm
13.AI超频与手动超频测试AI超频与手动超频测试 AI智能超频 AI智能超频是华硕Z390全新加入的功能,它可以自动评估CPU的体质超频能力和用户所使用的散热器的散热能,开启后它会不断的评估CPU能达到最佳频率和到达那个频率的电压,开启这个功能的时间越长得出的结果就越准确,最终结果会近似于通过人手反复调校所得出的频率和电压。 https://www.expreview.com/65158-7.html
14.人工智能,应该如何测试?(二)数据挖掘篇人工智能,应该如何测试?(二)数据挖掘篇 前言 数据决定模型的上限,而算法调参只是尽量的帮你逼近那个上限,建模工程师 80% 的时间都是在跟数据打交道,国内在 AI 上的发展与国外最大的差距不是在算力上,而是高质量的数据。 相信大家在网络上都见过类似的说法,事实上这些说法都是正确的。并且对于测试人员来说也是https://www.nowcoder.com/discuss/606484136173252608
15.世界人工智能智商最新测试结果公布世界人工智能智商最新测试结果公布 文|人工智能学家(微信公众号:AItists) 谷歌AlphaGo4:1战胜前围棋冠军韩国选手李世石后,人工智能威胁论进一步弥漫在社会各个领域,认为谷歌阿尔法狗的胜利标志着人类没落的开始,其实在本次比赛前,不同领域的科学家,企业家如物理学家霍金,微软创始人比尔盖茨等人,已经纷纷对人工智能的https://tech.163.com/16/0328/09/BJ82BEKN000948V8.html
16.GPTGPT-4 无法通过图灵测试!UCSD 团队研究证明 60 年前 AI 在测试中打败了 ChatGPT,更有趣的是人类在测试中的胜率仅有 63%。https://www.ithome.com/0/736/711.htm
17.智能人脸测试智能人脸测试,基于人工智能和大数据,提供颜值测试、皮肤测试等多个人脸分析功能,让您对于自己有更多的了解。 颜值测试 颜值测试功能,基于人工智能及大数据分析你的面容,依据眼睛、嘴巴、鼻子、脸型等维度计算颜值. 皮肤测试 皮肤测试功能,基于人工智能及大数据评估你的皮肤,依据色斑、青春痘、黑眼圈、皮肤健康等维度来分析http://www.pcqweb.com/
18.人工智能(AI)测试方法人工智能(AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学(定义)。**人工智能利用机器学习技术**,通过对现有的经过处理(筛选、消噪、过滤等)的数据,不断进行矫正(设置阀值等方法)机器模型的输出,此过程称为训练,期望通过训练可以得到在未来新数据上有良好表现的模型,https://www.jianshu.com/p/3966b2a18610
19.儿童手表现“毒答案”第三方App下架整改记者走访测试要闻近日,儿童智能手表因“已读乱回”频发,多次陷入舆论漩涡。9月2日、3日,华商报大风新闻记者找到多款不同品牌儿童手表及人工智能产品进行测试,并走访儿童手表市场,大多儿童手表中的AI问答功能都在升级整改。 家长心病 儿童手表AI问答多次“瞎答” 孩子下载游戏半夜摸黑完成“任务” https://news.hsw.cn/system/2024/0906/1781431.shtml
20.ErgoAI智能人机交互产品可用性测试实验室ErgoAI智能人机交互产品可用性测试实验室,ErgoAI智能人机交互产品可用性测试实验室一、系统简介ErgoAI智能人机交互产品可用性测试实验室是北京津发科技股份有限公司在人工智能、大数据、情感计算、多通道人机交互等技术快速发展与应用的背景下,结合人因工程https://www.bio-equip.com/show1equip.asp?equipid=4889399