AI模型被「骗」怎么破?《燃烧吧!天才程序员》冠军团队解决方案出炉

作者:奥比中光算法工程师埼玉(CLS战队)

计算能力的万亿倍增长使得深度学习在处理各种任务中得到广泛应用,如图像分类、自然语言处理和博弈论。然而研究者发现,现有深度学习算法存在着严重的安全隐患:攻击者可以通过给良性样本添加特定噪声,轻易地欺骗深度学习模型,并且通常不会被人发现。攻击者利用人的视觉和听觉无法感知的扰动,足以使正常训练的模型输出置信度很高的错误预测。这种现象被研究者称为对抗攻击。

也可以说,我们的模型被「骗」了,这激发了人们对对抗技术的广泛兴趣。那么,什么是对抗技术呢?

举几个例子,如图1所示[1],穿特殊图案的T恤可以使目前大部分行人检测器失效;给图2[2]中左边的大熊猫添加一个很小的干扰噪声,虽然生成的图片看起来和原始的没有什么区别,但是却会导致系统将其误认为是长臂猿的照片。

图1[1]

图2[2]

不过,有矛就有盾,对抗技术包含对抗攻击和对抗防御,它是机器学习与计算机安全技术的结合,是一个新兴的研究领域。以前的机器学习模型在面对攻击者精心设计的对抗攻击时,往往达不到预期的准确度。在实际应用中(如自动驾驶),这种错误的影响可能是致命的。

现有对抗攻击的方法

目前常见的对抗攻击方法一般有以下几种:

1.FGSM(Fastgradientsignmethod)[5]

这是一种基于梯度生成对抗样本的算法,其训练目标是最大化损失函数J(x*,y),以获取对抗样本x*,其中J是分类算法中衡量分类误差的损失函数,通常取交叉熵损失。最大化J,即使添加噪声后的样本不再属于y类。在整个优化过程中,需满足L∞约束||x*-x||∞≤,即原始样本与对抗样本的误差要在一定范围之内。

x*=x+*sign(xJ(x,y))

其中sign()是符号函数,括号里面是损失函数对x的偏导。

2.Deepfool[6]

是基于超平面分类思想的一种对抗样本生成方法。在二分类问题中,超平面是实现分类的基础,那么要改变某个样本x的分类,最小的扰动就是将x挪到超平面上,这个距离的代价最小。

多分类的问题也类似。具体如下图所示,Deepfool通过迭代计算的方法生成最小规范对抗扰动,将位于分类边界内的图像逐步推到边界外,直到出现错误分类。此方法生成的扰动比FGSM更小,同时有相似的欺骗率。

3.C&W(Carlini&Wagner)[7]

C&W算法使用一个变量w,辅助寻找最小扰动r_n:

r_n=0.5*(tanh(w+1))-X_n

基于w可以写出C&W优化过程的损失函数:

其中f被定义为

目前对抗攻击领域的研究大多是针对图像分类领域,如上述介绍的几种方法。而针对目标检测的研究相对较少,且不同的攻击技术需要采用不同的策略去防御,即对症下药。

针对带对抗样本的目标检测领域的研究目前分为两个阵营,即anchor-based和anchor-free,针对anchor-based的对抗攻击方法,如DAG[2]andUEA[3],以及针对anchor-free的对抗攻击方法,如FLA[4],在此不过多赘述。

A-tech大赛中的「进攻」与「防守」

在A-tech大赛中,「野生动物识别战」任务就涉及到了对抗技术。该任务本质上是目标检测任务,里面大约有34种可能存在的野生动物,需要预测每种野生动物的位置、类别及置信度,评测指标为mAP@50。比赛不仅要看准确度,还要看速度,即比赛最终看的是哪个战队可以在测试集上达到既快又准(即更快的FPS,更高的mAP)。

该任务中的数据分为训练集和测试集,其中测试集分为A榜和B榜。A榜对选手可见,可以用来测试自己训练的模型的精度,B榜不可见,成绩与排名以B榜排名为准,其中A榜和B榜独立同分布。

这只是一个目标检测任务吧?如果这样想,你很可能会被「骗」:比赛的训练和测试数据中,含有大量的「非正常图像」。稍不注意,就会掉进主办方设置的陷阱中。野生动物识别战任务中的训练数据是分三批提供的,如下所示:

第一批为正常的图像,如图3所示。这些图像虽然看起来正常,但是也有「坑」,其标签是离散的,也就是说,将同一张图像的多个标签分散在了多张一模一样的图像上。参赛者需要根据图像的md5来找出哪些图像和标签是可以合并的。

图3

第二批图像中是添加有水印攻击的图片,如图4所示,即在正常的物体上面添加了一些猎枪的水印。如果不注意,我们的模型就会学习到一些不该学习到的特征。

图4

第三批图像中便是对抗样本了。其中一半,是不带类别标签但有位置信息的正常图片,另一半是不带类别标签但有位置信息的对抗样本图像,如图5所示:

图5

再来看看测试数据,野生动物识别战任务中,A榜的测试数据包含三部分:

1、图像里面有自然噪声,比如雨、椒盐、高斯等,如图6所示:

图6

2、有少量水印攻击的图像,如图7所示,是水印攻击与雨水的混合图像:

图7

3、有少量对抗样本,如图8所示。第一眼看到这种图像时,我也很懵。

图8

面对上面的攻击,为避免我们的模型被「骗」,应该采取怎样的防御策略?

训练集和测试集可视化:这是最重要的方法,只有了解图像的特征,我们才知道应该采取什么样的防御手段去防御。在比赛中,奥比中光团队对训练集和测试集都进行了可视化分析,看了图像之后,计划先跑出baseline,于是选取了mmdetection框架,采用了res50+CascadeRCNN的架构,跑出了53%的mAP。

应该采用什么方法可视化?只能说,戴上眼镜一张一张地看……

1.测试图像去噪:可视化测试集的时候,我们发现测试集的图像中存在彩色的椒盐噪声,如图9所示。于是,我们在将测试图片输入到模型进行判定之前,先对当前测试图片进行去噪,如中值滤波,剔除其中造成扰动的信息,使其不能对模型造成攻击。

图9

图10

其中第一类方法是目标检测领域里面通用的方法,可以增强模型的泛化能力,比如可以增强模型对强弱光的适应性,这也我们在比赛中采用的方法。而cutout方法则对水印攻击有一定的效果,我们可以设置cutout的区域范围,尤其可以对第二批获取到的训练数据做cutout,这样可以削弱水印攻击的效果。而从高斯分布中采样出的随机值矩阵加入到训练图像中则可以针对测试集中的高斯噪声,也具有增强模型泛化能力的效果。

3.生成对抗网络:既然有对抗样本了,很多同学自然而然就会想到GAN了。没错,可以训练一种专门去水印的生成对抗网络,用于图像的水印去除。

4.采用两阶段的检测方法:由于两阶段的检测方法在第一阶段不区分类别,只定位位置信息,因此第三批的训练数据可以用于做弱监督的训练,只利用位置信息,不利用类别信息,能够增加模型的回归能力,使其能够定位的更准。

5.多尺度测试:测试的时候采用多尺度测试(可理解为TTA)。这是一个比赛涨点神器,玩过俄罗斯的套娃吧,就是下图这样的:

结语

以上就是针对A-tech比赛中攻击样本的一些防御策略。如果没有这些防御措施,直接拿一个目标检测网络去训练,估计会得到一个比较差的成绩,假如无防御的模型被用于实际的野生动物识别,后果将不堪设想。这次比赛深刻揭示了AI安全技术的意义。可以想象,如果在无人驾驶领域或者导弹定位系统中,模型的鲁棒性差或者受到了不可预知的样本攻击,导致出现「误伤」的情况,将有可能带来重大风险。比如曾发生过的无人驾驶汽车撞到行人,着实令人痛心。

从另一方面来看,对抗样本的存在是非常有意义的。它能够让模型看到很多以前它没有见过的样本,是有利于增强模型鲁棒性的。就像AI换脸与AI鉴伪,这种道高一尺、魔高一丈的较量不会停止:一场持续的科技竞赛,必然会呈现攻与防互相促进发展的状态。

团队介绍

作者简介:埼玉,奥比中光算法工程师,在工业界有诸多落地应用,擅长深度学习在行人领域的应用。

导师:小蛮腰,奥比中光研究院SDK组负责人。博士毕业于新加坡国立大学,图像识别经验丰富,熟悉深度学习算法,擅长AI图像识别、立体视觉。

鸣谢:A-tech大赛的专家、老师、工作人员以及一同参赛的大佬们。

参考文献:

[1]WuZ,LimSN,DavisL,etal.MakinganInvisibilityCloak:RealWorldAdversarialAttacksonObjectDetectors[J].2019.

[2]CihangXie,JianyuWang,ZhishuaiZhang,YuyinZhou,LingxiXie,andAlanYuille.Adversarialexamplesforsemanticsegmentationandobjectdetection.InProceedingsoftheIEEEInternationalConferenceonComputerVision(ICCV),pages1369–1378,2017.

[3]XingxingWei,SiyuanLiang,NingChen,andXiaochunCao.Transferableadversarialattacksforimageandvideoobjectdetection.InProceedingsoftheInternationalJointConferenceonArtificialIntelligence(IJCAI),pages954–960.AAAIPress,2019.

[5]I.Goodfellow,J.Shlens,andC.Szegedy,「Explainingandharnessingadversarialexamples,」inInternationalConferenceonLearningRepresentations,2015.

[6]Moosavi-DezfooliSM,FawziA,FrossardP.DeepFool:asimpleandaccuratemethodtofooldeepneuralnetworks[C]//ComputerVision&PatternRecognition.IEEE,2016.

[7]CarliniN,WagnerD.Towardsevaluatingtherobustnessofneuralnetworks//SecurityandPrivacy(SP),2017IEEESymposiumon.IEEE,2017:39-57.

[8]TerranceDeVriesandGrahamWTaylor.Improvedregularizationofconvolutionalneuralnetworkswithcutout.CoRR,abs/1708.04552,2017.

THE END
1.天才是如何被毁的?看完这个视频就懂了!天才是如何被毁的?看完这个视频就懂了!声明:虚构演绎,仅供娱乐柱子故事纪录 天津 0 打开网易新闻 体验效果更佳最弱转校生仅用8个小时当上老大,靠的竟是绯闻和倒霉,爆笑喜剧 小古趣影 478跟贴 打开APP 知名导演拍摄短片讽刺资本暗箱操作,却被影评人怒怼! 朔涵君 1476跟贴 打开APP 为什么《国产剧里》的穷人,https://m.163.com/v/video/VRITVB1D0.html
2.《朱音唯i》免费在线观看相关热播 更多 2.0 超清 奇妙的发型屋2在线观看免费版 阿诺·乔瓦尼内蒂 4.0 完结 余生请多指教32集免费观看 Pereyra,Yi 7.0 超清 4444aa Ging 4.0 完结 迷妹高清在线观看 Sintaro 9.0 第45集 7月上映的电影 永冈佑 7.0 第148集 探花李寻欢在线观看 科里·费尔德曼,? https://www.jingyingjiajiao.com/gzsx/shiti_id_e7beb6dba7dd551b37bcccb95011c0ee
3.正义的算法天才儿童状告父母电视剧全集正义的算法 2.8亿播放·42万弹幕·73.1万追剧 搞笑/ 剧情·2022·已完结, 全26集·BV1rf4y1d7kn 出演演员:陈柏霖 郭雪芙 林格宇 侯彦西 阿喜·林育品 陈雪甄 威廉 唐振刚 邹承恩 洪晖森 黄品瑜 简介:实力超群、帅痞魅力的律界明星刘浪(陈柏霖 饰)在即将高升之际,人小鬼大的可爱萌娃刘良良(林格宇 饰)突然的https://m.bilibili.com/bangumi/play/ep574668
4.《天才基本法电视剧》免费在线观看全集天才基本法电视剧免费在线观看全集于2022在新视觉影院播放,可以用手机在线观看天才基本法电视剧天才基本法全集完整版。天才基本法主要剧情介绍了这出戏是按照同名小说改编的。故事讲述了年轻女孩林(章子枫饰)因持久敬慕父亲林(雷家印饰)和初爱恋人裴之(章心诚饰)这两http://www.jdcyl.com/xinshijue185256.html
5.决胜21点电影高清完整版视频在线观看本有着惊人的才华,教授希望他加入自己的21算法团队,专门去赌场依靠算牌赢得大钱。本出师的成功使其尝到了甜头。可同时他却和旧友疏远,迷失在赌场的漩涡里。主演:Jim Sturgess, Kevin Spacey, Kate Bosworth导演:Robert Luketic添加片单 喜欢 不喜欢 类似影视 5.7 7.3 6.3 6.9 7.9 7.6 9.3 7.0 7.7 7.2 7.0 https://v.guoing.com/play/13624
6.天才基本算法之芝士裴之归来免费阅读免费小说全文作者天才基本算法之芝士裴之归来是作者南瓜要觉醒在话本小说网连载的一部热门幻想小说。话本小说第一时间提供天才基本算法之芝士裴之归来最新章节在线阅读。https://www.ihuaben.com/book/8967501.html
7.天才的基本算法理想股票技术论坛天才基本算法涵盖基础知识、核心概念、实现技巧等内容,引领读者深入了解算法的核心思想,帮助初学者轻松入门。该算法不仅是计算机科学领域的基础,也是解决现实问题的关键工具。通过解析各种算法的原理和应用场景,让读者更好地理解并掌握算法的应用技巧。 ,理想股票技术论https://www.55188.com/tag-8836704.html
8.个推漫话数据智能,解读《天才基本法》中的贝叶斯网络及原理最近的热播剧《天才基本法》中,提到了很多有趣的数学知识点,比如“亲和数”“巴什博奕”“孔明棋”“七桥问题”等等,让很多观众直呼不明觉厉。其中,最让Mr.Tech感兴趣的是剧中男女主参加数学建模大赛时用到的贝叶斯网络。 ▲女主使用贝叶斯网络进行算法建模,来预测嫌犯行动轨迹和抓捕时间方位。图片截图自电视剧《https://blog.csdn.net/Androilly/article/details/126388889
9.关于开高次方的算法《天才与锻炼》by华罗庚关于开高次方的算法《天才与锻炼》-华罗庚 国人数学家里比计算功力,还是华老最牛。大家看看当年华老怎么评价那个印度计算神人的。 天才与锻炼 ——从沙昆塔拉快速计算所想到的轰动听闻的消息 提问者写下一个201位的 数:916,748,679,200,391,580,986,609,275, 853,801,624,831,066,801,443,086,224,071,https://www.douban.com/group/topic/48505151/
10.华为天才少年:提升AI算法通用性,才能真正赋能千行百业4月24日,华为开发者大会2021(Cloud)<华为云·先锋少年论坛>在深圳举办。华为天才少年谢凌曦在论坛现场分享AI求学路上,努力寻找最具挑战的问题和答案。从学界来到华为云,致力于提高AI的通用能力,赋能千行百业,让世界更高效。 谢凌曦,华为天才少年,华为云EI高级研究员。分别于2010年和2015年于清华大学获得本科和博士学https://news.zol.com.cn/755/7559380.html
11.联手华中科大出征DIMACS挑战赛华为“天才少年”算法夺冠【深圳商报讯】(记者陈姝)4月13日,记者从华为了解到,华为云瑶光调度算法团队近日联合华中科技大学团队,在第12届DIMACS算法挑战赛中同时斩获两项冠军、一项亚军、两项季军,成为本届唯一获得多个冠军的团队,也是中国团队在该赛事中首次夺冠。 华为云瑶光调度算法团队由“天才少年”和“博士军团”领衔,并与华中科技大学吕https://finance.eastmoney.com/a/202204142343057092.html
12.高斯日记用java编写高斯日记算法讲解小咪咪的技术博客天才少年 可能大部分同学都听说过一个知名的故事。一位小学老师,为了让同学们停止吵闹,给出了一道数据题 1+2+3+…+100 = ? 原本以为可以让他们安静二三十分钟,结果1分钟不到,就有一个小朋友举手回答了出来,老师漫不经心的看了一眼答案,万万没想到竟然是正确的。 https://blog.51cto.com/u_13354/6473402
13.知乎:对标Quora,超越Quora通过算法突出优质内容 根据用户行为实现精准的定向推送 引入社交机制 至此,Quora结束了产品从0到1的打磨,开始在硅谷崭露头角,很快受到了多位知名投资人的喜爱。 半年后,Quora完成了5000万美金的B轮融资。 2010-2011年,Quora用户量的指数型增长,来源:Neil Patel Digital https://maimai.cn/article/detail?fid=1321854528&efid=nfFvSb0qNw4l4tdZgztccA
14.AlphaGo之父戴密斯·哈萨比斯(DemisHassabis)导语:美国麻省理工《科然后在2016年1月DeepMind再次发表论文,称他们的新算法AlphaGo在最困难的游戏——围棋——上也取得了巨大突破。而后来的事,你们应该都已经看过不下几百遍了。 最先进的人工智能背后也只是人 Demis Hassabis是个天才,这个论断就算是只知道他是那台在围棋上下赢人类的机器背后男人的人,相信也不会有很大的异议。不过,https://xueqiu.com/7924227668/65920154?from=groupmessage
15.个推漫话数据智能《天才基本法》中的贝叶斯网络及原理解读最近的热播剧《天才基本法》中,提到了很多有趣的数学知识点,比如“亲和数”“巴什博奕”“孔明棋”“七桥问题”等等,让很多观众直呼不明觉厉。其中,最让Mr.Tech感兴趣的是剧中男女主参加数学建模大赛时用到的贝叶斯网络。 ▲女主使用贝叶斯网络进行算法建模,来预测嫌犯行动轨迹和抓捕时间方位。图片截图自电视剧《https://cloud.tencent.com/developer/article/2074214
16.半译介丨《电子游戏的哲学》读书笔记机核GCORES这种机器逻辑看起来是电子游戏的最小组成部分,它“完成”了最初的纸片版纸牌接龙。但之所以能说纸牌接龙是电子游戏的极小值,是因为纸片版的纸牌接龙几乎已经是一个电子游戏了,它由一步步的计算嵌合而成,“玩纸牌接龙,就是在应用算法”。 1930年代的棒球卡游戏跟今天一样随赛季更新,与纸牌接龙一样,可以姑且称作“https://www.gcores.com/articles/153926
17.专访量子计划#15“稚辉君”《华为天才少年素养》·Issue华为的成功不仅仅是资金,还有技术和天才的脑子 1 袁德俊拥有者4年前 如何评价嘉楠耘智的勘智K210芯片? https://www.zhihu.com/question/293015263 所以那个所谓智能也是两个隐藏cpu及微码极限超频运算跑出来的,而不是优化布局,自主研发搞的硬核智能算法asic,您们若是不信,就当一乐子,懂点的自然知道咋https://gitee.com/yuandj/siger/issues/I3ETSD
18.华为天才少年欢迎来自全球的天才少年加入我们,用科技的力量造福人类! 投递简历 拖着世界往前走 欢迎来自全球的天才少年加入我们,用科技的力量造福人类! 投递简历 华为面向基于计算机视觉、多模态理解和生成的多媒体算法研究 终端系统性能功耗仿真和优化研究 云计算 AI系统训练推理加速技术研究 大模型网络架构与AI系统技术研究 智能https://career.huawei.com/reccampportal/portal5/topminds.html
19.稚晖君:「天才少年」更恐怖的一面坐在这位发量浓密的天才工程师对面,会难以避免地出现一种被时间追逐的紧迫感。他的语速总是很快,像是被按下了1.5倍速键,甚至一度使人担心录音转文字时AI按照机器人开发所涉及到的技术板块,所有技术人员被分为软件、算法、机械结构、硬件和嵌入式5个小组。 机器人的研发进度也被以技术指标为节点,按每月一个节点http://www.bianews.com/news/details?id=166116
20.《天才女友》素光同晋江文学城天才书写的序章 人类行为观察员 6486 844775 2023-05-31 16:42:57 2 备受打击的自尊心 同桌友好相处法则 3483 533959 2021-03-14 04:08:37 3 孕育出天才的家庭 他小小年纪,对自己真狠啊 5668 475543 2023-02-24 21:30:18 4 K-means聚类算法 “人都是在不断成长、不断调整参考点的。https://go.jjwxc.net/onebook.php?novelid=4435966
21.“华为天才少年”再登热搜,曾因造自动驾驶自行车走红网络这位仅仅毕业三年的90后UP主,曾一举拿下OPPO算法岗、硬件岗双Offer。2020年,他被华为“天才少年”计划纳入麾下,成为一名AI算法工程师。在大众眼中,他作为B站UP主,经常上传硬核的硬件DIY视频,科技含量十足,被称为“野生钢铁侠”。今年6月,“稚晖君”还曾因自制自动驾驶自行车一度走红网络。https://static.nfapp.southcn.com/content/202110/11/c5824941.html