人工智能现在是常见词汇,大多数人可能觉得,它是学术话题,跟普通人关系不大。
但是实际上,AI突飞猛进,正在脱离实验室,进入日常生活。仅仅是现在的技术水平,就足以模糊现实与虚拟的界限,颠覆一般民众的认知。
(图2:谷歌的机器学习专家格里高利·萨普诺夫)
人工智能最早是从图像处理开始的。图像处理是一种常见任务,智能要求比较高,需要使用PhotoShop之类的软件人工编辑,一般的算法解决不了。
(图3:图像的对象补全模型)
上图中,左边是原始图片,然后把中间的花盆涂掉,输入模型。模型会自动补全缺失的部分(右图),由于它不知道,那里有一个花盆,所以只会根据没有涂掉的部分,补上地板和扶手。
下面是更多这样的例子。涂掉的部分,模型都会补上,哪怕它根本不知道,那里原来是什么。
(图4:图像的对象补全示例)
(图5:涂掉沙发旁边的茶几)
(图6:图片的背景去除)
在模型内部,图片会转成像素的色块。下图的浅紫色块就是前景物体,然后再把这些像素提取出来。
(图7:背景去除模型)
(图8:更改图片背景)
(图9:原始图片)
上图是两张原始图片,第一张是梵高的名画《星夜》,第二张是普通的风景照。模型可以提取第一张图片的风格,将其套用在第二张图片。
(图10:套用梵高的《星夜》风格)
其他名画的风格,同样可以套用。
(图11:图像的风格转换)
(图12:黑白照片的着色)
GAN是"生成对抗网络"(GenerativeAdversarialNetworks)的缩写,它是一种革命性的提升人工智能模型效果、生成虚拟图像的方法。
原理很简单,就是两个神经网络互相对抗。一个神经网络负责生成虚拟图像,另一个神经网络负责鉴定假图像。理论上,如果GAN训练成功,那么生成的假图像与真图像将无法区分。2014年,这种方法提出以后,快速发展,目前效果已经可以乱真。
(图13:GAN的改进速度)
上图是过去几年,GAN生成的虚拟人像。可以发现,每过一年,图片越来越大,细节越来越丰富,越发接近真实人像。它的工作方法也是如此,第一步生成一张低分辨率图片,然后慢慢放大,依次修改每一个像素,确定该像素怎样才能最大概率通过鉴定器。
(图14:GAN虚拟人像)
(图15:BigGAN模型生成的虚拟图像)
一种图像通过GAN转变为另一种图像,称为图像翻译。空拍照片变成地图、黑白照片变成彩色照片,都是图像翻译的例子。
(图16:图像翻译)
也可以让春天变成夏天,晴天变成雨天。
(图17:图像翻译)
图像翻译的难点在于,它需要有成对的示例(源图像和相应的目标图像),告诉模型应该怎么翻译,这些示例可能很难创建。但是反过来,只要有配对的示例,就可以翻译图像,不管这种翻译是否合理。下面是两只小猫翻译成对应的豹子、狮子和老虎。
(图18:图像翻译)
(图19:图像翻译)
(图20:GauGAN将示意图变成照片)
(图21:脸部属性的改变)
还可以把其他人的表情移植到你的脸上,下图分别是愤怒、快乐、恐惧的表情翻译。
(图22:表情的改变)
(图23:人像编辑软件SC_FEGAN)
(图24:根据文本生成图像)
论文甚至提到,将来存在可能,根据剧本直接生成一部电影。
从一个视频生成另一个视频,这就叫视频翻译。目前比较成熟的两个方向是运动传递和面部交换。
运动传递指的是,将一个人的动作(包括身体、眼睛或嘴唇的动作)翻译到另一个人身上,使得另一个人出现一模一样的动作。
(图25:动作传递)
上图中,蓝衣女子的跳舞视频完全是假的,是将左上角舞者的动作套用在她身上,自动生成的。
(图26:vidvid软件)
(图27:虚拟的奥巴马演讲)
(图28:伪造的特朗普演讲,将喜剧演员的表演变成特朗普自己在讲。)
(图29:深度伪造的普京)
(图29:深度视频肖像)
(图30:一张照片生成各种表情)
国内的人工智能视频生成,并不落后于国外。换脸应用ZAO只需用户上传一张照片,就能把影视剧主人公的脸换掉,好像你本人在表演电影一样。
(图31:换脸应用ZAO)
2018年,新华社与搜狗合作推出了虚拟新闻主播,具有真人的形象,带有声音、面部表情和动作,在电视上播报新闻,已经开通了英语、俄语、阿拉伯语的主持人。
(图32:虚拟新闻主播)
除了视频生成,人工智能在视频渲染上也取得了很大进展。
Nvidia公司2018年展示了实时光线追踪RTX技术。这项技术用人工智能预测光线的变化,从而不用耗费大量计算去追踪光线,因此可以实时渲染出高画质的3D动画。这对于视频游戏有重大意义。
(图32:实时渲染的动画)
最后,简单提一下,人工智能在文本和声音处理领域的进展。
(1)语音合成
(2)音乐合成
(4)智能邮件
毫无疑问,人工智能是很酷的技术,创造出了神奇的产品,有着难以想象的巨大应用前景。
但是,人工智能也是一把双刃剑,模糊了现实与虚拟之间的界限,把我们带上了一条不可预测的道路。作为个人,了解这些技术的进展和潜力,有助于保持一份清醒,享受技术之福的同时,避免它带来的一些副作用。
(正文完)
下面是前端开发的10份免费专题资料,既有基础内容,也有进阶内容,都是实战一定会用到的东西。不管你是刚开始学习前端,还是已经从事了0~3年的开发实务,这些资料相信都会让你有所收获。
金渡教育专注于做前端进阶培训。他们在腾讯课堂这个平台上,有一门精品课程《Web前端进阶班试听课》。如果你看了上面资料,想了解更多,或者想接受系统的前端培训,还可以0成本得到这门课的试听。
目前正值"双十一",他们提供各种优惠,是腾讯课堂上性价比非常高的一门课程。
(完)
muji说:
到最后,ai是否可以取代人类?
大嘴巴闭嘴说:
cK说:
看完之后,我只想到了一个词,欺骗,完全想不到它好的地方
东说:
Kevin说:
人工智能的发展远远超出了我们的想象。
bbb说:
很好。。但也很可怕。。越来越真实,可能会让人类混淆什么是客观的真实与虚拟。。这里面也许会产生一种新的经济利益,类似于鸦片,人类可以完全投入到这个虚拟的世界中过另外一种自己的人生。。。越来越近了。。
wuwao说:
感谢介绍这篇论文。
vidaamour说:
看得如芒在背,想起蜘蛛侠英雄远征,你将分不清你所处的环境是真实还是虚拟。那么最后将是人性善获胜还是人性恶获胜。
redford说:
最后这些技术游戏行业全部能用上哈哈哈哈哈一定要好好锻炼,活到全息游戏上线
DC说:
zentby说:
人类越来越不容易分辨真实与虚拟,未来了解真相也愈加不易。
苏耀峰的Blog说:
喜欢TensorFlow
Sam.Z说:
便利的同时也感觉人类(普通人)会越来越难,AI还真是把双刃剑呀。
翟码农说:
人类社会除了往前走,似乎也无路可退。
钱铭说:
能力如果不能得到很好的管理,带来帮助也将变为伤害
堂说:
请问,那个样式转换(梵高画)有没有在线玩的地方?
snowqinag说:
有一天,所有的摄像头都失去了意义
laokaide说:
joy说:
视频动画在5G时代将会有很大发展
展翼骐骥说:
敢问博主,AI跟区块链会有怎样的结合??
Orange说:
看完这我发现我做前端都没什么意义了以后直接生成页面就好了
da0说:
懂的人看内核的技术,不懂的人看个热闹
xkloveme说:
MegaTrends说:
假如一台机器有了和人一样的智力,那“他”能获取一个合法的社会身份吗?
Ashin说:
我想知道有些技术发展的初心是什么,似乎早就忘了初心
桥边驿语人说:
超乎想象
little说:
好多网站是墙外的,从未敢翻墙过...
微wx笑说:
技术越来越强大,也越来越可怕。
fakenew说:
没有一条属于“AI”
又菜又浪说:
图像处理而已,也算AI?
鑫说:
有一期再说正在开发脑部神经芯片,如果加上人工智能,未来可能会出现小说里面的游戏仓,而人类就是靠大脑神经去调动躯体工作,如果分离,不靠躯体供应营养,是不是可是永。。。
老五说:
这么说起来,现在使用的人脸解锁还能安全吗?想起上次说的,可以从拍摄的高清照片中提取到指纹,细思极恐!
DHL说:
AI,唉.
chxuzzu说:
以后不用手动抠图去背景了。
山石松说:
cc说:
引用muji的发言:到最后,ai是否可以取代人类?
人脑有1千多亿个神经元,比电脑复杂多了
徐彬说:
然后就是terminator哈哈哈哈
诸葛亮说:
太可怕了
国服第一獭兔说:
这是技术,我觉得这与AI没什么关系,AI应该有自己的思维意识,否则智能根本谈不上
KUKUMUMU说:
引用cc的发言:
当然,人是不可能战胜机器的,就像你能跑过汽车吗
wilon说:
解决了机器人看听说的问题,接下来...
杰哥说:
随着科技发展,ai是否有取代人大部分工作的可能性,如果取代了,那替换下来的劳动力该何去何从?
gyh说:
我感觉目前所谓的“人工智能”,只是说,我们让计算机学会了“猜”,猜像素,猜动作,通过“猜”,我们可以让计算机解决一些模糊的问题。至于取代人类,光靠“猜”还不够,还要能“想”,能“认识”。
iiiiiii说:
“人工智能”不行啊他根本不知道什么时候需要/不需要做什么就像机器人学会了扫地但他不知道什么时候扫地也就是这个机器人不会主动工作永远是被动的所以我根本不知道他在哪里智能了
东山郎说:
你暴露了我们的实力,我们还需要你们继续努力
蔡徐坤说:
感觉现实世界就是一台具有人类无法想象的算力的计算机模拟出来的
Bowen说:
这时还没有GPT
凹凸说:
从2024.2.21回来,chatgpt,sora,AF2等等的出现,让人更加感慨AI发展之快。并且,AI不再是一个大玩具,而是像是新世纪的电力一样,逐渐向各行业渗透。