Imagen是一款文本-图像的扩散(CLIP)模型,由GoogleResearch和GoogleBrain团队研发,打出的标语是“前所未有的写实感×深层次的语言理解”,即可以根据给定的提示词,生成高度契合文本含义及具有照片般真实感的图像。
我们之前介绍过,Dall·E2的功能包括根据文本生成具有图像、根据文本提示修改图像内容、根据一张图像延展出风格内容相似的多张图像。相比之下,Imagen则更加专注于根据文本生成极具真实感的图像。
据Imagen官网介绍,为了比较Imagen与其他文本-图像模型(如DALL-E2)在图像生成方面的性能,Google设立一个名为DrawBench的文本-图像模型评估基准。这是一个具有200个提示文本的列表,将这些提示文本分别输入不同的模型中输出图像,再由人类参与测评。Google表示在此基准下,参与测试的人员普遍认为“在并排比较中,无论是在图像生成的样本质量还是在图像与文本的一致性方面,Imagen都优于其他模型”。
Parti是Google在推出Imagen不久后推出的另一款文本-图像生成模型。二者都是专注于通过文本生成逼真的图像,区别在于Imagen是扩散(CLIP)模型,而Parti是路径自回归文本-图像(PathwaysAutoregressiveText-to-Image)生成模型,后者可实现高保真、极具真实感的图像生成。
据官网介绍,Parti通过研究一组图像来训练自身模型来生成另一组新的图像,可供研究的图像数量越多,生成的图像就越逼真。而Parti则在训练过程中,将参照图像数量由3.5亿个提升至200亿个,这也使得生成图像与文本的契合度达到75.9%。
而且Google发现,在图片参照数量达到200亿的情况下,Parti在生成有关抽象、世界通识知识、特定视角、书写和符号的图像时特别出色。同时也发现Parti可以处理长而复杂的提示,特别是这些提示涉及以下方面:
Google还列出多组提示文本和输出图像作为例子,展示Parti是如何对参与者、活动、描述、地点和格式的变化做出反应的。
虽然在官网中Google展示了Parti在图像生成方面的优势,但也坦言这些展示出来的例子都是从很多实验结果中精挑细选出来的。并表示虽然Parti能根据宽泛的提示文本产生了高质量的输出,但其模型还是有许多限制,比如对文本数量、特征的错误呈现,以及对表示否定和不存在提示词的错误处理等
Make-A-Scene是Meta在7月14日宣布推出的一项新的AI技术,其最大特点是可以在用户创作的粗略草图的基础上,结合文本提示生成具体的图像,让生成图像的可控性更高。
与Dall·E2和Imagen这种仅凭提示文本生成图像的模型相比,Make-A-Scene创作出的图像有了更高的可控性。使用者可以通过草图控制最终图像的具体效果,包含元素数量、大小、形式、排列方式、构图、深度等各个方面。这项新技术使Make-A-Scene在与其他模型进行对比测试时,在图像与文本契合度方面的评价明显高于只根据文本生成的图像的模型。当然用户也可以选择不使用草图,直接通过文本生成所需的图像。
在给定的文本提示下,不同的形状草图可以生成不同的图像
在给定的草图下,不同的提示文本可以生成形式相同但风格不同的图像
为了进一步开发这种由草图生成图像的技术,Meta邀请了几位著名艺术家进行合作,共同探索Make-A-Scene如何能更好地将人们的想象力变为现实;同时也让儿童参与到这个研究过程中,让Make-A-Scene将小朋友充满想象力的绘画的草图变为现实。
艺术家Crespo使用Make-A-Scene,用草图和文字提示创作新的生物插图,提示文本为:一幅夜间的有花瓣外形的外星水母的画。Crespo认为这种创作方式“这将有助于更快地发挥创造力,并帮助艺术家使用更直观的界面工作”
Meta认为通过Make-A-Scene这类的AI项目,无论原本的艺术能力如何,人们都将能无限拓展创意表达的边界,而且无论是在现实世界和虚拟世界中,人们都能将自己的愿景变为现实。熟悉Meta的朋友可能知道其在元宇宙方便的布局,而人工智能图像工具的发展让人们通过语言或其他方式构建虚拟空间成为可能,这对Meta进军元宇宙的布局也有重要意义。
初看到NUWA这个单词你会想到什么?没错,就是我们熟知的中国神话人物“女娲”。
NUWA-Infinity官网展示的根据《清明上河图》生成的新图像,新图像大小达到了惊人的38912*2048px。
在官网上,NUWA-Infinity展示了其根据《清明上河图》生成的新图像,新图像的大小达到了惊人的38912*2048px。为了更好地适应页面,官方将完整的图像分割为6个部分,每个部分的分辨率为有6485*2048px。NUWA-Infinity还将Windows系统经典的草原壁纸延展为超宽的新图像,点开图片静静播放,你能体验到一种坐着绿皮火车穿过草原山川的感觉。
受动图大小限制是截取了一小段,强烈建议大家到官网感受一下
功能一:图像外延(IMAGEOUTPAINTING)
NUWA-Infinity能根据给定的图像,通过学习、想象和生成新内容,将其扩展为任意大小和分辨率的图像。图像具有超大尺寸、自我创作能力、局部细节与全局一致这3点特征,且这种图像拓展不限方向。
NUWA-Infinity对图像进行不同方向拓展的演示,包括向左、向右、向下、向上以及向同时向四周拓展
功能二:图像转视频(IMAGETOVIDEO)
NUWA-Infinity可以将图像转化为视频,给静态图片带来显目的生动性。
左图为原始静态图片,右图为NUWA-Infinity根据静态图像生成的动态图像
功能三:文本转图像(TEXTTOIMAGE)
只需简单的单词和句子,NUWA-Infinity就可以生成各种令人叹为观止的高分辨率图像。
NUWA-Infinity根据文本提示生成的各种高清图像
本篇一共为大家介绍了4款由互联网科技巨头推出的最新AI图像工具,它们分别是:
相比Dall·E2,这4款AI图像工具在技术上都有不同程度的创新,虽然由于模型训练数据中存在社会偏见、害怕害怕产生有害的图像、会被公众滥用等各种原因,这些工具还不能对公众开放,但相信等未来技术更加成熟后,这些AI工具会给我们的工作和生活带来颠覆性的改变。