本次会议共收到757篇论文投稿,接收论文209篇,接收率为27.61%;其中口头报告论文64篇,比例为8.45%。投稿最多的领域是「理解-多媒体与视觉」、「理解-深度学习多媒体处理」、「理解-多模态分析与描述」、「互动-多媒体搜索与推荐」,投稿数量分别为210篇、167篇、86篇、79篇。
最佳论文一篇
BeyondNarrativeDescription:GeneratingPoetryfromImagesbyMulti-AdversarialTraining
最佳学生论文一篇
UnderstandingHumansinCrowdedScenes:DeepNestedAdversarialLearningandANewBenchmarkforMulti-HumanParsing
最佳Demo论文两篇
AniDance:Real-TimeDanceMotionSynthesizetoSong
MeetAR-bot:MeetingAnywhere,AnytimewithMovableSpatialARRobot
最佳开源软件比赛论文两篇
Vivid:VirtualEnvironmentforVisualDeepLearning
AGeneral-PurposeDistributedProgrammingSystemusingData-ParallelStreams
ACMTOMM期刊最佳论文一篇
LearningfromCollectiveIntelligence:FeatureLearningusingSocialImageandTags
ACMMM2018最佳论文《BeyondNarrativeDescription:GeneratingPoetryfromImagesbyMulti-AdversarialTraining》(超越叙事描述:通过多对抗训练,从图像生成诗歌)由京都大学和微软亚洲研究院合作完成。以下为微软亚洲研究院提供的论文中文版全文。
摘要
1引言
图像标题技术和图像生成短文的重点在于生成关于图像的描述性语句,而诗歌语言的生成则是更具挑战性的难题。视觉呈现与图像可激发的、有助于更好地生成诗歌的诗歌象征之间,距离更远。例如,图像描述中的“人”在诗歌创作中可以进一步使用“明亮的阳光”和“张开的手臂”象征“希望”,或使用“空椅子”和“黑暗”的背景象征“孤独”。图1举出了一个具体的例子,说明同一张图像,其描述和其诗歌之间的差异。
2.1诗歌生成
2.2图像描述
3方法
如图2,所示,架构包含几个部分:(1)用来学习图像诗意呈现的深度耦合的视觉诗意嵌入模型(e),以及(2)策略梯度优化的多对抗训练。两种判别网络(g和h)以RNN为基础,作为智能体,为策略梯度提供奖励。
3.1深度耦合的视觉诗意嵌入
其中,我们将全连接层输出用作v1、v2、v3的特征。视觉诗意嵌入的输出向量x是K维向量,代表图像特征线性映射的图像嵌入:
其中Wv∈RKxN是图像嵌入矩阵,而bv∈RK是图像偏差向量。同时,根据诗歌语句的skip-thought平均值计算出诗歌的表达特征向量[15]。我们使用有M维向量(被记为t∈RM)的Combine-skip,因为如[15]中所示,它显示出更好的表现。skip-thought模型在单模态诗歌数据集得到训练。与图像嵌入类似,诗歌嵌入被表示为:
其中Wt∈RKxM表示诗歌嵌入矩阵,而bt∈RK表示诗歌偏差向量。最后,使用点积相似性最大限度地减少每对的排序损失,从而将图像和诗歌一起嵌入:
3.2诗歌生成器作为智能体
图像标题技术的传统CNN-RNN模型在我们的方法中被用作智能体。我们没有使用近期在图像生成短文中被用于生成多条语句的层次方法[16],而是通过将句尾标记作为词汇中的一个词语来处理,使用了非分层递归模型。原因在于,相比段落,诗歌包含的词语数量通常更少。此外,训练诗歌中语句之间的层次一致性更低,这使得句子间的层次更难学习。我们还将层次递归语言模型用作基线来进行了实验,我们会在实验部分展示其结果。
生成的模型包括图像编码器CNNs和诗歌解码器RNN。在本研究中,我们使用门控循环单元[3]作为解码器。我们使用通过第3.1节中所示深度耦合的视觉诗意嵌入模型习得的图像嵌入特征,作为图像输入编码器。假设θ是模型的参数。传统上,我们的目标是通过将观察语句y=y1:T∈Y*的相似性最大化,来学习θ(其中T是生成语句的最大长度(包括代表语句开始的
我们通过遵循其梯度,来将J(θ)最大化:
在实践中,期望梯度可以近似为使用一个蒙特卡洛样本,使用方法如下:按顺序从模型分布pθ(yt|y1:(t-1)中对每个yt进行取样,其中t等于1到T。如[24]中所述,可引入基线b来降低梯度估计的方差,而不改变预期的梯度。因此,单一取样的预期梯度近似等于:
3.3判别器作为奖励
多模态判别器:为了检查生成的诗歌y是否与输入图像x相匹配,我们训练多模态判别器(Dm),来将(x,y)分类成匹配、不匹配和已生成三个类别。Dm包括一个多模态编码器、模态融合层以及一个有softmax函数的分类器:
其中Wx、bx、Wc、bc、Wm、bm是要学习的参数,⊙是元素级相乘,而Cm代表多模态判别器的三种类型的概率。我们利用基于GRU的语句编码器来进行判别器训练。方程11提供了生成(x,y分类到每个种类,使用Cm(c|x,y)来表示)的概率的方法,其中c∈{匹配,不匹配,已生成}。
诗意类是满足诗意标准的正面例子。其他三类都被视为反面示例。无序类是关于诗句之间的内部结构和连贯性,而段落类则是使用了段落句子,而被当成反面示例。在Dp中,我们将单模态诗集当做正面的诗意示例。为构建无序类别的诗歌,我们首先通过分割单模态诗集中的所有诗歌,建立了一个诗句池。我们从诗句池中随机挑选合理行数的诗句,重新构成诗歌,作为无序类的示例。[16]提供的段落数据集被用作段落示例。
完整的生成诗歌y被GRU编码,并解析到完全连通层,然后使用softmax函数计算被归到四种类别的概率。此过程的公式如下:
Cp=softmax(WpGRUη(y)+bp),(12)
其中η、Wp、bp是要学习的参数。生成的诗歌被归类到类别c的概率可以用Cp(c|y)计算,其中c∈{诗意的、无序的、段落的、生成的}。
奖励函数。我们将策略梯度的奖励函数定义为生成的诗歌y(根据输入图像x生成)被分类到正面类别(多模态判别器Dm的匹配类以及诗歌风格判别器Dp的诗意类)的概率的线性组合,然后经过加权参数λ加权:
R(y|)=λCm(c=paired|x,y)+(1-λ)Cp(c=poetic|y).(13)
3.4多对抗训练
在对抗训练以前,我们使用图像标题生成技术[27]对生成器进行了预先训练,为生成器提供了一个更好的策略初始化。生成器和判别器以对抗方式进行迭代更新。生成器的目的是生成符合标准的诗歌,让两个判别器都获得更高的奖励,这样,在它们欺骗判别器时,判别器能够得到训练,学习如何分辨生成的诗歌和匹配的诗歌、诗意的诗歌。如上所述,生成的诗歌在两个判别器中被归为正面类别的概率被用作对策略梯度的奖励。
我们使用来自真实数据的正面示例(Dm中的匹配类诗歌以及Dp中的诗意类诗歌),以及来自生成器生成诗歌和其他真实数据的负面示例(Dm中的不匹配类诗歌以及Dp中的段落类诗歌和无序类诗歌)来训练多个判别器(本文中是两个)。同时,通过使用策略梯度和蒙特卡洛取样,生成器根据多种判别器提供的期望奖励进行了更新。由于我们有两个判别器,我们使用了多对抗训练,来同时训练两个判别器。
4实验
4.1数据集
为了促进根据图像生成诗歌的研究,我们收集了两个诗歌数据集,其中一个包含图像和诗歌对,即多模态诗歌数据集(多模态诗集),另一个是大型的诗歌语料库,即单模态诗歌数据集(单模态诗集)。我们使用自己训练过的嵌入模型,通过添加来自无冗余诗歌语料库中的三首邻近诗歌,扩展了图像和诗歌对,
表1:三个数据集的详细信息。前两个数据集由我们自己收集,第三个通过VPE扩展而得。并构建了一个扩展的图像-诗歌对数据集,称为多模态诗集(EX)。这些数据集的详细信息如表1所示。收集的两个数据集的示例可参见图3。为了更好地促进图像生成诗歌的研究,我们将在不远的将来公布这些数据集。
单模态诗集是从几个公开的在线诗歌网站上爬取的,比如PoetryFoundation、PoetrySoup、best-poem.net以及poets.org等。为实现充分的模型训练,我们对诗歌进行了预处理,过滤掉行数过多(大于10行)或过少(小于3行)的诗歌。我们还去掉了包含陌生文字、英语以外语言的诗歌以及重复的诗歌。
4.2比较方法
为了研究拟议方法的有效性,我们使用不同的设置与四种基线方法进行了比较。我们选择了展示-辨别模型[27]和SeqGAN[35],因为它们是图像标题技术的最新研究成果。我们选择了比较性图像生成短文模型,因为它在模仿多种图像内容方面有很强的能力。请注意,所有的方法均使用多模态诗集(EX)作为训练数据集,并能够生成多行的诗歌。具体的方法和实验设置如下所示:
展示-辨别(1CNN):仅使用物品CNN,通过VGG-16对CNN-RNN模型进行了训练。
展示-辨别(3CNNs):使用三个CNN特征,通过VGG-16对CNN-RNN模型进行了训练。
SeqGAN:使用一个判别器(用来分辨生成的诗歌和真人创作的诗歌的判别器)对CNN-RNN模型进行了优化。
区域层次:以[16]为依据的层次段落生成模型。为了更好地与诗歌分布保持一致,我们在实验中将最大行数限制在10行,每行最大词数限制在10个。
我们的模型:为了证明两个判别器的有效性,我们在四个背景中训练我们的模型(使用GAN、I2P-GAN的图像到诗歌):无判别器的预训练模型(I2P-GANw/o判别器)、只有多模态判别器的训练模型(I2P-GANw/Dm)、有诗歌风格判别器的训练模型(I2P-GANw/Dp)以及有两个判别器的训练模型(I2P-GAN)。
4.3自动评估标准
诗歌的评估通常是一项困难的任务,在现有的研究中没有既定的评价标准,对于根据图像生成诗歌这一新任务而言就更是如此了。为了更好地评价诗歌的质量,我们提出同时使用自动和人工的方式来进行评价。
BLEU。我们首先使用双语互译质量评估辅助工具(BLEU)[22]基于分数的评价来检查生成的诗歌与真实诗歌有多近似,正如图像标题技术和图像生成短文研究通常所做的那样。它还被用于一些其他的诗歌生成研究中[32]。对于每张图片,我们仅使用人类创作的诗歌作为真实诗歌。
新颖性。通过引入判别器Dp,生成器应从单模态诗歌数据集中引入单词或短语,并生成多模态诗集(EX)中不常出现的单词或短语。我们使用[31]提出的新颖性来计算生成诗歌中观察到的低频词语或短语。我们研究新颖性-2和新颖性-3这两种N-gram尺度(例如,二元模子和三元模子)。我们首先对多模态诗集(EX)训练数据集中出现的n-gram进行排序,将前2,000作为高频。新颖性根据训练数据集中出现的n-grams比例进行计算(生成的诗歌中的高频n-grams除外)。
总体。我们根据以上三个标准来计算总分。对于一个标准a的所有值中的每个值ai,我们首先使用以下方法将其归一化:
然后,我们得到BLEU(例如,BLEU-1、BLEU-2和BLEU-3)和新颖性(例如,新颖性-2和新颖性-3)的平均值。我们通过对归一化值进行平均来计算最终得分,以确保不同标准的均等贡献。
但是,在这样一项开放性的任务中,没有特别适合的标准能够完美地评价生成的诗歌的质量。我们使用的自动标准在某种程度上可被视为指导。为更好地从人类感知角度来说明诗歌的质量,我们还进行了如下的扩展用户研究。
4.4人类评价
我们在亚马逊土耳其机器人中进行了人类评价。我们以如下方式将三种任务分配给了AMT工人:
任务1:研究我们深度耦合的视觉诗意嵌入模型的有效性,注解者被要求根据一首诗歌与一幅给定图像之间在内容、情感和场景方面的相似性进行0-10分的打分。
任务3:我们要求注解者在混杂人类创作和机器生成的诗歌中进行甄别,完成了图灵测试。请注意,图灵测试在两种设置条件下进行,即,有图像的诗歌和无图像的诗歌。
4.5训练详情
在深度耦合的视觉诗意嵌入模型中,我们为每个CNN使用了D=4,096-维度特征。我们从ImageNet[25]上经过训练的VGG-16[26]提取物体特征,从Place205-VGGNet模型[29]提取场景特征,并从感情模型[28]提取感情特征。
为了更好地提取诗歌象征的视觉特征,我们首先取得了单模态诗歌数据集中至少达到五频次的名词、动词和形容词。然后,我们人工为感情(包括328个标签)挑选形容词和动词,为物品(包括604个标签)和场景(包括125个标签)挑选名词。至于诗歌特征,我们使用M=2,048-维度(其中每个1,024维度分表代表单向和双向)为每句诗提取组合的skip-thought向量,并最终通过平均池化取得了诗歌特征。而边际α根据[14]中的实证实验被设为0.2。我们为一幅图片随机地挑选出127首诗歌作为不匹配诗歌,并将它们用作对比诗歌(等式5中的mk与xk),并在每一期中对它们进行了重新取样。我们通过对结果为0.1到0.9的自动评价进行可比观察,根据实证将加权参数A设为A=0.8。
4.6评价
图5:通过我们I2P-GAN方法生成诗歌的示例。
图灵测试。对于AMT注解者的图灵测试,我们雇佣了548名工人,平均每名工人完成10.9项任务。对于专家用户的图灵测试,我们请15个人对带有图像的、人类创作的诗歌进行判断,请另外15名注解者对没有图像的诗歌进行测试。每个人被分配了20幅图像,我们请专家用户共完成600个任务。表5显示的是不同诗歌被判断成人类根据给定图像创作的诗歌的概率。正如我们所见,生成的诗歌无论是对普通注解者,还是对专家,都造成了混淆,尽管专家的判断比普通人更准确一些。一个有趣的观察结果是:专家在判断带图像的诗歌时准确率更高,而AMT工人则在判断无图像的诗歌时表现更好。
5结论
作为从图像生成诗歌(英文自由诗)的首个研究,我们使用多判别器作为策略梯度的奖励,通过整合深度耦合的视觉诗意嵌入模型和基于RNN的对抗训练,提出了一种模拟问题的新方法。此外,我们引入了首个图像-诗歌对的数据集(多模态诗集)和大型诗歌语料库(单模态诗集)来促进关于诗歌生成的研究,特别是根据图像生成诗歌。大量的实验证明,我们的嵌入模型能够近似地学习一个合理的视觉创意嵌入空间。自动和人工评价结果证明了我们诗歌生成模型的有效性。
参考文献
[1]T.-H.Chen,Y.-H.Liao,C.-Y.Chuang,W.-T.Hsu,J.Fu,及M.Sun.展示、适应和辨别:跨域图像标题技术的对抗训练.ICCV,2017.
[2]X.Chen与C.LawrenceZitnick.心灵之眼:图像标题技术的递归视觉表达.InCVPR,第2422-2431页,2015.
[3]J.Chung,C.Gulcehre,K.Cho,及Y.Bengio.对序列建模方面的门控循环神经网络的实证研究.NIPS,2014.
[4]H.Fang,S.Gupta,F.Iandola,R.K.Srivastava,L.Deng,P.Dollar,J.Gao,X.He,M.Mitchell,J.C.Platt,等人.从说明文字到视觉概念,再回到说明文字.InCVPR,第1473-1482页,2015.
[5]A.Farhadi,M.Hejrati,M.A.Sadeghi,P.Young,Rashtchian,J.Hockenmaier,及D.Forsyth.每张图片都讲述了一个故事:根据图像生成语句.InCVPR,15-29,2010.
[6]A.Frome,G.S.Corrado,J.Shlens,S.Bengio,J.Dean,T.Mikolov,等人.发明:深层视觉语义的嵌入模型.InNIPS,第2121-2129页,2013.
[7]M.Ghazvininejad,X.Shi,Y.Choi,及K.Knight.生成主题诗歌.InNIPS,1183,1191,2016.
[8]M.Ghazvininejad,X.Shi,J.Priyadarshi,及K.Knight.Hafez:一个交互式诗歌生成系统.ACL,第4348页,2017.
[9]I.Goodfellow,J.Pouget-Abadie,M.Mirza,B.Xu,Warde-Farley,S.Ozair,A.Courville,及Y.Ben-gio.生成对抗网络.InNIPS,第2672-2680页,2014.
[10]J.He,M.Zhou,及L.Jiang.使用统计机器翻译模型生成中国传统诗歌.InAAAI,2012.
[11]J.Hopkins与D.Kiela.使用神经网络自动生成韵律诗.InACL,卷1,第168-178页,2017.
[12]L.Jiang与M.Zhou.使用统计机器翻译方法生成中国对联.InCOLING,第377-384页,2008.
[13]A.Karpathy,A.Joulin,及F.F.F.Li.用于双向图像语句映射的深层片段嵌入.InNIPS,第1889-1897页,2014.
[14]R.Kiros,R.Salakhutdinov,及R.S.Zemel.统一多模态神经语言模型的视觉语义嵌入.arXivpreprintarXiv:1411.2539,2014.
[15]R.Kiros,Y.Zhu,R.R.Salakhutdinov,R.Zemel,R.Urtasun,A.Torralba,及S.Fidler.Skip-thought向量.InNIPS,第3294-3302页,2015.
[16]J.Krause,J.Johnson,R.Krishna,及L.Fei-Fei.一种生成描述性图像短文的层次方法.CVPR,2017.
[17]G.Kulkarni,V.Premraj,S.Dhar,S.Li,Y.Choi,A.C.Berg,及T.L.Berg.牙牙学语:理解并生成图像描述.InCVPR,2011.
[18]Y.Liu,J.Fu,T.Mei,及C.W.Chen.让你的照片说话:通过双向注意递归神经网络来为照片流生成描述性段落.InAAAI,2017.
[19]H.M.Manurung.韵律模式化文本的图表生成器.首届国际认知与计算机文学研讨会文集[32]第15-19页,1999.
[20]H.Oliveira.诗歌的自动生成:综述.UniversidadedeCoimbra,2009.
[21]H.G.Oliveira.Poetryme:诗歌生成的多功能平台.创新计算、[33]概念创新,以及一般智能,1:21,2012.
[22]K.Papineni,S.Roukos,T.Ward,及W.-J.Zhu.Bleu:自动评价机器翻译的一种方法.InACL,第311-318页,2002.
[23]C.C.Park与G.Kim.使用一系列自然语句表达一个图像流.InNIPS,第73-81页,2015.
[24]S.J.Rennie,E.Marcheret,Y.Mroueh,J.Ross,及V.Goel.图像标题技术的自临界序列训练.arXivpreprintarXiv:1612.00563,2016.
[25]O.Russakovsky,J.Deng,H.Su,J.Krause,S.Satheesh,S.Ma,Z.Huang,A.Karpathy,A.Khosla,M.Bernstein,等人.Imagenet大规模视觉认知挑战.IJCV,115(3):211-252,2015.
[26]K.Simonyan与A.Zisserman.大规模图像识别的甚深卷积神经网络.arXivpreprintarXiv:1409.1556,2014.
[27]O.Vinyals,A.Toshev,S.Bengio,及D.Erhan.展示和辨别:一个神经图像文字说明生成器.InCVPR,第3156-3164页,2015.
[28]J.Wang,J.Fu,Y.Xu,及T.Mei.超远物品识别:使用深层耦合形容词及名词神经网络的视觉情感分析.InIJ-CAI,第3484-3490页,2016.
[29]L.Wang,S.Guo,W.Huang,及Y.Qiao.用于场景是别的Places205-vggnet模型.arXivpreprintarXiv:1508.01667,2015.
[30]R.J.Williams.简单统计梯度-用于连接增强式学习的跟踪算法.机器学习,8(3-4):229-256,1992.
[31]Z.Xu,B.Liu,B.Wang,S.Chengjie,X.Wang,Z.Wang,及C.Qi.通过有近似嵌入层的GAN产生神经相应.InEMNLP,第628-637页,2017.
[32]R.Yan,H.Jiang,M.Lapata,S.-D.Lin,X.Lv,及X.Li.I,诗歌:通过约束优化下生成归纳框架自动创作汉语诗歌.InIJCAI,第2197-2203页,2013.
[33]X.Yi,R.Li,及M.Sun.使用rnn编码器-解码器生成中国古典诗歌.基于自然标注大数据的汉语计算语言学和自然语言处理,第211-223页.Springer,2017.
[34]Q.You,H.Jin,Z.Wang,C.Fang,及J.Luo.使用语义注意的图像标题技术.InCVPR,第4651-4659页,2016.
[35]L.Yu,W.Zhang,J.Wang,及Y.Yu.SeqGAN:有策略梯度的序列生成对抗网络.InAAAI,第2852-2858页,2017.
[36]W.Zaremba与I.Sutskever.强化学习神经图灵机-修订.arXivpreprintarXiv.1505.00521,2015.
[37]X.Zhang与M.Lapata.使用递归神经网络生成中文诗歌.InEMNLP,第670-680页,2014.