AI研习丨基于结构化视觉语义分析的场景理解研究算法哈希模态视频生成模型|算法可视化_在线学习

针对图像和视频中的场景理解问题，以结构化的视觉语义分析为中心展开研究，通过研究场景图像中多语义标签之间的关系，建立场景语义图模型；通过研究通用场景图像理解问题，并将场景图模型在跨模态多媒体检索、视觉数据自然语言描述和视频行为理解等多个特定问题中进行了应用，提出了新的研究思路和解决方法。本文简要介绍以上研究所取得的一系列代表性成果。

关键词：

语义图；场景理解；语义解析；场景图生成；群体行为识别；视频分析

0引言

1主要研究成果

如图1所示，近年来以基于结构化视觉语义分析的场景理解作为研究方向，通过构建和生成场景图像语义图，将图像中各目标及其语义关系通过图结构建模，以此解决通用问题，实现场景图像语义理解（即研究成果一）；进一步可以通过这种语义图模型在不同特定计算机视觉问题中进行有效应用，如将得到的语义图作为多模态数据间的桥梁，实现跨模态数据检索（即研究成果二），以及视觉数据自然语言描述（即研究成果三）；还可以进一步增加时序关系，可针对视频构建时空语义图进行行为分析（即研究成果四）。

下面对所取得的各项主要研究成果进行简要介绍。

成果一场景图像语义理解

场景语义图生成是指将一张图像自动映射为一个结构化的语义图模型，该任务不仅需要正确识别图像中每个物体的类别和位置，还需要检测出不同物体之间的交互关系。场景语义图中，每个节点表示当前图像中的一个物体目标，节点之间的边表示两个物体目标间的语义关系，节点和边连接成图来表征整张图像的语义内容。

成果二跨模态多媒体检索

随着近年来移动互联网和多媒体大数据的蓬勃发展，越来越多地趋向于同时使用图像和自然语言关键字来检索互联网信息。由于跨模态数据(如文字、图像和视频等)之间蕴含丰富的语义信息，场景图像中的各物体之间拥有复杂的语义和位置关系，跨模态场景检索仍然是一个颇具挑战的问题。如图3所示，我们提出一种基于语义图模型和二值编码的在线跨模态场景检索方法。该方法主要包括跨模态二值编码表示、语义图模型构建、联合目标函数构造和在线更新学习方法四个部分。首先，利用不同模态数据的量化损失来学习哈希编码，基于余弦相似度构造不同模态数据二值化之后的损失函数；其次，通过基于深度神经网络的目标识别检测方法来建立语义图模型，提取场景语义结构信息，挖掘多模态数据的公共语义特征，并以此计算不同模态数据之间的相似度；最后通过提出一种新的双阶段优化算法，利用改进的随机梯度下降法来在线更新目标函数，对输入的流数据进行哈希函数的迭代学习，实现在线检索。

成果三视觉数据自然语言描述

所提出的场景语义图结构表示模型可以作为多种模态数据之间互相转化的桥梁，图结构所蕴含的丰富语义信息可以有效提高视觉数据自然语言描述任务的效果。我们主要针对体育视频解说生成和图片集故事生成两项任务进行研究。

体育视频解说是指对足球、篮球、排球比赛等体育视频自动生成一段自然语言描述，如何对体育视频中多个运动员的细粒度动作和群组中运动员间复杂关系进行建模，是该研究所面临的重要科学问题。我们提出一个层次化的注意力循环神经网络模型，其中主要包含两个模块，一个是运动表示模块用来提取单个运动员的姿态属性和动态轨迹聚类信息，并引入专业体育知识词库增强解说生成的专业性；另一个是基于门图卷积网络模型的群组关系模块，该模块通过引入场景语义图模型建模运动员之间的上下文交互关联。最后融合所提取的运动表征、群组关系和全局视频帧特征，利用注意力模型生成文字解说，并且通过实验验证了所提模型的有效性和先进性。

成果四视频行为分析

此外，目标的运动轨迹预测和缺失值补全研究对于理解人类行为有着重要作用，但由于时序序列的不确定性和复杂多变的时空上下文关联，该任务仍旧困难重重。我们提出了一个基于模仿学习的非自回归编码模型，可以对偶式地解决轨迹预测和缺失值补全两项任务。

2结束语

场景理解是计算机视觉领域中的最基本问题，而视觉语义分析则是人工智能领域对于计算机视觉所提出的新的发展要求，使传统的计算机表征数据与现实世界的知识和概念协调一致，从语义理解的角度认识视觉信息和多媒体数据。我们创新性地提出利用场景语义图模型构建结构化的视觉语义知识，并将其有效利用在场景图像理解、跨模态多媒体检索、视觉数据自然语言描述、视频行为分析等重要研究中，在国内外计算机视觉和多媒体领域取得了一定影响力。然而，由于场景图像容易受到关照、角度、遮挡、背景等因素的干扰，更好地理解场景图像需要立体三维信息、图像生成、无监督学习等方面的技术和研究。因此在未来，我们拟通过将结构化视觉语义表达从二维世界拓展到三维世界，从单一模态数据延伸到多模态数据，进行多维度多层次的语义推理和场景感知，并深入研究其在移动端增强现实/虚拟现实和新一代智能物联网中的应用。

THE END

AI研习丨基于结构化视觉语义分析的场景理解研究算法哈希模态视频生成模型

AI研习丨基于结构化视觉语义分析的场景理解研究算法哈希模态视频生成模型

算法可视化算法可视化工具数据结构可视化网站Smartbi思迈特软件

数据结构和算法可视化工具——DataStructureVisualizationsHackerVirus