AI研习丨基于结构化视觉语义分析的场景理解研究算法哈希模态视频生成模型

针对图像和视频中的场景理解问题,以结构化的视觉语义分析为中心展开研究,通过研究场景图像中多语义标签之间的关系,建立场景语义图模型;通过研究通用场景图像理解问题,并将场景图模型在跨模态多媒体检索、视觉数据自然语言描述和视频行为理解等多个特定问题中进行了应用,提出了新的研究思路和解决方法。本文简要介绍以上研究所取得的一系列代表性成果。

关键词:

语义图;场景理解;语义解析;场景图生成;群体行为识别;视频分析

0引言

1主要研究成果

如图1所示,近年来以基于结构化视觉语义分析的场景理解作为研究方向,通过构建和生成场景图像语义图,将图像中各目标及其语义关系通过图结构建模,以此解决通用问题,实现场景图像语义理解(即研究成果一);进一步可以通过这种语义图模型在不同特定计算机视觉问题中进行有效应用,如将得到的语义图作为多模态数据间的桥梁,实现跨模态数据检索(即研究成果二),以及视觉数据自然语言描述(即研究成果三);还可以进一步增加时序关系,可针对视频构建时空语义图进行行为分析(即研究成果四)。

下面对所取得的各项主要研究成果进行简要介绍。

成果一场景图像语义理解

场景语义图生成是指将一张图像自动映射为一个结构化的语义图模型,该任务不仅需要正确识别图像中每个物体的类别和位置,还需要检测出不同物体之间的交互关系。场景语义图中,每个节点表示当前图像中的一个物体目标,节点之间的边表示两个物体目标间的语义关系,节点和边连接成图来表征整张图像的语义内容。

成果二跨模态多媒体检索

随着近年来移动互联网和多媒体大数据的蓬勃发展,越来越多地趋向于同时使用图像和自然语言关键字来检索互联网信息。由于跨模态数据(如文字、图像和视频等)之间蕴含丰富的语义信息,场景图像中的各物体之间拥有复杂的语义和位置关系,跨模态场景检索仍然是一个颇具挑战的问题。如图3所示,我们提出一种基于语义图模型和二值编码的在线跨模态场景检索方法。该方法主要包括跨模态二值编码表示、语义图模型构建、联合目标函数构造和在线更新学习方法四个部分。首先,利用不同模态数据的量化损失来学习哈希编码,基于余弦相似度构造不同模态数据二值化之后的损失函数;其次,通过基于深度神经网络的目标识别检测方法来建立语义图模型,提取场景语义结构信息,挖掘多模态数据的公共语义特征,并以此计算不同模态数据之间的相似度;最后通过提出一种新的双阶段优化算法,利用改进的随机梯度下降法来在线更新目标函数,对输入的流数据进行哈希函数的迭代学习,实现在线检索。

成果三视觉数据自然语言描述

所提出的场景语义图结构表示模型可以作为多种模态数据之间互相转化的桥梁,图结构所蕴含的丰富语义信息可以有效提高视觉数据自然语言描述任务的效果。我们主要针对体育视频解说生成和图片集故事生成两项任务进行研究。

体育视频解说是指对足球、篮球、排球比赛等体育视频自动生成一段自然语言描述,如何对体育视频中多个运动员的细粒度动作和群组中运动员间复杂关系进行建模,是该研究所面临的重要科学问题。我们提出一个层次化的注意力循环神经网络模型,其中主要包含两个模块,一个是运动表示模块用来提取单个运动员的姿态属性和动态轨迹聚类信息,并引入专业体育知识词库增强解说生成的专业性;另一个是基于门图卷积网络模型的群组关系模块,该模块通过引入场景语义图模型建模运动员之间的上下文交互关联。最后融合所提取的运动表征、群组关系和全局视频帧特征,利用注意力模型生成文字解说,并且通过实验验证了所提模型的有效性和先进性。

成果四视频行为分析

此外,目标的运动轨迹预测和缺失值补全研究对于理解人类行为有着重要作用,但由于时序序列的不确定性和复杂多变的时空上下文关联,该任务仍旧困难重重。我们提出了一个基于模仿学习的非自回归编码模型,可以对偶式地解决轨迹预测和缺失值补全两项任务。

2结束语

场景理解是计算机视觉领域中的最基本问题,而视觉语义分析则是人工智能领域对于计算机视觉所提出的新的发展要求,使传统的计算机表征数据与现实世界的知识和概念协调一致,从语义理解的角度认识视觉信息和多媒体数据。我们创新性地提出利用场景语义图模型构建结构化的视觉语义知识,并将其有效利用在场景图像理解、跨模态多媒体检索、视觉数据自然语言描述、视频行为分析等重要研究中,在国内外计算机视觉和多媒体领域取得了一定影响力。然而,由于场景图像容易受到关照、角度、遮挡、背景等因素的干扰,更好地理解场景图像需要立体三维信息、图像生成、无监督学习等方面的技术和研究。因此在未来,我们拟通过将结构化视觉语义表达从二维世界拓展到三维世界,从单一模态数据延伸到多模态数据,进行多维度多层次的语义推理和场景感知,并深入研究其在移动端增强现实/虚拟现实和新一代智能物联网中的应用。

THE END
1.通过动画可视化数据结构和算法VisuAlgo 于2011年由Steven Halim博士构想出来,作为一个工具,帮助他的学生更好地理解数据结构和算法,让他们能够自学基础知识并按照自己的节奏进行。他与新加坡国立大学的学生一起开发并整合了一系列的可视化,从简单的排序算法到复杂的图形数据结构。虽然这些设计主要是http://visualgo.net/zh/
2.终于有人将Transformer可视化了!因此,揭开这一架构的神秘面纱尤其必要。但很多博客、视频教程和 3D 可视化往往强调数学的复杂性和模型实现,可能会让初学者无所适从。同时为 AI 从业者设计的可视化工作侧重于神经元和层级可解释性,对于非专业人士来说具有挑战性。 因此,佐治亚理工学院和 IBM 研究院的https://mp.weixin.qq.com/s?__biz=MjM5NzEyMzg4MA==&mid=2649510518&idx=4&sn=5aae877a353b1748ba3f27115d3875c1&chksm=bf2d4e907b408e7a49f35d3e1226fec4fc766ada2e7ab74f167330ce47636d611e44dabe6049&scene=27
3.算法可视化工具算法可视化工具 转载源地址 一、学算法必去的一个网站 首先有一个网站那是每一个学习数据结构与算法都必须去的网站,说出来你就知道了,那就是大名鼎鼎的LeetCode。 链接直达:https://leetcode.com/ 中文版长这个样子的:点开探索给你看看 强烈推荐人手一个啊!不骗你!https://blog.csdn.net/qq_39453936/article/details/123456269
4.推荐几个算法可视化网站,从此轻松学算法!大家好,我是大彬~ 很多初学者在学习数据结构与算法的时候,都会觉得很难,很大一部分是因为数据结构与算法本身比较抽象,不好理解。对于这一点,可以通过一些可视化动画来帮助理解。 下面大彬推荐几个学习数据结构和算法的可视化工具。 Data Structure Visualizations 这是https://www.nowcoder.com/feed/main/detail/6ecdab56f00b44bfacf3cb854929059e
5.野路子搞算法·让算法可视化·GitHub算法可视化服务器,用于编译算法代码提供服务接口。 TypeScript1206UpdatedDec 12, 2022 algorithm-leetcodePublic algorithm-leetcode algorithm-visualizerPublic 可视化算法代码平台,目前支持的算法包括回溯法、加密算法、动态规划、图搜索、贪婪算法、搜索算法、排序算法等。 https://github.com/niubility-algorithm
6.干货算法学习必备诀窍:算法可视化解密腾讯云开发者社区不妨来了解了解算法可视化吧,说不定就能解你每日之烦忧,让你的头发掉落的速度慢下来! 01 初入“可视化”:算法可视化概念 可视化,也可以解释为形象化,具象化,它旨将我们脑中抽象复杂的逻辑步骤变成图像,帮助我们更好的检索获取分析信息。虽然说的“高大上”,但毋庸置疑的是可视化是我们学习新知识的捷径,也是透彻理https://cloud.tencent.com/developer/article/1605577
7.15种排序算法可视化展示菜鸟教程您的浏览器不支持 video 标签。 1.选择排序 2.插入排序 3.快排 4.归并排序 5.堆排序 6.基数排序(LSD) 7.基数排序(MSD) 8.std::sort 9.std::stable sort 10.shell排序 11.冒泡排序 12.鸡尾酒排序 (Cocktail Sort) (双向的冒泡排序) 13.地精排序Gnome Sort https://www.runoob.com/w3cnote/15-sorting-algorithms-visually-displayed.html
8.Dijkstra的算法代码,用可视化实现这是一个很有名的算法,但我用可视化编程将其实现,效果非常好。https://www.iteye.com/resource/kanxiufang-3263261
9.旧金山大学算法可视化网站旧金山大学算法可视化网站是一个叫做Data Structure Visualizations的在线工具,网址为:https://www.cs.usfca.edu/~galles/visualization/Algorithms.html。 这个网站提供了多种常见算法的可视化,如排序、链表、哈希表、二叉搜索树、递归树、循环查找等。在动画执行的过程中,还会在网站右下角高亮展示动画的代码逻辑。 以上https://www.compassedu.hk/wb_2178450
10.算法动态可视化工具有哪些帆软数字化转型知识库算法动态可视化工具包括:FineReport、FineVis、Jupyter Notebook、Gephi、TensorBoard。FineReport是一款功能强大的商业智能工具,具有高度可定制的数据可视化功能,可以方便地展示算法的动态过程。FineVis专注于数据可视化分析,提供直观的图表和交互功能,适合大数据分析和算法演示。Jupyter Notebook通过其交互式计算环境,可以轻松嵌入https://www.fanruan.com/blog/article/241547/
11.七个有创意的数据结构与算法可视化网站,推荐给老师学生和开发今天特别推荐一些有创意的数据结构与算法交互式可视化平台。特别适合学生、教师以及算法开发工程师。 学习数据结构与算法,如果没有可视化,许多过程或者结构只能自己脑补,这无疑是枯燥、低效的。 今天特别推荐一些有创意的数据结构与算法交互式可视化平台。特别适合学生、教师以及算法开发工程师。 https://www.51cto.com/article/774723.html
12.一个可视化学算法的好工具程序员学算法和数据结构时,如果从纯文本和静态图来学,挺枯燥的。 相反,可视化动画工具,真是一个非常棒的帮手。这类工具/网站,我们曾介绍过 3 个: 旧金山大学数据结构和算法的可视化学习工具 http://hao.jobbole.com/visualizing-algorithms-and-data-structure/ https://www.jianshu.com/p/c53f5031fc76
13.可视化图布局算法简介可视化图布局算法简介 技术标签:算法机器学习知识图谱社交网络 Fruchterman Reingold (FR) FR算法将所有的结点看做是电子,每个结点收到两个力的作用: 其他结点的库伦力(斥力) fa(d)=d2kf_{a}(d)=\frac{d^{2}}{k}fa?(d)=kd2? 边对点的胡克力(引力)。 fr(d)=?k2df_{r}(d)=\frac{-k^https://www.pianshen.com/article/3889848675/
14.关于A*DijkstraBFS寻路算法的可视化解释雷峰网广度优先搜索、Dijkstra和A*是图上的三种典型路径规划算法。它们都可用于图搜索,不同之处在于队列和启发式函数两个参数。 本项目探索并可视化不同算法如何根据选择参数进行图搜索。 算法的一般性原理如下: 将边界初始化为包含起始节点的队列。 当边界队列不为空时,从队列中“访问”并删除一个“当前”节点,同时将访https://www.leiphone.com/category/yanxishe/kXYgvei8w3dBOAee.html
15.推荐网络可视化布局算法专家YifanHu(胡一凡)主页!参见:http://www.yifanhu.net/index.html Graph visualization is a way to discover and visualize structures in complex relations. What sort of structures are people who do large scale computation studying? We can get a glimpse by visualizing the thousands https://nonlinear.wtu.edu.cn/info/1104/1550.htm
16.基于KMeans聚类算法演示及可视化展示python这篇文章主要介绍了基于K-Means聚类算法演示及可视化展示,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教 + 目录 K-Means聚类算法演示及可视化展示 1 2 3 4 5 6 7 8 9 #导入包 fromsklearn.clusterimportKMeans https://www.jb51.net/article/266480.htm
17.针对公安民警开展数据建模方法的研究和实践(3)建模过程可视化。以非技术专业民警可以理解的业务语言对所有基础算法进行封装,通过结果集可视化展示、模型可视化布局、算法可视化调用,实现建模过程零代码,降低民警建模学习成本。 1. 自定义建模工具 自定义建模工具的核心功能由结果集操作组件、自定义条件过滤组件、关联碰撞分析组件、分组统计分析组件、高级分组统计分析https://www.secrss.com/articles/7120
18.Java图论算法及可视化显示包JGraphT0.8.3JGraphT is a free Java class library that provides mathematical graph-theory objects and algorithms. JGraphT supports a rich gallery of graphs and is designed to be powerful, extensible, and easy to use. Packages org.jgrapht:The front-end API's interfaces and classes, including Graph, Directedhttps://www.haolizi.net/example/view_175151.html
19.北京环球医疗—加入我们2. 综合运用各种算法对预处理后的文本数据进行搜索、分类、实体识别、关系识别、模式识别等操作 3. 参与数据产品的的需求调研和分析,撰写相关技术文档 4. 有时需要进行算法可视化的设计和研发 任职要求: 1. 计算机或相关专业本科以上 2. 熟练掌握Python语言,三年以上实际Python项目开发经验 3. Python的科学计算库numphttps://www.buma.cn/join_us
20.极目智能:不谈颠覆,做L2的普及者△极目智能 BEV算法可视化结果 前文视频中的单视觉L2方案,也是极目智能技术和产品能力的体现。 基于全栈自研的感知、规控技术,极目智能仅用一个摄像头就实现了标准L2级智能驾驶,方案功能包括FCW(前车碰撞预警)、PCW(行人碰撞预警)、LDW(车道偏离预警)、AEB(自动紧急刹车)、ACC(自适应巡航)、LKA(车道居中保持)、TJhttps://www.d1ev.com/kol/182293
21.韩志2) 基于低秩张量特性的图像视频表达建模及其算法应用研究 经费来源:中国科学院(中科院青年创新促进会优秀会员);2018-2021;项目负责人 3) 深海环境机器视觉感知方法研究 经费来源:国家自然科学基金;2021-2024;项目负责人 4) 目标背景与算法仿真 可视化系统 http://www.sia.cn/vision/kytd/yjry/202307/t20230726_6834579.html
22.研究生个人年终总结(精选14篇)(11)科学计算可视化算法 这门课我觉得选的还是比较值的,算是我计算机图形学的'一个入门。主要是讲如何生成各种物体的三维体数据并绘制出来,是图形学的入门课程。老师教的也很好,讲的很细。主要讲了基于面片提取的marching cube算法和直接体绘制的ray casting算法,一些细节和算法实现还是不懂,但算法思想理解了。虽然https://www.jy135.com/nianzhongzongjie/1358295.html