中移智库发布新型视频语义编码技术白皮书(2024年)

近年来,随着5G、5G-A和人工智能技术的发展,多媒体通信呈现巨大革新,进而催生了大量以视频为主要媒介的应用场景,比如短视频、视频直播、视频通话、视频会议等。视频编解码技术作为视频产业的基础底层技术,无疑将成为未来产业中的重要一环。尽管视频编解码技术每十年可提升约50%的压缩率,但已然无法跟上当下视频信息量迅速膨胀的步伐。海量的新型视频数据和创新应用场景的迸发涌现,促使视频编码技术不断迭代并呈现多元化发展趋势。因此,亟需发展更为高效智能的视频编码技术,来迎接全新的大视频时代。

在此背景下,视频语义编码技术应运而生。视频语义编码,即基于视频内容和语义特征进行编码,同时追求信号保真度、感知自然性和语义质量,有望突破传统视频编码方法的性能瓶颈,为视频产业注入新的活力,进一步提升产业势能,成为助推视频产业高质量发展的新动能。

视频编码技术发展概述

视频编码技术历经几十年的发展,国内外视频编码标准更新迭代,基于块的混合编码框架成为主流的基本架构。目前,国内外基于混合编码框架制定的视频编码标准包括:MPEG-1/2/4,H.261/2/3,H.264/AVC,AVS,H.265/HEVC和H.266/VVC等。

图1国内外视频编码标准发展历程

新一代的视频编码标准如VVC、AVS3和AV1在编码框架方面虽然仍属于基于预测/变换和熵编码的混合编码框架,但其诸多编码工具和环节与前代视频编码标准相比,具备更细粒度的处理能力和自适应性,带来了显著的编码性能提升。然而,编解码的复杂度也显著增加,这对实时编码提出了巨大的挑战,同时压缩效率的进一步提升遭遇瓶颈。

而人工智能的兴起,尤其是深度学习的发展,促使研究人员开始尝试在图像视频编码领域引入神经网络,以期利用其数据驱动和对机器视觉友好的特质,实现更智能化、更高效的图像视频编码,从而突破传统视频编码方法的瓶颈。目前,基于神经网络的视频编码更多的是探索网络模型的组合堆积和复杂模块的引入,未深入分析设计网络模型特性、结构特性等,如何设计并提出高效的端到端视频编码技术和解码方法是亟需解决的问题。同时,如何实现不同模型的码流互通,降低解码端模型推理的硬件要求,实现移动端的高效部署也是该技术落地的关键。

视频语义编码传输关键技术

视频语义编码是一种全新的视频编码引擎,它衍生于传统视频编码框架和神经网络视频编码框架,通过高效利用语义信息,从而一步提高两种路线的编码效率。

目前,主要的技术方案可分为两类:(1)利用语义信息作为先验信息,优化现有的混合编码框架;(2)根据人眼视觉任务和机器视觉任务的需求,自适应地选择或生成语义信息,即一种通用紧凑且易于压缩的特征表达,进而优化其编码性能。

纵观两种技术路线,语义编码技术乃多方案竞相争鸣,亮点纷呈,技术框架涵盖多种技术路线和方案,主要包含视觉感知编码、生成式编码、跨模态编码、面向机器的视频编码等关键技术,同时,对于编码后的视频数据有其配套的封装传输技术。

图2视频语义编码传输关键技术簇

图3视频语义编码技术应用及产业链示意图

视频语义编码技术可直接集成应用于现有编码框架,其技术应用及产业链示意图见图3。目前,较为成熟的解决方案是以AI作为工具辅助编码,或在编码前进行分析预处理,比如画质增强,超分插帧,特征提取等;或在编码环节提供语义先验信息以优化编码性能,比如基于恰可察觉失真和感兴趣区域的码率控制优化,编码参数自适应选择等。未来,随着AI编码技术的不断成熟,端到端的视频语义编码架构将是未来演进方向。

标准化进展及建议

为了实现不同公司制造的设备和提供的服务之间的互操作性,在过去几十年,国内外标准工作组研究了一系列视频编码标准,代表性的活动见表1和图4。

表1国内外视频编码技术标准工作组一览

图4国内外视频编解码标准体系

AI视频编码

近年来,各标准工作组开始探索基于深度学习的编码标准化,例如,IEEE1857.11、JPEGAI、MPAIEVC/EEV、AVSModAI、AVS4等。

VR视频编码

IEEE1857.9工作组致力于推动用于压缩、解压缩和重建沉浸式视觉内容的高效编码工具的标准化。VVC/H.266标准已经能够支持双目、多目、360度等沉浸式内容编码。MPEGMIV标准于2021年10月进入国际标准最终草案投票阶段,MIV标准的目标是为沉浸式六自由度立体视觉场景提供高效编码。国内AVS工作组于2016年启动了VR编码标准的制定。

多视点视频编码

国际标准组织MPEG于2001年成立3D视频研究工作组,着手进行多视点视频、多视点加深度和自由视点视频的技术研究和标准化制定。2012年,ISO/IEC与ITU-T成立3D视频编码联合专家组(JCT-3V),制定HEVC和其他视频编码标准的多视图和3D视频编码扩展。在AVS第89次会议上,中国移动牵头提出《AVS3的多视角视频及3D立体视频档次需求建议》并通过。同时,在大会上成立3D编码专题讨论组,负责AVS3多视角和立体视频的标准制定工作。

面向机器的视频编码

在随着大算力,大数据,大模型的发展,AI技术迎来新一轮革新,无疑给视觉数据编码技术带来了全新的发展机遇,促使其不断向深度和广度方向发展。

视频语义编码技术将延伸至6DoF视频,包括但不限于体积视频、动态点云/网格等。

预训练多模态大模型有望成为推动视频语义编码效率进一步提升的新引擎。

视频语义编码技术将成为AIGC的基础核心技术,降低海量AI生成内容的传输存储压力。

视觉内容的高效表征有望和数据压缩技术高效融合,实现“上万倍”压缩。

面向差异化任务需求,异构计算、云-边端计算架构有望成为视频语义编码实现的主流方案。

视频语义编码技术作为视频业务的底层关键技术,将促进视频传输技术的优化升级,两者相辅相成,进一步提升视频体验。

视频语义编码技术将推动视频业务的创新发展。同时,视频语义编码技术的标准化研究,将进一步促进新兴视频业务的大规模应用落地。

[参考文献]

[1]MaS,ZhangX,JiaC,etal.Imageandvideocompressionwithneuralnetworks:Areview[J].IEEETransactionsonCircuitsandSystemsforVideoTechnology,2019,30(6):1683-1698.

[2]5G高新视频—VR视频技术白皮书,国家广播电视总局科技司,2020.

THE END
1.「中移在线工资待遇怎么样」中移在线服务有限公司薪酬福利加班情况中移在线招聘要求怎么样:中移在线都在招什么人? 中移在线招聘类别计算机/网络/技术类最多占32%,其次是客户服务类占26%。中移在线什么学历能进?本科最多占89%,其次是硕士占11%。中移在线学历要求高吗?硕士占11%,工作经验中移在线有什么要求?不限经验最多占36%,其次是1-3年占27%。中移在线工作地区在哪?北京最https://www.jobui.com/company/12241153/salary/p13/
2.中国移动的最新状况,迈向数字化转型的新时代产业升级中国移动作为中国最大的电信运营商之一,一直在引领着通信行业的创新和发展,近年来,随着数字化、信息化浪潮的推进,中国移动也在积极应对变革,不断推动自身的转型升级,本文旨在探讨中国移动的最新发展状况,以及其如何在数字化转型的过程中发挥领导作用。 中国移动的发展现状 http://www.gzzyyh.cn/post/796.html
3.中移VONR语数分层策略,一般情况下是把VONR用户迁移至哪个频段?网络反腐的成效被形象地称为“小鼠标绊倒大贪官”。网上举报拥有速度快、影响大和低成本、低风险等特点已经受到网民的空前欢迎,但同时也应看到,网络反腐的信息缺乏权威引导,很多信息未得证实便在网上泛滥,往往对他人造成无谓的困扰,也会淡化人们的法律意识。对此,下列认识正确的是 ①网络监督是公民行使监督https://www.shuashuati.com/ti/f1df817f61f14f0eb82dd117acff8338.html?fm=bd988ee792a640a76d20bc0e418d0eb8ff
4.基于多层结构的网络游戏平台的研究与应用现在,快速以太网、千兆以太骨干网基础和高性能、高可靠性的服务器已经成为网络游 戏网络运营的核心,三层和多层软件体系结构以及集群技术的逐步成熟,使得网络游戏平台 的研究和开发完全成为可能,并能满足几十万用户同时在线。其中,集群技术是随着计算机 在社会生活的各个层次广泛应用近年来迅速发展、壮大起来的一个软件领域https://blog.csdn.net/weixin_30664051/article/details/94814364
5.逆转思维第五篇生意好不好,不在努力在思路在线免费阅读在那些看似难以捉摸的风险背后,往往隐藏着成功和财富。如果你连尝试的机会都不给自己,成功的机会当然更不会属于你。 微软总裁比尔·盖茨说:“所谓机会,就是去尝试新的、没做过的事。可惜在微软神话下,许多人要做的,仅仅是去重复微软的一切。这些不敢创新、不敢冒险的人,要不了多久就会丧失竞争力,又哪来成功的https://fanqienovel.com/reader/7308968139801234494
6.CBHN测试144. 成熟的国际T4、国标A级数据中心建设经验,属于( )方面的优势 高功率 多品牌 高等级 低能耗 145. 云游戏与传统游戏的主要区别为:( )①跨终端、即点即玩②以云计算为基础③本质是交互性的在线视频流④降低对终端配置的要求,终端只需基本视频解码能力 ①② ②③ ①②③ ①②③④ 146. 以下哪些是云游戏https://www.wjx.cn/vm/OUGTmut.aspx
7.物联网人眼中的2018,是寒冬深入还是阳春将至?我们做外挂式的智能抄表终端,解决了老旧仪表怎么才能快速、低成本、不停水不停电、不停产的实现数据上网的问题,并且很惊喜的看到越来越多的后起之秀涌入到存量表物联网化的市场中来,这说明方向对了。我相信这些涉及国计民生的数据都采集了、累积了、分析了、运用了,物联网行业的春天也就来了。https://www.iyiou.com/news/2018123188938
8.5.在@申根 国家有效的境外医疗保险,最低保额3万欧元(复印件) @意大利 根据现在新规定保险天数要比总行程前后都各买多2天,所以前面加了2天后面加了3天,买了20天(20天和19天一个价格)..搞清楚了最低3万欧元保额指的是“境外急难援助”这一项。 https://itf.mafengwo.cn/client/note.php/info/?id=2921078
9.干货!5月17日晚间重要公告速读金达威公告,公司美国全资子公司KUC将购买美国Zipfizz 100%股份,交易对价8000万美元,约合人民币5.09亿元。Zipfizz主要提供健康的能量混合产品,旗下主要品牌为“Zipfizz”,主要产品为低卡路里、低碳水化合物、无糖、富含维生素和矿物质的运动粉剂和饮料。 【增减持】 https://www.yicai.com/news/5423929.html
10.中移系统集成公司北京中移系统集成待遇给这两种等级的每种组合方式赋以一个定性的加权指数就形成一个评估指数矩阵,而这些加权指数就是风险评估指数。通常将最高风险即“A”和“Ⅰ”的组合情况所对应的指数定为1,最低风险指数定为20。表3是最常用的评估指数矩阵。 表3 风险评估指数矩阵 在评价过程中,可能性和严重性的等级数都可以根据实际情况加以变动https://blog.51cto.com/u_15131005/6965337
11.迪普科技(300768)公司公告(有限合伙)中移创新 指 中移创新产业基金(深圳)合伙企业(有限合伙) 方广创投 指 苏州方广创业投资合伙企业(有限合伙) 杭州哲创 指 杭州哲创投资合伙企业(有限合伙) 全国社保 指 全国社保基金四一一组合 迪普信息 指 杭州迪普信息技术有限公司,公司的全资子公司 中国移动通信集团有限公司总部、各分公司及受其控制的https://q.stock.sohu.com/cn,gg,300768,6795246106.shtml