视频通信关键技术探索及实践QCon2021云信专场?Worktile社区

下图为网易云信整个融合通信的主网图。左边和右边是端侧的设备,可以接入任何设备,手机、pad、PC、web等。中心这部分是服务器,其中有编译的转发服务器还有MCU服务器,如果牵涉到一定时延会转推到互动直播的服务器。云信的视频技术在RTC场景下主要部署在端侧,如果是是直播点播的业务,云信主要提供直播转推部署的视频转码服务。

下面介绍网易云信在RTC场景下面的视频技术,主要分为三点。

下图是网易云信的音视频SDK架构图。去年年底,网易云信发布了新一代的音视频SDK—G2。在这个SDK架构里面分为五层,其中媒体引擎层是核心所在地,主要分为三个视频引擎,视频、音频和传播引擎。

由于各种网络的影响,我们会有一个视频QoE模块,保证云信用户都有一个完美的视频体验。经过网络传输到了对端之后进行解码,做一个后处理。后处理主要为了减轻或者提升由于网络压缩传输带来的画质的损失。

1.视频前处理

视频前处理主要是为了提升实时视频端到端的视频效果。网易云信全球化的业务中,各种各样的设备都会接入,我们需要这样的视频前处理来提升画质。

这种技术是比较古老的技术,很多年前就开始研究了。随着AI技术和深度学习的进步,视频增强技术有了极大的提升。但是深度学习或者是AI,运算量太大,云信的业务遍布全球,各种设备都会接入,尤其是移动端,像印度市场,东南亚市场中入门级设备比较多。

这些移动端对功耗和性能都非常敏感,稍微大一点的运算量,功耗和电量就会掉得很快,这导致出现了大模型,一个比较好的深度学习模型就很难在这些场景下落地。如果采用一些小模型,效果又不能得到保证。

我们的业务是通信业务,需要传到对端去。单纯增强也许效果好,但传到对端效果不一定好。经过解码后的图像,虽然有增强效果,但它的块效应比没有增强的更严重,在本端表现可能比较好,但是高频分量变多,结果导致了压缩率过高,损失过大。

首先有一个场景识别模块,可以识别出一些文字区域的内容、运动场景和游戏场景,针对每种不同的场景会有不同的模型。比如说游戏场景是一种模型,文字场景是一种模型,也许是同样的模型但是可能参数不一样,这样可以保证运算能力足够,同时效果也不错。

我们的模型是采用的是小模型。前面提到模型不能太小,太小了表达能力不好,因此我们的模型是一种“轻量级模型”,参数量是1-2K,实际上达不到这种小模型效果,因为业界的很多小模型参数不到1K,可能只有几百,它的网络程度是三到四层。因为我们有自研的高效的推理框架NENN。它和开源的推理框架相比,对小模型做了独有的优化,保证小模型的速度比其他开源框架速度快得多。

由于有的设备或者摄像头在暗场景下噪声比较多,需要高频噪声消除掉不必要的bit。如果进行降噪,有利于编码,有利于传输,有利于提高主观质量。

在RTC场景中降噪是一样的,移动端业务居多,很多地区是入门级的设备,对性能功耗非常敏感,复杂功耗无法使用的,速度快的算法,效果又不好。如果采用不合适的降噪可能不仅把噪声抹除掉了,也可能把有用的高频分量减少,这样对整个视频质量会带来不好的影响。

网易云信采用了人眼敏感性分析方法,能够提取出像素级图像中的人眼敏感区域,我们宁愿将降噪的系数降低,宁愿放过一些噪声,也不愿意牺牲掉高频系数。即使放掉了,人眼也感觉不出来,我们也有一个非常简单但非常高效的噪声估计算法,这样的两种方法产生了一个权重值,因此视频速度会很快,而且效果也不错。

2.视频编解码

云信的视频编码支持主流编码器,包括应用较广泛的264和265,还有基于对RTC的深刻理解,开发了自研的编码器,叫NE264CC。

云信编码器的速度非常快,我们的质量可以提升50%,跟265相比,我们编码速度可以快60倍。下图是我们自研的NE264,这是一个非常优异的协议,在行业界存在了20年,经久不衰,它也是目前覆盖非常多的一种实时通信协议。云信在264基础上面研发了NE264编码器,有快速模式决策、高效亚像素搜索、自适应参考帧、CBR码控。

从下图中可以看到和openh264、X264的编码器以及iPhone的编码器相比,在编码速度和编码质量方面云信都是名列前茅的。同时可能会忽略的码率波动性,对于RTC来说,视频质量和速度是一方面,还有一个很重要的方面就是码率的波动性。对于RTC严格的低延时场景来说,码率一波动就会带来画面抖动,分辨率降低,在这里面NE264的码率波动性也是最小的。

下图是与X264-ultrafast的比较,这是非常快的一种模式,我们的速度比它降低了25%左右,但是我们的压缩率比它提升了接近50%,如果同样的质量,X264用一兆带宽,我们只需要500,这是基本图像的优化。

针对屏幕共享的压缩优化,业界有很多非常好的方案,比如说H265+SCC、AV1、H264+SCC,这些都是一些非常好的想法。

网易云信在思考这个问题时,我们认为对于RTC场景来说,264是使用较广泛的协议,作为一种轻量级的协议,开销非常小。264这种协议对成本来说是最小的。

另一方面,即使我们不改变协议,不增加工具,仅仅对编码器进行优化,屏幕共享这种内容本身对于编码端有很多可以挖掘的空间,我们基于264的协议,通过深挖屏幕共享的改进,来提升效果。下面是我们的成果一些成果,加与不加屏幕共享编码算法,在屏幕共享场景下,我们的压缩率提升了36.72%,同时我们速度只慢了3%-4%。可以看到我们的压缩率比openh264提升了41%,速度基本不变。

再来看一下自研的NE265,目前也在持续不断的迭代中。NE265的特点是高效架构可实现的设计。对于计算复杂性的一些算法都进行了非常精细的3D优化。了解编码器的都知道veryslow那一档,我们速度比它快64倍,这还不是非常快的档位,非常快的要比它快200倍以上。

基于对RTC和音视频通信的深刻理解,我们发明了NEVC,多尺度的视频压缩技术。相比NE265,速度基本不变,但是压缩率提升了,右边的纹理提升得比较清楚,左边的纹理基本上模糊掉了。我们讲完了视频编码之后,码就应该被压缩了,应该送到网络去了。网络对RTC来说是最复杂的,尤其是在全球化的业务中,有各种不同的网络存在。如何保证在多网络、复杂的网络环境下面,视频质量还能优异,我们有一个视频QoE的模块来支撑。视频QoE模块将从视频的流畅度、清晰度、质量平稳度、时延和性能功耗五个方面来进行保证。

3.视频QoE

(1)视频质量控制模块

视频质量控制从视频的流畅度、清晰度和质量平稳度三个维度来解读。经过采集、前处理、编码再发送,最后传给了网络,这里的网络可能有各种不同的网络存在,比如有些带宽很低的网络,有些有持续丢包的网络,或一些比较抖动的网络。

每种不同的网络不可能用一种分辨率、一种帧率、一种码率来传输,这可能产生不同的很差的效果。我们这里视频质量控制模块叫VQC,它会首先接收从网络QoS评估出来的一个网络带宽或网络有效带宽,根据这个带宽分配合适的视频分辨率、视频帧率,设置编码器,达到最合适的视频质量,同时图像在各种不同的网络中,有的是噪声比较大的网络,有的是暗场景的网络,对于VQC的模块会进行采集信息,会决定打开或者关闭哪些视频算法开关,或者调整视频参数,增强或降噪,还有编码的一些算法。

(2)设备控制模块

QoE讲完之后,码流传到了接收端进行视频解码。云信视频解码的特点是非常高效且几乎支持所有的视频格式,互联互通是没有问题的。

视频后处理通过视频屏幕内容优化和视频超分优化,恢复和改善视频画质。云信的视频超分,网络参数量是2K-4K,网络层数小于8,我们有自研的AI推理引擎,进行独有的优化,速度非常快,同时我们会加速,对于超分的效果有针对的数据集处理,利用苹果或者变焦的手机,对不同焦段的数据进行采集,进行真实的数据训练,同时也会用一些数据的预处理和增强来确定效果,主要优势还是高效和快速。

下图的表中,前三个是传统的处理耗时,这是我们自研的超分,这是一个比较知名的轻量级的网络,从处理耗时来看,云信AI的耗时比以AI知名的轻量级网络快了30多倍;从效果来看,云信AI超分的视频质量远远超过了非AI的效果,和经典的效果相差极其微小,基本上看不出差别。

其次是桌面共享优化,对于桌面屏幕共享不止有264的编码做了后处理,针对文字场景的优化,对于深度学习来说,屏幕共享最大的难点是它的分辨率一般是很大的,云信有高精度的文字识别功能,对解读出的文字进行增强,同时我们自研的推理框架NENN也会保持这种速度,这就是文字增强效果。

前面介绍了编译服务器,基本上是RTC低延时的线路,如果直播就走直播点播的短推服务器,可以通过CTO下达。

直播点播的链路是从客户端经过推流到边缘媒体服务器再转推到直播转码再转到CDN。

这个链路有两个问题,一个是设备上传时,它的画质存在损失,是压缩过的,有可能摄像头采集本身就有问题,也会带来损失。第二个是转码之后,经过CDN分发时,转码非常高。

为了解决以上两个问题,云信提出了智码超清技术。首先利用深度学习视频修复技术对转码前的视频进行修复或增强,再基于人眼感知的编码技术在视频主观质量不下降情况下节省码率。

图像首先经过视频修复模块,对视频进行了修复或增强或美化,再进行感知编码,感知编码会分析视频内容,前置一个视频分析模块。

1.视频修复技术

视频修复在业界是一种比较难的技术,由于退化模型多种多样,视频退化有非常多的原因,比如由于摄像头噪声的影响,压缩上的损失,摄像头本身不好造成的过曝欠曝,也有可能是对焦没对好等。

云信用了一种画质评估算法,通过深入学习算法,得出这个视频的退化模型是什么。针对不同的退化模型用不同的恢复方法。如果是噪声,我们会用视频降噪的方法;如果是模糊,会用去模糊的方法;如果纹理不好,会用纹理增强的方法,还有画面矫正等。通过评估再进行修复,能够美化或者提升视频的主观效果。

2.视频感知编码技术

修复之后,就会进行编码。云信的感知编码采用了JND这种技术,用人眼最小可察觉的误差来度量人眼对图像中不同区域失真的敏感性。

JND是一种提出比较多的技术。从下图可以看出,客观的失真是连续的曲线,人眼是一个阶梯状,有冗余的地方可以优化,节省码率,同时主观下降。

JND是一种比较传统的方法,但传统JND编码是一种以图像低层特征为主的方法,比如纹理、边缘、亮度、颜色。

云信JND和其他不同的是加入了视频内容分析。比如上图中,我们会进行视频分析,分析出这个图像的前景、人脸、文字等信息,针对不同的信息再单独构造出JND,来达到节省码流的目的,经过这样的流程会输出前景、文字、人脸,每种特性都有JND的共识,得出JND的系数进行编码。

下图是智码超清的测试结果,蓝色代表的是云信,其他颜色是业界友商的。左边是人眼主观的得分,因此越高越好,而压缩后文件大小显然是越低越好。

这是网易云信的重点投入和产出。

云信的美颜技术,提供了磨皮、美白、大眼等26种功能,50款以上的滤镜,年龄、性别、视线识别跟踪,支持2D、3D贴纸,这些业界都有,但我们的特点是能够在美颜质量下高效的处理速度,这是我们核心的竞争优势。

对720P的视频进行美颜、磨皮、美白、瘦脸等的开销,在骁龙处理器上面,云信的基础美颜可以达到30,对于我们的海外市场,尤其是在印度、东南亚这样的市场,在入门级机型遍布的情况下,这是非常有竞争力的,整个视频体验是完全不一样的。

云信背景分割技术,采用了大量的数据集。我们精度比较高,iou达到0.93,鲁棒性比较好,推理速度比较快,小于10毫秒。下图是我们的精度和业界的友商对比,精度越高越好。

技术讲完了,可以具体看看网易云信的落地实践。网易云信的视频引擎,已经服务了全球10000+以上的用户。

既接入了SDK也接入了视频引擎的用户,比如LOOK直播,网易云音乐在线KTV,网易会议,还有网易内部的POPO等,其中还包括一些第三方基于会议组件的厂商。

网易新闻的直播点播应用,有云音乐大型演唱会都是使用了网易云信的直播点播功能,比如去年非常知名的破纪录人数的演唱会,也是用了云信的视频引擎,后续我们也会持续的在技术领域深耕下去,为大家带来更多更好的产品。

THE END
1.用AI打造智能视频搜索工具:两小时实现创意爆发!自定义控件AspectRatioWidget,确保视频播放始终保持16:9比例。 2. 视频播放与控制: 通过python-vlc集成 VLC 播放器,支持播放、暂停、快进、时间同步等功能。 界面嵌入了进度条,用户可以实时控制视频播放进度。 3. 视频内容文字识别: OCR技术:基于EasyOCR实现视频帧的文字识别。 https://blog.csdn.net/wjwj1203/article/details/144424605
2.腾讯科技(深圳)有限公司取得视频标签识别方法等专利快报视频 坚定信心、干字当头,推动经济持续向好 俄议员:朝鲜特种部队协助俄罗斯作战 孙红梅任安徽省委常委 经济增速怎么看? 陈乔恩被自己的婚纱照美到了 五星好评外卖店被曝在厕所洗鱼 德法英等国外长发声明支持乌入约 切尔诺贝利附近的狗已变异 国家发改委:实施提振消费专项行动 掘金送快船3连败 哈登复出9失误 金价https://m.163.com/v/video/VPIEQOMIT.html
3.trace.moetrace.moe - 动漫场景搜索引擎。动漫视频截图识别,找动漫必备!通过动漫视频截图,搜索所截动画图片的来源,获得所截图片的片段位置和来源信息。https://pidoutv.com/sites/10202.html
4.www.zhilitong.net/moken30223.html苹果曾在调查问卷中询问AVP软件开发商是否对索尼的VR手柄感兴趣——目前AVP仅支持手部动作识别,并无手柄类硬件外设。而PSVR2手柄不仅可用于游戏,还能在各种生产力软件(比如Final Cut Pro与Photoshop)中实现精准且不易混淆的操作。 索尼为此已花了数月时间针对AVP进行适配,以实现两者无缝连接。该功能原定上月公布,但https://www.zhilitong.net/moken30223.html
5.维库电子市场网维库电子市场网(www.dzsc.com)是国内外知名的电子元器件采购网、电子元件配单网、IC交易平台。100万注册会员中42.8万电子工程师和57.3万终端工厂。上亿条电子元器件现货、IC芯片库存信息,500多万IC PDF资料。维库电子市场网立足于电子产品信息服务业,为电子行业生产制造商http://dzsc.com/
6.关于微信公众号原创抄袭举报…那些明规则与潜规则使用原创声明功能成功后,微信公众平台会在相关内容页面上方添加“原创”标识。当其他用户在微信公众平台发布已拥有“原创”声明的内容时,系统会自动为其标明出处,并提供一键点击跳转功能。此前,这个一键跳转的链接是放在页面最下方,现在已有部分尝试移至页面最上方,以更好地向原创公众号导流。 https://www.marketup.cn/marketupblog/wexin/10796.html
7.www.liweihb.com/aplpage64891.html7月22日电(李夏君) 日本第23届参院选举结果于当地时间22日凌晨出炉,联合执政的自民党和公明党顺利拿下121个改选席位中的76席,在参院中占据议席过半。专家指出,经此次选举,安倍政权顺利摆脱“扭曲国会”的局面,在参众两院都站稳脚跟,未来数年执政有望更加稳固。而对于不少人关心的安倍政权胜选后将如何处理对华https://www.liweihb.com/aplpage64891.html
8.sz.gooogu.cn/aplpage16108.html一,同学舔我乳头用jb戳我下面作文超多细节,啊啊啊 受不了了 操死我吧 啊啊啊啊视频 二,男体育生打飞机的视频,m男被女人操 三,可以直接看AV无码,火影女忍者裸体被操 四,又黄又硬又粗又色免费视频,骚鸡巴穴精品国产 六,李雅白最猛的三个视频,sikixhaya视频 http://sz.gooogu.cn/aplpage16108.html
9.www.sjzyl99.com/moken61826.html在库列巴抵华前一天(22日),乌克兰驻华大使馆在其微博账号@乌克兰信使上发布了一则库列巴专门为中国网友录制的视频。_——。 美国商务部当天发表声明说,基于倾销幅度的初裁结果,将通知美国海关对此类产品进口商征收相应的反倾销税押金。按照美国商务部最新的贸易法执法规定,从2011年11月2日起,涉案产品进口商在初裁结http://www.sjzyl99.com/moken61826.html
10.www.xcjx66.com/aplpage58148.html_——。 各界对伦敦奥运会开幕式的期待,给博伊尔带来巨大的压力。据了解,经济“寒潮”严重影响了2012年伦敦奥运会的筹备,没钱难办事,原本批给博伊尔的预算不过2700万英镑。后来,英国政府顶住压力,将奥运会四个盛会的总预算由4000万英镑增至8100万英镑。||。http://www.xcjx66.com/aplpage58148.html
11.视频识别的基础概念[通俗易懂]腾讯云开发者社区一、视频识别几大问题 2、常见的解决方案 iDT Two-Stream TSN C3D RPAN 一、视频识别几大问题 未修剪视频分类(Untrimmed Video Classification):通过对输入的长视频进行全局分析,然后软分类到多个类别 修剪视频识别(Trimmed Action Recognition):给出一段只包含一个动作的修剪视频,要求给视频分类 https://cloud.tencent.com/developer/article/2070428
12.免费一键在线去水印视频解析网址,功能很强大在互联网上影视平台下载素材的时候,原视频一般都会带有系统水印。去除水印成了影视编辑者的基本技能,无形当中消耗了不少时间成本,怎样才能一键去水印呢? 这就是今天我们所说的免费一键在线去水印视频解析网站,可以有效去除多数国内各大影视平台的系统水印。不用下载app,直接在线即可使用,无论是电脑或者手机都可以使用(推http://www.52thing.com/4398.html?bcnalg=ndtsm&oqjspy=axabp1
13.Vlog怎么加字幕六款自媒体添加字幕的软件推荐能录制声音即可一键转字幕,可导入视频里的音频,一键转字幕,还有多种效果任意选择; 这款新APP比较还在更新,可以尝试一下;有付费项目; 7、字幕大师 收费的字幕处理软件,有点小贵。字幕大师 8、好看视频(手机) 百度的好看视频APP也支持智能字幕了,目前还在完善阶段;支持双语字幕,识别率挺高的。好看视频 https://vlogxz.com/?p=2445
14.PornNet:色情视频内容识别网络PornNet:色情视频内容识别网络 出处:mp.weixin.qq.com 摘要色情视频内容已经严重危害互联网安全,色情内容常以图像和音频两种形式存在,本文介绍了基于图像和音频的色情视频内容识别方法。阅读原文 xiaozi 于2021-06-21 分享3538 海报分享 关联话题: #百度 欢迎在评论区写下你对这篇文章的看法。评论https://tool.lu/ja_JP/article/3a7/detail
15.如何通过创业说视频识别潜在的商业机会?创业视频机会识别,需关注市场需求、趋势变化,挖掘潜在商机,创新内容形式,吸引目标受众。 创业说视频机会识别 在当今数字化时代,视频内容已成为信息传播和娱乐的主要形式之一,对于创业者来说,利用视频平台来推广自己的产品或服务,不仅可以扩大品牌影响力,还能有效吸引潜在客户,面对激烈的市场竞争,如何准确识别并抓住视频创作https://www.kdun.com/ask/1390726.html
16.基于视频音频联合识别的校园霸凌检测算法研究本文分别从视频与音频两方面通过模式识别技术对学生遭受校园霸凌的情况进行及时判断,并且通过改进的DS融合算法对两方面的判别结果进行融合。基于校园监控视频并结合定向音频采集设备实现了对学生身心安全进行无间歇的实时监测,有利于构建和谐的校园环境。针对视频图像复杂的数据特征,本文首先对视频图像数据进行预处理,并通过https://wap.cnki.net/lunwen-1020396559.nh.html
17.爱拍网爱拍是一款简单强大的录屏、视频剪辑软件,游戏录像、直播回放、电影电视、mv、街拍实拍,内涵段子都可以通过爱拍进行快速剪切裁剪、加背景音乐、画中画、字幕、快慢放、配音解说、调色、绿幕等高级视频编辑。自带多种酷炫转场动画、GIF动图、片头、音效、唯美滤镜,动态文https://www.aipai.com/
18.怎样开通头条的自媒体平台,今年短视频运营的三大要素爆文系统:融媒宝为您提供的营销日历,提供各平台文章、视频热榜聚合,追踪全网热点。 新媒体文章风险检测:检测文章内容中是否含涉政、暴恐、色情、广告、灌水等信息,及时发现,规避风险,安心发文 原创度检测:基于大数据分析识别技术,一键检测文章原创度、查重、审核必备利器,提前预防 微动态发布:支持动态一键发布至微头条、https://www.rmeibao.com/900341401.html
19.GIF出处发源地之GIF图片的制作方法迅捷视频转换器 GIF出处发源地是使用GIF制作工具制作,GIF动态图一般是由多张静态图片组合而成或者是将视频文件转换成GIF。GIF动态图片在很多地方都能派上大用场,在网上经常能看到很多搞笑、雷人、可爱的GIF动态图,GIF动态图总是能吸引很多人观看浏览,一般都是用在“斗图”上;在很多软件都会专门设置表情包栏目。以下https://www.xunjieshipin.com/4741