视频通信关键技术探索及实践QCon2021云信专场?Worktile社区|一键识别视频出处_在线医生

下图为网易云信整个融合通信的主网图。左边和右边是端侧的设备，可以接入任何设备，手机、pad、PC、web等。中心这部分是服务器，其中有编译的转发服务器还有MCU服务器，如果牵涉到一定时延会转推到互动直播的服务器。云信的视频技术在RTC场景下主要部署在端侧，如果是是直播点播的业务，云信主要提供直播转推部署的视频转码服务。

下面介绍网易云信在RTC场景下面的视频技术，主要分为三点。

下图是网易云信的音视频SDK架构图。去年年底，网易云信发布了新一代的音视频SDK—G2。在这个SDK架构里面分为五层，其中媒体引擎层是核心所在地，主要分为三个视频引擎，视频、音频和传播引擎。

由于各种网络的影响，我们会有一个视频QoE模块，保证云信用户都有一个完美的视频体验。经过网络传输到了对端之后进行解码，做一个后处理。后处理主要为了减轻或者提升由于网络压缩传输带来的画质的损失。

1.视频前处理

视频前处理主要是为了提升实时视频端到端的视频效果。网易云信全球化的业务中，各种各样的设备都会接入，我们需要这样的视频前处理来提升画质。

这种技术是比较古老的技术，很多年前就开始研究了。随着AI技术和深度学习的进步，视频增强技术有了极大的提升。但是深度学习或者是AI，运算量太大，云信的业务遍布全球，各种设备都会接入，尤其是移动端，像印度市场，东南亚市场中入门级设备比较多。

这些移动端对功耗和性能都非常敏感，稍微大一点的运算量，功耗和电量就会掉得很快，这导致出现了大模型，一个比较好的深度学习模型就很难在这些场景下落地。如果采用一些小模型，效果又不能得到保证。

我们的业务是通信业务，需要传到对端去。单纯增强也许效果好，但传到对端效果不一定好。经过解码后的图像，虽然有增强效果，但它的块效应比没有增强的更严重，在本端表现可能比较好，但是高频分量变多，结果导致了压缩率过高，损失过大。

首先有一个场景识别模块，可以识别出一些文字区域的内容、运动场景和游戏场景，针对每种不同的场景会有不同的模型。比如说游戏场景是一种模型，文字场景是一种模型，也许是同样的模型但是可能参数不一样，这样可以保证运算能力足够，同时效果也不错。

我们的模型是采用的是小模型。前面提到模型不能太小，太小了表达能力不好，因此我们的模型是一种“轻量级模型”，参数量是1-2K，实际上达不到这种小模型效果，因为业界的很多小模型参数不到1K，可能只有几百，它的网络程度是三到四层。因为我们有自研的高效的推理框架NENN。它和开源的推理框架相比，对小模型做了独有的优化，保证小模型的速度比其他开源框架速度快得多。

由于有的设备或者摄像头在暗场景下噪声比较多，需要高频噪声消除掉不必要的bit。如果进行降噪，有利于编码，有利于传输，有利于提高主观质量。

在RTC场景中降噪是一样的，移动端业务居多，很多地区是入门级的设备，对性能功耗非常敏感，复杂功耗无法使用的，速度快的算法，效果又不好。如果采用不合适的降噪可能不仅把噪声抹除掉了，也可能把有用的高频分量减少，这样对整个视频质量会带来不好的影响。

网易云信采用了人眼敏感性分析方法，能够提取出像素级图像中的人眼敏感区域，我们宁愿将降噪的系数降低，宁愿放过一些噪声，也不愿意牺牲掉高频系数。即使放掉了，人眼也感觉不出来，我们也有一个非常简单但非常高效的噪声估计算法，这样的两种方法产生了一个权重值，因此视频速度会很快，而且效果也不错。

2.视频编解码

云信的视频编码支持主流编码器，包括应用较广泛的264和265，还有基于对RTC的深刻理解，开发了自研的编码器，叫NE264CC。

云信编码器的速度非常快，我们的质量可以提升50%，跟265相比，我们编码速度可以快60倍。下图是我们自研的NE264，这是一个非常优异的协议，在行业界存在了20年，经久不衰，它也是目前覆盖非常多的一种实时通信协议。云信在264基础上面研发了NE264编码器，有快速模式决策、高效亚像素搜索、自适应参考帧、CBR码控。

从下图中可以看到和openh264、X264的编码器以及iPhone的编码器相比，在编码速度和编码质量方面云信都是名列前茅的。同时可能会忽略的码率波动性，对于RTC来说，视频质量和速度是一方面，还有一个很重要的方面就是码率的波动性。对于RTC严格的低延时场景来说，码率一波动就会带来画面抖动，分辨率降低，在这里面NE264的码率波动性也是最小的。

下图是与X264-ultrafast的比较，这是非常快的一种模式，我们的速度比它降低了25%左右，但是我们的压缩率比它提升了接近50%，如果同样的质量，X264用一兆带宽，我们只需要500，这是基本图像的优化。

针对屏幕共享的压缩优化，业界有很多非常好的方案，比如说H265+SCC、AV1、H264+SCC，这些都是一些非常好的想法。

网易云信在思考这个问题时，我们认为对于RTC场景来说，264是使用较广泛的协议，作为一种轻量级的协议，开销非常小。264这种协议对成本来说是最小的。

另一方面，即使我们不改变协议，不增加工具，仅仅对编码器进行优化，屏幕共享这种内容本身对于编码端有很多可以挖掘的空间，我们基于264的协议，通过深挖屏幕共享的改进，来提升效果。下面是我们的成果一些成果，加与不加屏幕共享编码算法，在屏幕共享场景下，我们的压缩率提升了36.72%，同时我们速度只慢了3%-4%。可以看到我们的压缩率比openh264提升了41%，速度基本不变。

再来看一下自研的NE265，目前也在持续不断的迭代中。NE265的特点是高效架构可实现的设计。对于计算复杂性的一些算法都进行了非常精细的3D优化。了解编码器的都知道veryslow那一档，我们速度比它快64倍，这还不是非常快的档位，非常快的要比它快200倍以上。

基于对RTC和音视频通信的深刻理解，我们发明了NEVC，多尺度的视频压缩技术。相比NE265，速度基本不变，但是压缩率提升了，右边的纹理提升得比较清楚，左边的纹理基本上模糊掉了。我们讲完了视频编码之后，码就应该被压缩了，应该送到网络去了。网络对RTC来说是最复杂的，尤其是在全球化的业务中，有各种不同的网络存在。如何保证在多网络、复杂的网络环境下面，视频质量还能优异，我们有一个视频QoE的模块来支撑。视频QoE模块将从视频的流畅度、清晰度、质量平稳度、时延和性能功耗五个方面来进行保证。

3.视频QoE

（1）视频质量控制模块

视频质量控制从视频的流畅度、清晰度和质量平稳度三个维度来解读。经过采集、前处理、编码再发送，最后传给了网络，这里的网络可能有各种不同的网络存在，比如有些带宽很低的网络，有些有持续丢包的网络，或一些比较抖动的网络。

每种不同的网络不可能用一种分辨率、一种帧率、一种码率来传输，这可能产生不同的很差的效果。我们这里视频质量控制模块叫VQC，它会首先接收从网络QoS评估出来的一个网络带宽或网络有效带宽，根据这个带宽分配合适的视频分辨率、视频帧率，设置编码器，达到最合适的视频质量，同时图像在各种不同的网络中，有的是噪声比较大的网络，有的是暗场景的网络，对于VQC的模块会进行采集信息，会决定打开或者关闭哪些视频算法开关，或者调整视频参数，增强或降噪，还有编码的一些算法。

（2）设备控制模块

QoE讲完之后，码流传到了接收端进行视频解码。云信视频解码的特点是非常高效且几乎支持所有的视频格式，互联互通是没有问题的。

视频后处理通过视频屏幕内容优化和视频超分优化，恢复和改善视频画质。云信的视频超分，网络参数量是2K-4K，网络层数小于8，我们有自研的AI推理引擎，进行独有的优化，速度非常快，同时我们会加速，对于超分的效果有针对的数据集处理，利用苹果或者变焦的手机，对不同焦段的数据进行采集，进行真实的数据训练，同时也会用一些数据的预处理和增强来确定效果，主要优势还是高效和快速。

下图的表中，前三个是传统的处理耗时，这是我们自研的超分，这是一个比较知名的轻量级的网络，从处理耗时来看，云信AI的耗时比以AI知名的轻量级网络快了30多倍；从效果来看，云信AI超分的视频质量远远超过了非AI的效果，和经典的效果相差极其微小，基本上看不出差别。

其次是桌面共享优化，对于桌面屏幕共享不止有264的编码做了后处理，针对文字场景的优化，对于深度学习来说，屏幕共享最大的难点是它的分辨率一般是很大的，云信有高精度的文字识别功能，对解读出的文字进行增强，同时我们自研的推理框架NENN也会保持这种速度，这就是文字增强效果。

前面介绍了编译服务器，基本上是RTC低延时的线路，如果直播就走直播点播的短推服务器，可以通过CTO下达。

直播点播的链路是从客户端经过推流到边缘媒体服务器再转推到直播转码再转到CDN。

这个链路有两个问题，一个是设备上传时，它的画质存在损失，是压缩过的，有可能摄像头采集本身就有问题，也会带来损失。第二个是转码之后，经过CDN分发时，转码非常高。

为了解决以上两个问题，云信提出了智码超清技术。首先利用深度学习视频修复技术对转码前的视频进行修复或增强，再基于人眼感知的编码技术在视频主观质量不下降情况下节省码率。

图像首先经过视频修复模块，对视频进行了修复或增强或美化，再进行感知编码，感知编码会分析视频内容，前置一个视频分析模块。

1.视频修复技术

视频修复在业界是一种比较难的技术，由于退化模型多种多样，视频退化有非常多的原因，比如由于摄像头噪声的影响，压缩上的损失，摄像头本身不好造成的过曝欠曝，也有可能是对焦没对好等。

云信用了一种画质评估算法，通过深入学习算法，得出这个视频的退化模型是什么。针对不同的退化模型用不同的恢复方法。如果是噪声，我们会用视频降噪的方法；如果是模糊，会用去模糊的方法；如果纹理不好，会用纹理增强的方法，还有画面矫正等。通过评估再进行修复，能够美化或者提升视频的主观效果。

2.视频感知编码技术

修复之后，就会进行编码。云信的感知编码采用了JND这种技术，用人眼最小可察觉的误差来度量人眼对图像中不同区域失真的敏感性。

JND是一种提出比较多的技术。从下图可以看出，客观的失真是连续的曲线，人眼是一个阶梯状，有冗余的地方可以优化，节省码率，同时主观下降。

JND是一种比较传统的方法，但传统JND编码是一种以图像低层特征为主的方法，比如纹理、边缘、亮度、颜色。

云信JND和其他不同的是加入了视频内容分析。比如上图中，我们会进行视频分析，分析出这个图像的前景、人脸、文字等信息，针对不同的信息再单独构造出JND，来达到节省码流的目的，经过这样的流程会输出前景、文字、人脸，每种特性都有JND的共识，得出JND的系数进行编码。

下图是智码超清的测试结果，蓝色代表的是云信，其他颜色是业界友商的。左边是人眼主观的得分，因此越高越好，而压缩后文件大小显然是越低越好。

这是网易云信的重点投入和产出。

云信的美颜技术，提供了磨皮、美白、大眼等26种功能，50款以上的滤镜，年龄、性别、视线识别跟踪，支持2D、3D贴纸，这些业界都有，但我们的特点是能够在美颜质量下高效的处理速度，这是我们核心的竞争优势。

对720P的视频进行美颜、磨皮、美白、瘦脸等的开销，在骁龙处理器上面，云信的基础美颜可以达到30，对于我们的海外市场，尤其是在印度、东南亚这样的市场，在入门级机型遍布的情况下，这是非常有竞争力的，整个视频体验是完全不一样的。

云信背景分割技术，采用了大量的数据集。我们精度比较高，iou达到0.93，鲁棒性比较好，推理速度比较快，小于10毫秒。下图是我们的精度和业界的友商对比，精度越高越好。

技术讲完了，可以具体看看网易云信的落地实践。网易云信的视频引擎，已经服务了全球10000+以上的用户。

既接入了SDK也接入了视频引擎的用户，比如LOOK直播，网易云音乐在线KTV，网易会议，还有网易内部的POPO等，其中还包括一些第三方基于会议组件的厂商。

网易新闻的直播点播应用，有云音乐大型演唱会都是使用了网易云信的直播点播功能，比如去年非常知名的破纪录人数的演唱会，也是用了云信的视频引擎，后续我们也会持续的在技术领域深耕下去，为大家带来更多更好的产品。

THE END

视频通信关键技术探索及实践QCon2021云信专场?Worktile社区

20款超实用快捷指令：iPhone效率瞬提N倍快科技

realme真我GT2Pro大师·森评测：业界最强直屏旗舰今年唯一？手机评测

抖音短视频剪辑剪映制作方法

视频通信关键技术探索及实践QCon2021云信专场?Worktile社区

谷歌开源的TensorFlowObjectDetectionAPI视频物体识别系统实现(一)[超详细教程]ubuntu16.04版本王老头