抖音作为短视频社区,拥有海量的用户和短视频内容,日活用户规模超过6亿,日均视频搜索次数突破4亿,因此多媒体内容处理的成本与体验之间的平衡,不断为我们带来了新的挑战和新的惊喜。
下面我将介绍哪些因素会影响高画质,主要从分辨率,位深度,帧率,色域,亮度五个方向展开介绍。
分辨率指图像中的像素数量。在特定屏幕尺寸下,分辨率越高,像素越多,显示的细节更精细。4K超高清分辨率是3840x2160,这意味着显示的图像数据是标准全高清的四倍。
位深度指每个像素可以显示的颜色数量。位深度越大,可显示的颜色越多,从而使渐变更平滑、更自然。例如,8位显示器可以显示大约1677万种颜色,而10位显示器可以显示大约10.7亿种颜色。
帧速率指一秒内显示的图像数量。电影的帧速率一般是24p(24张图片,或每秒帧数),而标准电视的帧速率通常是60i或30p(每秒30帧)。
8K广播标准BT.2020包含帧速率(最高可达120p)的定义,该帧速率下的运动平滑程度几乎和真实世界一样。
4.色域=色彩的生动程度
色域指可以显示的所有颜色的范围。右侧图表显示了人眼能够感知的所有RGB值的范围。三角形表示色域:三角形越大,可以显示的颜色越多。4K/8K广播标准BT.2020(Rec.2020)比现有全高清广播标准BT.709(Rec.709)涵盖了的颜色范围更广泛。
亮度指可以显示的图像照明强度的范围。人类眼睛所能感知的最暗和最亮物体之间的差异范围(动态范围)通常为1012,而传统显示设备最多只能显示103的动态范围。HDR将动态范围扩展到105—比目前的显示设备高出100倍—允许以一种更接近人眼所能感知的方式呈现光与影。
在经过抖音的生产端业务逻辑,比如特效SDK,增强算法SDK,编辑SDK,上传SDK等等,这里经过了美颜,磨皮等特效算法,以及编辑过程的软硬编解码,还有各类softwareISP的画质增强算法最终传给了服务端;
服务端又要经过重重的处理,包括视频的基本信息分析,然后进行增强处理,最后转码成各个档位,通过CDN分发下去,这个过程服务端核心处理就是图像增强算法前处理和转码;
下发到消费端有播放器有需要做很多处理,解封装,解码,通过算法增强SDK处理,最终上屏渲染处理,比如HDR,超分等等;
可以看到上面整个大致的链路已经十分复杂了,因此对各个环节的画质效果的线下评测就应运而生,我们会通过多媒体实验室进行主客观评测,提前洞悉用户对算法效果的喜好,及时调整画质调试方向,来保证算法能够在上线之前到达最优效果;目前我们已经在抖音整个链路上线了超分,降噪,插帧,HDR等画质增强算法,画质上取得了令人瞩目的收益。
目前业界的痛点在于客观指标不能很好的映射到主观质量,举个例子,比如PSNR高的视频画质一定就好吗,不一定,因为PSNR只是一个相对参考的指标,如果视频源的质量很差,PSNR再高也没什么用,另外很多时候我们看PSNR很多时候只是看整体视频所有帧数的均值,但是如果其中某些少数帧出现badcase,比如转场出现大量的马赛克,也是会非常影响用户的主观体验,而这些从PSNR的数值上都不能很好的体现出来,同时如果在服务端经过锐化,超分,降噪,插帧等等一些前处理的算法的话,那么全参考的指标基本无法使用了,综合来看,PSNR等全参考客观指标有很大的局限性;
主观质量和用户行为不存在必然正向关系。即使在测试阶段对主观质量有了一定的评估,主观质量的变化首先需要被用户感知或感受之后,才会对用户的行为产生影响,这种影响对单个用户或单次行为可能是非常微小的,比如多看了一个视频或者某个视频多看了几秒,但现阶段学术界对人类视觉系统的运作规律依然知之甚少;再举个举个极端的例子,我们现在大幅提高码率和分辨率,用户的画质必然会变好,但是用户的播放流畅度,耗电量等指标必然无法接受;
所以我们需要通过不断的AB实验来观察用户的QoE/QoS指标,从侧面反映及理解用户的真实行为,找到一个最佳的平衡点,就是画质带来的视觉体验的正向收益大于对于用户手机性能带来额外消耗的负向体验,使得整体的业务数据整体呈现正向。
QoE指标核心:
画质正向>其他负向。
AB实验的核心QoE指标如下:
用户量、内容浏览量、人均播放时长、人均播放量、人均完播数、人均点赞数、多日留存等等。
因此线下算法仿真开发阶段,我们会重度依赖主客观质量的评估,来确保算法各方面的效果尽可能的达到最优状态,后面会展开介绍目前我们的算法迭代流程。
图像信息技术被广泛应用的情况下,对图像质量的评估变成一个广泛而基本的问题。由于图像信息相对于其它信息有着无可比拟的优点,因此对图像信息进行合理处理成为各领域中不可或缺的手段。在图像的获取、处理、传输和记录的过程中,由于成像系统、处理方法、传输介质和记录设备等不完善,加之物体运动、噪声污染等原因,不可避免地带来某些图像失真和降质,这给人们认识客观世界、研究解决问题带来很大的困难。
比如,在图像识别中,所采集到的图像质量直接影响识别结果的准确性和可靠性;又如,远程会议和视频点播等系统受传输差错、网络延迟等不利因素影响,都需要在线实时的图像质量监控;因此,图像质量的合理评估具有非常重要的应用价值。
对于图像质量有两种定义。
定义一:不同成像系统采集,处理,储存,压缩,传输信号的准确度。
定义二:符合人眼感知的角度评价图像质量:图像所有视觉上重要属性的加权混合。
那么从图像质量的定义上,就引申出了两种图像质量的评测方法,从有没有人参与的角度区分,图像质量评价方法有主观评价和客观评价两个分支。
客观质量评估算法大概分三类,主要取决于是否使用无损的源视频作为参考。
目前世界上主流的图卡测试系统有三家:imatest,DXO和ImageEngineering。
MTF,ModulationTransferFunction。中文为调制传递函数。在各个摄像头镜头中经常采用MTF描述镜头的MTF曲线,表明镜头的能力。这些曲线是通过理想的测试环境下尽量减少其它系统对镜头的解析力的衰减的情况下测试得出的。当然,MTF也可以涵盖对整个成像系统的解析力评价。
SNR信噪比
由于噪声和信号总是混在一起,如果一张图片去除噪声的同时也消除了信号,那么也不是优质的图像。所以为了评判图像的好坏,经常用SNR信噪比来表示。
我们一般用dB表示:
所以SNR(dB)=20log10(S/N)。
SNR最显著的缺点就是容易被降噪算法作弊。一张SNR很高的图片可能涂抹严重。另外相同SNR的两张图,噪声感受可能差别很大。
CIELab中的色差计算
建立色彩空间,是为了方便的表示色彩。那么有了两个颜色的坐标,就可以开始进行色差计算。
这时我们遇到了第一个问题,应该如何选择色彩空间。
标准的制定者考虑了两点。
于是CIELab就在这样的需求中诞生了。L表示亮度,ab分别表示色彩分量。
当时认为CIELab是一个如果均匀线性空间,于是初代的色差公式就是两个颜色在色彩空间中的欧式距离:
delta_Eab=sqrt(delta_L.^2+delta_a.^2+delta_b.^2);delta_Cab=sqrt(delta_a.^2+delta_b.^2);其中deltaE为整体色彩,deltaC排除了亮度的影响(不计算L值)之后色差公式在应用中逐渐被认识到一些缺点仍然存在。CIE2000年又再次更新了标准。这次的公式更加符合人眼感知。
公式如下:
中间变量的计算过程被我省略了,只展示了最终的公式。有兴趣的同学可以到附录下载CIE2000色差公式matlab函数。
[画质评测实验室简介]
目前我们自研无参考打分算法也在内部有一定的使用;
1.线上视频质量监控
海量视频数据的质量监控是不得不面临的棘手问题之一,视频质量服务包括视频质量检测、视频质量评价和视频质量监控。如果可以针对海量视频提供快速正确的审核或监控方案,则可以全天候不间断地检测视频质量,大幅降低人工成本,减少线上服务的风险和事故率。
2.视频前处理检测
目前,在抖音端到端的视频处理技术有:去块效应、锐化、超分辨率、视频降噪等技术等。视频处理技术的最大特点就是很难找到一个客观指标,告诉你参数调到什么程度才能让用户满意。
3.推荐提供评分标签
短视频正逐渐成为互联网上的一种重要的信息传播方式,为短视频打上各种有用的标签,可以帮助优化推荐系统或搜索引擎,从而为用户提供精准的短视频推荐或搜索服务。
目前应用:在抖音线上的质视频筛选,优化推荐权重。
我们也通过很多自研的工具来提升画质评测的效率和自动化方案,目前研发了24色卡,SFRplus图卡分析算法,防抖检测算法,视频基础参数分析,卡顿分析,编码分析等等,下面列一部分的UI界面。
内部画质算法的迭代流程中期很长,下面简单介绍一下算法的迭代流程,方便大家清楚了解我们任何一个算法的上线都是经过的研发和评测巨大的努力,最终才在线上呈现给到用户的;
算法从立项开始,就需要开发和评测tuning同学内部闭环,不断进行调试,在这个过程中达到可交付状态之后,然后通过内部的图卡计算和无参考的客观指标计算,在合理的阈值范围内的话,我们才会交付到专家评测组(大概40个人)进行评测,专家多维度的评测结论通过之后,我们通过线上的众测平台,发送给到线上的部分内测用户(每次大概300人),通过用户众测最终通过之后,我们才会决定工程化落地上线;上述的任何一个环节如果出现负向的话,我们都会打回重新调试。
上面说到众测,我们需要重点介绍一下我们的众测系统,目前的众测是集成在抖音线上,内测用户可以通过站内信或者扫描二维码等方式参与到众测过程;
目前众测方式分四种方式:
1.同屏对比
2.分屏对比
众测有一个重要的指标就是JND,我们通过JND量化的方式来决定我们上线的标准;
举个例子:一根蜡烛的房间,增加一根蜡烛,亮度的增加是明显可感知的。十根蜡烛的房间,增加一根蜡烛,感受不明显。一个铃铛在摇晃,增加一个铃铛,声音变大也是明显可知的。十个铃铛在摇晃,增加一个铃铛,感受不明显。那么物理增加量和心理感知量如何量化呢?
而可被感知的最小△I,就被称为JND,Justnoticeabledifference,即最小可觉差。
把最小可觉差(连续的差别阈限)作为感觉量的单位,即每增加一个差别阈限,心理量增加一个单位。感觉量与物理量的对数值成正比,也就是说,感觉量的增加落后于物理量的增加,物理量成几何增长,而心理量成算数级数增长,这个经验公式被称为费希纳定律或韦伯-费希纳定律。适用于中等强度的刺激。S=klgI+C(S为感觉量、K为常数、I为物理量,C是积分常数)
常见应用:
下面是我们实际使用的一些case:
那么我们主要做什么呢?主要从下面四个方向把控抖音端到端的全链路画质质量:
工程优化--厂商合作--编解码--算法增强
目前我们将整个内部的评测链路分成3个端,生产端,服务端,消费端,下面从这三个端依次介绍一下我们做了哪些画质提升的事情。
SoftwareISP
在画质处理链路上,很多位置都可以用后处理增强。不同位置的画质特点不同,了解这些特点有助于设计更好的后处理增强算法,因此我们自研的后处理算法的softwareISP应运而生。
什么是棱镜系统?
核心平台能力
结合用户和图像场景,智能分析并增强其图像和视频的画质,动态调整出更为清晰、绚丽的图像,打造绝佳的视频沉浸体验,从下图可以看到增强之后的效果视觉感官体验明显好于右边。
左边是增强后的效果,右边是没有增强的效果:
什么是camera1,camera2?
都是google官方提供的两套CameraAPI,在Andriod5.1之后取消了对Camera1的更新,主要维护Camera2。
Camera1和与Camera2在实现和使用方式有较大的差异,详见下图;
相对Camera1,Camera2增添了许多新特性,功能也更加强大,如:
目前抖音大部分场景已经切换到camera2,我也通过跟国内的主流手机厂商合作,比如华为,小米,oppo,vivo等等,使用厂商提供的SDK调用更多系统相机才有的能力,进一步提升我们的生产画质。
编辑SDK
目前也逐步从软编切换到硬编码,从下图可知,硬编码的功耗低,性能更强大;
通过对客户端的机型进行性能打分和测速,同时对视频内容进行预编码提前感知,综合这些信息,算法抉择出一套最适合当前场景的编码参数;
对导入的视频支持上屏渲染,转码支持HDR显示,同时也支持HDRtonemapping到SDR,避免用户产生badcase;
目前生产端已经最高支持1080P,60fps的视频了,后续我们还会继续上探,尽可能为用户提供更高清的视频;
当然我们不是一味的提升画质,目前我们通过各种软硬编码和上传SDK结合策略,已经达到画质和码率的均衡,尽可能在提升画质的同事,不影响用户的投稿体验,目前内部评估中生产端的效果在各个竞品表现最优。
特效SDK
在生产端我们特效的SDK也做了很多优化工作,下面举几个例子:
之前我们的磨皮效果会对全局场景进行处理,导致人物后方的背景也不够清晰,同时磨皮的处理导致人物面部的纹理细节太少,缺乏实感,后续我们针对性的上线了人脸磨皮,只对人脸检测区域进行处理,同时上线精致磨皮,能够保留人物质感。
在夜景的情况下,默认滤镜会放大画面噪声,通过夜景检测算法,自动的对白天和夜晚使用不同效果的滤镜,来尽可能实现滤镜效果最优化。
上面虽然说到抖音已经支持导入视频上屏渲染支持HDR,但是加入特效之后,要支持的难度非常大,需要2W多个道具进行遍历生产10bitHDR的素材,目前我们也在逐步的支持特效的HDR。
服务端目前处理pipeline大致分成三块,视频分析,视频前处理,视频转码。
同时我们还有其他的分析处理,比如ROI,基础特征分析,复杂度分析,视频基础参数等,依赖上述分析进行最终决策处理。
视频处理
视频前处理上,目前已经和正在研究的算法类型非常多,我们通过端到端数据联合起来进行决策处理,目前主要使用的有超分,插帧,低质增强,去压缩失真等等。
视频编码
编码标准定义的是解码器的格式和流程,而编码端是可以被各家公司各自优化的,如对于运动搜索的模块,可以在范围、大小、模块的选择上再进行算法设计和优化。因此同样一个标准的编码器,是可以有不同的编码器算法的,各个公司都有自己独特的设计。
同样,我们公司也有自研的编码器算法,目前已经应用到了各个业务中。我们自研的编码器在MSU比赛中也取得了不错的成绩,获得了17项第一的好成绩。
目前超分在内部的业务应用十分广泛,抖音,点播,直播,西瓜,头条,皮皮虾等等;超分不仅带来了画质的收益,同时通过不同的策略,还能带来卡顿优化,带宽优化等。
日前,据博主“@超能数码君老周”爆料,国内三大运营商中国移动、中国电信和中国联通预计将集体采购百万台规模的华为Mate60系列手机。
今年早些时候,抖音悄然上线了一款名为“青桃”的App,Slogan为“看见你的热爱”,根据应用介绍可知,“青桃”是一个属于年轻人的兴趣知识视频平台,由抖音官方出品的中长视频关联版本,整体风格有些类似B站。
日前,威马汽车首席数据官梅松林转发了一份“世界各国地区拥车率排行榜”,同时,他发文表示:中国汽车普及率低于非洲国家尼日利亚,每百户家庭仅17户有车。意大利世界排名第一,每十户中九户有车。
近日,一项新的研究发现,维生素C和E等抗氧化剂会激活一种机制,刺激癌症肿瘤中新血管的生长,帮助它们生长和扩散。
据媒体援引消息人士报道,苹果公司正在测试使用3D打印技术来生产其智能手表的钢质底盘。消息传出后,3D系统一度大涨超10%,不过截至周三收盘,该股涨幅回落至2%以内。
9月3日消息,亚马逊的一些股东,包括持有该公司股票的一家养老基金,日前对亚马逊、其创始人贝索斯和其董事会提起诉讼,指控他们在为ProjectKuiper卫星星座项目购买发射服务时“违反了信义义务”。
据消息,为推广自家应用,苹果现推出了一个名为“AppsbyApple”的网站,展示了苹果为旗下产品(如iPhone、iPad、AppleWatch、Mac和AppleTV)开发的各种应用程序。
特斯拉本周在美国大幅下调ModelS和X售价,引发了该公司一些最坚定支持者的不满。知名特斯拉多头、未来基金(FutureFund)管理合伙人加里·布莱克发帖称,降价是一种“短期麻醉剂”,会让潜在客户等待进一步降价。
据外媒9月2日报道,荷兰半导体设备制造商阿斯麦称,尽管荷兰政府颁布的半导体设备出口管制新规9月正式生效,但该公司已获得在2023年底以前向中国运送受限制芯片制造机器的许可。
近日,根据美国证券交易委员会的文件显示,苹果卫星服务提供商Globalstar近期向马斯克旗下的SpaceX支付6400万美元(约4.65亿元人民币)。用于在2023-2025年期间,发射卫星,进一步扩展苹果iPhone系列的SOS卫星服务。
据报道,马斯克旗下社交平台(推特)日前调整了隐私政策,允许使用用户发布的信息来训练其人工智能(AI)模型。新的隐私政策将于9月29日生效。新政策规定,可能会使用所收集到的平台信息和公开可用的信息,来帮助训练的机器学习或人工智能模型。
9月2日,荣耀CEO赵明在采访中谈及华为手机回归时表示,替老同事们高兴,觉得手机行业,由于华为的回归,让竞争充满了更多的可能性和更多的魅力,对行业来说也是件好事。
《自然》30日发表的一篇论文报道了一个名为Swift的人工智能(AI)系统,该系统驾驶无人机的能力可在真实世界中一对一冠军赛里战胜人类对手。
近日,非营利组织纽约真菌学会(NYMS)发出警告,表示亚马逊为代表的电商平台上,充斥着各种AI生成的蘑菇觅食科普书籍,其中存在诸多错误。
社交媒体平台(原推特)新隐私政策提到:“在您同意的情况下,我们可能出于安全、安保和身份识别目的收集和使用您的生物识别信息。”
2023年德国柏林消费电子展上,各大企业都带来了最新的理念和产品,而高端化、本土化的中国产品正在不断吸引欧洲等国际市场的目光。
罗永浩日前在直播中吐槽苹果即将推出的iPhone新品,具体内容为:“以我对我‘子公司’的了解,我认为iPhone15跟iPhone14不会有什么区别的,除了序(列)号变了,这个‘不要脸’的东西,这个‘臭厨子’。