在线教育音视频质量评价与感知系统个人文章

2017年我加入了VIPKID,带领音视频团队探索如何更好地将实时RTC技术用于在线教育领域。我之前一直从事技术方面的优化与创新,而这次选题我特意选取了QoE方向,就是因为探索了这么多年的技术,我发现技术最重要的是为实际应用场景带来具有建设性的优化改进,而质量评价与感知系统是其中最为关键的一环。我们希望完整构建一套严谨专业客观的音视频质量评价与感知系统,从而为用户体验的优化与提升解决方案提供强有力的数据支撑。

管理大师德鲁克曾说:没有度量就没有优化,这句话用于音视频开发也非常恰当。我们在之前的开发过程中就积累了许多教训,如在优化系统时我们就曾遇见这样的问题:设计一项优化算法,设计初期我们预期该算法能将用户体验提升至新的高度,且我们也通过多种自证方式验证了其逻辑自洽,于是我们在预期成立的前提下为该算法投入资源进行开发,但在算法上线之后我们却发现其实际效果和预期存在很大的差异,该算法对于用户的主观体验没有带来改观甚至造成负面影响。这一经验令我们思考:音视频系统究竟需要一套怎样的标准才能准确客观评价算法的优劣?在设计任何音视频系统或者针对系统当中某一点进行优化时,开发者一定需要先仔细思考如何借助数据准确合理度量正在开发的算法,不仅是从实验室角度度量更应当从用户角度度量。这样无论是灰度测试还是频繁地版本迭代,甚至多个团队基于同一方向进行的优化竞争,确立好的度量标准就如一把尺子,可以准确客观衡量出算法可为用户体验带来多少提升与优化。

上图右侧饼状图展示了VIPKID用户所反映的针对产品所提出的五大关键问题(占比从高到低依次为:网络问题、设备问题、行为问题、软件问题与课件问题)对于所有RTC开发者来说,网络问题永远是一项最艰巨的挑战;而当用户数量达到一定规模时,不同软硬件平台设备、不同版本的软件适配问题也将成为一项亟待解决的重要命题。

既然存在如此多而复杂的用户痛点,那么确立一套专业客观精准高效的音视频用户体验评价体系就变得尤为重要。

视频画面的清晰度则主要使用MOS分作为评价标准,也就是从原始录像中按照每分钟1帧的方式抽取I帧图像并为其清晰度赋予MOS分值,所得到的系统分值再与用户的主观感知评价进行匹配,最终得到的分值如果低于3分那么我们就视该视频画面清晰度不佳。需要注意的是,这里的MOS分并非单纯基于肉眼感知的画面质量,而是基于综合视频编码与网络传输的参数,通过AI训练而成的一套算法为其赋分,数据主要通过录制上课视频得到。

音频方面,除了“清晰度”这样一项常见的指标之外,“声音大小”是我们根据用户反馈评价新增加的一项评价维度,这主要是因为许多用户反馈上课时感觉声音过大或者过小以至于听不清楚,发生这种情况多由于老师直播或录制课程时离话筒距离不当或录制设备不佳,也有可能是用户端的设置出现失误。我们选取老师讲话的部分并计算其音量是否合适,低于30分我们就认为该片段声音大小不符合用户体验要求;而“清晰度”则依旧使用常见的MOS赋分的形式,利用程序给目标录像片段的音频打分,低于3分我们认为该片段的音频清晰度不佳。以上是我们确立的针对在线教育所设计的一套完整评价维度,作为技术团队的KPI来使用。针对每一项,我们会有专门的团队负责优化与改进目标维度对应的算法与技术指标,以实现最优效果。

我们为统计到的卡顿情况作出了如下级别细分,其中遇到1、2级别卡顿情况的用户占比约为5%,遇到3、4、5级别卡顿的用户平均占比约为18%。这一数字在业内属于比较好的情况。

我们大概花费了两到三个月探索视频打分算法,在初期我们阅读了许多论文著作,发现业界还没有很出色的无参考视频打分算法。当时也试验过其他厂商的比较成熟的算法也没有达到理想的效果,直接用一张图片训练无法实现收敛。于是我们尝试换了一个方向,也就是从视频编码数据流当中抽取一些参数例如GOP帧宏块的大小,宏块的个数、丢包个数等以形成训练数据集,随后再使用该数据集训练打分算法模型。我们将得到的模型与人工标记做对比,最终的效果符合我们的需求,和用户主观感知结果的匹配度大概在80%,该算法模型就固定下来并被我们用于后续的关键开发活动当中。

特征提取的第一步是需要对文件进行解析,我们的线上课程视频文件基于不同的系统与格式,如mp4、flv、ts等等。再将原文件统一成H.264/H.265码流之后,码流解码程序会解析得到解码后的图像序列,该图像序列会被导入场景检测程序以生成特征提取单元;特征提取单元会在接下来的流程中被筛选,系统判断其是否超过最大序列长度,如果未超过,那么该特征提取单元会被直接输入特征提取程序以提取出有效特征;如果超过,那么该特征提取单元会被依据最大序列长度做切分以生成符合序列长度要求的多条特征提取单元,这些特征单元会被输入特征提取程序以生成我们想要的特征数据。

下图展示了训练该算法模型所需要的几项关键参数,其中包括宏块个数、帧的类型、宏块是否会丢包等。这一部分训练所消耗的算力资源是比较多的,如果想获得比较出色的训练效果,服务端强大且可靠的硬件支持必不可少。

从事音频质量评价的朋友应该不会对该声音质量评价模型感到陌生,该算法模型于2004年被提出。无论是音频还是视频,所有全参考的打分算法在线上系统都是不可用的。我们无法直接调取发端和收端的数据套用全参考算法,故面对线上音视频场景所使用的打分算法一定是单边的无参考算法。P.563就是这样一套可靠的单边算法,其不依赖发端数据,仅需收端数据即可直接运算得到评估分数。大致流程如下图中显示的那样:

首先,提取的原始数据会经由预处理后进行话音参数特征的提取与计算,所得到的参数会被归类为多种失真类型,按照不同的失真类型选取对应的话音质量模型从而得到准确客观的MOS分数。之前我们提到了评价维度里面有一项是音量大小,而P.563在预处理的过程中就会计算得到Activespeechleveladjustment这样一个参数,我们将4ms帧长下的SpeechLevel作为声音大小,取值范围是1~100,连续3帧以上超过阈值为不合格,反之则会被当成背景噪声过滤,从而我们得到了评估声音质量所需的所有关键评分。

上图展示的就是我们基于该质量感知系统制作的实时监控大盘。

下图展示了实时指标趋势跟踪,可以看到不同地区网络覆盖情况差异很大,这也是我们优化调参的重要依据。

THE END
1.在线教育云课堂系统设计云课堂在线教育系统的架构设计需要满足高并发访问、灵活的业务逻辑、可扩展的内容管理和稳定的支付体系。通常采用分层架构设计,常见的分层如下: 前端层:用户界面,支持Web端和移动端。前端通过REST API或GraphQL与后端交互,展示课程内容、用户中心和支付页面。 https://www.jianshu.com/p/b24c68909332
2.数据填报系统a架构图mob64ca12df9869的技术博客数据填报系统架构图实现指南 在开发一个数据填报系统的过程中,我们需要设计合适的系统架构图,以便更好地理解系统功能和数据流动。本文将指导一位刚入行的小白,逐步完成数据填报系统的架构设计。 整体流程 我们可以将整个过程分为以下几个步骤: 下面我们详细介绍上述每一步。 https://blog.51cto.com/u_16213361/12852914
3.流程图技术路线图模型图原型图架构图流程图模板流程图描述了系统的工作流程,其中包括各个步骤和决策点;技术路线图展示了系统的关键技术和开发过程;模型图展现了系统的结构或行为模型;原型图提供了一个系统的早期可交互版本,展示了系统的功能和设计;架构图则展示了系统的整体结构和各组件之间的关系。这些图表对于理解和设计系统都是非常重要的。 基础版式 业务流程 https://www.processon.com/view/675859c0006d2a1ad4140a24
4.ssm毕设网上教学系统程序+论文本系统(程序+源码)带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。 系统程序文件列表 开题报告内容 一、研究背景 随着信息技术的飞速发展,互联网在教育领域的应用日益广泛。传统教学受时间和空间的限制,无法满足现代社会对教育灵活性和高效性的需求。在当今社会,人们的生活节奏加快,学习需求多样化,例如https://blog.csdn.net/wuzhou206/article/details/144400467
5.巨好用的「系统架构」思维导图,看完整个思路都清晰了软考系统架构知识点非常多,记忆负担非常重 大家可以通过先学习重点内容,这样由点及面,中心开花,从而带动对于整个知识体系的理解。 而思维导图工具运用图文并重的技巧,把主题关键词与图像、颜色等建立记忆链接,利用记忆、阅读、思维的规律,可以帮助https://mp.weixin.qq.com/s?__biz=MzkxOTQ5NDc5NA==&mid=2247511173&idx=1&sn=7e685ffa19721141cb3e6012589b9001&chksm=c0df05808a127f993441b419e6b92d660251fef67aa016b01b2e4865a2ce571034b968fc8cca&scene=27
6.第48集数据流图教育高清视频在线观看分享电脑知识,带你学习计算机实用技巧。-芒果TV-大家都在看的在线视频网站-热门综艺最新电影电视剧在线观看https://www.mgtv.com/b/544961/18778378.html
7.自考计算机基础与程序设计专业真题(四)19.在数据流图中,用圆或圆角矩形表示( ) A.加工 B.数据流 C.数据存储 D.数据源点或终点 20.为了提高模块的独立性,模块之间最好是( ) A.数据耦合 B.公共耦合 C.内容耦合 D.控制耦合 (二)填空题 (本大题共l0小题,每小题1分,共10分)请在答题卡上作答。 https://www.eol.cn/ceici/e2-zikao-234141.shtml
8.学生盐系统数据流图上下文图是数据流图的最高级别,用于描述系统与外部实体之间的交互。在学生选课系统中,外部实体可以包括学生、教师、管理员等。上下文图显示了系统与这些外部实体之间的数据流和处理过程。 2.系统概述: 学生选课系统是一个在线的教育管理系统,旨在匡助学生方便地选择课程并管理他们的选课信息。系统的主要功能包括学生注册https://wenku.baidu.com/view/7b6a64a87075a417866fb84ae45c3b3567ecddb3.html
9.课程国家高等教育智慧教育平台是由教育部委托、高等教育出版社有限公司建设和运行维护、北京理工大学提供技术支持的全国性、综合性在线开放课程平台。本网站致力于汇聚优质高等教育在线课程等资源,并推进广泛传播与共享,面向高校师生和社会学习者提供全面、优质、便利的课程搜https://higher.smartedu.cn/course/62354c969906eace048cc724
10.多语言音视频字幕秒杀腾讯云开发者社区(天狮直播需求数据流) 天狮全球直播的特点与需求:自定义业务逻辑集团内部全员大会的实时直播,需要使用专业设备推 中文、西班牙语、印尼语、俄语、法语、英语等多语言视频流, 且内容需要在全球 190在天狮全球直播服务中,通过腾讯云 TRTC 音视频服务、SCF 云函数https://cloud.tencent.com/developer/information/%E5%A4%9A%E8%AF%AD%E8%A8%80%E9%9F%B3%E8%A7%86%E9%A2%91%E5%AD%97%E5%B9%95%E7%A7%92%E6%9D%80
11.2020年教育信息化发展分析2020年下半年,随着疫情防控取得积极进展,大中小学基本恢复了正常的教学秩序,在线教育用户规模数据稍有下降,但较疫情之前(2019年6月)仍增长了1.09亿,行业发展态势良好。“十三五”发展期间,在线教育的用户规模整体呈上涨趋势。 图5 2016—2020年在线教育用户规模(单位:万人)https://www.ceeia.cn/news/detail_3517.htm
12.基于SpringBoot的“体质测试数据分析及可视化”的设计与实现(源码+公告信息管理界面图 摘要 随着科学技术的飞速发展,社会的方方面面、各行各业都在努力与现代的先进技术接轨,通过科技手段来提高自身的优势,体质测试数据分析及可视化设计当然也不能排除在外。体质测试数据分析及可视化设计是以实际运用为开发背景,运用软件工程原理和开发方法,采用springboot框架构建的一个管理系统。整个开发https://zhuanlan.zhihu.com/p/12155979142
13.在线教育系统数据流图,高考这个山地,在线教育也要走过在线教育系统数据流图,高考这个山地,在线教育也要走过 都说教育行业是逆周期发展的,但今年的在线教育却也在遭遇“倒春寒”。比资本市场质疑更“忐忑”的是高考学生市场的“押注”想搭建知识付费小程序,获取源码源码:[www.tuzhi.ltd] 先说资本市场的。 此前做空https://www.bilibili.com/read/cv36187713/
14.流贷金流物流数据流D商流现金流物流数据流电子商务的“四流”指的是( )。 A 商流、资金流、物流、信息流 B 商流、资金流、客户流、信息流 C 现金流、贷金流、物流、数据流 D 商流、现金流、物流、数据流 --- 正确答案 A --- 解析 本题考查电子商务,电子商务的交易活佛的达成必然需要商流、资金流、物流、信息流。https://m.guangzhou.huatu.com/tiku/3406856.html
15.教育信息化2.0视域下的教育新生态——《教育信息化2.0行动计划(2)物联网和人工智能将推动教育工作数据的“伴随式”收集和流动,推动教育数据流优化教育工作流,通过这种动态发展的生态闭环,推进智慧教育2.0各项工作的扁平化管理,厘清各教育部门和教育环节的权责,实现政府部门和教育部门的管办评分离。 4. 构建人工智能时代的全新教育制度https://pingyin.jndjg.cn/index.php?r=space/school/portal/content/view&id=555511
16.在线图表工具推荐与使用指南实时数据更新和动态图表是在线图表工具的另一个重要发展方向。随着物联网和大数据技术的发展,实时数据的需求越来越高。未来的在线图表工具将能够支持实时数据流的接入,自动更新图表内容,确保数据展示的及时性和准确性。例如,金融市场分析、网络监控和物联网设备数据展示等场景,都可以通过实时更新的动态图表实现更高效的数https://www.feishu.cn/content/online-chart-tools-guide
17.河南财政金融学院:基于5G的在线智能考试应用图5 “5G+智能考试系统”部分界面 “5G+智能考试系统”与超星泛雅网络教学平台、学习通和教务管理信息系统等相关业务系统实现数据对接,题库共建共享,排考数据一键导入,形成了完整的教、考、评闭环数据流。 三、工作成效 (一)应用成效 1.实现了基于5G教育专网的跨校区数据共享 https://jyt.henan.gov.cn/2024/09-24/3066509.html
18.教育信息化如何改变教育生态?——《教育家》线上圆桌论坛第289期增强教育解释力;通过多维数据的关联交叉分析,识别以往单凭经验难以发现的教育教学问题和短板,增强教育诊断力;在数据的支持下,对学生、班级、年级,甚至是整个片区的教育形势与潜力进行预测,增强教育预测力;同时,通过全方位采集教育教学过程中的“数据流”,对教育教学过程与成效进行实时监测、多层次分析,增强对课堂教学的https://jyj.gmw.cn/2022-10/12/content_36081603.htm
19.毛新军董威高等教育出版社》简介书评在线阅读4.3.2 数据流图及软件需求模型 4.3.3 面向数据流的需求分析步骤和策略 4.4 面向对象的需求分析方法学 4.4.1 基本概念和思想 4.4.2 面向对象建模语言UML 4.4.3 面向对象的需求分析步骤和策略 4.5 需求工程的CASE工具 4.6 需求工程的输出和评审 4.6.1 软件需求制品 4.6.2 软件需求缺陷 4.6.3 http://product.dangdang.com/11737955052.html
20.html5游戏开发培训html5开发培训新型选择器的使用、JavaScript基本语法知识、HTML5/CSS3的新特性、地理定位和本地存储的技术、jQuery操作元素的方法、Bootstrap响应式框架编程、非关系型数据库原理、React.js框架编程 本阶段课程要点 HTML基础标签、列表和表格标签、多媒体标签、CSS基本样式标签、canvan设计、jQuery基础、jQuery选择元素、数据流和DOM操https://www.qinxue365.com/course/316073.html
21.教育部职业院校数字校园规范当今社会,以互联网、大数据、云计算、物联网、人工智能、5G、VR/AR、区块链等信息技术为代表的科技革命对人类生活、工作、学习等各个方面产生了巨大的影响,在教育领域数字校园已成为办学的基本条件,特别是职业院校数字校园已成为支撑教育教学、沟通校企合作、促进师生发展的必需环境。 http://www.xtzy.com/wlzx/detail.jsp?public_id=153330
22.教育部《高等学校数字校园建设规范(试行)》为深入贯彻落实党的十九大和十九届二中、三中、四中、五中全会精神,扎实推进教育信息化2.0行动计划,积极发展“互联网+教育”,推动信息技术与教育教学深度融合,提升高等学校信息化建设与应用水平,支撑教育高质量发展,特制定《高等学校数字校园建设规范(试行)》。现予发布,请参照执行。 https://www.sszss.com/zcfg/13693.htm