大数据文摘受权转载自中国人工智能学会
文/武法提
关键词:学习专注度;面部线索;眼动;生理信号;多模态数据
如今,以人工智能为核心的智能技术正在推动人类教育向智能教育阶段转型和演进,为教与学全过程提供了个性化数据采集和智能化分析的能力,蓄积了解决教与学问题的起步动能,如研究人员开始使用多源多模态数据自动分析学习者的学习情绪、学习专注度等多元微观特征,试图深度理解学习过程,提升学习者的学习质量。学习专注度反映学习者聚焦于学习任务的注意集中程度,是决定学习表现的关键因素。先前研究已经指出,较高的注意集中程度有利于大脑中的信息处理和编码,便于学习者更准确地回忆学习到的内容,从而获得更好的学习成效。因此,及时识别学习专注度至关重要,可以作为学习者自我调节和教师实施教学调整与干预决策的依据,进而促进学习者学习和教师教学。
相比于面对面学习,在线学习具有灵活化、个性化的优势,但时空分离的条件让教师难以及时监控学习者,而学习者在没有教师监督的情况下很可能会难以集中注意力,进而导致学习效率低下并影响教学效率。特别地,中小学生在线学习缺乏专注度的现象尤为严重,这导致学习效果不够理想,故在线学习专注度的识别问题亟待解决。传统的学习专注度评估方式主要有两类,一类是由教师通过观察学习者的外部行为表现(如肢体语言、面部表情等)判断其专注程度,另一类则是由学习者进行专注状态的自我报告,这两类方法均存在一定主观性,且难以实现对专注度实时、动态的评估,无法满足在线学习的评估要求。
1.1面部线索是识别学习专注度的有效特征
类似地,反映学习者头部偏转情况的头部姿态也可较好地反映学习者的注意力范围,从而判断其是否专注于学习。例如,Useche等认为可通过学习者头部的俯仰值与偏航值判断其是否专注;Xu等同样通过头部的俯仰角、偏航角与旋转角实现了较高精度的专注度识别。
面部特征则能通过个体五官的动作单元反映其情绪、疲劳程度等状态,同样是识别专注度的可行依据。例如,刘冀伟等和Peng等均是通过人脸的眉毛、眼睛、嘴巴等部位的运动特征实现了较高准确率的专注度识别;郭晓旭、Sharma等、Gerard等均通过学习者的面部特征识别其表情,并通过给每种表情赋予不同权重从而计算学习专注度分数;张双喜则基于学习者的眨眼及哈欠情况判断其是否疲劳,并通过计算疲劳帧数比例判断其是否专注。
1.2眼动特征具有识别学习专注度的较高潜力
1.3生理信号是识别学习专注度的重要依据
生理信号是人作为生物体的自发反应,不易受到学习者主观意识的影响,故具有很好的科学性、准确性与客观性。在基于外部生理表现的学习专注度识别研究中,使用较为广泛的生理信号是脑电信号(electroencephalogram,EEG)与心电信号(electrocardiogram,ECG),但EEG和ECG感知设备不满足无感式采集的要求,故它们不能被应用于常态化的学习场景。
2研究方案
多模态数据的采集是实现学习者专注度识别的第一步。将通过便携式的可穿戴设备收集的多模态学习数据作为原始数据,对数据进行数据清洗(噪声、伪影等干扰去除)、数据对齐(数据切割与分段、多模态数据的时域同步等)、数据集成等数据预处理。针对同步与对齐后的多模态数据,以原标注、自标注与他标注三种不同方式进行学习专注度标签标注,并通过三角互证对标注结果进行了一致性分析,保证标注标签的准确性、有效性与科学性。通过上述处理后,构建了多模态学习者专注度数据集,并利用数学统计方法验证数据集质量,为后续特征工程的技术路线提供数据基础。
特征工程是将原始数据转化为更能代表机器学习方法潜在问题的特征,从而提高模型精度的过程,其目的是依据研究目标从原始数据中发现更好的合适特征,减少噪声的干扰,使得模型能取得更好的效果。对采集的多模态数据进行检查与筛选,每个样本均包含多模态学习者数据,具体指标与特征编码如表1所示。
图1面部线索特征提取流程
图2生理信号特征提取流程
眼动数据则通过TobiiStudio软件进行预处理,首先使用区域划分工具将阅读材料标记为文本部分、插图部分与思考题部分三个兴趣区,而后导出在时域与空域上皆有追踪痕迹的眼动数据,并提取出各兴趣区的眼动特征,通过统计分析共得到12个眼动数据的量化指标。
3结果讨论
为了评估学习专注度,需要选择合适的可解释性方法进行分析。机器学习方法能学习到比较具象的信息,而深度学习能学习到特别抽象的信息,通常无法描述。因此,研究选择了单一规则法、线性逻辑回归、支持向量机、贝叶斯网络、决策树与随机森林这六种常用且有效的机器学习方法构建模型,并使用通过混淆矩阵计算得到的准确率、精确率、召回率和F1分数作为性能参数,选择单一规则法作为基线分类器,评估和比较以上六种方法所建模型的预测性能。此外,为了减少监督学习中常见的过度拟合问题,本研究还利用五折交叉验证来提高学习专注度识别模型的鲁棒性。在多模态融合方面,研究分别测试“视频+眼动”和“视频+生理”两种特征融合的效果,并与三种单模态特征的识别效果进行比较,结果如表2所示。