基于机器学习对在线教育用户行为的预测
张帅帅
燕山大学,河北秦皇岛
收稿日期:2022年3月6日;录用日期:2022年3月31日;发布日期:2022年4月7日
摘要
早在上世纪在线教育就开始在我国崭露头角,发展初期在我国受到各种制约,认可度并不高。然而随着网络不断发展技术不断完善,在线教育发展迅速,目前越来越多人们开始接受在线教育。不只是学生,大学生和工作人群更是在线教育的主要人群。因此网络资源不断增加,各种免费和付费资源层出不穷,很多付费app发现了生财之道,收集有效信息,提高用户对有效知识的接受度。然而,如何找出购买欲望强烈、更有价值的用户,针对性营销,以实现小成本下提升用户转化率是目前互联网普遍面临的问题。本文通过对用户的行为数据进行分析,来挖掘高质量用户所具有的特征,从而帮助企业节省成本,提升利润。针对预处理后的数据集,本文进行了逻辑回归,随机森林预测,XGBoost预测以及LightGBM预测对用户购买行为进行预测,XGBoost以及LightGBM的预测结果相对较好,因此本文是基于XGBoost的预测结果训练和预测的结果对企业提出建议,以提升用户的转化率,增加企业的收入。
关键词
用户价值分析,用户转化率,XGBoost模型,特征重要性,机器学习
PredictionofOnlineEducationUserBehaviorBasedonMachineLearning
ShuaishuaiZhang
YanshanUniversity,QinhuangdaoHebei
Received:Mar.6th,2022;accepted:Mar.31st,2022;published:Apr.7th,2022
ABSTRACT
Keywords:UserValueAnalysis,UserConversionRate,XGBoostModel,FeatureImportance,MachineLearning
ThisworkislicensedundertheCreativeCommonsAttributionInternationalLicense(CCBY4.0).
1.研究背景
2.数据说明
Figure1.Login_diff_timeandlogin_timedistribution
Figure2.Logarithmdistributionoflogin_diff_timeandlogin_time
3.逻辑回归算法在在线教育用户行为预测中的应用
Logistic回归属于广义线性模型(generalizedlinearmodel)。在广义线性模型家族还有多重线性回归。Logistic回归与多重线性回归大同小异,主要的区别就在于因变量不同,其他方面大抵相同。
广义线性模型家族中模型形式差不多,主要区别在于因变量不同。如果因变量连续,即多重线性回归;如果是二项分布即Logistic回归;如果是Poisson分布,即Poisson回归;如果是负二项分布,即负二项回归。
Logistic回归的因变量不仅适用于二分类,同时也适用于多分类,其中二分类相对比较常用,也比较容易解释,因此二分类在平时用的比较多,是最常用的Logistic回归。
Logistic回归尽管名字里包括“回归”字样,然而实际上它是一种用于分类的方法,在两分类问题上用途较广(即只有两种输出,分别代表两个类别),所以利用了Logistic函数(或称为Sigmoid函数)对于处于线性边界的情况构造预测函数。
Table1.Logisticregressionpredictionresults
可以看出,逻辑回归的准确率,召回率和AUC指标表现都非常优秀,精确率和F1值表现有所欠缺。
4.随机森林算法在在线教育用户行为预测中的应用
Table2.Randomforestpredictionresults
当树的深度为7且树的棵树达到300时拟合效果最好,可以看出与逻辑回归表现相似,在准确率,召回率和AUC指标方面表现都非常优秀,精确率和F1值表现有所欠缺。
5.XGBoost算法在在线教育用户行为预测中的应用
Table3.XGBoostpredictionresults
当树的深度为5且树的棵树达到170时拟合效果最好,可以看出无论是训练集还是测试集,在各个指标表现都非常优秀,效果远超逻辑回归与随机森林。
6.LightGBM算法在在线教育用户行为预测中的应用
为了规避XGBoost的缺陷,并且能够加快GBDT模型的训练速度且不损害准确率,在传统的GBDT算法上,LightGBM做了如下优化:
1)基于Histogram(直方图)的决策树算法。
3)互斥特征捆绑ExclusiveFatureBundling(EFB):为了达到将为的目的,使用EFB方法,将许多互斥的特征绑定为一个特征。
4)带深度限制的Leaf-wise的叶子生长策略:因为低效的按层生长(level-wise)不加区分的对待同一层的叶子,所以大多数GBDT工具的决策树生长策略使用低效的按层生长,产生了很多没必要的开销。实际上很多叶子的分裂增益较低,没必要进行搜索和分裂。LightGBM使用了带有深度限制的按叶子生长(leaf-wise)算法。
5)直接支持类别特征(CategoricalFature)。
6)支持高效并行。
7)Cache命中率优化。
Table4.LightGBMpredictionresults
当树的深度为7且树的棵树达到500时拟合效果最好,可以看出无论是训练集还是测试集,在各个指标表现都非常优秀,效果整体与XGBoost不相上下且远超逻辑回归与随机森林。
7.基于评价指标体系四种算法在在线教育用户行为预测中的应用效果对比与分析
从数据的XGBoost预测结果分析来看,训练集的准确率达到0.99,精确率为1.0,召回率0.96,F1值为0.98,AUC值为0.99。从随机森林预测结果来看,准确率0.98,精确率0.43,召回率0.98,F1值为0.6,AUC值为0.982者之间在精确率方面存在较大的差异,XGBoost测试精确率结果要明显高于随机森林预测结果,同时二者在F1数值方面也有较大的差异,综合来看,XGBoost结合随机森林预测,能够弥补随机森林在召回率,精确率,F1数值方面的不足。Lightgbm的预测结果与XGBoost预测结果之间有较高的统一性,准确率0.99,精确率0.96,召回率0.98,F1值为0.97,AUC值为0.99。逻辑回归的预测结果与随机森林预测结果有较高的相似性,准确率AUC,与其他几种方法相似,但精确率值为0.45。F1数值为0.58。从这一数据分析结果可以看出,集成学习器的应用能够对用户的长期行为偏好和短期行为偏好进行一个较为全面的捕捉,这是一种较为有效的基于机器学习的用户集成模型,采取嵌入向量匹配的方法和原理,对四种算法进行基于机器学习的用户偏好行为模型分析,结合迁移的应用,能够减少单一学习器造成的冗余信息过多和预测结果混乱的情况,提高数据的实时性和有效性。
Figure3.Featureimportance
8.基于XGBoost算法做模型融合
Table5.Modelfusioneffect
9.基于结果分析对比对在线教育企业提出建议
用户价值预测模型搭建了用户行为和用户购买预测体系,通过用户行为精准预测了用户是否有购买行为。这样在用户推广方面,可以做到精准定位有价值的用户群体,减少推广成本。为了增加用户购买率以及精准营销,必须首先挖掘用户潜在不购买的原因,从模型的角度输出影响用户价值的重要影响因子,对这些因素做出相应的改善,增加用户购买欲望。
首先从评价体系看模型的优劣性:
从预测准确率来说,XGBoost和LightGBM的训练集和测试集分别为0.99和0.98,其次是随机森林分别为0.98和0.97,逻辑回归为0.97和0.97。可以看出在准确率方面,XGBoost和LightGBM表现最好。
从预测精准率来说,XGBoost的训练集和测试集分别为1.0和0.84,其次是LightGBM分别为0.96和0.8,逻辑回归为0.45和0.41,随机森林分别为0.43和0.4。可以看出在精准率方面,XGBoost表现最好,LightGBM表现稍差,随机森林和逻辑回归表现较弱。
从预测召回率来说,随机森林的训练集和测试集分别为0.98和0.95,其次是LightGBM分别为0.98和0.88,XGBoost分别为0.96和0.81,逻辑回归为0.82和0.81。可以看出在召回率方面,随机森林表现最好,LightGBM和XGBoost表现稍差,逻辑回归表现较弱。
从预测F1值来说,XGBoost的训练集和测试集分别为0.98和0.82,其次是LightGBM分别为0.97和0.84,随机森林分别为0.6和0.57,逻辑回归为0.58和0.55。可以看出在召回率方面,LightGBM和XGBoost表现最好,随机森林和逻辑回归表现较弱。
对于AUC,整体差距不大,LightGBM和XGBoost仍占优势。
整体来看LightGBM和XGBoost预测准确率占相对优势。根据XGBoost训练和预测的结果对特征进行分析。
首先,由于互联网社会对于每个人来说获取信息的途径大体一致,然而参与体验课程的用户,大部分用户主要集中在少部分城市中,说明这部分城市可以作为主要发展对象;其次,用户转化率最高的城市分别为北京,深圳,上海,贵阳,广州,佛山、杭州、东莞、衡阳、福州等,主要为一线和新一线城市。通过城市等级划分之后,可以看出:用户主要分布在新一线城市和三、四线城市,但转化率不高;一线城市用户数最低,购买用户数第三,但转化率最高;二线城市用户数第三,转化率第二;一、二线城市还是有很大发展空间。
分析结论如下:
1)用户转化率最高的三个城市为:北京(7.84%),深圳(7.79%),上海(7.28%)。可继续重点在该三个城市深入推广。
4)LightGBM,XGBoost,随机森林和逻辑回归对模型预测,LightGBM和XGBoost预测准确率占优势。
展望未来,基于机器学习的在线教育用户行为预测,需要利用已有的早期数据训练,让网络拟合大量数据,从而进行权重分析,尽可能提升泛化能力,同时在数据部分的远近和拟合结果的收敛上进行更加有效的训练,现有的分析预测结果验证。LightGBM和XGBoost两种机器学习集成器对于数据的分析更加精准,尤其是在F1数值和精准度方面具备显著的优势。利用这两项模型对更大体量的数据开展分析,并结合其他集成学习器开展验证,能够应对未来用户预测数据的多元化指标建设。
本文研究的最后对模型进行了进一步优化,通过优化得到了比基础机器学习模型更好的效果,然而此模型对未来数据进行的预测仍需要未来数据进行校验,预测分类的效果还未可知,因此希望可以等到预测结果得以验证的时候,根据实际数据对模型进行进一步优化。