基于机器学习对在线教育用户行为的预测PredictionofOnlineEducationUserBehaviorBasedonMachineLearning

基于机器学习对在线教育用户行为的预测

张帅帅

燕山大学,河北秦皇岛

收稿日期:2022年3月6日;录用日期:2022年3月31日;发布日期:2022年4月7日

摘要

早在上世纪在线教育就开始在我国崭露头角,发展初期在我国受到各种制约,认可度并不高。然而随着网络不断发展技术不断完善,在线教育发展迅速,目前越来越多人们开始接受在线教育。不只是学生,大学生和工作人群更是在线教育的主要人群。因此网络资源不断增加,各种免费和付费资源层出不穷,很多付费app发现了生财之道,收集有效信息,提高用户对有效知识的接受度。然而,如何找出购买欲望强烈、更有价值的用户,针对性营销,以实现小成本下提升用户转化率是目前互联网普遍面临的问题。本文通过对用户的行为数据进行分析,来挖掘高质量用户所具有的特征,从而帮助企业节省成本,提升利润。针对预处理后的数据集,本文进行了逻辑回归,随机森林预测,XGBoost预测以及LightGBM预测对用户购买行为进行预测,XGBoost以及LightGBM的预测结果相对较好,因此本文是基于XGBoost的预测结果训练和预测的结果对企业提出建议,以提升用户的转化率,增加企业的收入。

关键词

用户价值分析,用户转化率,XGBoost模型,特征重要性,机器学习

PredictionofOnlineEducationUserBehaviorBasedonMachineLearning

ShuaishuaiZhang

YanshanUniversity,QinhuangdaoHebei

Received:Mar.6th,2022;accepted:Mar.31st,2022;published:Apr.7th,2022

ABSTRACT

Keywords:UserValueAnalysis,UserConversionRate,XGBoostModel,FeatureImportance,MachineLearning

ThisworkislicensedundertheCreativeCommonsAttributionInternationalLicense(CCBY4.0).

1.研究背景

2.数据说明

Figure1.Login_diff_timeandlogin_timedistribution

Figure2.Logarithmdistributionoflogin_diff_timeandlogin_time

3.逻辑回归算法在在线教育用户行为预测中的应用

Logistic回归属于广义线性模型(generalizedlinearmodel)。在广义线性模型家族还有多重线性回归。Logistic回归与多重线性回归大同小异,主要的区别就在于因变量不同,其他方面大抵相同。

广义线性模型家族中模型形式差不多,主要区别在于因变量不同。如果因变量连续,即多重线性回归;如果是二项分布即Logistic回归;如果是Poisson分布,即Poisson回归;如果是负二项分布,即负二项回归。

Logistic回归的因变量不仅适用于二分类,同时也适用于多分类,其中二分类相对比较常用,也比较容易解释,因此二分类在平时用的比较多,是最常用的Logistic回归。

Logistic回归尽管名字里包括“回归”字样,然而实际上它是一种用于分类的方法,在两分类问题上用途较广(即只有两种输出,分别代表两个类别),所以利用了Logistic函数(或称为Sigmoid函数)对于处于线性边界的情况构造预测函数。

Table1.Logisticregressionpredictionresults

可以看出,逻辑回归的准确率,召回率和AUC指标表现都非常优秀,精确率和F1值表现有所欠缺。

4.随机森林算法在在线教育用户行为预测中的应用

Table2.Randomforestpredictionresults

当树的深度为7且树的棵树达到300时拟合效果最好,可以看出与逻辑回归表现相似,在准确率,召回率和AUC指标方面表现都非常优秀,精确率和F1值表现有所欠缺。

5.XGBoost算法在在线教育用户行为预测中的应用

Table3.XGBoostpredictionresults

当树的深度为5且树的棵树达到170时拟合效果最好,可以看出无论是训练集还是测试集,在各个指标表现都非常优秀,效果远超逻辑回归与随机森林。

6.LightGBM算法在在线教育用户行为预测中的应用

为了规避XGBoost的缺陷,并且能够加快GBDT模型的训练速度且不损害准确率,在传统的GBDT算法上,LightGBM做了如下优化:

1)基于Histogram(直方图)的决策树算法。

3)互斥特征捆绑ExclusiveFatureBundling(EFB):为了达到将为的目的,使用EFB方法,将许多互斥的特征绑定为一个特征。

4)带深度限制的Leaf-wise的叶子生长策略:因为低效的按层生长(level-wise)不加区分的对待同一层的叶子,所以大多数GBDT工具的决策树生长策略使用低效的按层生长,产生了很多没必要的开销。实际上很多叶子的分裂增益较低,没必要进行搜索和分裂。LightGBM使用了带有深度限制的按叶子生长(leaf-wise)算法。

5)直接支持类别特征(CategoricalFature)。

6)支持高效并行。

7)Cache命中率优化。

Table4.LightGBMpredictionresults

当树的深度为7且树的棵树达到500时拟合效果最好,可以看出无论是训练集还是测试集,在各个指标表现都非常优秀,效果整体与XGBoost不相上下且远超逻辑回归与随机森林。

7.基于评价指标体系四种算法在在线教育用户行为预测中的应用效果对比与分析

从数据的XGBoost预测结果分析来看,训练集的准确率达到0.99,精确率为1.0,召回率0.96,F1值为0.98,AUC值为0.99。从随机森林预测结果来看,准确率0.98,精确率0.43,召回率0.98,F1值为0.6,AUC值为0.982者之间在精确率方面存在较大的差异,XGBoost测试精确率结果要明显高于随机森林预测结果,同时二者在F1数值方面也有较大的差异,综合来看,XGBoost结合随机森林预测,能够弥补随机森林在召回率,精确率,F1数值方面的不足。Lightgbm的预测结果与XGBoost预测结果之间有较高的统一性,准确率0.99,精确率0.96,召回率0.98,F1值为0.97,AUC值为0.99。逻辑回归的预测结果与随机森林预测结果有较高的相似性,准确率AUC,与其他几种方法相似,但精确率值为0.45。F1数值为0.58。从这一数据分析结果可以看出,集成学习器的应用能够对用户的长期行为偏好和短期行为偏好进行一个较为全面的捕捉,这是一种较为有效的基于机器学习的用户集成模型,采取嵌入向量匹配的方法和原理,对四种算法进行基于机器学习的用户偏好行为模型分析,结合迁移的应用,能够减少单一学习器造成的冗余信息过多和预测结果混乱的情况,提高数据的实时性和有效性。

Figure3.Featureimportance

8.基于XGBoost算法做模型融合

Table5.Modelfusioneffect

9.基于结果分析对比对在线教育企业提出建议

用户价值预测模型搭建了用户行为和用户购买预测体系,通过用户行为精准预测了用户是否有购买行为。这样在用户推广方面,可以做到精准定位有价值的用户群体,减少推广成本。为了增加用户购买率以及精准营销,必须首先挖掘用户潜在不购买的原因,从模型的角度输出影响用户价值的重要影响因子,对这些因素做出相应的改善,增加用户购买欲望。

首先从评价体系看模型的优劣性:

从预测准确率来说,XGBoost和LightGBM的训练集和测试集分别为0.99和0.98,其次是随机森林分别为0.98和0.97,逻辑回归为0.97和0.97。可以看出在准确率方面,XGBoost和LightGBM表现最好。

从预测精准率来说,XGBoost的训练集和测试集分别为1.0和0.84,其次是LightGBM分别为0.96和0.8,逻辑回归为0.45和0.41,随机森林分别为0.43和0.4。可以看出在精准率方面,XGBoost表现最好,LightGBM表现稍差,随机森林和逻辑回归表现较弱。

从预测召回率来说,随机森林的训练集和测试集分别为0.98和0.95,其次是LightGBM分别为0.98和0.88,XGBoost分别为0.96和0.81,逻辑回归为0.82和0.81。可以看出在召回率方面,随机森林表现最好,LightGBM和XGBoost表现稍差,逻辑回归表现较弱。

从预测F1值来说,XGBoost的训练集和测试集分别为0.98和0.82,其次是LightGBM分别为0.97和0.84,随机森林分别为0.6和0.57,逻辑回归为0.58和0.55。可以看出在召回率方面,LightGBM和XGBoost表现最好,随机森林和逻辑回归表现较弱。

对于AUC,整体差距不大,LightGBM和XGBoost仍占优势。

整体来看LightGBM和XGBoost预测准确率占相对优势。根据XGBoost训练和预测的结果对特征进行分析。

首先,由于互联网社会对于每个人来说获取信息的途径大体一致,然而参与体验课程的用户,大部分用户主要集中在少部分城市中,说明这部分城市可以作为主要发展对象;其次,用户转化率最高的城市分别为北京,深圳,上海,贵阳,广州,佛山、杭州、东莞、衡阳、福州等,主要为一线和新一线城市。通过城市等级划分之后,可以看出:用户主要分布在新一线城市和三、四线城市,但转化率不高;一线城市用户数最低,购买用户数第三,但转化率最高;二线城市用户数第三,转化率第二;一、二线城市还是有很大发展空间。

分析结论如下:

1)用户转化率最高的三个城市为:北京(7.84%),深圳(7.79%),上海(7.28%)。可继续重点在该三个城市深入推广。

4)LightGBM,XGBoost,随机森林和逻辑回归对模型预测,LightGBM和XGBoost预测准确率占优势。

展望未来,基于机器学习的在线教育用户行为预测,需要利用已有的早期数据训练,让网络拟合大量数据,从而进行权重分析,尽可能提升泛化能力,同时在数据部分的远近和拟合结果的收敛上进行更加有效的训练,现有的分析预测结果验证。LightGBM和XGBoost两种机器学习集成器对于数据的分析更加精准,尤其是在F1数值和精准度方面具备显著的优势。利用这两项模型对更大体量的数据开展分析,并结合其他集成学习器开展验证,能够应对未来用户预测数据的多元化指标建设。

本文研究的最后对模型进行了进一步优化,通过优化得到了比基础机器学习模型更好的效果,然而此模型对未来数据进行的预测仍需要未来数据进行校验,预测分类的效果还未可知,因此希望可以等到预测结果得以验证的时候,根据实际数据对模型进行进一步优化。

THE END
1.在线学习中心重塑教育未来之路协同办公系统3、学习者的适应性问题:部分学习者可能无法适应在线学习方式,需要提供在线学习的指导和支持。 未来展望 随着科技的进步和社会的发展,在线学习中心将成为未来教育的重要组成部分,它将进一步推动教育的数字化和智能化,实现教育资源的共享和普及,随着教育理念的转变和学习者的适应,在线学习中心将更好地满足学习者的需求,提http://www.istopclub.cn/post/1892.html
2.在线教学复课,探索新的教育模式与策略的挑战与机遇1、技术支持:加强技术投入和建设,提高在线教学的稳定性和互动性,确保线上教学的顺利进行。 2、学生管理:引导学生养成良好的学习习惯,提高他们的自律性,确保线上学习的效果。 3、教育资源分配:加强教育资源的均衡分配,确保每个学生都能享受到优质的教育资源。 https://m.ahsanfangjs.com/post/24864.html
3.在线学习有什么特点?其实教育资源的应用性很广泛,但是却无法实现资源的最大利用,因为传统资源的局限性,让很多领域都被局限。而通过在线学习,首先就让学习资源有了很好的载体,让有需要的人能够更便捷的找到,再加上无时效性的特点,大大加深了资源的价值优势。 打造在线学习平台,选择创客匠人。https://www.ckjr001.com/newsdetail/1412.html
4.在线学习的优势有哪些?在线学习 在线学习的优势有哪些?在线学习的优势有很多,以下是一些主要的优势: 灵活性和便利性:在线学习可以根据学生的个人时间表和学习节奏进行安排。学生可以在任何时间、任何地点通过网络接入课程内容,不受时间和地点的限制。这种灵活性和便利性使得在线学习成为适应工作、家庭和其他承诺的学生的理想选择。 自主学习:https://www.mbalib.com/ask/question-2a80f688779b93908511a6988b5eb055.html
5.在线学习的六大优势无论您对什么科目感兴趣,您都可以找到合适的课程,而无需远行。您只需要一台计算机系统和互联网连接即可学习。 在家学习也增加了安全性。在路上花费的时间越少,意味着潜在风险越少,时间越省。除了所有这些好处之外,在线学习也是一种更具成本效益的选择。 http://www.justwebworld.com/zh-CN/best-online-learning-advantages/
6.在线学习心得(精选25篇)透过培训班的学习、讨论,使我进一步认识到了学习的重要性和迫切性。认识到年青干部要加强学习,要理解新思维、新举措,不断创新思维,以创新的思维应对竞争挑战。认识到加强学习,是我们进一步提高工作潜力的需要。只有透过加强学习,才能了解和掌握先进的理念和方法,取他人之长补己之短,只有这样,才能不负组织重望,完成https://www.diyifanwen.com/fanwen/xuexixindetihui/14958356.html
7.最新国语学习计划(通用14篇)因此,制定一份科学的国语学习计划,提高语言表达能力,促进文化交流,成为了我们每个人应该关注的问题。 一、制定国语学习计划的重要性 国语学习计划可以帮助我们更好地学习国语,提高语言表达能力,让我们更好地与人交流。制定国语学习计划还可以帮助我们了解国语的基本知识和语法规则,从而更好地掌握语言的运用和规范。此外,https://www.liuxue86.com/a/5100806.html
8.教师线上远程培训研修总结(精选15篇)1、树立终身学习观点,教育观念得到更新。 学习不仅是教育发展的客观需要,也是提高教师专业能力的有效途径。自投入培训学习中,我深深知道了学习的重要性,通过不断学习,促进了自己的专业知识和理论水平,强化“终身学习”理念。 2、明白教育责任的重大。 作为一名参加受训教师,不仅应学习现代教育理论、运用现代教学方法、掌https://www.jy135.com/peixunzongjie/1834778.html
9.Web漏洞学习:基础知识与实践指南进一步学习Web漏洞的方法包括读取推荐读物和在线资源,参与社区和论坛,以及持续学习的重要性。 6.1 推荐读物和在线资源 推荐的读物和在线资源可以帮助你更深入地了解Web漏洞和安全。 在线课程:慕课网提供了大量的Web安全相关的在线课程。 在线资源:OWASP(开放Web应用安全项目)提供了大量的Web安全相关的文档和指南。 书籍:https://www.imooc.com/article/358337
10.美国麻省理工学院创新教学实践的具体做法:从学习科学视角4)注重新知建立在学生已有知识上的重要性; 5)注重学习反思[14]。 在关注学生学习过程的学习科学领域中,教师对于教学模式的选择和应用与学生的最终获得有很大关系。因此,本文基于学习科学的视角,对美国麻省理工学院的7种创新教学实践的做法进行案例分析,旨在为我国的高校创新教学改革提供一些可行的参考。 https://maimai.cn/article/detail?fid=1536388886&efid=TEkQvu2MMDlLjVmxiu1_yA
11.教师在线网络培训心得体会(精选37篇)远程研修平台上的同行们都在积极努力地学习,看着他们发表文章和评论,我得到了很多的启发和实用性的建议和意见,我为自身的浅薄与不足感到羞愧,认识到加强学习的重要性与紧迫性。远程研修的过程中,我一直抱着向其他老师学习的态度参与,学习他们的'经验,结合自己的教学来思考,反思自己的教学。 https://www.ruiwen.com/xindetihui/6501446.html
12.2022年北京卷高考作文精选5篇(学习今说)—中国教育在线我不是厚古薄今,泥古不化之人。但在谈“学习今说”时,我以为极有必要搞清楚哪些属于学习方面的基本常识。如果忘了很多很“古”的基本常识,为了“今”而“今”,为了“新”而“新”,最终只能是“止增笑耳”。 2022年北京卷高考作文篇3:《论学习的重要性》 https://gaokao.eol.cn/zuowen/jiqiao/202210/t20221011_2249539.shtml
13.金色雨林CEO王卿:网课凸显学习能力重要性,教育机构OMO转型势在必行网课凸显学习能力重要性 赋能可持续发展成教育“刚需” 2020年初,一场突如其来的疫情改变了孩子的生活方式,也改变了他们的学习方式,家庭成为临时教室,家长变成临时班主任,“学校教育家庭化”趋势的发展,给不少家庭带来挑战与考验。孩子的生活能力、自立水平、家庭亲子关系等很多问题暴露出来,让平时只需“监督作业”的家https://3w.huanqiu.com/a/c36dc8/3yJVYQLUd2v
14.国内外关于在线学习研究的现状分析到目前为止,国内学者关于教学系统中教学反馈的重要性方面做了较多的研究,现在就其中一部分研究结果进行简要介绍。在线学习作为一种新型学习模式,获得教学反馈的方法应该得到重视并在教学实践中不断完善和改进。 国内许多学者对此也作了很多工作,在2012年,叶立军等人认为在教学系统运行过程中,教师把知识信息源传递到学生-学https://www.kesion.com/industry_news/56170.html
15.六级写作技巧精讲5.卷面书写非常重要,作文/翻译因为书写好坏多得少得2分 6.字体清晰,整洁,易辨认最重要。 话题性词语 1.人生的意义: outlast vt.比。。。长久; 从。。。中逃生 contribution n.贡献 make contrubutions to sth make contribution to 为。。。作贡献 https://blog.csdn.net/xiao__jia__jia/article/details/80518576
16.零基础学希伯来语:从零开始,轻松入门希伯来语希伯来语学习入门可以说是一条充满挑战的道路,但是它也充满了乐趣和成就感。在这篇文章中,我将从个人经验出发,分享希伯来语学习的一些窍门和经验。我希望可以帮助到那些对希伯来语学习有兴趣的人,让他们更好地入门。 1、学习意愿的重要性 在我开始学习希伯来语之前,我对这门语言并没有太多的了解。但是,我对犹太文https://www.iopfun.cn/newArticle/detail/19294
17.线上学习那么多,是为了什么?现在人们越来越意识到多读书、多学习的重要性,方式也各种各样。现在时代发展,读书和学习分线上和线下两种渠道,或者是两种方式。但就像线下跑步一样,跑步也有线上打卡,但这效果一样吗?我们在线上读书、学习是为了什么呢? 线上学习,尤其是前几年的知识付费火热,大部分人利用碎片化的时间线上学习、读书、打卡等等。https://www.jianshu.com/p/a730d02d788b
18.中美日韩对比研究显示:中国高中生在线学习更自律对经历疫情之后的变化进行研究发现,中国高中生排在前三位的变化,分别是“感受到了学习重要”(67.0%)、“感受到学校重要”(62.2%)、“感受到面对面交流重要”(60.8%)。由此可见,中国高中生非常看重学习,认为经过疫情之后学习、学校是感受变化比较大的方面。而美日韩三国高中生均认为面对面交流是最重要的,学习重要性https://m.thepaper.cn/newsDetail_forward_19008267