基于机器学习对在线教育用户行为的预测PredictionofOnlineEducationUserBehaviorBasedonMachineLearning

基于机器学习对在线教育用户行为的预测

张帅帅

燕山大学,河北秦皇岛

收稿日期:2022年3月6日;录用日期:2022年3月31日;发布日期:2022年4月7日

摘要

早在上世纪在线教育就开始在我国崭露头角,发展初期在我国受到各种制约,认可度并不高。然而随着网络不断发展技术不断完善,在线教育发展迅速,目前越来越多人们开始接受在线教育。不只是学生,大学生和工作人群更是在线教育的主要人群。因此网络资源不断增加,各种免费和付费资源层出不穷,很多付费app发现了生财之道,收集有效信息,提高用户对有效知识的接受度。然而,如何找出购买欲望强烈、更有价值的用户,针对性营销,以实现小成本下提升用户转化率是目前互联网普遍面临的问题。本文通过对用户的行为数据进行分析,来挖掘高质量用户所具有的特征,从而帮助企业节省成本,提升利润。针对预处理后的数据集,本文进行了逻辑回归,随机森林预测,XGBoost预测以及LightGBM预测对用户购买行为进行预测,XGBoost以及LightGBM的预测结果相对较好,因此本文是基于XGBoost的预测结果训练和预测的结果对企业提出建议,以提升用户的转化率,增加企业的收入。

关键词

用户价值分析,用户转化率,XGBoost模型,特征重要性,机器学习

PredictionofOnlineEducationUserBehaviorBasedonMachineLearning

ShuaishuaiZhang

YanshanUniversity,QinhuangdaoHebei

Received:Mar.6th,2022;accepted:Mar.31st,2022;published:Apr.7th,2022

ABSTRACT

Keywords:UserValueAnalysis,UserConversionRate,XGBoostModel,FeatureImportance,MachineLearning

ThisworkislicensedundertheCreativeCommonsAttributionInternationalLicense(CCBY4.0).

1.研究背景

2.数据说明

Figure1.Login_diff_timeandlogin_timedistribution

Figure2.Logarithmdistributionoflogin_diff_timeandlogin_time

3.逻辑回归算法在在线教育用户行为预测中的应用

Logistic回归属于广义线性模型(generalizedlinearmodel)。在广义线性模型家族还有多重线性回归。Logistic回归与多重线性回归大同小异,主要的区别就在于因变量不同,其他方面大抵相同。

广义线性模型家族中模型形式差不多,主要区别在于因变量不同。如果因变量连续,即多重线性回归;如果是二项分布即Logistic回归;如果是Poisson分布,即Poisson回归;如果是负二项分布,即负二项回归。

Logistic回归的因变量不仅适用于二分类,同时也适用于多分类,其中二分类相对比较常用,也比较容易解释,因此二分类在平时用的比较多,是最常用的Logistic回归。

Logistic回归尽管名字里包括“回归”字样,然而实际上它是一种用于分类的方法,在两分类问题上用途较广(即只有两种输出,分别代表两个类别),所以利用了Logistic函数(或称为Sigmoid函数)对于处于线性边界的情况构造预测函数。

Table1.Logisticregressionpredictionresults

可以看出,逻辑回归的准确率,召回率和AUC指标表现都非常优秀,精确率和F1值表现有所欠缺。

4.随机森林算法在在线教育用户行为预测中的应用

Table2.Randomforestpredictionresults

当树的深度为7且树的棵树达到300时拟合效果最好,可以看出与逻辑回归表现相似,在准确率,召回率和AUC指标方面表现都非常优秀,精确率和F1值表现有所欠缺。

5.XGBoost算法在在线教育用户行为预测中的应用

Table3.XGBoostpredictionresults

当树的深度为5且树的棵树达到170时拟合效果最好,可以看出无论是训练集还是测试集,在各个指标表现都非常优秀,效果远超逻辑回归与随机森林。

6.LightGBM算法在在线教育用户行为预测中的应用

为了规避XGBoost的缺陷,并且能够加快GBDT模型的训练速度且不损害准确率,在传统的GBDT算法上,LightGBM做了如下优化:

1)基于Histogram(直方图)的决策树算法。

3)互斥特征捆绑ExclusiveFatureBundling(EFB):为了达到将为的目的,使用EFB方法,将许多互斥的特征绑定为一个特征。

4)带深度限制的Leaf-wise的叶子生长策略:因为低效的按层生长(level-wise)不加区分的对待同一层的叶子,所以大多数GBDT工具的决策树生长策略使用低效的按层生长,产生了很多没必要的开销。实际上很多叶子的分裂增益较低,没必要进行搜索和分裂。LightGBM使用了带有深度限制的按叶子生长(leaf-wise)算法。

5)直接支持类别特征(CategoricalFature)。

6)支持高效并行。

7)Cache命中率优化。

Table4.LightGBMpredictionresults

当树的深度为7且树的棵树达到500时拟合效果最好,可以看出无论是训练集还是测试集,在各个指标表现都非常优秀,效果整体与XGBoost不相上下且远超逻辑回归与随机森林。

7.基于评价指标体系四种算法在在线教育用户行为预测中的应用效果对比与分析

从数据的XGBoost预测结果分析来看,训练集的准确率达到0.99,精确率为1.0,召回率0.96,F1值为0.98,AUC值为0.99。从随机森林预测结果来看,准确率0.98,精确率0.43,召回率0.98,F1值为0.6,AUC值为0.982者之间在精确率方面存在较大的差异,XGBoost测试精确率结果要明显高于随机森林预测结果,同时二者在F1数值方面也有较大的差异,综合来看,XGBoost结合随机森林预测,能够弥补随机森林在召回率,精确率,F1数值方面的不足。Lightgbm的预测结果与XGBoost预测结果之间有较高的统一性,准确率0.99,精确率0.96,召回率0.98,F1值为0.97,AUC值为0.99。逻辑回归的预测结果与随机森林预测结果有较高的相似性,准确率AUC,与其他几种方法相似,但精确率值为0.45。F1数值为0.58。从这一数据分析结果可以看出,集成学习器的应用能够对用户的长期行为偏好和短期行为偏好进行一个较为全面的捕捉,这是一种较为有效的基于机器学习的用户集成模型,采取嵌入向量匹配的方法和原理,对四种算法进行基于机器学习的用户偏好行为模型分析,结合迁移的应用,能够减少单一学习器造成的冗余信息过多和预测结果混乱的情况,提高数据的实时性和有效性。

Figure3.Featureimportance

8.基于XGBoost算法做模型融合

Table5.Modelfusioneffect

9.基于结果分析对比对在线教育企业提出建议

用户价值预测模型搭建了用户行为和用户购买预测体系,通过用户行为精准预测了用户是否有购买行为。这样在用户推广方面,可以做到精准定位有价值的用户群体,减少推广成本。为了增加用户购买率以及精准营销,必须首先挖掘用户潜在不购买的原因,从模型的角度输出影响用户价值的重要影响因子,对这些因素做出相应的改善,增加用户购买欲望。

首先从评价体系看模型的优劣性:

从预测准确率来说,XGBoost和LightGBM的训练集和测试集分别为0.99和0.98,其次是随机森林分别为0.98和0.97,逻辑回归为0.97和0.97。可以看出在准确率方面,XGBoost和LightGBM表现最好。

从预测精准率来说,XGBoost的训练集和测试集分别为1.0和0.84,其次是LightGBM分别为0.96和0.8,逻辑回归为0.45和0.41,随机森林分别为0.43和0.4。可以看出在精准率方面,XGBoost表现最好,LightGBM表现稍差,随机森林和逻辑回归表现较弱。

从预测召回率来说,随机森林的训练集和测试集分别为0.98和0.95,其次是LightGBM分别为0.98和0.88,XGBoost分别为0.96和0.81,逻辑回归为0.82和0.81。可以看出在召回率方面,随机森林表现最好,LightGBM和XGBoost表现稍差,逻辑回归表现较弱。

从预测F1值来说,XGBoost的训练集和测试集分别为0.98和0.82,其次是LightGBM分别为0.97和0.84,随机森林分别为0.6和0.57,逻辑回归为0.58和0.55。可以看出在召回率方面,LightGBM和XGBoost表现最好,随机森林和逻辑回归表现较弱。

对于AUC,整体差距不大,LightGBM和XGBoost仍占优势。

整体来看LightGBM和XGBoost预测准确率占相对优势。根据XGBoost训练和预测的结果对特征进行分析。

首先,由于互联网社会对于每个人来说获取信息的途径大体一致,然而参与体验课程的用户,大部分用户主要集中在少部分城市中,说明这部分城市可以作为主要发展对象;其次,用户转化率最高的城市分别为北京,深圳,上海,贵阳,广州,佛山、杭州、东莞、衡阳、福州等,主要为一线和新一线城市。通过城市等级划分之后,可以看出:用户主要分布在新一线城市和三、四线城市,但转化率不高;一线城市用户数最低,购买用户数第三,但转化率最高;二线城市用户数第三,转化率第二;一、二线城市还是有很大发展空间。

分析结论如下:

1)用户转化率最高的三个城市为:北京(7.84%),深圳(7.79%),上海(7.28%)。可继续重点在该三个城市深入推广。

4)LightGBM,XGBoost,随机森林和逻辑回归对模型预测,LightGBM和XGBoost预测准确率占优势。

展望未来,基于机器学习的在线教育用户行为预测,需要利用已有的早期数据训练,让网络拟合大量数据,从而进行权重分析,尽可能提升泛化能力,同时在数据部分的远近和拟合结果的收敛上进行更加有效的训练,现有的分析预测结果验证。LightGBM和XGBoost两种机器学习集成器对于数据的分析更加精准,尤其是在F1数值和精准度方面具备显著的优势。利用这两项模型对更大体量的数据开展分析,并结合其他集成学习器开展验证,能够应对未来用户预测数据的多元化指标建设。

本文研究的最后对模型进行了进一步优化,通过优化得到了比基础机器学习模型更好的效果,然而此模型对未来数据进行的预测仍需要未来数据进行校验,预测分类的效果还未可知,因此希望可以等到预测结果得以验证的时候,根据实际数据对模型进行进一步优化。

THE END
1.在线学习是什么什么是在线学习在线学习是一种机器学习范式,与离线学习相对。在线学习是在数据流逐步到达的情况下,持续地对模型进行训练和更新,而不是一次性处理整个数据集。在线学习适用于需要实时响应和适应性的场景,能够及时地适应数据的变化和新的情况。 在线学习的特点包括: 1. 实时性:模型可以随着新数据的到来进行实时更新,能够快速适应数据的https://blog.csdn.net/u010605984/article/details/136640833
2.强化学习的基本概念强化学习是机器学习领域的一个分支,通过不断的与环境交互,不断的积累经验,最后让Agent学会如何在目标环境中取得最高的得分。在本篇文章中,笔者将介绍一些强化学习的基础知识,文https://www.jianshu.com/p/28625d3a60e6
3.机器学习术语表:机器学习基础知识MachineLearningGoogle一种特征,包含有限个可能值。例如,如果某个特征的值只能是“动物”“蔬菜”或“矿物”,则该特征是离散(或分类)特征。 与连续特征相对。 动态 #fundamentals 经常或持续执行的操作。 在机器学习中,“动态”和“在线”是同义词。以下是机器学习中动态和在线的常见用法: https://developers.google.cn/machine-learning/glossary/fundamentals?hl=zh-cn
4.学习数学科数网在线学习旨在打造一个可以在线阅读的学习教程,主要收录了《初中数学》《高中数学》《高等数学》《线性代数》和《概率论与数理统计》, 点此进入数学公式离散数学是数学的一个分支,他是把数学系里的集合论、群论、逻辑学、拓扑学、图论、数论等核心知识点提取出来并进行简化以方便供计算机系学生使用。他去除数https://kb.kmath.cn/
5.信息技术第一二章测试115、下列工具中, 更适用于免费在线存储学习资源的是()。 * A、微信 B、云盘 C、博客 D、微博 16、以下关于数据、信息和知识相互关系的理解, 不正确的是()。 * A、数据是原始事物现象的符号记录 B、信息等同于知识 C、信息是经加工处理的、具有意义的数据 D、知识是经一系列加工处理的数据, 具有规律的https://www.wjx.cn/jq/98138739.aspx
6.数字化转型的心得(精选5篇)这种模式比较适合处于3.0阶段的传统企业,有一定信息化和自动化基础,通过数字化业务在线驱动人和机自动作业,真正实现数字化业务在线化作业。 二、基于这两种模式的数字化转型实现路径 在看实现路径之前先介绍一下两种生产方式:流程型生产和离散型生产。 1、流程型制造与离散型制造的概念 https://mip.ruiwen.com/word/shuzihuazhuanxingdexinde.html
7.面向连续gradient,简称pasvg)算法中连续动作参数的策略是基于离散动作策略的,但是这种方法可能由于离散动作策略和连续动作参数之间的联合学习而不稳定。 6.参数化深度q网络(parametrized ? deep q ? networks,简称p ? dqn)算法被视为深度q网络(deep q networks,简称qn)和深度确定性策略梯度(deep deterministic policy https://www.xjishu.com/zhuanli/55/202110958527.html
8.面向流数据分类的在线学习综述?主要 从在线学习的角度对流数据分类算法的研究现状进行综述.具体地,首先介绍在线学习的基本框架和性能评估方法, 然后着重介绍在线学习算法在一般流数据上的工作现状,在高维流数据上解决"维度诅咒"问题的工作现状,以及在 演化流数据上处理"概念漂移"问题的工作现状,最后讨论高维和演化流数据分类未来仍然存在的挑战和亟待https://jos.org.cn/jos/article/pdf/5916
9.常州市“毛文意”信息科技名教师工作室线上学习交流活动(一活动前期,工作室领衔人毛文意老师向工作室成员们分享了李艳教授的讲座视频《新课标背景下基于大概念和单元整合设计的初中“信息科技”课程设计与开发》,工作室的老师们利用上周一(3月18日)晚上19点30分至21点进行观看学习。 2024年3月25日晚19点,本次线上学习交流活动如期开展。第一部分,各位成员观看了常州AI活动http://www.sycz.czedu.cn/html/article6225600.html
10.在线学习课堂网课《机器学习初步(南京)》单元测试考核答案.docx在线学习课堂网课《机器学习初步( 南京)》单元测试考核答案.docx,注:不含主观题 第1题 单选题 (1分) 机器学习的经典定义是:利用()改善系统自身的性能。 A 经验B 专家C 规则D 实践 第2题 单选题 (1分) 随着机器学习领域的发展,目前主要研究以下哪个领域的理论和方法? Ahttps://m.book118.com/html/2023/0608/8061126013005076.shtm
11.澳门码今晚开奖免费查结果,新澳门开奖记录查询今天,新澳门六开奖美河学习在线(主站) eimhe.com?论坛 今日:26|昨日:119|帖子:355527|会员:224010|欢迎新会员:鑫鑫 最新回复 下载桌面快捷访问 美河学习在线 www.eimhe.com - IT认证超级社区 更多IT认证热门资源请访问 美河学习在线 - 完美超乎想象 信赖拥有值得! https://eimhe.com/
12.首页学课在线网校欢迎来到【学课在线网校】-全国课程中心! 学员登录学员注册 专业师资 业内老师,系统讲解大纲知识点,突出重难点,紧跟命题方向透彻解析教材 在线模考 海量全真模拟试题全面覆盖各类考点记录每次模考过程并汇总错题供反复演练 免费下载 课程视频免费下载,配套课程讲义,方便越远越灵活安排学习时间 http://wx.xuekaocn.cn/
13.在线网课学习课堂《人工智能(北理)》单元测试考核答案(1分)人的创造能力目前还没有对应的人工智能实现途径A是稳定型反馈网络B通过能量函数最小化解决问题C神经元的输出为离散值D将每个神经元的输出反馈到自身的输入上正确答案ABC第16题多选题(2分)LSTM网络()oA是稳定型反馈网络B全称为长短时记忆网络C可采用BPTT算法进行学习D通过神经元输出到自身输入的反馈来记忆https://www.yxfsz.com/view/1673214771380457473
14.科学网—[转载]基于强化学习的数据驱动多智能体系统最优一致性强化学习技术因其可以利用沿系统轨迹的测量数据实时学习控制问题的最优解,被广泛用于解决复杂系统最优控制和决策问题。综述了利用强化学习技术,采用数据驱动方式实时在线求解多智能体系统最优一致性控制问题的现有理论和方法,分别从连续和离散、同构和异构、抗干扰的鲁棒性等多个方面介绍了数据驱动的强化学习技术在多智能https://wap.sciencenet.cn/blog-951291-1276281.html
15.好未来:基于多模态数据分析的在线学习智能评估反馈尽管国内外的研究者在在线学习的智能评估反馈方面有诸多相关的研究工作,但其涉及的评估反馈能力较为离散和单一,缺乏对整个课堂情况的整体把控,对于老师和学生的综合考量缺失,没有形成体系化的端到端、可复制的模型框架。 关于技术方案的具体措施 在线学习智能评估反馈框架依托国家科技创新2030智慧教育人工智能开放创新平台https://wlaq.gmw.cn/2022-09/06/content_36006278.htm
16.强化学习(一)入门介绍腾讯云开发者社区本讲将对强化学习做一个整体的简单介绍和概念引出,包括什么是强化学习,强化学习要解决什么问题,有一些什么方法。一、强化学习强化学习(Reinforcement Learning, RL)又称为增强学习、评价学习等,和深度学习一样是机器学习的一种范式和方法论之一,智能体从一系列随机https://cloud.tencent.com/developer/article/1707034