用户流失预警分析算法数据挖掘

本文所涉及到的分析框架和方法论等具有较强的通用性,可供有需要的同学了解参考。

一、分析背景“根据美国贝恩公司的调查,在商业社会中5%的客户留存率增长意味着公司利润30%的增长,而把产品卖给老客户的概率是卖给新客户的3倍。所以在‘增长黑客’圈内有一句名言:留住已有的用户胜过拓展新的客户,也就是俗称的‘一鸟在手,胜过双鸟在林’。”——引用自《增长黑客》

用户留存和用户流失是一组相对的概念。诸如获得一个新客户的成本是保持一个老客户的5倍等经过众多商业实践总结出来的数据都证明了一个事实——提升用户留存率,减少用户流失,对于任何一家企业来说都是非常重要。

而随着互联网特别是移动互联网的高速发展,传统模式下的很多发展瓶颈得到了重大突破,成本结构也发生了显著变化。但对于企业来说,用户留存依然是反映企业及产品核心竞争力的关键要素。

在用户生命周期管理(CLM)的分析框架下,不同的用户生命周期阶段我们需要考虑不同的问题,制定不同的用户管理策略,不断改善用户体验的同时,实现用户生命周期价值(CLV)的最大化。

图1:用户生命周期

关于对用户数据如何开展分析挖掘,目前业界已有不少成熟的方法论,而我们的分析流程也是在这些方法论的指导下有序开展的。当前业界主要的两大方法论分别是SEMMA方法论和CRISP-DM方法论。其中SAS公司提出的SEMMA方法论,即抽样(Sample)、探索(Explore)、修改(Modify)、建模(Model)、评估(Assess),强调的是这5个核心环节的有机循环。

而SPSS公司提出的CRISP-DM是英文缩写,全称为跨行业数据挖掘标准流程(Cross-IndustryStandardProcessforDataMining),突出业务理解、数据理解、数据准备、建模、评价和发布这几个环节,强调将数据挖掘目标和商务目标进行充分结合。

在具体实践中,CRISP-DM强调上层的商务目标的实现,SEMMA则更侧重在具体数据挖掘技术的实现上。只有将两种方法紧密联系在一起,才能达到更好地达成数据分析挖掘的效果。

图2:数据分析挖掘方法论

二、流失预警模型构建

基于上述方法论,下面结合具体的业务场景,详细介绍用户流失预警的分析思路及模型建设过程。

2.1业务理解

针对某业务用户活跃度下降、沉默用户比例较高的业务现状,着手建立高潜流失用户预警及挽留机制,以期提升用户留存,拉动活跃,“防患于未然”。而落脚点则是建立一套流失预警的分类模型,预测用户的流失概率。

基于上述需求,首先我们要明确“用户流失”的定义,使得分析的目标更符合业务理解及分析要求。

2.1.1用户流失行为定义

这里罗列了流失分析可能需要考虑的三个维度:动因、程度和去向。不同业务场景下流失分析可能需要综合考虑多个维度,以制定最为合理的分析目标。

1)流失动因

2)流失程度

3)流失去向

可见,对于流失的理解可以是多方位的,需要结合具体的场景和需求。这里我们只简化考虑用户在某项业务主动部分流失的情况。

2.1.2Roll-rate分析

图3:Roll-rate分析

2.2数据理解

针对用户流失预警这一分析目标,我们重点考察用户活跃类指标,构建流失预警分析建模指标体系:

图4:建模指标体系

2.3数据准备

2.3.1样本构造

流失预警分析样本数据选取:

1)锁定某日业务使用活跃用户,统计其在后续14天的活跃情况;

2)由连续14天沉默账号和14天有活跃账号构成样本,并打上相应标签;

3)统计样本账号在观察点前8周的行为特征,按周汇总输出,同时加入包括基础画像的特征属性。

图5:建模样本构造

2.3.2数据质量检验

这项工作的重要性不言而喻,正所谓“垃圾进,垃圾出”,基础数据如果无法保证良好的数据质量,分析研究工作便会举步维艰甚至是徒劳,分析得出的结论也是无效或者是错误的。因此,我们需要建立一套完整有效的数据质量检验流程,这里暂且不就这部分内容展开介绍了。

2.4建模分析

根据SEMMA的数据挖掘方法论,建模分析过程主要包括抽样(Sample)、探索(Explore)、修改(Modify)、建模(Model)和评估(Assess)这五个关键环节。而下面就这五个环节的技术实现过程中涉及到的一些关键点进行简要阐述:

2.4.1粒度的选择

2.4.2抽样与过抽样

抽样就是从原始数据中,抽取一定量的记录构成新的数据。对于原始数据规模非常大的场景来说,抽样往往是必要的,可以大大提升模型训练的速度。当然,随着分布式计算等大规模数据处理及分析能力的引入,使用完整的、大量的数据样本进行模型训练的可能性也越来越高。

而过抽样则可以理解为多抽取稀有的标签,而少取常见的标签,这种抽样方法在建模过程中相当常见。比如本次流失分析的场景下,流失用户作为目标样本,相比整体大盘来说肯定是属于稀有的标签。为保证模型的有效性,我们需要按照一定配比,建立由流失和非流失用户构成的建模样本,并分别打上‘1’和‘0’的状态标签。两类样本的比例关系并没有固定标准。一般情况下,目标标签样本占建模数据集的比例在20%-30%,会产生较好的模型效果。

另外,也可以通过样本加权的方式进行过抽样,实现增加建模数据集密度的同时而不减少其规模。具体操作上一般将最大的权重设为1,而其他所有权重都取小于1的值,以此减少模型过拟合的风险。

2.4.3数据探索与修改

1)变量离散化

在对建模数据进行单变量分析及预处理的过程,对变量进行分组,目的在于观察变量与目标事件的对应趋势,判断是否与实际业务理解相符,从而决定变量是否适用。同时通过变量分组,减少变量属性个数,有助于避免异常值对模型的影响,提升模型的预测和泛化能力。

具体做法是对变量按照一定规则进行划分,比如对于连续型的数值变量,按照分位点对变量取值进行等高划分为大约10个区间,具体如下:

图6:单变量分布

2)WOE(WeightsofEvidence)值计算

在变量分组的基础上,我们这里使用证据权重WOE对变量取值的编码转换,作为最后模型的输入。WOE的计算公式如下:

WOEattribute=log(p_non-eventattribute/p_eventattribute)

其中:

p_non-eventattribute=#non-eventattribute/#non-event(模型变量各特征分段下非事件响应用户数占总体非事件响应用户数的比例)

p_eventattribute=#eventattribute/#event(模型变量各特征分段下事件响应用户数占总体事件响应用户数的比例)

将字符型和数据型变量分组后的WOE值,可以作为回归模型训练的输入。

3)变量选择

变量的预测能力:

在变量预测力方面,选择计算信息值IV(InformationValue)来量度。IV值一方面可以用于选择预测变量,另一方面也可以作为分组是否合适的判断依据。

IV的定义和熵(平均信息量)的定义很相似:

IV=∑((p_non-eventattribute-p_eventattribute)*woeattribute)

一般情况下,IV的衡量标准如下:

表1:IV衡量标准

变量的稳定性:

Index=∑((比较时点分段样本百分比-基准时点分段样本百分比)*ln(比较时点分段样本百分比/基准时点分段样本百分比)

一般情况下,PSI的衡量标准如下:

表2:PSI衡量标准

变量与业务的趋势一致性:

这个标准可以结合业务知识、特征分布及WOE进行综合判断。

2.4.4建模

前面我们通过大量的特征分析工作圈定了有效模型入选变量,接下来通过模型算法的选择调用最终输出模型结果,给每个用户单元计算流失概率。作为一个分类问题,目前我们有比较多的模型算法可以尝试,比如说逻辑回归和决策树。通过模型比较,我们最终选择逻辑回归进行建模。由于逻辑回归是业务已经比较成熟的分类算法,大多数分析同学应该都比较了解,这里就不再赘述其原理。

2.5模型评价

对于一个模型是否达标,我们一般会从以下几个方面去考量:

1)是否达到符合应用要求的准确性水平

这里我们可以通过LiftCharts(又叫gainschart)、ROCCharts、KS等评价指标来对模型性能进行评估比较。

2)是否具有较高的稳定性

同样的,我们可以借鉴变量分析里面的稳定性系数PSI来衡量及监控模型的稳定性。

3)是否简单

这个标准主要是从模型部署的角度考虑,模型如果足够简单,将更有利于模型的IT部署应用。

4)是否有意义

即在模型变量及其预测结果方面具有较强的可解释性。这对于某些场景来说要非常看重的指标,比如说在银行信贷的信用评分模型的应用上。它是技术与业务有效连接的重要桥梁,有利于业务方更好理解模型并有效指导业务开展。当然,随着机器学习领域一些高级算法的研究使用,可解释性要求在某些场景下已经不属于必要条件。

2.6模型应用

关于模型应用,我们主要聚焦在以下两个方面:

1)用预测模型得到影响流失的重要因素

通过单变量分析找出对业务有突出影响的一系列“MagicNumber”。为什么叫“MagicNumber”?顾名思义,这个数字能给业务增长带来魔力般的神奇促进效果。通过对关键影响指标的量化分析,可以帮助业务有效制定运营目标。

图7:MagicNumber

2)用预测模型预测客户流失的可能性

利用模型输出的概率结果,对流失概率最高的一部分用户,可以开展针对性的运营管理,比如设计有效的唤醒机制、好友推荐、个性化推荐以及合作产品引导等,挖掘用户的应用需求点和兴趣点。同时建立分析-应用-反馈的闭环流程,持续对用户留存流失进行监控管理,及时发现问题,以指导模型优化及策略更新。

三、优化研究方向

可以尝试从以下两个方面开展优化分析:

3.1用户群体细分

针对不同类型的用户分别搭建流失预警模型。

3.2用户行为分析

分析用户产品使用行为及内容偏好,挖掘用户使用习惯及兴趣点,实现个性化推荐,拉动用户活跃。

四、结语

在用户流失预警这个分析案例中,我们结合业务现状,在用户生命周期管理的大框架下,采用业界较为成熟的数据分析挖掘方法论,开展数据分析工作。这里面重点介绍了特征分析的方法,这是我们在做用户数据分析过程非常重要且必不可少的部分。

而在特征分析过程中,我们可以更加深入地了解业务特性,输出更多的数据价值。这也是本文所希望传达重要信息。由于知识和篇幅所限,有很多细节没能阐述得特别深入,有些方法也许不是最优的做法,欢迎对BI有兴趣的同学加强交流,共同进步,更好地将数据价值应用到实际业务中。

作者:alvinpan,腾讯CSIG数据科学家

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

THE END
1.数字营销数据:深入挖掘价值在当今的数字时代,数据已经成为企业竞争力的重要组成部分。数字营销数据挖掘是一种利用大数据技术来分析和挖掘营销数据,以提高营销效果的方法。这篇文章将讨论数字营销数据挖掘的核心概念、算法原理、具体操作步骤以及数学模型公式。 1.1 数字营销数据挖掘的重要性 https://blog.csdn.net/universsky2015/article/details/135211815
2.数据分析与挖掘工程师工资待遇(就业前景,招聘待遇)说明:数据分析与挖掘工程师近年就业工资怎么样? 2019年数据分析与挖掘工程师工资¥22.0K,较2018年增长8%……数据统计依赖于各大平台发布的公开数据,系统稳定性会影响客观性,仅供参考。 就业前景(历年职位需求变化) 暂无 2024年较2023年 历年招聘职位量占比 https://www.jobui.com/trends/quanguo-shujufenxiyuwajuegongchengshi/
3.数据挖掘分析流程~简介程序喵~数据分析挖掘第六步:模型评价 就像前面说的,建模是挖掘黄金的最后一铲子,但是铲下去得到的是黄金还是沙子我们是不清楚的,但是我们可以通过一些手段来提 高是黄金的几率,而提高几率的过程就是模型评价。通过模型测试提高模型的准确率。 总结:干货是不可能有干货的,我们的主题就是了解数据分析流程哒,干货在哪,期待后续https://www.cnblogs.com/guan-520/p/10688075.html
4.商战数据挖掘:你需要了解的数据科学与分析思维数据科学的一条重要原则是,数据挖掘的流程可以分解为几个通俗易懂的环节。有些环节涉及信息技术的应用,如数据中模式的自动发现和评估,而有些则主要依赖数据分析师的创意、常识和商业知识。理解数据挖掘的整个过程,有助于组织数据挖掘项目,使它们更接近系统性的分析,而不是凭借运气和个人智慧的冒险行为。 https://www.ituring.com.cn/book/tupubarticle/28952
5.数据分析挖掘常见项目汇总随着数据规模的日益庞大,仅仅支持查询、统计的产品已经不能满足大部分用户,进而对数据分析挖掘的需求越来越大。 尽管意识到数据分析挖掘的重要性,但数据分析挖掘具体能做什么呢?究竟能带来什么具体化的价值呢? 本文将从以下几个角度描述: 一、描述统计 提到数据分析挖掘第一反应是各种高深、复杂的机器学习算法,深度学习https://www.jianshu.com/p/13ba5685aebd
6.数据分析与挖掘11篇(全文)近年来,数据挖掘技术经过不断发展,已经成为一个涉及多个学科的交叉型综合学科。通常而言,经典的数据挖掘算法都可以直接用到Web数据挖掘上来,但为了提高挖掘质量,要在扩展算法上进行了研究,包括复合关联规则算法、改进的序列发现算法等。 2. Web数据挖掘的概念 https://www.99xueshu.com/w/ikeyp687ycyz.html
7.数据分析网【脑图】电商类APP的数据门户/数据产品的功能框架脑图 【地图】数据分析师职业发展必备知识地图 最新文章 行业资讯 大数据 数据分析 数据挖掘 人工智能 数据产品 数据报告 数据报告 艾媒咨询:2024年中国自助餐行业消费者行为洞察数据 近年来,中国自助餐行业发展迅速,消费者行为呈现出多样化趋势。随着消费者对健康饮食和个https://www.afenxi.com/
8.数据分析与数据挖掘课程的主要内容从两条主线开展,一条围绕数据科学的体系:数据收集、数据预处理、数据存储、数据分析、数据挖掘、数据可视化、数据产品等;一条围绕着人工智能的诸多专题方向,简要包括:人工智能的宏观概念,数据分析基础,数据挖掘,机器学习,深度学习,神经网络,统计分析,前沿跟踪等。 https://i.study.uestc.edu.cn/DATAM/menu/teaching-programme
9.数据挖掘与分析(精选十篇)数据挖掘与分析 篇1 数据挖掘, 在人工智能领域, 习惯上又称为数据库中知识发现 (Knowledge Discovery in Database, 简称为KDD) , 也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。换言之, 就是从存放在数据库、数据仓库或其他信息库中大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式https://www.360wenmi.com/f/cnkey0oxsb1u.html
10.数据挖掘与分析报告范文7篇.docx数据挖掘与分析报告范文第一篇可以肯定,这东西跟数学和算法有关,而且很难!既然很难,那么就要付出更大的努力去学习了,去图书馆找书,找了好久发现老师经常说的hadoop都被借完了,只好找了本《数据挖掘教程》//《dataminingatutorial-basedprimer》,看起来比较入门,借着平时空闲的时间翻阅了一下,数据挖掘,顾名思义https://www.renrendoc.com/paper/234470348.html
11.数据挖掘利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等, 它们分别从不同的角度对数据进行挖掘。 ①分类。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。它可以应https://baike.esnai.com/view.aspx?w=%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98
12.社交网站的数据挖掘与分析(豆瓣)他们在讨论些什么?或者他们在哪儿?这本简洁而且具有可操作性的书将揭示如何回答这些问题甚至更多的问题。你将学到如何组合社交网络数据、分析技术,如何通过可视化帮助你找到你一直在社交世界中寻找的内容,以及你闻所未闻的有用信息。 每个独立的章节介绍了在社交网络的不同领域挖掘数据的技术,这些领域包括博客和电子邮件https://book.douban.com/subject/10344930/
13.数据分析小组:从数据中挖掘价值的艺术数据分析小组作为企业中的“数据管家”,承担着从海量数据中挖掘有价值信息的重任。本文将深入探讨数据分析小组的核心职责、所需技能,以及如何组建一个高效的数据分析小组,帮助读者更好地了解这一领域。一、数据分析小组的核心职责 数据收集和处理数据分析小组的首要任务是收集企业所需的数据,并对数据进行清洗、整合和https://developer.baidu.com/article/detail.html?id=2853127
14.科学网—数据挖掘(Datamining)简介l气温长期变化趋势的预测[7]。将数据进行平滑,然后用高阶多项式(时间幂函数)或谐波函数(谐波分析法,类似于功率谱分析)进行拟合,得到气温变化(可用简单函数表达的)趋势,从而进行预测。 平滑和谱分析均是数据分析中常用的方法,在这里却被冠以数据挖掘的名字。 https://blog.sciencenet.cn/blog-200199-750526.html
15.12款最好用的数据挖掘工具Oracle。 作为“高级分析数据库”选项的一部分,Oracle数据挖掘功能允许其用户发现洞察力,进行预测并利用其Oracle数据。您可以构建模型来发现客户行为目标客户和开发概要文件。 Oracle Data Miner GUI使数据分析师、业务分析师和数据科学家能够使用相当优雅的拖放解决方案处理数据库内的数据。 它还可以为整个企业的自动化、https://blog.itpub.net/69985379/viewspace-2733867/
16.数据挖掘与分析的六种经典方法论6、数据挖掘与分析的“七步法” “七步法”分为七个步骤,分别是:业务理解、数据获取、数据探索、模型构建、模型评估、策略输出、应用部署。“七步法”更侧重从乙方的视角来完成用数据挖掘及其应用的闭环。 -END-https://www.niaogebiji.com/article-30475-1.html
17.数据挖掘数据挖掘面试题汇总测测你的专业能力是否过关7. 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 8. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C) https://cloud.tencent.com/developer/article/1045567
18.关于数据挖掘和预测的模型有哪些数据挖掘与预测分析本文将进入数据挖掘与分析中较为困难的一部分———建模分析,将提到简单的分类预测实现方式,例如回归分析、决策树、人工神经网络等等。 目录 阅读提示 第五章 挖掘建模 一、分类与预测 1、实现过程 2、常见的分类与预测算法 3、回归分析 4、决策树 5、人工神经网络 https://blog.51cto.com/u_12195/8985703
19.数据挖掘与分析:概念与算法中文pdf扫描版[79MB]电子书下载《数据挖掘与分析:概念与算法》是专注于数据挖掘与分析的基本算法的入门图书,内容分为数据分析基础、频繁模式挖掘、聚类和分类四个部分,每一部分的各个章节兼顾基础知识和前沿话题,例如核方法、高维数据分析、复杂图和网络等。每一章最后均附有参考书目和习题。 https://www.jb51.net/books/693044.html
20.数据挖掘有哪些帆软数字化转型知识库文本挖掘是一种从非结构化文本数据中提取有价值信息的方法。其目标是通过自然语言处理技术对文本数据进行分析和处理,常用于情感分析、主题建模等领域。常见的文本挖掘方法包括词频统计、TF-IDF、主题模型等。 词频统计是一种简单的文本挖掘方法,通过统计文本中词汇的出现频率来提取关键信息。其优点是计算简单,适用于小规https://www.fanruan.com/blog/article/576370/