视频讲解数据挖掘实战:Python金融贷款模型分类潜在贷款客户

模型的存在依托于这样一个事实:基于概率的决策乃是最优之选。将概率转化为评分,能够便于对齐风险。而评分则是通过统计的方法来识别潜在客户,进而判断客户是否合乎心意。这里的“合意”由我们预先定义,可以涵盖诸如风险、收益率、响应率、续借意愿、违约后的偿还意愿等等诸多方面。

实际上,在业务的一系列环节中均可采用模型方案。当我们谈及风控中有哪些模型可做时,也就相当于在变相探讨业务上有哪些环节能够进行精细化决策。

在金融信贷领域,授信、定价等产品信息会直接左右客户是否选择用信。此外,客户自身的需求程度、竞品授信定价信息、自身经济能力、家庭环境等因素也都会对用信行为产生影响。对于放贷机构而言,在授信额度/定价处于允许范围内时(例如额度越高,风险也会相应升高),期望能够提高整体用信率,从而扩大业务规模。如此一来,如果能够提前预测出用户的用信概率,便可以将其用于指导运营活动和授信定价策略,以促进业务的增长。

在这个项目中,我们对如何使用分类模型来分辨客户是否会贷款进行了深入分析。

一、贷款对银行的重要性

贷款对于银行维持业务至关重要。为什么呢?因为货币是银行的产品!银行的主要业务包括吸收存款和发放贷款。存款人和贷款人分别与银行形成特定的关系。

存款人将资金存入银行,银行支付一定的利息(例如3%)。而贷款人从银行获得贷款,并支付更高的利息(例如8%)。银行通过这种利息差获取利润。

二、识别银行客户的重要性

(一)有贷款需求的客户

(二)无贷款需求的客户

优先联系以确保时效性,但无需投入过多精力。此类客户价值较低且缺乏竞争力,不确定性较高,应最后联系以减少损失。

三、项目的必要性

对于任何企业来说,创造收入都是至关重要的。银行也是如此,发放贷款是银行获取收入的最重要方式之一。银行需要快速识别有贷款需求的用户,以便确定客户是否会贷款,同时考虑客户属性、贷款属性、联系属性以及社会和经济属性等因素,从而为银行创造收入。

四、业务问题及预期结果

(一)业务问题

准确识别有贷款需求的客户是关键问题。影响因素包括客户违约历史、家庭贷款历史、个人贷款历史、就业环境等。目前,识别有贷款需求客户的比例为30%,期望未来能达到90%以上。

(二)预期结果

期望通过本项目能够识别更多有贷款需求的客户,为银行带来更多收入。

五、分析方法

关键问题是将每个观察对象(客户)分类为两类(会贷款/不会贷款)之一,这是一个二元分类问题。采用逻辑回归和决策树两种方法进行分析。

逻辑回归模型:。

决策树:从根节点开始,根据条件进行分支,最终到达叶节点,每个叶节点代表一个分类结果。

两种方法都是为了将每个观察对象准确分类。

六、数据筛选与描述

七、分析计划

(一)模型构建

(二)结果(数据转换)

创建平衡的训练集和测试集,对连续变量进行单位转换,使其值位于0~1区间;对分类变量进行因子转换,去除“未知”属性;转换输出变量。经过数据平衡和去除未知数据后,若某个变量失去分类意义则将其去除。

八、建议

经济状况对银行贷款业务有至关重要的影响。从两种模型来看,在经济良好时,银行应尽可能多地联系客户(此时客户类型不重要);在经济衰退时,应避免大规模寻找客户,而应寻找高净值、有贷款需求的个人,如已婚、高学历、无抵押贷款和个人贷款的人,因为他们违约的可能性较低。在经济繁荣时联系更多客户以获取更多利润,在经济低迷时联系更多优质客户,以实现项目目标:识别更多有贷款需求的客户并创造更多收入。

Python决策树、随机森林、朴素贝叶斯、KNN(K-最近邻居)分类分析银行拉新活动挖掘潜在贷款客户

最近我们被客户要求撰写关于银行拉新活动的研究报告,包括一些图形和统计输出。

项目背景:银行的主要盈利业务靠的是贷款,这些客户中的大多数是存款大小不等的责任客户(存款人)。银行拥有不断增长的客户

该银行希望增加借款人(资产客户),开展更多的贷款业务,并通过贷款利息赚取更多利润。因此,银行希望将负债的客户转换为个人贷款客户。(同时保留他们作为存款人)。该银行去年针对负债客户开展的一项活动显示,成功实现了9%以上的成功转化率。该部门希望建立一个模型,来帮助他们确定购买贷款可能性更高的潜在客户。可以增加成功率,同时降低成本。

数据集

下面给出的文件包含5000个客户的数据(查看文末了解数据获取方式)。数据包括客户人口统计信息(年龄,收入等),客户与银行的关系(抵押,证券账户等)以及客户对上次个人贷款活动的因变量(个人贷款)。在这5000个客户中,只有480个(=9.6%)接受了先前活动中提供给他们的个人贷款

data.head()

data.columns

属性信息

属性可以相应地划分:

二进制类别具有五个变量,如下所示:

数值变量如下:

有序分类变量是:

标称变量是:

data.shape

两两变量散点图

有52条记录经验为负数。在进一步进行之前,我们需要对这些记录进行清理

有52条负数经验的记录

以下代码执行以下步骤:

收入和教育对个人贷款的影响

观察:看来教育程度为1的客户收入更高。但是,接受了个人贷款的客户的收入水平相同

推论:从上图可以看出,没有个人贷款的客户和拥有个人贷款的客户的抵押贷款较高。

观察:大多数没有贷款的客户都有证券账户

观察:家庭人数对个人贷款没有任何影响。但是似乎3岁的家庭更有可能借贷。考虑未来的推广活动时,这可能是一个很好的观察结果。

观察:没有CD帐户的客户,也没有贷款。这似乎占多数。但是几乎所有拥有CD帐户的客户也都有贷款

观察:该图显示有个人贷款的人的信用卡平均费用更高。平均信用卡消费中位数为3800元,表明个人贷款的可能性更高。较低的信用卡支出(中位数为1400元)不太可能获得贷款。这可能是有用的信息。

观察

看下面的图,收入低于10万的家庭比高收入的家庭更不可能获得贷款。

应用模型

将数据分为训练集和测试集

决策树分类器

查看测试集

test_set.head(5)

朴素贝叶斯

随机森林分类器

KNN(K-最近邻居)

模型比较

结论

通用银行的目的是将负债客户转变为贷款客户。他们想发起新的营销活动;因此,他们需要有关数据中给出的变量之间的有联系的信息。本研究使用了四种分类算法。从上图可以看出,随机森林算法似乎具有最高的精度,我们可以选择它作为最终模型。

本文选自《Python决策树、随机森林、朴素贝叶斯、KNN(K-最近邻居)分类分析银行拉新活动挖掘潜在贷款客户》。

关于分析师

在此对HengtaoFan对本文所作的贡献表示诚挚感谢,他在昆士兰大学完成了商业分析与信息系统双专业的学位,专注数据分析、机器学习、Python文本分析、数据建模(ANN、KNN、NB、决策树和随机森林等)领域。擅长R语言、Python、Excel、Office、SQL。

THE END
1.12种Python机器学习&数据挖掘工具包机器之心作为一种解释型语言,Python的设计哲学强调代码的可读性和简洁的语法(尤其是使用空格缩进划分代码块,而非使用大括号或者关键词)。相比于C++或Java,Python让开发者能够用更少的代码表达想法。不管是小型还是大型程序,该语言都试图让程序的结构清晰明了。我们今天为大家介绍12种Python机器学习&数据挖掘工具包。 https://www.jiqizhixin.com/articles/2018-10-19-11
2.python怎么进行数据挖掘问答在Python中进行数据挖掘通常需要使用一些流行的数据挖掘库,比如:1. Pandas:用于数据处理和分析的库,可以用来加载、清洗数据。2. NumPy:用于科学计算的库,可以进行矩阵运算和数https://www.yisu.com/ask/28773262.html
3.什么是数据挖掘其中的python是什么帆软数字化转型知识库数据挖掘是指从大量数据中提取有用信息和知识的过程,Python是一种广泛用于数据挖掘的编程语言,因为其强大的数据处理库和易于学习的语法。数据挖掘的核心步骤包括数据收集、数据预处理、数据分析和数据解释。在这些步骤中,Python的库如Pandas、NumPy和Scikit-learn等提供了强大的工具支持。例如,Pandas库可以方便地进行数据清https://www.fanruan.com/blog/article/601753/
4.利用Python练习数据挖掘覆盖使用Python进行数据挖掘查找和描述数据结构模式的实践工具。 第一节 介绍 数据挖掘是一个隐式提取以前未知的潜在有用的数据信息提取方式。它使用广泛,并且是众多应用的技术基础。 本文介绍那些使用Python数据挖掘实践用于发现和描述结构模式数据的工具。近些年来,Python在开发以数据为中心的应用中被用的越来越多。感谢http://api.cda.cn/view/21163.html
5.纳斯达克标准普尔指数——Python中的基本数据操作和可视化【数据挖掘】使用移动平均预测道琼斯、纳斯达克、标准普尔指数——Python中的基本数据操作和可视化 简介:本文将使用简单移动平均预测道琼斯、纳斯达克、标准普尔指数。作为技术分析中?种分析时间序列的常具,常被应?于股票价格序列。移动平均可过滤?频噪声,反映出中?期低频趋势,辅助投资者做出投资判断。https://developer.aliyun.com/article/1000807
6.python金融数据挖掘Python是一种非常流行的编程语言,也被广泛应用于金融数据挖掘。以下是一些使用Python进行金融数据挖掘的常见库和工具: Pandas:用于数据处理和分析的库,可以用于导入、处理和分析金融数据。 Numpy:用于进行数学和科学计算的库,可以用于执行金融统计分析。 Scikit-learn:用于机器学习的库,可以用于预测金融市场的趋势和价格。https://wenku.csdn.net/answer/41399929e5004b5faeea77285be9c1aa
7.GitHubxiaohuiduan/data但是,这个也不能怪我,实在是《Python数据挖掘入门与实践》 这本书到后面就开始介绍神经网络了,然后呢我又对其进行了补充(补充了CNN的内容以及介绍)。同时书中的**“图”和“mapreduce”的内容没有做介绍!!!**emm,我嫌麻烦就懒得弄了。 是新手的我,刚开始以为数据挖掘和机器学习很难,但是机缘巧合的接触到了https://github.com/xiaohuiduan/data_mining
8.第3章数据探索(python数据挖掘)小黄&第3章---数据探索(python数据挖掘) 1.缺失值分析及箱型图 数据:catering_sale.xls(餐饮日销额数) 缺失值使用函数:describe()函数,能算出数据集的八个统计量 importpandas as pd catering_sale= r'.\catering_sale.xls'#餐饮数据data = pd.read_excel(catering_sale, index_col=u'日期')#读取数据,指定https://www.cnblogs.com/2020310148tjy/p/17154628.html
9.数据挖掘算法与应用(Python实现)孙家泽,王曙燕编理科教材本书是作者近几年面向本科生和研究生开设的“数据挖掘及应用”的教学实践与积累,介绍数据挖掘的经典算法、典型应用,以及Python数据分析、挖掘实现和6个经典应用案例。 内容简介 本书是作者近几年面向本科生和研究生开设的"数据挖掘及应用"课程的教学实践与积累,作者参考了国外有名大学相关课程的教学体系,系统地介绍https://item.winxuan.com/1202167992
10.这或许是最全的Python数据分析指南(全)@Python与数据挖掘 ,专注 Python、数据分析、数据挖掘、好玩工具! 因工作需求经常会面试一些数据分析师,一些 coding 能力很强的小伙伴,当被问及数据分析方法论时一脸懵逼的,或者理所当然的认为就是写代码啊,在文章开头先来解释一下数据分析。 数据分析是通过明确分析目的,梳理并确定分析逻辑,针对性的收集、整理数据https://zhuanlan.zhihu.com/p/514247693
11.Python数据分析与数据挖掘——葛东旭★组织和列举了多种数据分析和数据挖掘的处理方法。 ★以完成数据分析和数据挖掘工作所要进行的环节为脉络,通过函数描述和示例分析,介绍使用Python进行数据采集、数据整理、数据探索和数据分析和挖掘的方法。 本书配套授课电子课件和素材文件,可在本页面注册审核后下载。配套的“课后习题答案”可联系微信jinaqing_candy或http://www.cmpedu.com/books/book/5605594.htm
12.Python与数据挖掘(张良均等著)完整pdf扫描版[20MB]电子书下载建模应用篇主要介绍了目前在数据挖掘中的常用的建模方法在Python中的实现函数,并对输出结果进行了解释,有助于读者快速掌握应用Python进行分析挖掘建模的方法。本书配套提供了书中使用的示例代码及所用的数据,读者可通过上机实验,快速掌握书中所介绍的Python的使用方法。https://www.jb51.net/books/594659.html
13.Python版数据挖掘实验6报告(6页)Python版数据挖掘实验6报告.doc 关闭预览 想预览更多内容,点击免费在线预览全文 免费在线预览全文 华南农业大学综 合 实 验 报 告学生姓名:洪毓阳 学号:201512010107 实验持续时间:一、实验名称:用神经网络破解验证码 1、实验目的:用神经网络破解验证码 2、实验内容:学习神经网络算法基本原理,并利用神经网络破解长度https://max.book118.com/html/2020/0429/7061026044002132.shtm
14.《Python数据挖掘与机器学习实战》(方巍)简介书评当当网图书频道在线销售正版《Python数据挖掘与机器学习实战》,作者:方巍,出版社:机械工业出版社。最新《Python数据挖掘与机器学习实战》简介、书评、试读、价格、图片等相关信息,尽在DangDang.com,网购《Python数据挖掘与机器学习实战》,就上当当网。http://product.dangdang.com/27875848.html
15.常用数据挖掘算法总结及Python实现常用数据挖掘算法总结及 Python 实现 目录 第一部分 数据挖掘与机器学习数学基础3 第一章 机器学习的统计基础3 第二章 探索性数据分析(EDA) https://www.modb.pro/db/1798520229306912768
16.科学网—Python数据挖掘与机器学习实践技术应用Python 数据挖掘与机器学习实践技术应用 本内容将通过实际案例的形式,介绍如何提炼创新点,以及如何发表高水平论文等相关经验。旨在帮助学员掌握Python编程的基础知识与技巧、特征工程(数据清洗、变量降维、特征选择、群优化算法)、回归拟合(线性回归、BP神经网络、极限学习机)、分类识别(KNN、贝叶斯分类、支持向量机、决策https://blog.sciencenet.cn/blog-3548666-1390747.html
17.数据挖掘之决策树归纳算法的Python实现数据挖掘之决策树归纳算法的Python实现 引自百度:决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程 https://cda.pinggu.org/view/25848.html
18.python数据分析与数据挖掘第二版pdfpython数据分析与数据挖掘第二版 pdf 一、题目: 1、输入一个字符串,输出其中每个字符的出现次数。要求使用标准库collotections中的Counter类。 2、输入一个字符串,输出其中只出现了一次的字符及其下标。 3、输入一个字符串,输出其中每个唯一字符最后一次出现的下标。https://blog.51cto.com/u_16213667/11900704
19.怀念上学时光,中财大管工学院精彩线上课程重磅来袭!《数据挖掘与Python实践》课程主要讲其定义、流程、预处理、关联、聚类、分类、数值预测等基本模块和Python实践应用。课程建设中致力于理论与实践相结合,通过学习将会掌握数据挖掘的基本理论、思想和方法,有助于学习者思维上对数据敏感、实践中熟练掌握工具,从而洞悉数据奥秘、分析和挖掘数据价值。https://mse.cufe.edu.cn/info/1072/6410.htm
20.Python大数据分析与挖掘实战本课程基于2020年11月人民邮电出版社出版的教材《Python大数据分析与挖掘实战(微课版)》和配套资源,以及学生课程设计和竞赛作品加工而成。从Python基础入门开始,到应用Python进行科学计算、数据处理、数据可视化、机器学习、深度学习,再到利用Python进行金融、地理信息、交通、文本、图像等具体领域数据挖掘与分析,并最终利用https://trustie.educoder.net/paths/3243