机器学习kaggle入门案例——泰坦尼克数据分析大家好,我是Peter~Titanic数据是一份经典数据挖掘的数据集,

通过自己的整体学习第一名的源码,前期对字段的处理很细致,全面;建模的过程稍微比较浅。

导入整个过程中需要的三类库:

#数据处理importpandasaspdimportnumpyasnpimportrandomasrnd#可视化importseabornassnsimportmatplotlib.pyplotasplt%matplotlibinline#模型fromsklearn.linear_modelimportLogisticRegressionfromsklearn.svmimportSVC,LinearSVCfromsklearn.ensembleimportRandomForestClassifierfromsklearn.neighborsimportKNeighborsClassifierfromsklearn.naive_bayesimportGaussianNBfromsklearn.linear_modelimportPerceptronfromsklearn.linear_modelimportSGDClassifierfromsklearn.treeimportDecisionTreeClassifier导入数据导入数据后查看数据的大小

查看全部的字段:

train.columnsIndex(['PassengerId','Survived','Pclass','Name','Sex','Age','SibSp','Parch','Ticket','Fare','Cabin','Embarked'],dtype='object')下面是字段的具体含义:

本案例中的数据主要是有两种类型:

查看训练集和测试集的缺失值情况:

同时也可以通过info函数来查数据的基本信息:

作者基于数据的基本信息和常识,给出了自己的一些假设和后面的数据处理和分析方向:

主要是对分类的变量Sex、有序变量Pclss、离散型SibSp、Parch进行分析来验证我们的猜想

1、船舱等级(1-头等,2-二等,3-三等)

结论:头等舱的人更容易生还

2、性别

结论:女人更容易生还

3、兄弟姐妹/配偶数

结论:兄弟姐妹或者配偶数量相对少的乘客更容易生还

4、父母/孩子数

结论:父母子女在3个的时候,更容易生还

上面都是基于简单的统计和可视化方面的分析,下面的过程是基于各种机器学习建模的方法来进行分析,前期做了很多的预处理好特征工程的工作。

票价ticket和客舱号Cabin对我们分析几乎是没有用的,可以考虑直接删除:

主要是根据现有的特征属性中找到一定的关系,来生成新的特征,或者进行一定的特征属性转化。

根据名称Name生成找到称谓,比如Lady、Dr、Miss等信息,来查看这个称谓和生还信息之间是否存在关系

使用交叉表的形式统计:

将提取出来的称谓进行整理,归类为常见的称谓和Rare信息:

称谓本身是文本型对后期建模无用,我们直接转成数值型:

title_mapping={"Mr":1,"Miss":2,"Mrs":3,"Master":4,"Rare":5}fordatasetincombine:#存在数据的进行匹配dataset['Title']=dataset['Title'].map(title_mapping)#不存在则补0dataset['Title']=dataset['Title'].fillna(0)train.head()同时还需要删除部分字段:

train=train.drop(['Name','PassengerId'],axis=1)test=test.drop(['Name'],axis=1)combine=[train,test]train.shape,test.shape#((891,9),(418,9))字段Sex将性别的Male和Female转成0-Male,1-Female

fordatasetincombine:dataset['Sex']=dataset['Sex'].map({'female':1,'male':0}).astype(int)性别、年龄、生还之间的关系:

1、首先就是字段的缺失值处理。

我们观察到年龄字段是存在缺失值的,我们通过Sex(0、1)和Pclass(1、2、3)的6种组合关系来进行填充。缺失值情况:

填充的具体过程:

2、年龄分段分箱

3、转成数值分类

首先根据Parch和SibSp两个字段生成一个FamilySize字段

fordatasetincombine:dataset["FamilySize"]=dataset["SibSp"]+dataset["Parch"]+1#每个FamilySize的生还均值train[['FamilySize','Survived']].groupby(['FamilySize'],as_index=False).mean().sort_values(by='Survived',ascending=False)根据字段FamilySize来判断是否Islone:如果家庭成员FamilySize是一个人,那肯定是Islone的,用1表示,否则用0表示

最后将Parch,SibSp,andFamilySize删除,仅保留是否一个人Islone:

#将Parch,SibSp,andFamilySize删除,仅保留是否一个人Islonetrain=train.drop(['Parch','SibSp','FamilySize'],axis=1)test=test.drop(['Parch','SibSp','FamilySize'],axis=1)combine=[train,test]train.head()生成新字段2新字段2是Age和Pclass的乘积:

Embarked字段取值有SQC。首先我们填充里面的缺失值

查看这个字段是存在缺失值的:

处理:找出众数、填充缺失值、查看每个取值的均值

将文本类型转成数值型:

训练集这个字段是没有缺失值,测试集中存在一个:

使用中值进行填充:

实行分箱操作:

将每个段转成数值型的数据:

下面是具体的建模过程,我们先划分数据集:

#训练集X_train=train.drop("Survived",axis=1)Y_train=train["Survived"]#测试集X_test=test.drop("PassengerId",axis=1).copy()X_train.shape,Y_train.shape,X_test.shape每个模型的具体过程:

#模型实例化logreg=LogisticRegression()#拟合过程logreg.fit(X_train,Y_train)#测试集预测Y_pred=logreg.predict(X_test)#准确率求解acc_log=round(logreg.score(X_train,Y_train)*100,2)acc_log#结果81.37逻辑回归模型得到的系数:

结论:性别对我们的生还真的是一个重要的影响因素

将上面9种模型的结果(准确率)进行对比:

通过对比结果:决策树和随机森林在这份数据集表现的效果是最好的;其次就是KNN(K近邻)算法。

THE END
1.精选30个数据分析案例,建议收藏!数据分析而且,他还结合视频实操,分享了常用的数据分析工具图谱、基础分析模型、18 个提效的基础功法、先进的数据分析工具展望,让你能更好地了解数据和它背后的解释。用一句话来总结就是“案例+避坑+经验”,直接、实在。 真正的干货绝对不是纸上谈兵。只有把数据分析的相关知识“串”起来,扩大你的认知边界,挖掘隐藏在数据https://aiqicha.baidu.com/qifuknowledge/detail?id=10015080082
2.数据挖掘在各领域的应用案例PPT课件经管文库(原数据挖掘在各领域的应用案例PPT课件 https://bbs.pinggu.org/thread-13295021-1-1.html
3.数据挖掘基础知识解析:关联规则发现与分类算法评价标准详解6. 使用交互式和可视化技术探索数据属于数据挖掘任务的哪一类? (一个) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7. 对数据的整体分布进行建模;将多维空间分组等问题属于数据挖掘任务的哪一类? (二) A. 探索性数据分析 B. 建模描述 http://www.yl101.com/detail/id/87990.html
4.数据挖掘的分析方法可以划分为关联分析序列模式分析分类分析和数据挖掘是从大量数据中提取有用信息的方法,主要分为四种分析方式:关联分析、序列模式分析、分类分析和聚类分析。在本指南中,我们将详细介绍这四种方法的实现过程,并提供相应的代码示例。 数据挖掘流程 首先,我们需要明确数据挖掘的基本流程,如下表所示: 流程图 https://blog.51cto.com/u_16213297/12863680
5.中国建设银行申请数据分析方法相关专利,能解决无法及时有效识别和发属于网络安全技术领域,该方法包括:获取各机构报送的各机构的从业人员的行为数据;对行为数据进行数据清洗和数据格式转换后,存入空白数据集中,得到行为数据集;采用关联规则挖掘算法挖掘行为数据集中行为数据之间的关联性,得到目标关联规则;根据聚类分析算法对行为数据集中的若干个行为数据进行聚类分析,得到聚类分析结果;根据https://www.163.com/dy/article/JJN5Q8DK0519QIKK.html
6.的32个经典案例》读后感数据挖掘32个经典案例这本书主要讲解了一些算法在各行各业的实际应用,主要是大体对算法的概要性知识点作了一些提及,或许现在的自己也不太能体会,提到了数据分析挖掘很重要,也说了很多案例,但是具体的应用,最主要的还是业务知识的积累,对业务的深刻理解,分析逻辑的组织,再辅助以分析挖掘的手段,就可以实现不可思议的效果。一言以蔽之,数https://blog.csdn.net/weixin_42521211/article/details/106304048
7.数据挖掘:你必须知道的32个经典案例.pdf数据挖掘:你必须知道的32个经典案例.pdf 第五章 经典的机器学习案例 机器学习是一门成熟的学科,它所能解决的问题涵盖多种行业。本章介绍了四种经典的 机器学习算法,它们所关心的重点在于机器学习是如何将统计学和数据挖掘连接起来的。通 过学习本章,读者可以见识到机器学习的特殊魅力,并明白机器学习与其他学科的异同https://max.book118.com/html/2017/0507/104999965.shtm
8.数据挖掘:你必须知道的32个经典案例Yami数据挖掘:你必须知道的32个经典案例, Brand: Jingdong book, Database-Yami. 100% authentic, 30-day return guarantee, authorized retailer, low price.https://www.yamibuy.com/en/goods.php?id=37352
9.数据挖掘:你必须知道的32个经典案例(第2版)(豆瓣)本书全面介绍了经典数据分析、模式识别、机器学习、深度学习、数据挖掘、商务智能等多个领域的数据分析算法,将大数据时代的数据分析热点技术一网打尽。本书为每个数据分析算法都搭配了一个经典案例,并按照由易到难的原则构建知识框架,充分照顾了不同水平读者的阅读习惯。通过阅读本书,读者将对大数据时代下的数据分析有https://book.douban.com/subject/30663396/
10.《数据挖掘:你必须知道的32个经典案例(第2版)》(任昱衡等)简介当当网图书频道在线销售正版《数据挖掘:你必须知道的32个经典案例(第2版)》,作者:任昱衡 等,出版社:电子工业出版社。最新《数据挖掘:你必须知道的32个经典案例(第2版)》简介、书评、试读、价格、图片等相关信息,尽在DangDang.com,网购《数据挖掘:你必须知道http://product.dangdang.com/25480156.html
11.数据分析与挖掘赋能智慧医疗贪心贪心高阶机器学习第03周 凸优化问题 第04周 对偶(Duality) 第05周 优化技术 第06周 数学基础 ( 拼课 wwit1024 ) 第07章 谱域(Spectral Domain)的图神经网络 第08章 Attention 机制,GAT,EGCN,Monet 第09章 图神经网络改进与应用图神经网络改进与应用 第10章 强化学习基础 https://www.bilibili.com/opus/1010365058955345929
12.数据挖掘:你必须知道的32个经典案例首页 馆藏纸本 图书详情 数据挖掘 :你必须知道的32个经典案例 出版社:电子工业出版社 ISBN:9787121351129 出版年:2018 作者:任昱衡 资源类型:图书 细分类型:中文文献 收藏单位馆藏地在架状态索书号 自动化所图书流通库已借出F713.51/ 234 5浏览量 问图书管理员 https://www.las.ac.cn/front/book/detail?id=255a02b291370428cd51a7cd5e56f076
13.数据挖掘:你必须知道的32个经典案例(第2版)任昱衡等9787121351129【全新正版京仓直发】数据挖掘:你必须知道的32个经典案例(第2版) 任昱衡等 9787121351129 电子工业出版社书香满满图书专营店 登录查看更多图片 > 【全新正版京仓直发】数据挖掘:你必须知道的32个经典案例(第 任昱衡等 著 京东价 ¥ 促销 展开促销 配送至 --请选择-- 支持 加入购物车 https://item.jd.com/10098159491213.html
14.数据挖掘的经典案例“破与尿布试验”最主要是应用了()数据刷刷题APP(shuashuati.com)是专业的大学生刷题搜题拍题答疑工具,刷刷题提供数据挖掘的经典案例 “啤酒与尿布试验”最主要是应用了( )数据挖掘方法A.分类B.预测C.关联规则分析D.聚类的答案解析,刷刷题为用户提供专业的考试题库练习。一分钟将考试题Word文档/Excel文档/PDFhttps://www.shuashuati.com/ti/aac62ba2812942e88cf4eae6cb830ee7.html
15.中国大数据行业发展现状与投资前景预测分析报告六、行业大数据应用典型案例 七、行业大数据应用前景预测 第四节 互联网 一、行业数据储量与特点 二、行业大数据应用需求分析 三、行业大数据应用前景预测 第五节 零售 一、行业信息化现状分析 二、行业大数据应用经典案例 第六节 医疗 一、行业信息化建设情况 https://www.shangyexinzhi.com/article/23014659.html
16.大数据报告中国大数据行业发展现状与前景动态分析报告2021六、行业大数据应用典型案例249 七、行业大数据应用前景分析251 第四节 互联网252 一、行业数据储量与特点252 二、行业大数据应用需求分析253 三、行业大数据应用前景分析254 第五节 零售256 一、行业信息化现状分析256 二、行业大数据应用经典案例259 第六节 医疗260 http://www.zyzyyjy.com/baogao/337730.html
17.年终盘点华大科技代谢组全年回顾经典案例2: 文章题目:Metabolomic analyses reveals new stage-specific features of the COVID-19 发表期刊:European Respiratory Journal(IF=16.671) 研究单位:广东省人民医院、广州市疾病预防控制中心等 华大科技提供服务:非靶向代谢组学技术 研究概述: 该研究招募63名COVID-19患者为发现队列,并收集临床数据。对其血https://www.bgi.com/news/2022122802
18.算法教学中的思考(精选十篇)④生成迭代数据,如表1所示。 笔者对迭代的本质作如下理解:迭指的是多次,代指的是替换,迭代就是指一个动作或操作重复多次,每一次迭代得到的结果作为下一次迭代的初始值。具体到代数计算,迭代可看作使用输入值来计算输出值的不断重复计算过程,重复地将前一个计算中得到的计算结果作为下一个计算的输入值。 https://www.360wenmi.com/f/cnkeyi2rg0gf.html
19.大数据应用经典案例TOP50详细剖析全球零售业巨头沃尔玛在对消费者购物行为分析时发现,男性顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起的促销手段。没想到这个举措居然使尿布和啤酒的销量都大幅增加了。如今,“啤酒+尿布”的数据分析成果早已成了大数据技术应用的经典案例,被人津津乐道。https://www.jianshu.com/p/baf5dd26de4f
20.关于《电子商务概论》电子教案8篇(全文)数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知,有效和可实用三个特征。2.数据挖掘的功能 (1)自动预测趋势和行为。(2)关联分析。(3)聚类。(4)概念描述。(5)偏差检测。3.数据挖掘的过程 二、数据仓库 1.数据仓库的概念 https://www.99xueshu.com/w/file6vd9hyye.html
21.[精华]计量经济学论文15篇目前,国内教材的案例过于陈旧,样本数据偏少,模型解释变量个数偏少,使用这样的案例在一定程度上制约了学生使用软件处理数据分析数据的潜力;作为计量经济学的主讲教师,需要建立一套适合本校学生情况的案例库。案例素材可以从本科生的优秀论文、教师的学术成果、专业期刊的学术论文中挑选从而建立有特色的案例库,并注重选取与https://www.wenshubang.com/jingjibiyelunwen/3793815.html
22.108个大数据文档PDF开放下载大数据IT业界好吧,要过年了,我就把自己收藏的关于大数据、互联网金融、征信、数据分析的文档分享出来,让大家都可以下载。我的文档主要源于自己的收藏,还 有各种大会组委会的分享,当然,我自己也开通了多个文库的 VIP 下载的。36 大数据本身是一个”知识型“的媒体平台,我们提供更多的是教程、知识,其次才是行业信息,所以,我们今https://www.open-open.com/news/view/1d1964c
23.电子商务应用论文(通用15篇)简单来说,可以应用智能电子商务对旅游相关的数据进行挖掘检测,以及对网络旅游相关信息进行分析,再就是通过旅客在网络对各旅游景点以及旅游路线的点击率等等相关同时,为了更好地理解和掌握电子商务的基本概念和基本原理,鼓励学生通过各种途径搜集有关电子商务经典案例,进行电子商务知识的积累,拓宽学生的知识面,及时了解https://biyelunwen.yjbys.com/fanwen/dianzixinxigongcheng/733168.html