机器学习系统设计是一本非常实用的机器学习教程,由美国机器学习和机器人学博士WilliRichert编著,手把手教你用Python设计机器学习系统。本书为读者提供了大量的Python库参考,全书用丰富的案例,教会读者如何细析机器学习技巧与方法,带你承袭正确的思维方式,非常适合需要机器学习技术的Python开发人员、计算机科学研究人员、数据科学家、人工智能程序员,以及统计程序员阅读参考。
1、下载并解压,得出pdf文件
3、安装后,在打开解压得出的pdf文件
4、双击进行阅读试读
《机器学习系统设计》是实用的Python机器学习教程,结合大量案例,介绍了机器学习的各方面知识。本书不仅告诉你“怎么做”,还会分析“为什么”,力求帮助读者掌握多种多样的机器学习Python库,学习构建基于Python的机器学习系统,并亲身实践和体验机器学习系统的功能。
本书共分为12章:
第1章通过一个非常简单的例子介绍机器学习的基本概念。尽管很简单,但也可能会有过拟合的风险,这对我们提出了挑战。
第2章讲解了使用真实数据解决分类问题的方法,在这里我们对计算机进行训练,使它能够区分不同类型的花朵。
第3章讲解了词袋方法的威力,我们可以在没有真正理解帖子内容的情况下,用它来寻找相似的帖子。
第4章让我们超越将每个帖子分配给单个簇的方式。由于真实的文本可以处理多个主题,我们可以看到如何把帖子分配到几个主题上。
第5章讲解了如何用逻辑回归判定用户的答案是好还是坏。在这个情景的背后,我们将学会用偏差-方差的折中调试机器学习模型。
第6章介绍了朴素贝叶斯的工作原理,以及如何用它对推文进行分类,来判断推文中的情感是正面的还是负面的。
第7章讨论了一个处理数据的经典课题,但它在今天仍然有意义。我们用它构建了一个推荐系统,这个系统根据用户所输入的喜欢和不喜欢的信息,为用户推荐新的商品。
第8章同时使用多种方法改进推荐效果。我们还可以看到如何只根据购物信息构建推荐系统,而不需要用户的评分数据(用户并不总会提供这一信息)。
第9章举例说明,如果有人把我们收集而成的庞大音乐库弄乱了,那么为歌曲建立次序的唯一希望就是让机器来对歌曲分类。你会发现,有时信任别人的专长比我们自己构建特征更好。
第10章讲解了如何在处理图像这个特定情景下应用分类方法。这个领域又叫做模式识别。
第11章告诉我们还有其他什么方法可以帮我们精简数据,使机器学习算法能够处理它们。
第12章讲解了不断膨胀的数据规模,以及这为何会为数据分析造成难题。在本章中,我们利用多核或计算集群,探索了一些更大规模数据的处理方法。另外,我们还介绍了云计算(将亚马逊的Web服务当做云计算提供商)。
目录
第1章Python机器学习入门1
1.1梦之队:机器学习与Python1
1.2这本书将教给你什么(以及不会教什么)2
1.3遇到困难的时候怎么办3
1.4开始4
1.4.1NumPy、SciPy和Matplotlib简介4
1.4.2安装Python5
1.4.3使用NumPy和SciPy智能高效地处理数据5
1.4.4学习NumPy5
1.4.5学习SciPy9
1.5我们第一个(极小的)机器学习应用10
1.5.1读取数据10
1.5.2预处理和清洗数据11
1.5.3选择正确的模型和学习算法12
1.6小结20
第2章如何对真实样本分类22
2.1Iris数据集22
2.1.1第一步是可视化23
2.1.2构建第一个分类模型24
2.2构建更复杂的分类器28
2.3更复杂的数据集和更复杂的分类器29
2.3.1从Seeds数据集中学习29
2.3.2特征和特征工程30
2.3.3最邻近分类30
2.4二分类和多分类33
2.5小结34
3.1评估帖子的关联性35
3.1.1不应该怎样36
3.1.2应该怎样36
3.2预处理:用相近的公共词语个数来衡量相似性37
3.2.1将原始文本转化为词袋37
3.2.2统计词语38
3.2.3词语频次向量的归一化40
3.2.4删除不重要的词语41
3.2.5词干处理42
3.2.6停用词兴奋剂44
3.2.7我们的成果和目标45
3.3聚类46
3.3.1K均值46
3.3.2让测试数据评估我们的想法49
3.3.3对帖子聚类50
3.4解决我们最初的难题51
3.5调整参数54
3.6小结54
第4章主题模型55
4.1潜在狄利克雷分配(LDA)55
4.2在主题空间比较相似度59
4.3选择主题个数64
4.4小结65
第5章分类:检测劣质答案67
5.1路线图概述67
5.2学习如何区分出优秀的答案68
5.2.1调整样本68
5.2.2调整分类器68
5.3获取数据68
5.3.1将数据消减到可处理的程度69
5.3.2对属性进行预选择和处理70
5.3.3定义什么是优质答案71
5.4创建第一个分类器71
5.4.1从k邻近(kNN)算法开始71
5.4.2特征工程72
5.4.3训练分类器73
5.4.4评估分类器的性能74
5.4.5设计更多的特征74
5.5决定怎样提升效果77
5.5.1偏差方差及其折中77
5.5.2解决高偏差78
5.5.3解决高方差78
5.5.4高偏差或低偏差78
5.6采用逻辑回归81
5.6.1一点数学和一个小例子81
5.6.2在帖子分类问题上应用逻辑回归83
5.7观察正确率的背后:准确率和召回率84
5.8为分类器瘦身87
5.9出货88
5.10小结88
第6章分类II:情感分析89
6.1路线图概述89
6.2获取数据89
6.3朴素贝叶斯分类器介绍90
6.3.1了解贝叶斯定理90
6.3.2朴素91
6.3.3使用朴素贝叶斯进行分类92
6.3.4考虑未出现的词语和其他古怪情况94
6.3.5考虑算术下溢95
6.4创建第一个分类器并调优97
6.4.1先解决一个简单问题97
6.4.2使用所有的类99
6.4.3对分类器的参数进行调优101
6.5清洗推文104
6.6将词语类型考虑进去106
6.6.1确定词语的类型106
6.6.2用SentiWordNet成功地作弊108
6.6.3我们第一个估算器110
6.6.4把所有东西融合在一起111
6.7小结112
第7章回归:推荐113
7.1用回归预测房价113
7.1.1多维回归116
7.1.2回归里的交叉验证116
7.2惩罚式回归117
7.2.1L1和L2惩罚117
7.2.2在Scikit-learn中使用Lasso或弹性网118
7.3P大于N的情形119
7.3.1基于文本的例子120
7.3.2评分预测和推荐122
7.4小结126
第8章回归:改进的推荐127
8.1改进的推荐127
8.1.1使用二值推荐矩阵127
8.1.2审视电影的近邻129
8.1.3组合多种方法130
8.2购物篮分析132
8.2.1获取有用的预测133
8.2.2分析超市购物篮134
8.2.3关联规则挖掘136
8.2.4更多购物篮分析的高级话题137
8.3小结138
第9章分类III:音乐体裁分类139
9.1路线图概述139
9.2获取音乐数据139
9.3观察音乐140
9.4用FFT构建第一个分类器143
9.4.1增加实验敏捷性143
9.4.2训练分类器144
9.4.3在多分类问题中用混淆矩阵评估正确率144
9.4.4另一种方式评估分类器效果:受试者工作特征曲线(ROC)146