数据挖掘与机器学习全套教学课件.pptx|什么是数据挖掘算法_在线学习

数据挖掘课程介绍课程介绍数据挖掘的历史：数据分析历史悠久，我们一直使用数据帮助我们每一次信息的爆炸增长会带来巨大影响过往的数据如今的数据课程介绍数据挖掘课程：这是一门什么样的的课程？——介绍数据分析方法在这门课我们需要解决什么样的问题？我们要学习的工具课程目标数据挖掘课程目标：数据挖掘的基本理论数据挖掘的实现过程常用的数据挖掘的算法基于python的数据挖掘使用数据挖掘方向的比赛企业级的数据挖掘应用案例课程介绍教学计划：32+32=64，理论+实践为什么1：1课程地位专业方面：最重要的课程之一，承接着整个大数据专业我们学大数据是为了分析使用课程地位国家政策：《“十三五”国家信息化规划》两次提到大数据挖掘分析：大数据挖掘分析等关键技术和核心软硬件上取得突破2017年的《政府工作报告》：一方面要加快培育新材料、人工智能、集成电路、生物制药、第五代移动通信等新兴产业，另一方面要应用大数据、云计算、物联网等技术加快改造提

升传统产业，把发展智能制造作为主攻方向。数据挖掘技术背景行业发展：各大公司的基于机器学习的发展：谷歌，百度，阿里，腾讯，科大讯飞数据挖掘的课程要求先导知识：有一定的统计学基础有一定编程基础有一定的自学能力数据挖掘的课程要求考核考勤和教材：平时成绩+期末上机数据挖掘概念与技术数据挖掘导论课程总体提纲和学时安排章次各章标题名称讲授学时第一章数据挖掘概述3第二章pandas3第三章机器学习3第四章分类算法3第五章回归算法4第六章聚类算法3第七章集成学习3第八章推荐算法3第九章图像数据分析4第十章文本数据分析3第一章数据挖掘概论01数据时代02数据挖掘概念目录03数据挖掘的案例04数据挖掘的应用05习题1.1数据时代ONE

SECOND会有60张照片上传到网络ONE

MINUTE会有60小时视频上传到视频网站youtubeONE

FanAlphaGo

LeeAlphaGo

MasterAlphaGo

Zero1.2数据挖掘概念数据挖掘要做什么数据挖掘的两大基本目标是预测和描述数据其中预测的计算机建模及实现过程通常被称为：监督学习(supervised

learning)：从标记的训练数据来推断一个功能的机器学习任务。1.2数据挖掘概念数据挖掘要做什么数据挖掘的两大基本目标是预测和描述数据描述的则通常被称为：无监督学习(unsupervised

learning)：根据类别未知

c)计算公司的总销售额。d)按学生的标识号对学生数据库排序。

e)预测掷一对骰子的结果。f)使用历史记录预测某公司未来的股票价格。

g)监视病人心率的异常变化。h)监视地震活动的地震波。

i)提取声波的频率1.5习题a否。这是一个简单的数据查询。b否。这是一种会计计算、应用程序的门限值，然而预测盈利的新客户将是一种数据挖掘。c否。一个简单的数据查询。d否。一个简单的数据查询。e否。既然是公正的，这是一种概率的计算。F是。我们可以通过建立模型预测未来的持续价值的股票价格。G是。我们将构建一种类型为正常的心率和当异常心率的行为发生时报警。这将涉及数据挖掘的领域被称为异常检测。这也可以看作是一种分类的问题，比如我们例子中正常和不正常两种心率的行为。H是。在这种情况下，我们将构建模型的不同类型的地震活动。这一例子说明，在区域的数据挖掘已知分级。I否。这是信号处理。第二章Pandas目

录Pandas快速入门Pandas案例分析01022.1Pandas快速入门统计学统计学是关于认识客观现象总体数量特征和数量关系的科学统计学的一个案例：子弹中的统计学2.1Pandas快速入门大数据与统计学回想刚才例子，统计需基于大量的数据进行验证同样的，数据也可以基于统计进行分析2.1Pandas快速入门统计学在数据挖掘中的应用文本统计与文学作品鉴真文本统计设计到的指标词频率、平均句长、平均词长2.1Pandas快速入门统计学常用指标平均数百分比频率倍数2.1Pandas快速入门统计分析常用模块Pandas简介官网链接：/简介：Pandas是python的一个数据分析包，最初由AQRCapital

Management于2008年4月开发，并于2009年底开源出来，目前由专注于Python数据包开发的PyData开发

Series(range(4)）>>>ser2

Series(range(4),index

["a","b","c","d"])>>>sdata

{"Ohio":

35000,

"Texas":

71000,

"Oregon":16000,

"Utah":

5000}>>>ser3

Series(sdata)

注：传递的data是一个dict字典类型对象，并且传递了index参数，那么对应的值将从字典中取出。否则，index的值将由字典对象里的key值进行构造2.1Pandas快速入门Series的index和values>>>ser2.index>>>ser2.values>>>ser2[["a","c"]]2.1Pandas快速入门数据结构Series的读写下标访问和切片>>>a

pd.Series([11,

22,

33,

44,

55])>>>a[1:3]>>>a[1]=22.1Pandas快速入门数据结构Series的运算

Series间的计算>>>a

pd.Series([1,

4])>>>b

2])>>>print(a

b)>>>print(a

2)>>>print(a

3)>>>print(a[a

3])2.1Pandas快速入门数据结构Series的运算

Series函数的使用>>>a

5])平均值>>>print(a.mean())练习：了解一下Series还有哪些函数吧2.1Pandas快速入门数据结构DataFrameDataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔值等）DataFrame既有行索引也有列索引，它可以被看做由Series组成的字典（共用同一个索引）2.1Pandas快速入门几方面来了解DataFrame创建索引apply方法算术运算缺失值处理2.1Pandas快速入门数据结构DataFrame的创建二维的ndarray>>>import

pandas

pd>>>df1=pd.DataFrame(np.arange(9).reshape(3,3),columns=list("bcd"),index=["b","s","g"])2.1Pandas快速入门数据结构DataFrame的创建外部导入>>>import

pd>>>df

pd.read_csv("./data/titanic.csv")2.1Pandas快速入门数据结构DataFrame的创建字典导入>>>import

pd>>>data

{"country":["aaa","bbb","ccc"],"population":[10,12,14]}>>>df_data

pd.DataFrame(data)2.1Pandas快速入门数据结构DataFrame的创建使用Series导入>>>d

{"one"

pd.Series([1.,

2.,

3.],

index=["a",

"b",

"c"]),"two":

3.,

4.],

"c",

"d"])}>>>df

pd.DataFrame(d)>>>pd.DataFrame(d,

index=["d",

"a"])2.1Pandas快速入门数据结构DataFrame的创建2.1Pandas快速入门数据结构DataFrame的查看>>>df.head(6)>>>()>>>df.index>>>df.columns>>>df.dtypes>>>df.values2.1Pandas快速入门数据结构的索引对象pandas的索引对象负责管理轴标签和其他元数据（比如轴名称等）。构建Series或DataFrame时，所用到的任何数组或其他序列的标签都可以被转换成一个Index。指定索引>>>df

df.set_index("Name")2.1Pandas快速入门数据结构的索引对象pandas中主要的index对象2.1Pandas快速入门数据结构的索引对象Index的方法和属性I2.1Pandas快速入门数据结构的索引对象Index的方法和属性II2.1Pandas快速入门索引操作loc用label来去定位，iloc用position来去定位>>>df.iloc[0:5,1:3]>>>df

df.set_index("Name")>>>df.loc["Heikkinen,

Miss.

Laina"]>>>df.loc["Heikkinen,

Laina":"Allen,

Mr.

William

Henry"]2.1Pandas快速入门重新索引创建一个适应新索引的新对象，该Series的reindex将会根据新索引进行重排。如果某个索引值当前不存在，就引入缺失值2.1Pandas快速入门重新索引reindex函数的参数2.1Pandas快速入门重新索引

reindex操作>>>s1

pd.Series(["a","b","c","d","e"],index=[2,1,3,5,4])>>>s2

s1.reindex([1,2,3,4,5,6],fill_value=0)>>>s3

s2.reindex(range(10),method="bfill")2.1Pandas快速入门groupby操作>>>df

pd.DataFrame({"key":["A","B","C","A","B","C","A","B","C"],"data":[0,5,10,5,10,15,10,15,20]})>>>df.groupby("key").sum()>>>df

pd.read_csv("./data/titanic.csv")>>>df.groupby("Sex")["Age"].mean()2.1Pandas快速入门函数应用和映射DataFrame的apply方法（index）对象的applymap方法（因为Series有一个应用于元素级的

map方法）2.1Pandas快速入门DataFrame的apply方法>>>def

plus(df,n):>>>

df["c"]

(df["a"]+df["b"])>>>

df["d"]

(df["a"]+df["b"])

n>>>

return

df>>>list1

[[1,3],[7,8],[4,5]]>>>df1

pd.DataFrame(list1,columns=["a","b"])>>>df1

df1.apply(plus,axis=1,args=(2,))>>>print(df1)2.1Pandas快速入门DataFrame的applymap方法对象的applymap方法（因为Series有一个应用于元素级的map方法）apply对一个列进行整体运算applymap对一个DataFrame中的每个元素进行转换map对一个Series中的每个元素进行转换2.1Pandas快速入门排序和排名对行或列索引进行排序对于DataFrame，根据任意一个轴上的索引进行排序可以指定升序降序按值排序对于DataFrame，可以指定按值排序的列rank函数2.1Pandas快速入门排序和排名>>>df

pd.DataFrame([1,

5],

index=[10,

52,

24,158,

112],

columns=["S"])>>>df.sort_index(inplace=True)对于DataFrame，可以指定按值排序的列>>>frame

pd.DataFrame({"b":[4,

-3,

2],

"a":[0,

1]})>>>frame.sort_values(by="b")2.1Pandas快速入门算术运算对不同的索引对象进行算术运算对齐操作会同时发生在行和列上，把2个对象相加会得到一个新的对象，其索引为原来2个对象的索引的并集：>>>df1

=pd.DataFrame(np.arange(9).reshape(3,3),columns=list("bcd"),index=["b","s","g"])2.1Pandas快速入门算术运算>>>df2

=pd.DataFrame(np.arange(12).reshape(4,3),columns=list("cde"),index=["b","s","g","t"])>>>df1+df2>>>df3

df1.add(df2,fill_value="0")2.1Pandas快速入门汇总和计算描述统计常用描述和汇总统计函数2.1Pandas快速入门汇总和计算描述统计唯一值以及成员资格2.1Pandas快速入门缺失数据处理NaN（Not

Number）表示浮点数和非浮点数组中的缺失数据None也被当作NAN处理2.1Pandas快速入门处理缺失数据滤除缺失数据方法dropna()drop()how参数控制行为，axis参数选择轴，thresh参数控制留下的数量2.1Pandas快速入门处理缺失数据滤除缺失数据>>>ser

pd.Series([4.5,7.2,-5.3,3.6],

index=["d","b","a","c"])>>>ser.drop("c")>>>from

numpy

import

NaN>>>se1=pd.Series([4,NaN,8,NaN,5])>>>se1.dropna()>>>se1[se1.notnull()]2.1Pandas快速入门处理缺失数据滤除缺失数据>>>df

DataFrame(np.arange(9).reshape(3,3),

index=["a","c","d"],columns=["oh","te","ca"])>>>df.drop("a")>>>df.drop(["oh","te"],axis=1)>>>df1=pd.DataFrame([[1,2,3],[NaN,NaN,2],[NaN,NaN,NaN],[8,8,NaN]])>>>df1.dropna()>>>df1.dropna(how="all")2.1Pandas快速入门处理缺失数据填充缺失数据fillnainplace参数控制返回新对象还是就地修改2.1Pandas快速入门处理缺失数据填充缺失数据>>>from

nan

NaN>>>df1=pd.DataFrame([[1,2,3],[NaN,NaN,2],[NaN,NaN,NaN],[8,8,NaN]])>>>df1.fillna(100)>>>df1.fillna({0:10,1:20,2:30})传入inplace=True直接修改原对象>>>df1.fillna(0,inplace=True)2.1Pandas快速入门处理缺失数据填充缺失数据>>>df2=pd.DataFrame(np.random.randint(0,10,(5,5)))>>>df2.iloc[1:4,3]=NaN>>>df2.iloc[2:4,4]=NaN>>>df2.fillna(method="ffill")#用前面的值来填充>>>df2.fillna(method="bfill",limit=2)#传入limit=”“限制填充个数：>>>df2.fillna(method="ffill",limit=1,axis=1)#传入axis=”“修改填充方向：2.2Pandas案例分析自行车数据分析假设我们现在有些自行车行驶数据，看看我们能Pandas分析出一些什么吧。2.2Pandas案例分析自行车数据分析

#导入Pandas>>>import

pd#准备画图环境>>>import

matplotlib.pyplot

plt>>>pd.set_option("display.mpl_style",

"default")>>>plt.rcParams["figure.figsize"]

(15,

5)2.2Pandas案例分析自行车数据分析使用read_csv函数读取csv文件读取一组自行车骑行数据,得到一个DataFrame对象2.2Pandas案例分析自行车数据分析#使用latin1编码读入，默认的utf-8编码不适合>>>broken_df=pd.read_csv("bikes.csv",encoding="latin1")#查看表格的前三行>>>broken_df[:3]#查看原始文件的前五行

head-n

bikes.csv2.2Pandas案例分析行车数据分析修复读入问题使用;作为分隔符解析Date列（首列）的日期文本设置日期文本格式,使用日期列作为索引2.2Pandas案例分析行车数据分析>>>fixed_df

pd.read_csv("bikes.csv",

encoding="latin1",sep=";",

parse_dates=["Date"],dayfirst=True,

index_col="Date")2.2Pandas案例分析行车数据分析每列对应一条自行车道，每行对应一天的数据从DataFrame中选择一列读取csv文件所得结果是一个DataFrame对象DataFrame对象以表格方式存储数据使用类似于字典（dict）访问的语法，选择其中的一列>>>fixed_df["Berri

1"]2.2Pandas案例分析行车数据分析将所选择的列绘成图，可以直观地看出骑行人数的变化趋势。>>>fixed_df["Berri

1"].plot()2.2Pandas案例分析行车数据分析绘制所有的列（自行车道），可以看到，每条车道的变化趋势都是类似的。>>>fixed_df.plot(figsize=(15,

10))2.2Pandas案例分析行车数据分析我很好奇我们是一个更通勤的城市还是骑自行车去娱乐城——人们是在周末还是在平日骑自行车？2.2Pandas案例分析行车数据分析在我们的数据结构dataframe中添加一个“工作日”列，下一步，我们查看贝里自行车路径数据。贝里是蒙特利尔的一条街道，一条非常重要的自行车道。因此，我们将创建一个数据框只考虑ka贝里BiKePath。>>>berri_bikes

fixed_df[["Berri

berri_bikes.index.weekday>>>berri_bikes[:5]2.2Pandas案例分析行车数据分析接下来我们就可以把普通日作为一个统计日进行骑行人数的统计了，而这在Pandas中实现也非常简单，Dataframes中存在一个

groupby()方法，而实现的语句是，weekday_counts=

berri_bikes.groupby("weekday").aggregate(sum)，语句的目的是把Berri车道数据按照相同普通日的标准进行分组并累加。2.2Pandas案例分析行车数据分析>>>weekday_counts

=berri_bikes.groupby("weekday").aggregate(sum)>>>weekday_counts2.2Pandas案例分析行车数据分析这时候我们会发现通过0，1，2，3，4，5，6这样的数字很难记住其相对应的日子，我们可以通过以下方法修改：>>>weekday_counts.index

["Monday",

"Tuesday","Wednesday",

"Thursday",

"Friday",

"Saturday",

"Sunday"]>>>weekday_counts2.2Pandas案例分析行车数据分析通过直方图看看统计情况：>>>weekday_counts.plot(kind="bar")通过结果我们发现Montrealers似乎是一个喜欢使用自行车作为通勤工具的城市--人们在工作日也大量的使用自行车。第三章数据挖掘与机器学习目

train_y,

test_x,

test_y

getData()model1

somemodel()model.fit(train_x,train_y)predictions

model.predict(test_x)score

=score_function(test_y,

predictions)joblib.dump(knn,

"filename.pkl")数据挖掘与机器学习第一步使用sklearn导入数据模块自带数据集，参考

/cn/0.19.0/datasets/in

dex.html#datasets了解sklearn自带的数据集有那些，数据集有哪些属性数据挖掘与机器学习第一步使用sklearn导入数据#导入数据集模块>>>from

sklearn

datasets#分别加载iris和digits数据集>>>

iris

datasets.load_iris()>>>

digits

datasets.load_digits()数据挖掘与机器学习第一步使用sklearn导入数据#使用.data()和.target()方法熟悉导入的数据结构>>>

print(iris.data)>>>

print(iris.target)数据挖掘与机器学习使用sklearn分割数据机器学习是从数据的属性中学习经验，并将它们应用到新数据的过程。这就是为什么机器学习中评估算法的普遍实践是把数据分割成训练集（我们从中学习数据的属性）和测试集（我们测试这些性质）数据挖掘与机器学习使用sklearn分割数据测试的数据从何而来：数据挖掘与机器学习使用sklearn分割数据>>>

from

sklearn.model_selection

importtrain_test_split>>>X_train,X_test,y_train,y_test=train_test_split(iris.data,iris.target,test_size=0.4,random_state=0)数据挖掘与机器学习第二步使用sklearn模型的选择学会加载模型，对于不同类型的数据选择不同的方法（既模型）进行学习，关于各种不同的机器学习模型区别，我们会在下一章节讨论数据挖掘与机器学习第二步使用sklearn模型的选择>>>from

svm>>>svc

svm.SVC()数据挖掘与机器学习第三步使用sklearn模型的训练训练：我们使用scikit-learn模块实现机器学习训练，此处我们利用了训练数据集训练了“transformer”模型，向fit()方法提供输入训练数据集后即可训练模型数据挖掘与机器学习第三步使用sklearn模型的训练>>>svc.fit(X_train,

y_train)数据挖掘与机器学习第四步使用sklearn进行模型的预测预测：预测既使用模型来预测未知的数据，上一步中我们的模型训练完成，我们就可以使用我们的模型进行预测了，快看看效果如何吧数据挖掘与机器学习第四步使用sklearn进行模型预测>>>print(svc.predict([[5.84,4.4,6.9,2.5]]))数据挖掘与机器学习第五步机器学习评测的指标通常从算法类型选择指标：分类指标回归指标聚类指标数据挖掘与机器学习第五步机器学习评测的指标分类常用的指标：准确率(accuracy):对于给定的测试数据集，分类器正确分类的样本数与总样本数之比AUC数据挖掘与机器学习第五步机器学习评测的指标回归常用的指标：均方误差（mean_squared_error）：是反映估计量与被估计量之间差异程度的一种度量方均根差RMSE(Root

Mean

Square

Error)数据挖掘与机器学习第五步机器学习评测的指标机器学习库sklearn中，我们使用metrics方法实现：>>>

np>>>

sklearn.metrics

accuracy_score>>>

y_pred

[0,

3]>>>

y_true

accuracy_score(y_true,

y_pred)数据挖掘与机器学习第五步机器学习评测方法：交叉验证(Cross

validation)为什么要使用交叉验证？将原始数据分成K个子集（一般是均分），将每个子集数据分别做一次测试集（testing

test)，其余的K-1组子集数据作为训练集（trainning

test)，这样会得到K个模型，用这K个模型最终的验证集的分类指标的平均数作为此K-CV下分类器的性能指标数据挖掘与机器学习第五步机器学习评测方法：交叉验证(Cross

validation)K一般大于等于2，实际操作时一般从3开始取。交叉验证重复k次，每次选择一个子集作为测试集，并将k次的平均交叉验证识别正确率作为结果。优点：所有的样本都被作为了训练集和测试集，每个样本都被验证一次。10-folder通常被使用。数据挖掘与机器学习第五步机器学习评测方法：交叉验证(Cross

validation)数据挖掘与机器学习第五步机器学习评测方法：交叉验证(Cross

validation)机器学习库sklearn中，我们使用cross_val_score方法实现：>>>from

importcross_val_score>>>scores

cross_val_score(knn,

iris.data,iris.target,

cv=5)了解scoring参数及

/cn/0.19.0/modules/mo

sklearn.externals

joblib>>>joblib.dump(knn,

"filename.pkl")>>>knn1=joblib.load("filename.pkl")#测试读取后的Model>>>print(knn1.score(X_test,

y_test))数据挖掘与机器学习复习:机器学习框架数据挖掘与机器学习机器学习存在的问题过拟合过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是机器学习设计中的一个核心任务。数据挖掘与机器学习拟合问题的原因1.使用的模型比较复杂，学习能力过强2.有噪声存在3.数据量有限过拟合：做的太过好以至于偏离了原本，泛化能力差欠拟合：泛化能力强，但过于泛化数据挖掘与机器学习拟合问题的解决寻找参数的最优：超参数优化器使用sklearn中的学习曲线数据挖掘与机器学习拟合问题的解决寻找参数的最优：超参数优化器数据挖掘与机器学习拟合问题的解决>>>train_loss,test_loss=validation_curve(SVC(),X,y,param_name="gamma",param_range=param_range,cv=10,

scoring="mean_squared_error")>>>train_loss_mean=-np.mean(train_loss,axis=1)>>>test_loss_mean=-np.mean(test_loss,axis=1)数据挖掘与机器学习拟合问题的解决第四章分类算法目

录分类算法概述概率模型朴素贝叶斯算法向量空间模型01020304目

录K邻近分类器0506多问题的分类分类算法的概述0

1引言机器学习算法的最普通类型是什么监督学习算法-就是我们教计算机如何做事情无监督学习算法-在非监督学习中，我们将让计算机自己学习引言监督学习可分为分类回归引言监督学习可分为两类什么样的数据适合分类算法？考虑案例中的数据类型查看sklearn中数据集的数据结构回顾第3章介绍的鸢尾花卉数据集呢？“教”是什么意思？一个关于分类学习的例子我们来看一个问题当我们获得一些关于肿瘤的医疗数据，我们怎么让机器判断肿瘤是良性的还是恶性的呢引言引言引言例子实现了什么？指我们给算法一个数据集，并且给定正确答案在分类学习中，数据集中的每个数据，算法都知道数据的“正确答案”算法将算出更多新的结果如瘤是恶性的还是良性的引言引言分类方法的定义分类分析的是根据已知类别的训练集数据，建立分类模型，并利用该分类模型预测未知类别数据对象所属的类别。引言分类方法的应用模式识别（Pattern

Recognition），就是通过计算机用数学技术方法来研究模式的自动处理和判读。模式识别的目标往往是识别，即分析出待测试的样本所属的模式类别引言分类方法的应用预测，从利用历史数据记录中自动推导出对给定数据的推广描述，从而能对未来数据进行类预测现实应用案例用行为分析物品识别、图像检测电子邮件的分类（垃圾邮件和非垃圾邮件等）新闻稿件的分类、手写数字识别、个性化营销中的客户群分类、图像/视频的场景分类等引言引言分类器分类的实现方法是创建一个分类器（分类函数或模型），该分类器能把待分类的数据映射到给定的类别中。创建分类的过程与机器学习的一般过程一致引言分类器的构建回顾构建一个机器学习框架的基本步骤：（1）数据的加载。（2）选择模型。（3）模型的训练。（4）模型的预测。（5）模型的评测。（6）模型的保存。引言训练数据集分类算法IF

rank

‘professor’OR

years

6THEN

tenured

‘yes’分类规则分类器的构建图示引言分类规则测试集未知数据(Jeff,

Professor,

如果训练样本集数量充分大时，并不会对结果产生影响，并且解决了上述频率为0的尴尬局面概率模型高斯和多项式朴素贝叶斯数据集类型的不同，数据的分布也不同什么样的数据适合使用高斯？什么样的数据适合使用多项式贝叶斯？了解多项式分布和高斯分布朴素贝叶斯算法朴素贝叶斯案例加载数据from

datasetsiris

datasets.load_iris()导入模型>>>

sklearn.naive_bayes

GaussianNB>>>

gnb

GaussianNB()朴素贝叶斯算法朴素贝叶斯案例训练模型+预测数据y_pred

gnb.fit(iris.data,

iris.target).predict(iris.data)输出print("Number

mislabeled

points

out

total

%d"%

(iris.data.shape[0],(iris.target

y_pred).sum()))向量空间模型向量空间模型空间中具有大小和方向的量叫做空间向量我们可以想象我们我们所分析的数据的每一个属性视为一个向量维度，我们输入的数据其实是某个高维向量空间中的一个点向量空间模型向量空间模型很多基于向量空间的分类器在分类决策时用到距离的概念。空间距离计算方法：欧氏距离（Euclidean

distance）向量空间模型向量空间模型在二维和三维空间中的欧式距离的就是两点之间的距离，二维的公式是d

sqrt((x1-x2)^2+(y1-y2)^2)向量空间模型向量空间模型三维的公式是d=sqrt(x1-x2)^2+(y1-y2)^2+(z1-z2)^2)推广到n维空间向量空间模型向量空间模型进行分类空间向量如何进行分类？在向量空间的分类中，我们必须要做的工作是定义类别之间的边界，从而得到分类的结果KNN算法KNN分类器算法K近邻（K

Nearest

datasets.load_iris()导入模型>>>from

sklearn.neighbors

KNeighborsClassifier>>>

knn

KNeighborsClassifier()多类问题的分类多类分类和多标签分类多类分类指一个样本属于且只属于多个类中的一个，一个样本只能属于一个类，不同类之间是互斥的多标签分类(multilabel

classification)又称，多标签学习、多标记学习，不同于多类分类，一个样本可以属于多个类别（或标签），不同类之间是有关联的。多类问题的分类多类分类直接使用能直接处理多类问题的分类器多类问题的分类多标签分类多标签分类实现，将多标记学习问题转化为“标记排序(labelranking)问题求解，既对所有类别排序然后选出排名最高的类多类问题的分类多标签分类器一种方法是，我们可以使用一个直接的置信度指标来对类别排序，比如，类别归属的概率第五章无监督学习目

录概述聚类中的数据结构基于划分的聚类方法层次聚类方法01020304目

preprocessing>>>

X_train

np.array([[

1.,

-1.,

2.],...[

0.,

0.],...[

-1.]])>>>

X_scaled

preprocessing.scale(X_train)聚类数据结构二元变量一个二元变量只有两种状态：0或1；能否通过距离计算两个二元变量之间的相似度？可以使用Jaccard系数评估它们的相似度聚类数据结构二元变量i：[0,0,1,0,1]j：[1,0,1,1,0]那么有q=1，r=1，s=2，则Object

iObject

j基于划分的聚类主要聚类方式基于划分的方法基于层次的方法基于密度的方法基于划分的聚类基于划分的方法划分方法(Partitioning

method):将数据集中的数据对象分配到n个簇中，并且通过设定目标函数来驱使算法趋向于目标每个组至少包含一个对象每个对象必须属于且只属于一个组基于划分的聚类k-means聚类方式K-Means（K均值）算法是划分聚类算法中的一种，其中K表示簇的数量，means表示均值。算法通过预先设定的K值及每个簇的初始质心对相似的数据点进行划分。并通过划分后的均值迭代优化获得最优的聚类结果基于划分的聚类k-means聚类方式K-Means算法的伪代码如下：1.从D中任意选择k个对象作为初始簇的质心2.Repeat3.

根据簇质心的值，将每个数据分配到最相似的簇4.

计算簇均值，更新簇质心值5.until簇中心不在发生变化基于划分的聚类k-means聚类方式关键词：K表示簇的数量，means表示均值，初始质心，划分，迭代质点系质量分布的平均位置，是最能代表一个簇的点算法的目标是什么？质心为什么需要改变？基于划分的聚类质心对样本的代表函数一个衡量质心对簇样本的代表程度的指标是RSS

（ResidualSum

means-clustering/基于划分的聚类k-means聚类方式算法会得到我们想要的结果吗？质心会趋于稳定吗？基于划分的聚类k-means的结束第一，在每次数据的重分配过程中，每个向量都分配给最近的质心，此时它对RSS计算的距离贡献值也会减小，因此RSS会单调减少第二，在簇中心重计算过程中，由于新的质量向量使得每个RSS

k达到最小值因此，此时RSS也会单调递减基于划分的聚类k-means的结束当迭代一个固定次数后停止当RSS低于某个阈值低于某个阈值时停止当质心不再改变后停止基于划分的聚类k-means的问题k-means算法是一个比较容易理解的算法但是却也存在以下问题基于划分的聚类初始值对k-means聚类影响基于划分的聚类k-means初始值选择将全部数据随机地分为C簇，计算各个簇的质心，将这些质心作为每簇的初始点从(c-1)聚类划分问题的解中产生C聚类划分问题的代表点。其具体做法是先从一类聚类的解找两聚类划分的代表点，再依次增加一个聚类代表点。对样本集首先看作一个聚类，计算其总均值，然后找与该均值相距最远的点基于划分的聚类k值对k-means聚类影响基于划分的聚类k-means算法k值选择依据实际业务来选择从层次聚类中选择参考K均值算法K均值算法运行注意问题数据集如果有以下不同的簇类型，kmeans效果会不佳：簇大小相差大簇密度相差大非球型形状数据如果存在离群点，kmeans会很受影响，因为使用算数平均来选取类中心K均值算法簇大小相差大原始kmeans聚3类K均值算法簇密度相差大原始kmeans聚3类K均值算法非球型形状原始kmeans聚2类K均值算法sklearn调用演示>>>

sklearn.cluster

KMeans>>>

np.array([[1,

[1,

4],

0],...

[4,

0]])>>>

kmeans

=KMeans(n_clusters=2,random_state=0).fit(X)>>>

kmeans.labels_>>>

kmeans.predict([[0,

0],

4]])>>>

kmeans.cluster_centers_层次聚类引入层次聚类基于划分聚类具有概念简单、速度快的优点，但是同时也有很多缺点：它们需要预先定义簇的数目层次聚类层次聚类层次聚类（hierarchical

clustering）是指对与给定的数据集对象，我们通过层次聚类算法获得一个具有层次结构的数据集合子集结合的过程层次聚类分为两种：自底向上的凝聚法以及自顶向下的分裂法层次聚类凝聚层次聚类凝聚法指的是初始时将每个样本点当做一个簇，所以原始簇的数量等于样本点的个数，然后依据某种准则合并这些初始的簇，直到达到某种条件或者达到设定的簇的数目某种准则可以是相似度层次聚类分裂层次聚类分裂法指的是初始时将所有的样本归为一个簇，然后依据某种准则进行逐渐的分裂，直到达到某种条件或者达到设定的簇的数目层次聚类凝聚层次聚类伪代码基本算法流程计算各数据间的相似度矩阵每个数据就是一个簇Repeat合并两个最相似的簇形成新簇更新相似度矩阵Until只剩一个类簇层次聚类层次聚类运行过程层次聚类不需要事先指定簇的数目，设定层次树高度就可以达到任意选择簇数量的目的层次聚类层次聚类问题簇之间的相似度如何计算呢，即跟新相似度矩阵？常用的策略层次聚类：如何定义簇之间的距离簇间相似度MIN(单连接)MAX(全连接)Group

Average(组平均)Distance

Between

Centroids(质心距离)Similarity层次聚类：如何定义簇之间的距离簇间相似度MIN(单连接)：单链接的计算方法是将两个簇的数据点中距离最近的两个数据点间的距离作为这两个簇的距离层次聚类：如何定义簇之间的距离单链接的运算过程MIN(单连接)：单链接的计算方法是将两个簇的数据

THE END

数据挖掘与机器学习全套教学课件.pptx

数据挖掘的定义

数据挖掘的10大算法我用大白话讲清楚了，新手一看就懂贝叶斯em基尼

数据挖掘中的10大算法dy9776

大数据入门的四个必备常识互联网数据资讯网199IT中文互联网数据研究资讯中心

数据挖掘的定义及算法今日头条

数据挖掘原理与算法课程学习(2)Junn9527

数据挖掘最常见的十种方法

数据挖掘的十大经典算法

C#线性回归算法的实现，只需采集少量数据点，即可拟合整个数据集

数据挖掘与机器学习全套教学课件.pptx