机器学习与数据挖掘期末考试复习重点整理库妍

–有类别标记信息,因此是一种监督学习

–根据训练样本获得分类器,然后把每个数据归结到某个已知的类,进而也可以预测未来数据的归类。

聚类:

–无类别标记,因此是一种无监督学习

–无类别标记样本,根据信息相似度原则进行聚类,通过聚类,人们能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间的关系

聚类方法:

划分方法-(分割类型)

K-均值K-Means

顺序领导者方法

基于模型的方法

基于密度的方法

层次方法(HierarchicalMethods)

K-means思想:

确定K的值;

随机选择K个样本点,每个样本点初始地代表一个类的平均值或簇中心;

对剩余每个数据样本点,根据其到类中心的距离,被划分到最近的类;

重新计算每个簇的平均值来更新每个簇中心;

重复这个过程,直到所有样本都不能再分配为止;

返回K中心。

K-means优点:

1、简单,适用于常规不相交的簇。

2、假设数据是呈球形分布,实际任务中很少有这种情况

3、收敛相对较快。

4、相对有效和可扩展O(t·k·n)

t:迭代;k:中心数;n:数据点数

K-means缺陷

1、需要提前指定K的值。

很难确定,关于数据集的先验知识(如数据集可以分成多少个部分)可能会有所帮助。

2、可能会收敛到局部最优点。

在实践中,尝试不同的初始中心点,从中挑选最好的结果。

3、可能对噪声数据和异常值敏感。

因为簇的中心是取平均,因此聚类簇很远的地方的噪声会导致簇的中心点偏移(这表明均值并不是一种稳健的统计量)

在k-means聚类前,通过预处理移除噪声点往往非常有用

聚类后,对聚类结果进行一些后处理效果也很好,如删除过小的聚簇,或将彼此接近的一些聚簇合并成一个更大的聚簇

4、不适合非凸不规则形状的簇,K均值很难处理非球状的簇和不同大小的簇。

DBSCAN基于密度优缺点:

1、因为DBSCAN是基于密度定义的,抗噪声能力强,并且能够处理任意形状和大小的簇。即能发现使用K均值所不能发现的簇。但是当簇密度变化太大时,可能会出现问题。

2、对于高维数据,其密度定义困难。K均值可以用于稀疏的高维数据。

3、当近邻计算需要计算所有点对的邻近度时,DBSCAN的开销很大。

高斯混合模型与k-means:

共同点:

1、可用于聚类的算法

2、都需要指定k的值

3、都需要使用EM算法求解

4、往往只能收敛于局部最优

GMM比k-means的优点是:

1、可以给出一个样本属于一类的概率是多少,而不是绝对的属于哪一类

2、可以用于生成新的样本点

场景如下:

假设原样本有两类,True和False,其中:

1.总共有T个类别为True的样本;

2.总共有F个类别为False的样本;

分类预测后:

1.总共有TT个类别为True的样本被系统判为True,FT个类别为True的样本被系统判为False,则TT+FT=T

2.总共有FF个类别为False的样本被系统判为False,TF个类别为False的样本被系统判为True,则FF+TF=F

l指标计算:

l精确度=TT/(TT+TF)--判断正样本中真正正样本的比例

l准确率=(TT+FF)/(T+F)--判断正确的比重

l召回率=TT/(TT+FT)--正确判断正例的比重

l漏报率=FT/(TT+FT)--多少个正例被漏判了

l虚警率=TF/(TT+TF)--反映被判为正例样本中,有多少个是负例

前向传播-在前馈神经网络中

从输入x到输出y,信息通过网络前向传播

在训练阶段,前向传播可以继续向前,直到它产生标量代价函数C(θ)

反向传播

允许来自代价函数的信息然后通过网络反向流动,以便计算梯度

可以被应用到任何函数

p卷积:图像中不同数据窗口的数据和卷积核(一个滤波矩阵)作内积

的操作叫做卷积。其计算过程又称为滤波(filter),本质是提取图像

不同频段的特征。

程度取决于卷积核的大小。本质就是比较图像邻近像素的相似性。所

以原图像与卷积核的卷积,其实对频域信息进行选择。比如,图像中

的边缘和轮廓属于是高频信息,图像中某区域强度的综合考量属于低

频信息

K-NN

n对未知记录分类:

n计算与各训练记录的距离

n找出k个最近邻

n使用最近邻的类标号决定未知记录的类标号(例如,多数表决)

有那么一堆你已经知道分类的数据,然后当一个新数据进入的时候,就开始跟训练数据里的每个点求距离,然后挑离这个训练数据最近的K个点看看这几个点属于什么类型,然后用少数服从多数的原则,给新数据归类。

k-NN的特点

n1、是一种基于实例的学习

n需要一个邻近性度量来确定实例间的相似性或距离

n2、不需要建立模型,但分类一个测试样例开销很大

n需要计算域所有训练实例之间的距离

n3、基于局部信息进行预测,对噪声非常敏感

n4、最近邻分类器可以生成任意形状的决策边界

n决策树和基于规则的分类器通常是直线决策边界

n5、需要适当的邻近性度量和数据预处理

n防止邻近性度量被某个属性左右

直接方法:顺序覆盖或序贯覆盖(sequentialcovering)

n在训练集上每学到一条规则,就将该规则覆盖的训练样例去除,然后以剩下

的训练样例组成训练集,重复上述过程

SVM

SVM是一种二类分类模型。它的基本模型是在特征空间中寻找间隔最大化的分离超平面的线性分类器。

当训练样本线性可分时,通过硬间隔最大化,学习一个线性分类器,即线性可分支持向量机;

当训练数据近似线性可分时,引入松弛变量,通过软间隔最大化,学习一个线性分类器,即线性支持向量机;

当训练数据线性不可分时,通过使用核技巧及软间隔最大化,学习非线性支持向量机。

当样本在原始空间线性不可分时,可将样本空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分。而引入这样的映射后,所要求解的对偶问题的求解中,无需求解真正的映射函数,而只需要知道核函数。核函数的定义:K(x,y)=φ(x)·φ(y),即在特征空间的内积等于它们在原始样本空间中通过核函数K计算的结果。一方面数据变成了高维空间中线性可分的数据,另一方面不需要求解具体的映射函数,只需要给定具体的核函数即可,这样使得求解的难度大大降低。

维灾难(curseofdimensionality)

随着数据维度的增加,许多数据分析变得非常困难。特殊地,随着维度增加,数据在它所占据的空间中越来越稀疏

对于分类,这可能意味没有足够的数据对象来创建模型

对于聚类,点之间的密度和距离的定义(对聚类是至关重要的)变得不太有意义

结果:对于高维数据,许多分类和聚类算法(以及其他数据分析算法)都有麻烦——分类准确率降低,聚类质量下降

维归约目的

1、避免维灾难

3、使数据更容易可视化

PCA是无监督学习,不考虑标记信息

目标是找到捕获数据中最大变化的投影

目的:数据降维、去噪,提取最有价值的信息(基于方差)

思想:将原始的高维(如维度为N)数据向一个较低维度(如维度为K)的空间投影,同时使得数据之间的区分度变大(找一个最好的轴,它的方差越大,使数据能分的越开)。这K维空间的每一个维度的基向量(坐标)就是一个主成分

把数据变换到一组新的基上,得到了新的特征的表达

问题:如何找到这K个主成分

思路:使用方差信息,若在一个方向上发现数据分布的方差越大,则说明该投影方向越能体现数据中的主要信息。该投影方向即应当是一个主成分

LDA的目标是在保留尽可能多的类区分信息的同时进行降维.

PCA,它所作的只是将整组数据整体映射到最方便表示这组数据的坐标轴上,映射时没有利用任何数据内部的分类信息。因此,虽然做了PCA后,整组数据在表示上更加方便(降低了维数并将信息损失降到最低),但在分类上也许会变得更加困难;LDA,在增加了分类信息之后,两组输入映射到了另外一个坐标轴上,有了这样一个映射,两组数据之间的就变得更易区分了(在低维上就可以区分,减少了很大的运算量)。

所以PCA和LDA虽然都用到数据降维的思想,但是监督方式不一样,目的也不一样。PCA是为了去除原始数据集中冗余的维度,让投影子空间的各个维度的方差尽可能大,也就是熵尽可能大。LDA是通过数据降维找到那些具有discriminative的维度,使得原始数据在这些维度上的投影,不同类别尽可能区分开来。

LDA的原理是,将带上标签的数据(点),通过投影的方法,投影到维度更低的空间中,使得投影后的点,会形成按类别区分,一簇一簇的情况,相同类别的点,将会在投影后的空间中更接近。

决策树的生成由两个阶段组成

决策树构建

开始时,所有的训练样本都在根节点

递归的通过选定的属性,来划分样本(必须是离散值)

树剪枝

许多分枝反映的是训练数据中的噪声和孤立点,树剪枝试图检

测和剪去这种分枝,防止过拟合。因为在决策树学习中,为了尽可能正确的分类训练样本,结点划分过程将不断重复,有时会造成决策树分枝过多,,训练数据拟合的太好,训练样本把自身的一些特点当做所有数据都有的一般性质而导致过拟合。

当决策树很小时,训练和检验误差都很大,这种情况称为模型拟合不足。出

现拟合不足的原因是模型尚未学习到数据的真实结构。

随着决策树中结点数的增加,模型的训练误差和检验误差都会随之下降。

当树的规模变得太大时,即使训练误差还在继续降低,但是检验误差开始增

大,导致模型过分拟合

ID3使用信息增益,它偏向于取值数目较多的属性

C4.5对连续属性离散化,算法产生的分类规则易于理解,准确率高

但效率低,因为构造过程中许多次对数据集进行顺序扫描和排序

克服了ID3的不足,在树构造过程中进行剪枝

CART生成的决策树分支较大,规模大

我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”越来越高。Ent(D)越小,则D的纯度越高。

信息增益越大,则意味着使用属性a来进行划分所获得的纯度提升越大

基尼指数Gini(D)反映了从数据集D中随机抽取两个样本,其类别标记不一致的概率,因此Gini(D)越小,则数据集D的纯度越高

THE END
1.数据挖掘150道试题(转)数据挖掘期末试题(1)数据挖掘期末试卷13.上题中,等宽划分时(宽度为50),15又在哪个箱子里? (A) A 第一个 B 第二个 C 第三个 D 第四个 14.下面哪个不属于数据的属性类型:(D) A 标称 B 序数 C 区间 D相异 在上题中,属于定量的属性类型是:? A 标称 B 序数 C 区间 https://blog.csdn.net/2401_87557053/article/details/143729160
2.数据挖掘与分析考试题库(含答案).docx数据挖掘与分析考试题库(含答案)选择题1.数据挖掘的主要功能是什么?A.挖掘数据潜在的信息B.对数据进行记录和处理C.提高数据存储的效率D.对数据进行分类和排序Answer:A2.下列哪种算法不属于聚类算法?A.K-MeansB.BP神经网络C.DBSCAND.层次聚类Answer:B3.数据挖掘中使用最多的算法是什么?A.决策树B.关联规则C.神https://www.renrendoc.com/paper/356549094.html
3.专业课《数据挖掘与分析》考试题目题库及答案+重点知识梳理总结好了,小马目前收集了,一千多个专业,几乎所有的大学专业都有哦,真的是一个宝藏资料库呢,并且资料也会一直持续去更新哦。 以上就是专业课 《数据挖掘与分析》 考试题目题库及答案+重点知识梳理总结+名词解释+《数据挖掘与分析》重点笔记的内容! 获取方式:专业课 《数据挖掘与分析》 考试题目题库及答案+重点知识梳https://www.meipian.cn/4zk0c1ip
4.2021年中国大学慕课《中小学教师数据素养》课程期末考试题库及答案2021年中国大学慕课《中小学教师数据素养》课程期末考试题库及答案2021年中国大学慕课MOOC《中小学教师数据素养》课程期末考试题库及答案每位学员抽到的题目不一样,此题库包含95?98%的题目,请用电脑答题,并用手机WPS翻开文件查找功能在此题库内查询正确答案(因平台有https://www.yxfsz.com/view/1585090603741450241
5.统计学期末答案考试题库2024春本文分类:章节期末题库2024春 本文标签:统计学 浏览次数:239次浏览 发布日期:2024-05-04 23:48:53 上一篇 >开心说日语期末答案考试题库2024春 下一篇 >数据挖掘期末答案考试题库2024春 嘉兴技师学院-智慧树知到 期末考试答案,单元章节测试答案,见面课答案,绪论第*章答案 https://www.wkebb.com/c/97bf7780d5d85595fc9a61b47398c10f.html
6.Python期末试题题库完整.pdfPython基础知识教材是python基础入门知识笔记和Python基础的知识点复习试题,Python期末试题题库完整版,内含答案,包括经典例题,实验题(含答案),知识要点等内容,需要的朋友可下载试试! 内容 python基础入门知识: 1、简介 2.基础知识 3.开发案例 python 期末考试复习题(带答案) https://www.iteye.com/resource/qq_20232875-14045696
7.期中期末试卷题库课件网课盐考研考证招聘课后答案太原理工大学 数据挖掘 试题 太原理工大学《数据挖掘》考试题库 太原科技大学 2022年 液压元件 补考试卷 求山西农业大学习思想试卷 太原理工大学 概率统计 14试题 山西农业大学 linux 月考试卷3套含答案 太原理工大学软件15级数据结构期末 太原理工大学 数据结构 复习 https://www.aizhugong.com/
8.数据挖掘期末试题及答案完整版本文档为数据挖掘课程的期末试题及答案完整版,共分为两部分: 试题 1.简述数据挖掘的含义,及其在实际应用中的主要应用场景。 2.数据挖掘的分类有哪些?分别说明其特点和应用场景。 3.什么是关联规则挖掘?具体方法是什么? 4.简述聚类分析的含义,及其在实际应用中的主要应用场景。 5.什么是K-means算法?其具体流程是https://wenku.baidu.com/view/a9aee58501020740be1e650e52ea551811a6c940.html
9.人工智能训练师数据标注员理论考试题库(含答案)人工智能训练师-数据标注员理论考试题库(含答案) 一、单选题 1.下面不属于容灾解决方案的是()。 A、备份解决方案 B、主备双活容灾解决方案 C、双活容灾解决方案 D、两地三中心容灾解决方案 答案:A 2.()是在开发预测模型时减少输入变量数量的过程 A、云计算 B、特征选择 C、机械化 D、区块链 答案:B 3.(https://www.ddwk123.cn/?p=525495
10.全国计算机一级《MSOffice》操作题题库及答案(精选8套)计算机是我们现在重要的科技,要考计算机证的你做好准备了吗,以下是小编为大家整理的全国计算机一级《MS Office》操作题题库及答案,仅供参考,希望能够帮助大家。 全国计算机一级《MS Office》操作题题库及答案7套 1 一、基本操作题 1、在考生文件夹下GPOPPUT文件夹中新建一个名为HUX的文件夹。 https://www.oh100.com/kaoshi/ncre1/tiku/289685.html
11.搜题宝:职业资格考试试题与答案库搜题宝是专业的搜题找答案平台,为高效的解决广大学生作业、考试试题答案而努力,也为高效解决各类职业资格考试试题答案而努力https://www.ixueyi.com/
12.数据挖掘题库及答案数据挖掘考试题库# 数据挖掘题库及答案的实现指南## 一、流程概述在创建一个数据挖掘题库及答案的项目之前,必须先了解整个项目的流程。下面的表格展示了各个步骤:| 步骤 | 描述 ||---|---|| 1 | 确定项目需求 || 2 | 设计数 python 数据挖掘 ci pmp考试题库及答案 【PMP考试题库及答案】—— 悉数解答PMP考试全方位https://blog.51cto.com/u_16213670/7633156
13.大数据技术与应用专业技能考核标准及题库大数据技术与应用专业 技能考核标准及题库 岳阳职业技术学院 2019 年 10 月 7 日 1 目录 第一部分数据分析基本要求: (1)能使用数据挖掘工具完成数据的展示,预测,存储等; (2)能编写逻辑清晰的分析虽然不同考试题目的技能侧重点有所不同,但完成任 10 务的工作量和难易程度基本相同.各模块和项目的https://jxgz.yvtc.edu.cn/tools/download.ashx?site=main&id=63
14.大数据工程技术人员理论考试复习题库(200题)2.运用基于计算机的方法,包括新技术,从而在数据中获得有用知识的整个过程,就叫做数据挖掘。 对错 3.旋转是指选择维中特定区间的数据或者某批特定值进行分析。 对错 4.数据可视化,是关于数据视觉表现形式的科学技术研究。 对错 5.多维数据模型是从多角度多层次进行数据查询和分析的的数据库模型。 对错 https://www.wjx.cn/xz/284096275.aspx
15.刷刷题官网大学职业资格刷题搜题APP题库错题本制作如何制作自己的在线小题库 > 手机使用 分享 反馈 收藏 举报 参考答案: 考点: 地方时与区时的区别及计算 专题: 分析: (1)春分到秋分之间,北半球昼长夜查看完整题目与答案 网店数据分析技术主要包括( ) A. 数据仓库技术 B. 数据挖掘技术 C. 商业智能 D. 数据存储技术 查看完整题目与答案 运营https://www.shuashuati.com/ti/e185c066eb3d46dcb5bf35368503f8a4.html