数据挖掘基础知识解析：关联规则发现与分类算法评价标准详解|怎样进行数据挖掘算法_在线学习

友情提醒：信息内容由网友发布，本站并不对内容真实性负责，请自鉴内容真实性。

多项选择题

B.聚类

三、分类

D.自然语言处理

2.哪两个分类算法的评价标准对应于以下两个描述？（一个）

(a)警察抓小偷，描述被警察抓到的人有多少是小偷的标准。

(b)描述被警察抓获的小偷比例的标准。

一个。，

B、

C、中华民国

D.，中华民国

3.以下哪个步骤是对原始数据进行积分、变换、降维、数值降维的任务？(三)

A.频繁模式挖掘

B.分类与预测

C.数据预处理

D.数据流挖掘

4.当数据的标签未知时，可以使用哪种技术将具有相似标签的数据与具有其他标签的数据分开？(二)

A、分类

D.隐马尔可夫链

5.什么是KDD？（一个）

A.数据挖掘和知识发现

B.领域知识发现

C.文档知识发现

D.动态知识发现

6.使用交互式和可视化技术探索数据属于数据挖掘任务的哪一类？（一个）

A.探索性数据分析

B.建模描述

C.预测建模

D.寻找模式和规则

7.对数据的整体分布进行建模；将多维空间分组等问题属于数据挖掘任务的哪一类？(二)

8.建立一个模型，通过该模型根据已知的变量值来预测某个其他变量的值。它属于哪种类型的数据挖掘任务？(三)

A.根据内容搜索

9.用户有感兴趣的模式，希望在数据集中找到相似的模式。它属于哪种类型的数据挖掘任务？（一个）

11.下列哪项不是数据预处理的方法？(四)

变量替换

离散化

C聚合

D估计缺失值

12.假设12个销售价格记录组已排序如下：5、10、11、13、15、35、50、55、72、92、204、215。使用以下每种方法将其分为四个垃圾箱。当分成等频率（等深度）时，15位于哪个方框中？(二)

第一个

B第二

C第三

D第四

13、上题中，当盒子被分成等宽（宽度为50）时，哪个盒子的面积是15英寸？（一个）

14.下列哪项不属于数据的属性类型：（D）

名义上的

B序数

C间隔

D不同

15、上题中，定量属性类型为：（C）

16.仅非零值重要的二元属性称为：（C）

计数属性

B离散属性

C不对称二元属性

D对称性

17.下列哪种方法不是特征选择的标准方法：（D）

一个嵌入

B过滤器

C包装

D采样

特征提取

B特征修改

C将数据映射到新空间

D特征结构

19.考虑值集{1,2,3,4,5,90}，其截断均值(p=20%)为(C)

甲2

乙3

C3.5

20.以下哪一种是将数据映射到新空间的方法？（一个）

傅立叶变换

B特征权重

C渐进式采样

D维降维

21.熵是消除不确定性所需的信息量。投掷均匀正六面体骰子的熵为：(B)

一个1位

B2.6位

C3.2位

D3.8位

22、假设属性的最大值和最小值分别为12000元和98000元。使用最大和最小归一化方法将属性值映射到0到1的范围。属性上的$73,600将转换为：（D）

0.821

乙1.224

C1.458

直径0.716

23.假设用于分析的数据包含属性年龄。数据元组中age的值如下（按升序排列）：13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题：使用mean-by-bin平滑方法对上述数据进行平滑，bin深度为3。第二个框值为：（A）

18.3

乙22.6

C26.8

直径27.9

24.考虑值集{12243324556826}，其四分位数范围为：(A)

31号

乙24

C55

25.大学各年龄段学生人数为：一年级学生200人，二年级学生160人，三年级学生130人，四年级学生110人。那么等级属性的众数为：（A）

一年级

二年级B

C三年级

D四年级

等高线图

B饼图

C曲面图

D向量场图

27.在抽样方法中，当适当的样本量难以确定时，可以采用的抽样方法有：(D)

带替换的简单随机抽样

B无放回的简单随机抽样

C分层抽样

D渐进式采样

B.新捕获的数据会覆盖原来的快照；

C.数据仓库随着事件的变化不断删除旧的数据内容；

29、基础数据的元数据是指：（D）

C、基本元数据包括日志文件和恢复执行处理的定时调度信息；

D.基础元数据包括加载更新处理、分析处理和管理等信息。

30.下列关于数据粒度的描述不正确的是：（C）

A、粒度是指数据仓库中小数据单元的详细程度和层次；

B、数据越详细，粒度越小，级别越高；

C、数据全面性越高，粒度越大，层次越高；

D、具体的粒度划分会直接影响数据仓库的数据量和查询的质量。

31、关于数据仓库的发展特点，描述不正确的是：（A）

A、数据仓库开发要从数据开始；

B、开发前必须明确数据仓库的使用要求；

C、数据仓库的发展是一个不断循环的过程和启发式发展；

D.在数据仓库环境中，操作环境中没有固定且精确的处理流程。数据仓库中的数据分析和处理更加灵活，没有固定的模型。

32.关于数据仓库测试，下列说法不正确的是：（D）

A、在完成数据仓库的实施过程中，需要对数据仓库进行各种测试。测试工作应包括单元测试和系统测试。

B.当数据仓库的每个单独组件完成后，需要对它们进行单元测试。

C.系统的集成测试需要对数据仓库的所有组件进行广泛的功能测试和回归测试。

D.测试前无需制定详细的测试计划。

33、OLAP技术的核心是：（D）

A.在线；

B、快速响应用户；

C.互操作性。

D.多维分析；

34.关于OLAP的特点，下列哪项是正确的：（D）

(1)快速性(2)可分析性(3)多维性(4)信息性(5)可共享性

A.(1)(2)(3)

B.(2)(3)(4)

C.(1)(2)(3)(4)

D.(1)(2)(3)(4)(5)

35、关于OLAP和OLTP区别的描述，错误的说法是：（C）

答：OLAP主要是关于如何理解聚合的大量不同数据。它与OTAP应用程序不同。

B.与OLAP应用程序不同，OLTP应用程序包含大量相对简单的事务。

C、OLAP的特点是事务量大，但事务内容比较简单，重复率高。

D.OLAP基于数据仓库，但其最终数据源与OLTP一样来自底层数据库系统，并且都面向相同的用户。

36、OLAM技术一般称为“数据在线分析与挖掘”。下列说法正确的是：(D)

A、OLAP和OLAM都是基于客户端/服务器模型，只有后者具有与用户的交互性；

B.因为OLAM立方体和用于OLAP的立方体有本质的区别。

C、基于WEB的OLAM是WEB技术和OLAM技术的结合。

D、OLAM服务器通过用户图形界面接收用户的分析指令，并利用元数据的知识对超级立方体执行某些操作。

37.关于OLAP和OLTP，下列说法不正确的是：（A）

A、OLAP事务量较大，但事务内容比较简单，重复率较高。

C.OLTP面对的是决策者和高层管理者。

D.OLTP是以应用程序为中心、应用程序驱动的。

38.假设X={1,2,3}是频繁项集，则可以从X生成__(C)__关联规则。

A.4

B.5

C.6

D.7

40.概念分层图是__(B)__图。

A.无向和非循环

B.有向无环

C.定向和循环

D.无向和循环

41、频繁项集、频繁闭项集、最大频繁项集的关系为：(C)

A.频繁项集频繁闭项集=最大频繁项集

B.频繁项集=频繁闭项集最大频繁项集

C.频繁项集频繁闭项集最大频繁项集

D.频繁项集=频繁闭项集=最大频繁项集

42.考虑以下频繁3项集集合：{1,2,3}、{1,2,4}、{1,2,5}、{1,3,4}、{1,3,5},{2,3,4},{2,3,5},{3,4,5}假设数据集中只有5项，使用合并策略，并且候选生成过程得到的4项集不包含(C)

A.1,2,3,4

B.1,2,3,5

C.1,2,4,5

D.1,3,4,5

43、下列选项中，t不是s的子序列（C）

A.s=t=

B.s=t=

C、s=t=

D.s=t=

44.在图集合中发现一组公共子结构的任务称为（B）

A.频繁子集挖掘

B.频繁子图挖掘

C.频繁的数据项挖掘

D.频繁模式挖掘

45.下列哪项测量是不可逆的（D）

A、系数

B、概率

C.科恩度量

D、利息因素

46.下面的__(A)__不是向模式发现任务添加主观信息的方法。

A.与同期其他数据比较

B.可视化

C.基于模板的方法

D.主观利益衡量

47.从下面的购物篮中最多可以提取多少件3件套（C）

身份证购买

1牛奶、啤酒、尿布

2个面包、黄油、牛奶

3牛奶、尿布、饼干

4面包、黄油、饼干

5啤酒、饼干、尿布

6牛奶、尿布、面包、黄油

7面包、黄油、尿布

8啤酒、尿布

9牛奶、尿布、面包、黄油

10瓶啤酒、饼干

A.1

B.2

C.3

D.4

48.下列哪些算法是分类算法？(二)

一个。

B、C4.5

C,K-均值

数字高程模型

49.以下哪种分类方法可以更好地避免样本不平衡问题？（一个）

克恩恩

B、支持向量机

C·贝叶斯

D、神经网络

50.决策树不包括哪个节点？(三)

A、根节点（rootnode）

B、内部节点（node）

C、外部节点（node）

D、叶子节点（叶子节点）

53.下列关于决策树的叙述哪一项是错误的（C）

A.冗余属性不会对决策树的准确性产生不利影响

B.决策树中的子树可能会重复多次

C.决策树算法对噪声干扰非常敏感

D.寻找最佳决策树是一个NP完全问题

54.在基于规则的分类器中，规则根据规则质量的某种度量进行排序，以确保每个测试记录都按照覆盖它的“最佳”规范进行分类。该解决方案称为（B）

A.基于类的排序方案

B.基于规则的排序方案

C.基于度量的排名方案

D.基于规范的排名方案。

55.下列哪些算法是基于规则的分类器（A）

A、C4.5

KNN

C.娜？贝叶斯

神经网络

56、如果规则集R中不存在由同一记录触发的两条规则，则规则集R中的规则称为(C)；

A.无序规则

B、穷举规则

C、互斥规则

D.有序规则

57、如果R中存在一条覆盖属性值任意组合的规则，则规则集合R中的该规则称为(B)

58.如果规则集中的规则按优先级降序排列，则称该规则集为(D)

59、如果允许一条记录触发多个分类规则，则将每个触发规则的结果视为对应类别的一票，然后统计票数来确定测试记录的类别标签，称为（A）

60.考虑两支球队之间的足球比赛：球队0和球队1。假设球队0在65%的比赛中获胜，球队1在其余比赛中获胜。0队获胜的比赛中只有30%是在1队的主场获胜，而1队获胜的比赛中有75%是在主场获胜。如果下一场比赛在1队的主场进行，则1队获胜的概率为(C)

A,0.75

乙，0.35

C,0.4678

D，0.5738

61.下列关于人工神经网络（ANN）的说法不正确的是（A）

A.神经网络对训练数据中的噪声非常鲁棒

B、可以处理冗余特征

C.训练ANN是一个耗时的过程

D、至少有一个隐藏层的多层神经网络

62、通过聚合多个分类器的预测来提高分类精度的技术称为（A）

A、组合()

B、聚集（）

C、合并（）

D、投票（）

63.简单地将数据对象集合划分为不重叠的子集，使得每个数据对象恰好位于一个子集中。这种类型的聚类称为（B）

A.层次聚类

C.非互斥聚类

D.模糊聚类

64.在基本的K-means算法中，当邻近函数为(A)时，适当的质心是簇中每个点的中值。

A.曼哈顿距离

B.欧氏距离平方

C、余弦距离

D、分歧

65.(C)是一个与其他观察结果有很大不同的观察结果，以至于怀疑它是由不同的机制产生的。

A.边界点

B.质心

C.异常值

D、核心点

66.BIRCH是(B)的一种。

A、分类器

B.聚类算法

D.特征选择算法

67、检测单变量正态分布中的异常值属于异常检测中基于(A)的异常值检测。

A、统计方法

B、邻近性

C、密度

D.集群技术

68.(C)两个簇的邻近度定义为不同簇的所有点对的平均成对邻近度，这是一种凝聚层次聚类技术。

A.MIN（单链）

B.MAX（全链）

C.团体平均数

D、沃德法

69.(D)两个簇的接近度定义为两个簇合并时引起的平方误差的增量。它是一种凝聚层次聚类技术。

A．O(m)

B、O(平方米)

C、O(logm)

溶解氧(m*logm)

71、在基于图的聚类评价度量表中，如果聚类度量为(Ci，C)，聚类权重为mi，则其类型为(C)。

A.基于图的内聚性

B.基于原型的内聚力

C.基于原型的分离

D.基于图的内聚和分离

72.关于K-means总和的比较，下列说法不正确的是（A）。

A.K-means丢弃它识别为噪声的对象，并且通常对所有对象进行聚类。

B.K-means使用基于原型的簇概念并使用基于密度的概念。

C和K均值很难处理非球形簇和不同大小的簇，但可以处理不同大小和形状的簇。

D和K均值可以找到分离不清晰的簇。即使簇重叠，也能找到，但重叠的簇会被合并。

73、该聚类算法的算法流程如下：①构造k近邻图。②使用多层图划分算法对图进行划分。③：合并在相对互连性和相对接近性方面最好地保持簇的自相似性的簇。④until：不再有可以合并的簇。（三）。

MST

C．

D.-(日本)

74.考虑这样一种情况：一个对象恰好与另一个对象相对较近，但属于不同的类。由于两个对象一般不会共享很多邻居，因此应选择相似度计算方法（D）。

A.欧氏距离平方

B、余弦距离

C.直接相似性

D.共享最近邻居

75.以下是可扩展的聚类算法（A）。

A、治愈

76.下列哪种聚类算法不属于基于原型的聚类（D）。

A.模糊c均值

B、EM算法

C．SOM

77.关于混合模型聚类算法的优缺点，下列说法正确的是（B）。

答：当簇仅包含少量数据点或数据点近似共线时，混合模型也可以很好地处理。

B.混合模型比K均值或模糊c均值更通用，因为它可以使用各种类型的分布。

C.混合模型很难发现不同大小和椭圆形状的簇。

D.当存在噪声和异常值时，混合模型不会出现问题。

78.下列哪种聚类算法不属于基于网格的聚类算法（D）。

A.斯廷

C．黑手党

D．BIRCH

79.对象的离群值分数是对象周围密度的倒数。这是基于(C)的异常值定义。

A、概率

D.聚类

80.以下关于（JP）聚类算法的说法不正确（D）。

A.JP聚类擅长处理噪声和异常值，并且可以处理不同大小、形状和密度的聚类。

C.JP聚类基于SNN相似度的概念。

通过数据挖掘过程推断出的关系和摘要通常称为：（AB）

A、型号

B、图案

C、型号

D、模具

2.寻找数据集中的关系就是找到一种能够准确、方便、有价值地概括数据的某种特征的表示形式。此过程包括以下哪些步骤？（ABCD）

A.决定要使用的表示的特征和结构

B.决定如何量化和比较不同表示法与数据的拟合程度

C.选择一个算法过程来优化评分函数

D.决定使用什么数据管理原则来有效地实现算法。

3.数据挖掘的预测建模任务主要包括哪些类型的问题？(AB)

B.返回

C.模式发现

D、模式匹配

4.数据挖掘算法的组成部分包括：（ABCD）

A.模型或模型结构

B.评分函数

C.优化和搜索方法

D.数据管理策略

A、统计数据

B.计算机组成原理

C.矿物开采

D、人工智能

6.在现实世界的数据中，元组的某些属性缺失值是很常见的。描述这个问题的各种方法是：（ABCDE）

A忽略元组

B使用属性的平均值来填充缺失值

C使用全局常量来填充缺失值

D使用属于给定元组的同一类的所有样本的平均值

E用最可能的值填充缺失值

7.以下哪些是高维数据可视化技术（ABCE）？

一个矩阵

B平行坐标系

C星坐标D散点图

E面

8.关于数据挖掘中的原始数据，存在的问题是：（ABCDE）

A不一致

B重复

C不完整

D包含噪声

E高维

9、以下是不同的有序数据：（ABCE）

B序列数据

D交易数据

E空间数据

10.以下是数据集的一般特征：（BCD）

连续性

B尺寸

C稀疏性

D分辨率

E差异性

11.以下常用于降维的线性代数技术是：(AC)

主成分分析

B特征提取

C奇异值分解

D特征权重

E离散化

12.下列哪一项是数据仓库的基本特征：（ACD）

A.数据仓库是面向主题的

B.数据仓库中的数据是集成的

C.数据仓库中的数据比较稳定

D.数据仓库中的数据反映了历史变化

E.数据仓库是面向事务的

13.以下都是数据仓库的不同术语。您认为哪一项是正确的（BCDE）。

THE END

数据挖掘基础知识解析：关联规则发现与分类算法评价标准详解

数据挖掘的定义

数据挖掘基础知识解析：关联规则发现与分类算法评价标准详解

数据挖掘课程样例十一篇

机器学习（数据挖掘十个重要算法）pantaQ

教师的数据分析调查报告（专业19篇）

数据挖掘论文摘要(4篇)

数据挖掘技术分析论文(精选5篇)

数据挖掘最常见的十种方法

如何对大数据进行分析和处理？

数据挖掘领域的10大经典算法分享

数据挖掘功能及各自方法总结

关于数据挖掘，你必须知道的几个主要方法