数据挖掘基础知识解析:关联规则发现与分类算法评价标准详解

友情提醒:信息内容由网友发布,本站并不对内容真实性负责,请自鉴内容真实性。

多项选择题

B.聚类

三、分类

D.自然语言处理

2.哪两个分类算法的评价标准对应于以下两个描述?(一个)

(a)警察抓小偷,描述被警察抓到的人有多少是小偷的标准。

(b)描述被警察抓获的小偷比例的标准。

一个。,

B、

C、中华民国

D.,中华民国

3.以下哪个步骤是对原始数据进行积分、变换、降维、数值降维的任务?(三)

A.频繁模式挖掘

B.分类与预测

C.数据预处理

D.数据流挖掘

4.当数据的标签未知时,可以使用哪种技术将具有相似标签的数据与具有其他标签的数据分开?(二)

A、分类

D.隐马尔可夫链

5.什么是KDD?(一个)

A.数据挖掘和知识发现

B.领域知识发现

C.文档知识发现

D.动态知识发现

6.使用交互式和可视化技术探索数据属于数据挖掘任务的哪一类?(一个)

A.探索性数据分析

B.建模描述

C.预测建模

D.寻找模式和规则

7.对数据的整体分布进行建模;将多维空间分组等问题属于数据挖掘任务的哪一类?(二)

8.建立一个模型,通过该模型根据已知的变量值来预测某个其他变量的值。它属于哪种类型的数据挖掘任务?(三)

A.根据内容搜索

9.用户有感兴趣的模式,希望在数据集中找到相似的模式。它属于哪种类型的数据挖掘任务?(一个)

11.下列哪项不是数据预处理的方法?(四)

变量替换

离散化

C聚合

D估计缺失值

12.假设12个销售价格记录组已排序如下:5、10、11、13、15、35、50、55、72、92、204、215。使用以下每种方法将其分为四个垃圾箱。当分成等频率(等深度)时,15位于哪个方框中?(二)

第一个

B第二

C第三

D第四

13、上题中,当盒子被分成等宽(宽度为50)时,哪个盒子的面积是15英寸?(一个)

14.下列哪项不属于数据的属性类型:(D)

名义上的

B序数

C间隔

D不同

15、上题中,定量属性类型为:(C)

16.仅非零值重要的二元属性称为:(C)

计数属性

B离散属性

C不对称二元属性

D对称性

17.下列哪种方法不是特征选择的标准方法:(D)

一个嵌入

B过滤器

C包装

D采样

特征提取

B特征修改

C将数据映射到新空间

D特征结构

19.考虑值集{1,2,3,4,5,90},其截断均值(p=20%)为(C)

甲2

乙3

C3.5

D5

20.以下哪一种是将数据映射到新空间的方法?(一个)

傅立叶变换

B特征权重

C渐进式采样

D维降维

21.熵是消除不确定性所需的信息量。投掷均匀正六面体骰子的熵为:(B)

一个1位

B2.6位

C3.2位

D3.8位

22、假设属性的最大值和最小值分别为12000元和98000元。使用最大和最小归一化方法将属性值映射到0到1的范围。属性上的$73,600将转换为:(D)

0.821

乙1.224

C1.458

直径0.716

23.假设用于分析的数据包含属性年龄。数据元组中age的值如下(按升序排列):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:使用mean-by-bin平滑方法对上述数据进行平滑,bin深度为3。第二个框值为:(A)

18.3

乙22.6

C26.8

直径27.9

24.考虑值集{12243324556826},其四分位数范围为:(A)

31号

乙24

C55

d3

25.大学各年龄段学生人数为:一年级学生200人,二年级学生160人,三年级学生130人,四年级学生110人。那么等级属性的众数为:(A)

一年级

二年级B

C三年级

D四年级

等高线图

B饼图

C曲面图

D向量场图

27.在抽样方法中,当适当的样本量难以确定时,可以采用的抽样方法有:(D)

带替换的简单随机抽样

B无放回的简单随机抽样

C分层抽样

D渐进式采样

B.新捕获的数据会覆盖原来的快照;

C.数据仓库随着事件的变化不断删除旧的数据内容;

29、基础数据的元数据是指:(D)

C、基本元数据包括日志文件和恢复执行处理的定时调度信息;

D.基础元数据包括加载更新处理、分析处理和管理等信息。

30.下列关于数据粒度的描述不正确的是:(C)

A、粒度是指数据仓库中小数据单元的详细程度和层次;

B、数据越详细,粒度越小,级别越高;

C、数据全面性越高,粒度越大,层次越高;

D、具体的粒度划分会直接影响数据仓库的数据量和查询的质量。

31、关于数据仓库的发展特点,描述不正确的是:(A)

A、数据仓库开发要从数据开始;

B、开发前必须明确数据仓库的使用要求;

C、数据仓库的发展是一个不断循环的过程和启发式发展;

D.在数据仓库环境中,操作环境中没有固定且精确的处理流程。数据仓库中的数据分析和处理更加灵活,没有固定的模型。

32.关于数据仓库测试,下列说法不正确的是:(D)

A、在完成数据仓库的实施过程中,需要对数据仓库进行各种测试。测试工作应包括单元测试和系统测试。

B.当数据仓库的每个单独组件完成后,需要对它们进行单元测试。

C.系统的集成测试需要对数据仓库的所有组件进行广泛的功能测试和回归测试。

D.测试前无需制定详细的测试计划。

33、OLAP技术的核心是:(D)

A.在线;

B、快速响应用户;

C.互操作性。

D.多维分析;

34.关于OLAP的特点,下列哪项是正确的:(D)

(1)快速性(2)可分析性(3)多维性(4)信息性(5)可共享性

A.(1)(2)(3)

B.(2)(3)(4)

C.(1)(2)(3)(4)

D.(1)(2)(3)(4)(5)

35、关于OLAP和OLTP区别的描述,错误的说法是:(C)

答:OLAP主要是关于如何理解聚合的大量不同数据。它与OTAP应用程序不同。

B.与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务。

C、OLAP的特点是事务量大,但事务内容比较简单,重复率高。

D.OLAP基于数据仓库,但其最终数据源与OLTP一样来自底层数据库系统,并且都面向相同的用户。

36、OLAM技术一般称为“数据在线分析与挖掘”。下列说法正确的是:(D)

A、OLAP和OLAM都是基于客户端/服务器模型,只有后者具有与用户的交互性;

B.因为OLAM立方体和用于OLAP的立方体有本质的区别。

C、基于WEB的OLAM是WEB技术和OLAM技术的结合。

D、OLAM服务器通过用户图形界面接收用户的分析指令,并利用元数据的知识对超级立方体执行某些操作。

37.关于OLAP和OLTP,下列说法不正确的是:(A)

A、OLAP事务量较大,但事务内容比较简单,重复率较高。

C.OLTP面对的是决策者和高层管理者。

D.OLTP是以应用程序为中心、应用程序驱动的。

38.假设X={1,2,3}是频繁项集,则可以从X生成__(C)__关联规则。

A.4

B.5

C.6

D.7

40.概念分层图是__(B)__图。

A.无向和非循环

B.有向无环

C.定向和循环

D.无向和循环

41、频繁项集、频繁闭项集、最大频繁项集的关系为:(C)

A.频繁项集频繁闭项集=最大频繁项集

B.频繁项集=频繁闭项集最大频繁项集

C.频繁项集频繁闭项集最大频繁项集

D.频繁项集=频繁闭项集=最大频繁项集

42.考虑以下频繁3项集集合:{1,2,3}、{1,2,4}、{1,2,5}、{1,3,4}、{1,3,5},{2,3,4},{2,3,5},{3,4,5}假设数据集中只有5项,使用合并策略,并且候选生成过程得到的4项集不包含(C)

A.1,2,3,4

B.1,2,3,5

C.1,2,4,5

D.1,3,4,5

43、下列选项中,t不是s的子序列(C)

A.s=t=

B.s=t=

C、s=t=

D.s=t=

44.在图集合中发现一组公共子结构的任务称为(B)

A.频繁子集挖掘

B.频繁子图挖掘

C.频繁的数据项挖掘

D.频繁模式挖掘

45.下列哪项测量是不可逆的(D)

A、系数

B、概率

C.科恩度量

D、利息因素

46.下面的__(A)__不是向模式发现任务添加主观信息的方法。

A.与同期其他数据比较

B.可视化

C.基于模板的方法

D.主观利益衡量

47.从下面的购物篮中最多可以提取多少件3件套(C)

身份证购买

1牛奶、啤酒、尿布

2个面包、黄油、牛奶

3牛奶、尿布、饼干

4面包、黄油、饼干

5啤酒、饼干、尿布

6牛奶、尿布、面包、黄油

7面包、黄油、尿布

8啤酒、尿布

9牛奶、尿布、面包、黄油

10瓶啤酒、饼干

A.1

B.2

C.3

D.4

48.下列哪些算法是分类算法?(二)

一个。

B、C4.5

C,K-均值

数字高程模型

49.以下哪种分类方法可以更好地避免样本不平衡问题?(一个)

克恩恩

B、支持向量机

C·贝叶斯

D、神经网络

50.决策树不包括哪个节点?(三)

A、根节点(rootnode)

B、内部节点(node)

C、外部节点(node)

D、叶子节点(叶子节点)

53.下列关于决策树的叙述哪一项是错误的(C)

A.冗余属性不会对决策树的准确性产生不利影响

B.决策树中的子树可能会重复多次

C.决策树算法对噪声干扰非常敏感

D.寻找最佳决策树是一个NP完全问题

54.在基于规则的分类器中,规则根据规则质量的某种度量进行排序,以确保每个测试记录都按照覆盖它的“最佳”规范进行分类。该解决方案称为(B)

A.基于类的排序方案

B.基于规则的排序方案

C.基于度量的排名方案

D.基于规范的排名方案。

55.下列哪些算法是基于规则的分类器(A)

A、C4.5

KNN

C.娜?贝叶斯

神经网络

56、如果规则集R中不存在由同一记录触发的两条规则,则规则集R中的规则称为(C);

A.无序规则

B、穷举规则

C、互斥规则

D.有序规则

57、如果R中存在一条覆盖属性值任意组合的规则,则规则集合R中的该规则称为(B)

58.如果规则集中的规则按优先级降序排列,则称该规则集为(D)

59、如果允许一条记录触发多个分类规则,则将每个触发规则的结果视为对应类别的一票,然后统计票数来确定测试记录的类别标签,称为(A)

60.考虑两支球队之间的足球比赛:球队0和球队1。假设球队0在65%的比赛中获胜,球队1在其余比赛中获胜。0队获胜的比赛中只有30%是在1队的主场获胜,而1队获胜的比赛中有75%是在主场获胜。如果下一场比赛在1队的主场进行,则1队获胜的概率为(C)

A,0.75

乙,0.35

C,0.4678

D,0.5738

61.下列关于人工神经网络(ANN)的说法不正确的是(A)

A.神经网络对训练数据中的噪声非常鲁棒

B、可以处理冗余特征

C.训练ANN是一个耗时的过程

D、至少有一个隐藏层的多层神经网络

62、通过聚合多个分类器的预测来提高分类精度的技术称为(A)

A、组合()

B、聚集()

C、合并()

D、投票()

63.简单地将数据对象集合划分为不重叠的子集,使得每个数据对象恰好位于一个子集中。这种类型的聚类称为(B)

A.层次聚类

C.非互斥聚类

D.模糊聚类

64.在基本的K-means算法中,当邻近函数为(A)时,适当的质心是簇中每个点的中值。

A.曼哈顿距离

B.欧氏距离平方

C、余弦距离

D、分歧

65.(C)是一个与其他观察结果有很大不同的观察结果,以至于怀疑它是由不同的机制产生的。

A.边界点

B.质心

C.异常值

D、核心点

66.BIRCH是(B)的一种。

A、分类器

B.聚类算法

D.特征选择算法

67、检测单变量正态分布中的异常值属于异常检测中基于(A)的异常值检测。

A、统计方法

B、邻近性

C、密度

D.集群技术

68.(C)两个簇的邻近度定义为不同簇的所有点对的平均成对邻近度,这是一种凝聚层次聚类技术。

A.MIN(单链)

B.MAX(全链)

C.团体平均数

D、沃德法

69.(D)两个簇的接近度定义为两个簇合并时引起的平方误差的增量。它是一种凝聚层次聚类技术。

A.O(m)

B、O(平方米)

C、O(logm)

溶解氧(m*logm)

71、在基于图的聚类评价度量表中,如果聚类度量为(Ci,C),聚类权重为mi,则其类型为(C)。

A.基于图的内聚性

B.基于原型的内聚力

C.基于原型的分离

D.基于图的内聚和分离

72.关于K-means总和的比较,下列说法不正确的是(A)。

A.K-means丢弃它识别为噪声的对象,并且通常对所有对象进行聚类。

B.K-means使用基于原型的簇概念并使用基于密度的概念。

C和K均值很难处理非球形簇和不同大小的簇,但可以处理不同大小和形状的簇。

D和K均值可以找到分离不清晰的簇。即使簇重叠,也能找到,但重叠的簇会被合并。

73、该聚类算法的算法流程如下:①构造k近邻图。②使用多层图划分算法对图进行划分。③:合并在相对互连性和相对接近性方面最好地保持簇的自相似性的簇。④until:不再有可以合并的簇。(三)。

MST

B.

C.

D.-(日本)

74.考虑这样一种情况:一个对象恰好与另一个对象相对较近,但属于不同的类。由于两个对象一般不会共享很多邻居,因此应选择相似度计算方法(D)。

A.欧氏距离平方

B、余弦距离

C.直接相似性

D.共享最近邻居

75.以下是可扩展的聚类算法(A)。

A、治愈

D.

76.下列哪种聚类算法不属于基于原型的聚类(D)。

A.模糊c均值

B、EM算法

C.SOM

77.关于混合模型聚类算法的优缺点,下列说法正确的是(B)。

答:当簇仅包含少量数据点或数据点近似共线时,混合模型也可以很好地处理。

B.混合模型比K均值或模糊c均值更通用,因为它可以使用各种类型的分布。

C.混合模型很难发现不同大小和椭圆形状的簇。

D.当存在噪声和异常值时,混合模型不会出现问题。

78.下列哪种聚类算法不属于基于网格的聚类算法(D)。

A.斯廷

C.黑手党

D.BIRCH

79.对象的离群值分数是对象周围密度的倒数。这是基于(C)的异常值定义。

A、概率

D.聚类

80.以下关于(JP)聚类算法的说法不正确(D)。

A.JP聚类擅长处理噪声和异常值,并且可以处理不同大小、形状和密度的聚类。

C.JP聚类基于SNN相似度的概念。

通过数据挖掘过程推断出的关系和摘要通常称为:(AB)

A、型号

B、图案

C、型号

D、模具

2.寻找数据集中的关系就是找到一种能够准确、方便、有价值地概括数据的某种特征的表示形式。此过程包括以下哪些步骤?(ABCD)

A.决定要使用的表示的特征和结构

B.决定如何量化和比较不同表示法与数据的拟合程度

C.选择一个算法过程来优化评分函数

D.决定使用什么数据管理原则来有效地实现算法。

3.数据挖掘的预测建模任务主要包括哪些类型的问题?(AB)

B.返回

C.模式发现

D、模式匹配

4.数据挖掘算法的组成部分包括:(ABCD)

A.模型或模型结构

B.评分函数

C.优化和搜索方法

D.数据管理策略

A、统计数据

B.计算机组成原理

C.矿物开采

D、人工智能

6.在现实世界的数据中,元组的某些属性缺失值是很常见的。描述这个问题的各种方法是:(ABCDE)

A忽略元组

B使用属性的平均值来填充缺失值

C使用全局常量来填充缺失值

D使用属于给定元组的同一类的所有样本的平均值

E用最可能的值填充缺失值

7.以下哪些是高维数据可视化技术(ABCE)?

一个矩阵

B平行坐标系

C星坐标D散点图

E面

8.关于数据挖掘中的原始数据,存在的问题是:(ABCDE)

A不一致

B重复

C不完整

D包含噪声

E高维

9、以下是不同的有序数据:(ABCE)

B序列数据

D交易数据

E空间数据

10.以下是数据集的一般特征:(BCD)

连续性

B尺寸

C稀疏性

D分辨率

E差异性

11.以下常用于降维的线性代数技术是:(AC)

主成分分析

B特征提取

C奇异值分解

D特征权重

E离散化

12.下列哪一项是数据仓库的基本特征:(ACD)

A.数据仓库是面向主题的

B.数据仓库中的数据是集成的

C.数据仓库中的数据比较稳定

D.数据仓库中的数据反映了历史变化

E.数据仓库是面向事务的

13.以下都是数据仓库的不同术语。您认为哪一项是正确的(BCDE)。

THE END
1.数据挖掘的分析方法可以划分为关联分析序列模式分析分类分析和数据挖掘是从大量数据中提取有用信息的方法,主要分为四种分析方式:关联分析、序列模式分析、分类分析和聚类分析。在本指南中,我们将详细介绍这四种方法的实现过程,并提供相应的代码示例。 数据挖掘流程 首先,我们需要明确数据挖掘的基本流程,如下表所示: 流程图 https://blog.51cto.com/u_16213297/12863680
2.《电子商务概论》习题及答案2.B2B电子商务交易过程中有哪几个阶段,主要内容是什么? B2B交易过程中主要包括交易谈判与签订合同、办理交易进行前的手续以及交易合同的履行和索赔三个阶段。交易谈判和签订合同。这一阶段主要是指买卖双方对所有交易细节进行谈判,将双方磋商的结果以文件的形式确定下来,即以书面文件形式或电子文件形式签订贸易合同。办理https://www.360doc.cn/article/80521207_1047343768.html
3.2022年泸州公需科目答案51教学网2019年12月.习近平总书记提出中国经济发展的空间结构正在发生深刻变化.0正在成为承裁发展要素的主要空间形式。A.A.中心城市 正确答案:C 本讲提到.()是国家治理最为重要的部分。A.A.经济治理. 正确答案:C 6.0是推进全面依法治国。建设法治中国的前提.A.A.执法必严 https://www.51jiaoxue.cn/post/1321.html
4.数据挖掘知识总结(精选8篇)6、DBMS须提供以下几方面的数据控制功能:数据的安全性保护、数据的完整性检查、并发控制、数据库恢复。 7、数据管理技术的发展过程:人工管理阶段、文件系统阶段、数据库系统阶段 8、数据库的体系结构为三级结构,它们是存储层、概念层和外部层。 9、在数据库中用数据模型这个工具来抽象、表示和处理现实世界中的数据和https://www.360wenmi.com/f/filep4ahaz92.html
5.北京化工大学人工智能导论期末复习笔记人工智能学科是进来计算机科学领域热门学科,人工智能导论作为一门导论性课程,对我们对机器学习、人工智能、数据挖掘的概念了解还是十分有好处的。 虽然平时这门课没上几节,最后考试也不难,遂把期末复习的笔记整理发布出来,一方面可能有以后的学弟学妹可能有帮助,二来也是做一个小小的记录。 https://www.ihewro.com/archives/798/
6.档案管理试题及答案2.机关之间的工作关系有哪几种( ) A.隶属机关的上下级关系 B.隶属的业务部门的上下级关系 C.隶属于同一组织的平行关系 D.非隶属的业务部门的上下级关系 E.非隶属的非同一组织的平行关系 3.发文处理的全过程分为制文和制发两个阶段,其中制文阶段主要包括哪些环节( ) A.草拟 B.审核 C.复核 D.签发 E.编https://www.danganj.com/news/21257.html
7.人工智能心得体会9篇人工智能是包括十分广泛的科学,它由不同的领域组成,如机器学习,计算机视觉等等,总的说来,人工智能研究的一个主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作。人工智能的定义可以分为两部分,即“人工”和“智能”。“人工”比较好理解,争议性也不大。有时我们会要考虑什么是人力所能及制造的,或者https://www.unjs.com/fanwenwang/xdth/20221130181133_6041555.html
8.成本控制现状范文12篇(全文)摘要:目前我国医药生产企业的成本控制存在诸多问题,主要有三方面:第一方面是对成本的控制相对不足,注重对成本的事后计量,缺乏成本耗费过程的分析和控制,导致资源没有得到合理的分配;第二方面是成本的核算不够规范,由于对成本的核算规范化不够充分,导致间接费用没有得到准确地分配;第三方面是成本决策方面缺乏数据依据,https://www.99xueshu.com/w/ikeygi8nwngl.html
9.房地产论文(15篇)我国房地产营销策划大致经历了概念策划模式、卖点群策划模式、等值策划模式以及增值策划模式几个阶段,从忽视顾客需求到以顾客需求为导向逐步发展。营销不再限于解决楼盘的广告推广和销售问题,而是要对项目立项、市调、定位、规划、推广、销售直至后期管理的全过程进行策划,增值策划模式就是以提高房屋的顾客让渡价值为目标的https://www.ruiwen.com/lunwen/7095095.html
10.语言表达过程由哪几个阶段构成刷刷题APP(shuashuati.com)是专业的大学生刷题搜题拍题答疑工具,刷刷题提供语言表达过程由哪几个阶段构成A.外部语言B.内部语言C.语义切迹D.表达动机E.感知辨识的答案解析,刷刷题为用户提供专业的考试题库练习。一分钟将考试题Word文档/Excel文档/PDF文档转化为在线题库,https://www.shuashuati.com/ti/f80c74c50d3c42f8a54cf24133708fc8.html
11.人工智能心得(11篇)逐步建立课程——空间——活动的人工智能教育活动实践,在论坛中也介绍了人工智能教育需要遵循学生各年龄层的学情特点,分为三个阶段,第一阶段大班STEM基础教学,第二轮实践教学建立社团校队,第三开展项目式专训,培育科技特长生,或者各年级年级培养学生人工智能教育的不同目标,小学低年级可以主要培养综合素养,小学高年级跨https://www.cnfla.com/xindetihui/2905941.html
12.安徽省高校毕业生就业创业政策百问各高校要根据人才培养定位和创新创业教育目标要求,促进专业教育与创新创业教育有机融合,调整专业课程设置,挖掘和充实各类专业课程的创新创业教育资源,在传授专业知识过程中加强创新创业教育,面向全体学生开发开设创新创业必修课和选修课,纳入学分管理。 各地人力资源社会保障部门根据处在不同创业阶段的创业人员有针对性地开展https://www.lixin.gov.cn/XxgkContent/show/2306929.html
13.智慧矿山理论与关键技术探析3.3.2 微观运用数据挖掘、认知心理学、信息安全等理论 微观上从智慧矿山实施过程中涉及数据的分析与挖掘、分析结果的展示以及信息的安全性3个方面对相关指导理论进行阐述。在综合自动化、工程数字化与管理信息化的信息系统建设下,通过物联网等感知技术实时传输至信息系统中,矿山企业信息系统内的各类主题数据库已经存储了https://www.zyny.org.cn/newsinfo/1822417.html
14.卫星,未来太空数据的「智能平台」曹德志:我一直猜想,有个重要的双轮逻辑。一个轮是指,技术层面上卫星在不断地降低成本,集成度变高。也就是通过批产能力、供应链体系的变化来表达卫星产品的变化,例如成本,例如功能和设计。另外一轮,是数据价值的挖掘,也就是说传感器能够获取什么数据,这些数据能应用在什么领域,比如国防、国土监测、水域、陆地、海洋https://wallstreetcn.com/articles/3668888