数据挖掘基础知识解析:关联规则发现与分类算法评价标准详解

友情提醒:信息内容由网友发布,本站并不对内容真实性负责,请自鉴内容真实性。

多项选择题

B.聚类

三、分类

D.自然语言处理

2.哪两个分类算法的评价标准对应于以下两个描述?(一个)

(a)警察抓小偷,描述被警察抓到的人有多少是小偷的标准。

(b)描述被警察抓获的小偷比例的标准。

一个。,

B、

C、中华民国

D.,中华民国

3.以下哪个步骤是对原始数据进行积分、变换、降维、数值降维的任务?(三)

A.频繁模式挖掘

B.分类与预测

C.数据预处理

D.数据流挖掘

4.当数据的标签未知时,可以使用哪种技术将具有相似标签的数据与具有其他标签的数据分开?(二)

A、分类

D.隐马尔可夫链

5.什么是KDD?(一个)

A.数据挖掘和知识发现

B.领域知识发现

C.文档知识发现

D.动态知识发现

6.使用交互式和可视化技术探索数据属于数据挖掘任务的哪一类?(一个)

A.探索性数据分析

B.建模描述

C.预测建模

D.寻找模式和规则

7.对数据的整体分布进行建模;将多维空间分组等问题属于数据挖掘任务的哪一类?(二)

8.建立一个模型,通过该模型根据已知的变量值来预测某个其他变量的值。它属于哪种类型的数据挖掘任务?(三)

A.根据内容搜索

9.用户有感兴趣的模式,希望在数据集中找到相似的模式。它属于哪种类型的数据挖掘任务?(一个)

11.下列哪项不是数据预处理的方法?(四)

变量替换

离散化

C聚合

D估计缺失值

12.假设12个销售价格记录组已排序如下:5、10、11、13、15、35、50、55、72、92、204、215。使用以下每种方法将其分为四个垃圾箱。当分成等频率(等深度)时,15位于哪个方框中?(二)

第一个

B第二

C第三

D第四

13、上题中,当盒子被分成等宽(宽度为50)时,哪个盒子的面积是15英寸?(一个)

14.下列哪项不属于数据的属性类型:(D)

名义上的

B序数

C间隔

D不同

15、上题中,定量属性类型为:(C)

16.仅非零值重要的二元属性称为:(C)

计数属性

B离散属性

C不对称二元属性

D对称性

17.下列哪种方法不是特征选择的标准方法:(D)

一个嵌入

B过滤器

C包装

D采样

特征提取

B特征修改

C将数据映射到新空间

D特征结构

19.考虑值集{1,2,3,4,5,90},其截断均值(p=20%)为(C)

甲2

乙3

C3.5

D5

20.以下哪一种是将数据映射到新空间的方法?(一个)

傅立叶变换

B特征权重

C渐进式采样

D维降维

21.熵是消除不确定性所需的信息量。投掷均匀正六面体骰子的熵为:(B)

一个1位

B2.6位

C3.2位

D3.8位

22、假设属性的最大值和最小值分别为12000元和98000元。使用最大和最小归一化方法将属性值映射到0到1的范围。属性上的$73,600将转换为:(D)

0.821

乙1.224

C1.458

直径0.716

23.假设用于分析的数据包含属性年龄。数据元组中age的值如下(按升序排列):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:使用mean-by-bin平滑方法对上述数据进行平滑,bin深度为3。第二个框值为:(A)

18.3

乙22.6

C26.8

直径27.9

24.考虑值集{12243324556826},其四分位数范围为:(A)

31号

乙24

C55

d3

25.大学各年龄段学生人数为:一年级学生200人,二年级学生160人,三年级学生130人,四年级学生110人。那么等级属性的众数为:(A)

一年级

二年级B

C三年级

D四年级

等高线图

B饼图

C曲面图

D向量场图

27.在抽样方法中,当适当的样本量难以确定时,可以采用的抽样方法有:(D)

带替换的简单随机抽样

B无放回的简单随机抽样

C分层抽样

D渐进式采样

B.新捕获的数据会覆盖原来的快照;

C.数据仓库随着事件的变化不断删除旧的数据内容;

29、基础数据的元数据是指:(D)

C、基本元数据包括日志文件和恢复执行处理的定时调度信息;

D.基础元数据包括加载更新处理、分析处理和管理等信息。

30.下列关于数据粒度的描述不正确的是:(C)

A、粒度是指数据仓库中小数据单元的详细程度和层次;

B、数据越详细,粒度越小,级别越高;

C、数据全面性越高,粒度越大,层次越高;

D、具体的粒度划分会直接影响数据仓库的数据量和查询的质量。

31、关于数据仓库的发展特点,描述不正确的是:(A)

A、数据仓库开发要从数据开始;

B、开发前必须明确数据仓库的使用要求;

C、数据仓库的发展是一个不断循环的过程和启发式发展;

D.在数据仓库环境中,操作环境中没有固定且精确的处理流程。数据仓库中的数据分析和处理更加灵活,没有固定的模型。

32.关于数据仓库测试,下列说法不正确的是:(D)

A、在完成数据仓库的实施过程中,需要对数据仓库进行各种测试。测试工作应包括单元测试和系统测试。

B.当数据仓库的每个单独组件完成后,需要对它们进行单元测试。

C.系统的集成测试需要对数据仓库的所有组件进行广泛的功能测试和回归测试。

D.测试前无需制定详细的测试计划。

33、OLAP技术的核心是:(D)

A.在线;

B、快速响应用户;

C.互操作性。

D.多维分析;

34.关于OLAP的特点,下列哪项是正确的:(D)

(1)快速性(2)可分析性(3)多维性(4)信息性(5)可共享性

A.(1)(2)(3)

B.(2)(3)(4)

C.(1)(2)(3)(4)

D.(1)(2)(3)(4)(5)

35、关于OLAP和OLTP区别的描述,错误的说法是:(C)

答:OLAP主要是关于如何理解聚合的大量不同数据。它与OTAP应用程序不同。

B.与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务。

C、OLAP的特点是事务量大,但事务内容比较简单,重复率高。

D.OLAP基于数据仓库,但其最终数据源与OLTP一样来自底层数据库系统,并且都面向相同的用户。

36、OLAM技术一般称为“数据在线分析与挖掘”。下列说法正确的是:(D)

A、OLAP和OLAM都是基于客户端/服务器模型,只有后者具有与用户的交互性;

B.因为OLAM立方体和用于OLAP的立方体有本质的区别。

C、基于WEB的OLAM是WEB技术和OLAM技术的结合。

D、OLAM服务器通过用户图形界面接收用户的分析指令,并利用元数据的知识对超级立方体执行某些操作。

37.关于OLAP和OLTP,下列说法不正确的是:(A)

A、OLAP事务量较大,但事务内容比较简单,重复率较高。

C.OLTP面对的是决策者和高层管理者。

D.OLTP是以应用程序为中心、应用程序驱动的。

38.假设X={1,2,3}是频繁项集,则可以从X生成__(C)__关联规则。

A.4

B.5

C.6

D.7

40.概念分层图是__(B)__图。

A.无向和非循环

B.有向无环

C.定向和循环

D.无向和循环

41、频繁项集、频繁闭项集、最大频繁项集的关系为:(C)

A.频繁项集频繁闭项集=最大频繁项集

B.频繁项集=频繁闭项集最大频繁项集

C.频繁项集频繁闭项集最大频繁项集

D.频繁项集=频繁闭项集=最大频繁项集

42.考虑以下频繁3项集集合:{1,2,3}、{1,2,4}、{1,2,5}、{1,3,4}、{1,3,5},{2,3,4},{2,3,5},{3,4,5}假设数据集中只有5项,使用合并策略,并且候选生成过程得到的4项集不包含(C)

A.1,2,3,4

B.1,2,3,5

C.1,2,4,5

D.1,3,4,5

43、下列选项中,t不是s的子序列(C)

A.s=t=

B.s=t=

C、s=t=

D.s=t=

44.在图集合中发现一组公共子结构的任务称为(B)

A.频繁子集挖掘

B.频繁子图挖掘

C.频繁的数据项挖掘

D.频繁模式挖掘

45.下列哪项测量是不可逆的(D)

A、系数

B、概率

C.科恩度量

D、利息因素

46.下面的__(A)__不是向模式发现任务添加主观信息的方法。

A.与同期其他数据比较

B.可视化

C.基于模板的方法

D.主观利益衡量

47.从下面的购物篮中最多可以提取多少件3件套(C)

身份证购买

1牛奶、啤酒、尿布

2个面包、黄油、牛奶

3牛奶、尿布、饼干

4面包、黄油、饼干

5啤酒、饼干、尿布

6牛奶、尿布、面包、黄油

7面包、黄油、尿布

8啤酒、尿布

9牛奶、尿布、面包、黄油

10瓶啤酒、饼干

A.1

B.2

C.3

D.4

48.下列哪些算法是分类算法?(二)

一个。

B、C4.5

C,K-均值

数字高程模型

49.以下哪种分类方法可以更好地避免样本不平衡问题?(一个)

克恩恩

B、支持向量机

C·贝叶斯

D、神经网络

50.决策树不包括哪个节点?(三)

A、根节点(rootnode)

B、内部节点(node)

C、外部节点(node)

D、叶子节点(叶子节点)

53.下列关于决策树的叙述哪一项是错误的(C)

A.冗余属性不会对决策树的准确性产生不利影响

B.决策树中的子树可能会重复多次

C.决策树算法对噪声干扰非常敏感

D.寻找最佳决策树是一个NP完全问题

54.在基于规则的分类器中,规则根据规则质量的某种度量进行排序,以确保每个测试记录都按照覆盖它的“最佳”规范进行分类。该解决方案称为(B)

A.基于类的排序方案

B.基于规则的排序方案

C.基于度量的排名方案

D.基于规范的排名方案。

55.下列哪些算法是基于规则的分类器(A)

A、C4.5

KNN

C.娜?贝叶斯

神经网络

56、如果规则集R中不存在由同一记录触发的两条规则,则规则集R中的规则称为(C);

A.无序规则

B、穷举规则

C、互斥规则

D.有序规则

57、如果R中存在一条覆盖属性值任意组合的规则,则规则集合R中的该规则称为(B)

58.如果规则集中的规则按优先级降序排列,则称该规则集为(D)

59、如果允许一条记录触发多个分类规则,则将每个触发规则的结果视为对应类别的一票,然后统计票数来确定测试记录的类别标签,称为(A)

60.考虑两支球队之间的足球比赛:球队0和球队1。假设球队0在65%的比赛中获胜,球队1在其余比赛中获胜。0队获胜的比赛中只有30%是在1队的主场获胜,而1队获胜的比赛中有75%是在主场获胜。如果下一场比赛在1队的主场进行,则1队获胜的概率为(C)

A,0.75

乙,0.35

C,0.4678

D,0.5738

61.下列关于人工神经网络(ANN)的说法不正确的是(A)

A.神经网络对训练数据中的噪声非常鲁棒

B、可以处理冗余特征

C.训练ANN是一个耗时的过程

D、至少有一个隐藏层的多层神经网络

62、通过聚合多个分类器的预测来提高分类精度的技术称为(A)

A、组合()

B、聚集()

C、合并()

D、投票()

63.简单地将数据对象集合划分为不重叠的子集,使得每个数据对象恰好位于一个子集中。这种类型的聚类称为(B)

A.层次聚类

C.非互斥聚类

D.模糊聚类

64.在基本的K-means算法中,当邻近函数为(A)时,适当的质心是簇中每个点的中值。

A.曼哈顿距离

B.欧氏距离平方

C、余弦距离

D、分歧

65.(C)是一个与其他观察结果有很大不同的观察结果,以至于怀疑它是由不同的机制产生的。

A.边界点

B.质心

C.异常值

D、核心点

66.BIRCH是(B)的一种。

A、分类器

B.聚类算法

D.特征选择算法

67、检测单变量正态分布中的异常值属于异常检测中基于(A)的异常值检测。

A、统计方法

B、邻近性

C、密度

D.集群技术

68.(C)两个簇的邻近度定义为不同簇的所有点对的平均成对邻近度,这是一种凝聚层次聚类技术。

A.MIN(单链)

B.MAX(全链)

C.团体平均数

D、沃德法

69.(D)两个簇的接近度定义为两个簇合并时引起的平方误差的增量。它是一种凝聚层次聚类技术。

A.O(m)

B、O(平方米)

C、O(logm)

溶解氧(m*logm)

71、在基于图的聚类评价度量表中,如果聚类度量为(Ci,C),聚类权重为mi,则其类型为(C)。

A.基于图的内聚性

B.基于原型的内聚力

C.基于原型的分离

D.基于图的内聚和分离

72.关于K-means总和的比较,下列说法不正确的是(A)。

A.K-means丢弃它识别为噪声的对象,并且通常对所有对象进行聚类。

B.K-means使用基于原型的簇概念并使用基于密度的概念。

C和K均值很难处理非球形簇和不同大小的簇,但可以处理不同大小和形状的簇。

D和K均值可以找到分离不清晰的簇。即使簇重叠,也能找到,但重叠的簇会被合并。

73、该聚类算法的算法流程如下:①构造k近邻图。②使用多层图划分算法对图进行划分。③:合并在相对互连性和相对接近性方面最好地保持簇的自相似性的簇。④until:不再有可以合并的簇。(三)。

MST

B.

C.

D.-(日本)

74.考虑这样一种情况:一个对象恰好与另一个对象相对较近,但属于不同的类。由于两个对象一般不会共享很多邻居,因此应选择相似度计算方法(D)。

A.欧氏距离平方

B、余弦距离

C.直接相似性

D.共享最近邻居

75.以下是可扩展的聚类算法(A)。

A、治愈

D.

76.下列哪种聚类算法不属于基于原型的聚类(D)。

A.模糊c均值

B、EM算法

C.SOM

77.关于混合模型聚类算法的优缺点,下列说法正确的是(B)。

答:当簇仅包含少量数据点或数据点近似共线时,混合模型也可以很好地处理。

B.混合模型比K均值或模糊c均值更通用,因为它可以使用各种类型的分布。

C.混合模型很难发现不同大小和椭圆形状的簇。

D.当存在噪声和异常值时,混合模型不会出现问题。

78.下列哪种聚类算法不属于基于网格的聚类算法(D)。

A.斯廷

C.黑手党

D.BIRCH

79.对象的离群值分数是对象周围密度的倒数。这是基于(C)的异常值定义。

A、概率

D.聚类

80.以下关于(JP)聚类算法的说法不正确(D)。

A.JP聚类擅长处理噪声和异常值,并且可以处理不同大小、形状和密度的聚类。

C.JP聚类基于SNN相似度的概念。

通过数据挖掘过程推断出的关系和摘要通常称为:(AB)

A、型号

B、图案

C、型号

D、模具

2.寻找数据集中的关系就是找到一种能够准确、方便、有价值地概括数据的某种特征的表示形式。此过程包括以下哪些步骤?(ABCD)

A.决定要使用的表示的特征和结构

B.决定如何量化和比较不同表示法与数据的拟合程度

C.选择一个算法过程来优化评分函数

D.决定使用什么数据管理原则来有效地实现算法。

3.数据挖掘的预测建模任务主要包括哪些类型的问题?(AB)

B.返回

C.模式发现

D、模式匹配

4.数据挖掘算法的组成部分包括:(ABCD)

A.模型或模型结构

B.评分函数

C.优化和搜索方法

D.数据管理策略

A、统计数据

B.计算机组成原理

C.矿物开采

D、人工智能

6.在现实世界的数据中,元组的某些属性缺失值是很常见的。描述这个问题的各种方法是:(ABCDE)

A忽略元组

B使用属性的平均值来填充缺失值

C使用全局常量来填充缺失值

D使用属于给定元组的同一类的所有样本的平均值

E用最可能的值填充缺失值

7.以下哪些是高维数据可视化技术(ABCE)?

一个矩阵

B平行坐标系

C星坐标D散点图

E面

8.关于数据挖掘中的原始数据,存在的问题是:(ABCDE)

A不一致

B重复

C不完整

D包含噪声

E高维

9、以下是不同的有序数据:(ABCE)

B序列数据

D交易数据

E空间数据

10.以下是数据集的一般特征:(BCD)

连续性

B尺寸

C稀疏性

D分辨率

E差异性

11.以下常用于降维的线性代数技术是:(AC)

主成分分析

B特征提取

C奇异值分解

D特征权重

E离散化

12.下列哪一项是数据仓库的基本特征:(ACD)

A.数据仓库是面向主题的

B.数据仓库中的数据是集成的

C.数据仓库中的数据比较稳定

D.数据仓库中的数据反映了历史变化

E.数据仓库是面向事务的

13.以下都是数据仓库的不同术语。您认为哪一项是正确的(BCDE)。

THE END
1.数据挖掘的分析方法可以划分为关联分析序列模式分析分类分析和数据挖掘是从大量数据中提取有用信息的方法,主要分为四种分析方式:关联分析、序列模式分析、分类分析和聚类分析。在本指南中,我们将详细介绍这四种方法的实现过程,并提供相应的代码示例。 数据挖掘流程 首先,我们需要明确数据挖掘的基本流程,如下表所示: 流程图 https://blog.51cto.com/u_16213297/12863680
2.数据挖掘的具体过程数据挖掘的具体过程 嘿,朋友!你知道啥是数据挖掘不?简单来说,它就像是在一座巨大的宝藏山里找宝贝。 数据挖掘的第一步,那就是收集数据。这就好比你要去捕鱼,得先有个大网把鱼拢过来呀!数据从哪儿来?四面八方,天上地下!可能是网站的访问记录,可能是超市的销售清单,也可能是社交媒体上的发言。你想想,这么多的https://wenku.baidu.com/view/d41db64707a1b0717fd5360cba1aa81145318ffa.html
3.学习数字技术机器学习机器学习的发展历程可以划分为四个阶段: 第一阶段(20世纪50年代中叶到60年代中叶):主要研究“有无知识的学习”,通过改变机器的环境及其相应性能参数来检测系统所反馈的数据,以选择最优的环境生存。 第二阶段(20世纪60年代中叶到70年代中叶):主要研究将各个领域的知识植入到系统里,以模拟人类的学习过程,并采用了图https://zhuanlan.zhihu.com/p/13517067421
4.好书推荐《数据挖掘技巧》数据挖掘一般是从大量的数据中通过计算机算法,去搜索隐藏于其中信息的过程。用通俗的话说,就是面临大量的数据,使用数据挖掘工具“探勘”一遍之前,审计人员不一定有明确的目标,挖掘出来的结果也不一定在审计人员的预料之中。数据挖掘作为一种新的计算机审计方法,能够辅助审计人https://mp.weixin.qq.com/s?__biz=MzU0ODk2NjA0Nw==&mid=2247509056&idx=3&sn=efa3fad8b2f29bc4520c0acc7354b793&chksm=fbb5ffb0ccc276a6cbbf6d12458f702a0a731627617b65747658b89c3bbcd90cde9b3f9a9192&scene=27
5.语言表达过程由哪几个阶段构成刷刷题APP(shuashuati.com)是专业的大学生刷题搜题拍题答疑工具,刷刷题提供语言表达过程由哪几个阶段构成A.外部语言B.内部语言C.语义切迹D.表达动机E.感知辨识的答案解析,刷刷题为用户提供专业的考试题库练习。一分钟将考试题Word文档/Excel文档/PDF文档转化为在线题库,https://www.shuashuati.com/ti/f80c74c50d3c42f8a54cf24133708fc8.html
6.第十四章计算机组成原理与汇编语言ppt大学课件预览高性能计算能力已成为一个国家综合竞争力的象征, 许多大国都投入巨资以提高高性能计算能力,力求在未来的竞争中占据优势。 Return 计算机体系结构的分类 1,单指令流单数据流计算机 2,单指令流多数据流计算机 3.多指令流单数据流计算机 4,多指令流多数据流计算机 http://read.cucdc.com/cw/84165/95896.html
7.信息管理与信息系统毕业论文12篇(全文)通常情况都是教师将一个系统分成几个小选题,每个学生选择一个,分别完成。但是项目的开发是一个完整的过程,在有限的时间内一个学生要跨越多个阶段,学生不知道该从哪方面入手。而且就项目的开发本身而言,包括管理和技术两方面的内容,对于信管专业的学生缺乏技术上的功底,而对于计算机专业的学生又缺乏管理上的知识。因此https://www.99xueshu.com/w/ikeyzdhsi8ps.html
8.《电子商务概论》习题及答案2.B2B电子商务交易过程中有哪几个阶段,主要内容是什么? B2B交易过程中主要包括交易谈判与签订合同、办理交易进行前的手续以及交易合同的履行和索赔三个阶段。交易谈判和签订合同。这一阶段主要是指买卖双方对所有交易细节进行谈判,将双方磋商的结果以文件的形式确定下来,即以书面文件形式或电子文件形式签订贸易合同。办理https://www.360doc.cn/article/80521207_1047343768.html
9.2022年泸州公需科目答案51教学网2019年12月.习近平总书记提出中国经济发展的空间结构正在发生深刻变化.0正在成为承裁发展要素的主要空间形式。A.A.中心城市 正确答案:C 本讲提到.()是国家治理最为重要的部分。A.A.经济治理. 正确答案:C 6.0是推进全面依法治国。建设法治中国的前提.A.A.执法必严 https://www.51jiaoxue.cn/post/1321.html
10.人工智能心得体会9篇一、在中小学开展的机器人教育具有重要的意义。主要体现在以下几个方面: 1、促进教育方式的变革,培养学生的综合能力 在机器人教育中,课堂以学生为中心,教师作为指导者提供学习材料和建议,学生必须自己去学习知识,构建知识体系,提出自己的解决方案,从而有效培养了动手能力、学生创新思维能力。 https://www.unjs.com/fanwenwang/xdth/20221130181133_6041555.html
11.数据挖掘知识总结(精选8篇)4、数据库管理系统主要功能:数据定义功能、数据组织存储和管理、数据操纵功能、数据库的事务管理和运行管理、数据库的建立和维护功能、其他。 5、数据库系统:是指在计算机系统中引入数据库后的系统,一般由数据库、数据库管理系统(及其开发工具)、应用系统、数据库管理员构成。 https://www.360wenmi.com/f/filep4ahaz92.html
12.数据挖掘技术过程中,数据预处理阶段最为重要()判断题 UWB的应用领域主要分为军用和民用() 参考答案:对 点击查看答案进入题库练习 判断题 无线传感网是由无线传感器借点通过自组织方式构成的多跳网络,是传感器应用的全新模式() 参考答案:对 点击查看答案进入题库练习 判断题 GPS是一个中距离圆形轨道卫星导航系统() 参考答案:对 点击查看答案进入题库练习赞https://m.ppkao.com/mip/tiku/shiti/8512584.html
13.北京化工大学人工智能导论期末复习笔记人工智能学科是进来计算机科学领域热门学科,人工智能导论作为一门导论性课程,对我们对机器学习、人工智能、数据挖掘的概念了解还是十分有好处的。 虽然平时这门课没上几节,最后考试也不难,遂把期末复习的笔记整理发布出来,一方面可能有以后的学弟学妹可能有帮助,二来也是做一个小小的记录。 https://www.ihewro.com/archives/798/