数据挖掘基础知识解析:关联规则发现与分类算法评价标准详解

友情提醒:信息内容由网友发布,本站并不对内容真实性负责,请自鉴内容真实性。

多项选择题

B.聚类

三、分类

D.自然语言处理

2.哪两个分类算法的评价标准对应于以下两个描述?(一个)

(a)警察抓小偷,描述被警察抓到的人有多少是小偷的标准。

(b)描述被警察抓获的小偷比例的标准。

一个。,

B、

C、中华民国

D.,中华民国

3.以下哪个步骤是对原始数据进行积分、变换、降维、数值降维的任务?(三)

A.频繁模式挖掘

B.分类与预测

C.数据预处理

D.数据流挖掘

4.当数据的标签未知时,可以使用哪种技术将具有相似标签的数据与具有其他标签的数据分开?(二)

A、分类

D.隐马尔可夫链

5.什么是KDD?(一个)

A.数据挖掘和知识发现

B.领域知识发现

C.文档知识发现

D.动态知识发现

6.使用交互式和可视化技术探索数据属于数据挖掘任务的哪一类?(一个)

A.探索性数据分析

B.建模描述

C.预测建模

D.寻找模式和规则

7.对数据的整体分布进行建模;将多维空间分组等问题属于数据挖掘任务的哪一类?(二)

8.建立一个模型,通过该模型根据已知的变量值来预测某个其他变量的值。它属于哪种类型的数据挖掘任务?(三)

A.根据内容搜索

9.用户有感兴趣的模式,希望在数据集中找到相似的模式。它属于哪种类型的数据挖掘任务?(一个)

11.下列哪项不是数据预处理的方法?(四)

变量替换

离散化

C聚合

D估计缺失值

12.假设12个销售价格记录组已排序如下:5、10、11、13、15、35、50、55、72、92、204、215。使用以下每种方法将其分为四个垃圾箱。当分成等频率(等深度)时,15位于哪个方框中?(二)

第一个

B第二

C第三

D第四

13、上题中,当盒子被分成等宽(宽度为50)时,哪个盒子的面积是15英寸?(一个)

14.下列哪项不属于数据的属性类型:(D)

名义上的

B序数

C间隔

D不同

15、上题中,定量属性类型为:(C)

16.仅非零值重要的二元属性称为:(C)

计数属性

B离散属性

C不对称二元属性

D对称性

17.下列哪种方法不是特征选择的标准方法:(D)

一个嵌入

B过滤器

C包装

D采样

特征提取

B特征修改

C将数据映射到新空间

D特征结构

19.考虑值集{1,2,3,4,5,90},其截断均值(p=20%)为(C)

甲2

乙3

C3.5

D5

20.以下哪一种是将数据映射到新空间的方法?(一个)

傅立叶变换

B特征权重

C渐进式采样

D维降维

21.熵是消除不确定性所需的信息量。投掷均匀正六面体骰子的熵为:(B)

一个1位

B2.6位

C3.2位

D3.8位

22、假设属性的最大值和最小值分别为12000元和98000元。使用最大和最小归一化方法将属性值映射到0到1的范围。属性上的$73,600将转换为:(D)

0.821

乙1.224

C1.458

直径0.716

23.假设用于分析的数据包含属性年龄。数据元组中age的值如下(按升序排列):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:使用mean-by-bin平滑方法对上述数据进行平滑,bin深度为3。第二个框值为:(A)

18.3

乙22.6

C26.8

直径27.9

24.考虑值集{12243324556826},其四分位数范围为:(A)

31号

乙24

C55

d3

25.大学各年龄段学生人数为:一年级学生200人,二年级学生160人,三年级学生130人,四年级学生110人。那么等级属性的众数为:(A)

一年级

二年级B

C三年级

D四年级

等高线图

B饼图

C曲面图

D向量场图

27.在抽样方法中,当适当的样本量难以确定时,可以采用的抽样方法有:(D)

带替换的简单随机抽样

B无放回的简单随机抽样

C分层抽样

D渐进式采样

B.新捕获的数据会覆盖原来的快照;

C.数据仓库随着事件的变化不断删除旧的数据内容;

29、基础数据的元数据是指:(D)

C、基本元数据包括日志文件和恢复执行处理的定时调度信息;

D.基础元数据包括加载更新处理、分析处理和管理等信息。

30.下列关于数据粒度的描述不正确的是:(C)

A、粒度是指数据仓库中小数据单元的详细程度和层次;

B、数据越详细,粒度越小,级别越高;

C、数据全面性越高,粒度越大,层次越高;

D、具体的粒度划分会直接影响数据仓库的数据量和查询的质量。

31、关于数据仓库的发展特点,描述不正确的是:(A)

A、数据仓库开发要从数据开始;

B、开发前必须明确数据仓库的使用要求;

C、数据仓库的发展是一个不断循环的过程和启发式发展;

D.在数据仓库环境中,操作环境中没有固定且精确的处理流程。数据仓库中的数据分析和处理更加灵活,没有固定的模型。

32.关于数据仓库测试,下列说法不正确的是:(D)

A、在完成数据仓库的实施过程中,需要对数据仓库进行各种测试。测试工作应包括单元测试和系统测试。

B.当数据仓库的每个单独组件完成后,需要对它们进行单元测试。

C.系统的集成测试需要对数据仓库的所有组件进行广泛的功能测试和回归测试。

D.测试前无需制定详细的测试计划。

33、OLAP技术的核心是:(D)

A.在线;

B、快速响应用户;

C.互操作性。

D.多维分析;

34.关于OLAP的特点,下列哪项是正确的:(D)

(1)快速性(2)可分析性(3)多维性(4)信息性(5)可共享性

A.(1)(2)(3)

B.(2)(3)(4)

C.(1)(2)(3)(4)

D.(1)(2)(3)(4)(5)

35、关于OLAP和OLTP区别的描述,错误的说法是:(C)

答:OLAP主要是关于如何理解聚合的大量不同数据。它与OTAP应用程序不同。

B.与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务。

C、OLAP的特点是事务量大,但事务内容比较简单,重复率高。

D.OLAP基于数据仓库,但其最终数据源与OLTP一样来自底层数据库系统,并且都面向相同的用户。

36、OLAM技术一般称为“数据在线分析与挖掘”。下列说法正确的是:(D)

A、OLAP和OLAM都是基于客户端/服务器模型,只有后者具有与用户的交互性;

B.因为OLAM立方体和用于OLAP的立方体有本质的区别。

C、基于WEB的OLAM是WEB技术和OLAM技术的结合。

D、OLAM服务器通过用户图形界面接收用户的分析指令,并利用元数据的知识对超级立方体执行某些操作。

37.关于OLAP和OLTP,下列说法不正确的是:(A)

A、OLAP事务量较大,但事务内容比较简单,重复率较高。

C.OLTP面对的是决策者和高层管理者。

D.OLTP是以应用程序为中心、应用程序驱动的。

38.假设X={1,2,3}是频繁项集,则可以从X生成__(C)__关联规则。

A.4

B.5

C.6

D.7

40.概念分层图是__(B)__图。

A.无向和非循环

B.有向无环

C.定向和循环

D.无向和循环

41、频繁项集、频繁闭项集、最大频繁项集的关系为:(C)

A.频繁项集频繁闭项集=最大频繁项集

B.频繁项集=频繁闭项集最大频繁项集

C.频繁项集频繁闭项集最大频繁项集

D.频繁项集=频繁闭项集=最大频繁项集

42.考虑以下频繁3项集集合:{1,2,3}、{1,2,4}、{1,2,5}、{1,3,4}、{1,3,5},{2,3,4},{2,3,5},{3,4,5}假设数据集中只有5项,使用合并策略,并且候选生成过程得到的4项集不包含(C)

A.1,2,3,4

B.1,2,3,5

C.1,2,4,5

D.1,3,4,5

43、下列选项中,t不是s的子序列(C)

A.s=t=

B.s=t=

C、s=t=

D.s=t=

44.在图集合中发现一组公共子结构的任务称为(B)

A.频繁子集挖掘

B.频繁子图挖掘

C.频繁的数据项挖掘

D.频繁模式挖掘

45.下列哪项测量是不可逆的(D)

A、系数

B、概率

C.科恩度量

D、利息因素

46.下面的__(A)__不是向模式发现任务添加主观信息的方法。

A.与同期其他数据比较

B.可视化

C.基于模板的方法

D.主观利益衡量

47.从下面的购物篮中最多可以提取多少件3件套(C)

身份证购买

1牛奶、啤酒、尿布

2个面包、黄油、牛奶

3牛奶、尿布、饼干

4面包、黄油、饼干

5啤酒、饼干、尿布

6牛奶、尿布、面包、黄油

7面包、黄油、尿布

8啤酒、尿布

9牛奶、尿布、面包、黄油

10瓶啤酒、饼干

A.1

B.2

C.3

D.4

48.下列哪些算法是分类算法?(二)

一个。

B、C4.5

C,K-均值

数字高程模型

49.以下哪种分类方法可以更好地避免样本不平衡问题?(一个)

克恩恩

B、支持向量机

C·贝叶斯

D、神经网络

50.决策树不包括哪个节点?(三)

A、根节点(rootnode)

B、内部节点(node)

C、外部节点(node)

D、叶子节点(叶子节点)

53.下列关于决策树的叙述哪一项是错误的(C)

A.冗余属性不会对决策树的准确性产生不利影响

B.决策树中的子树可能会重复多次

C.决策树算法对噪声干扰非常敏感

D.寻找最佳决策树是一个NP完全问题

54.在基于规则的分类器中,规则根据规则质量的某种度量进行排序,以确保每个测试记录都按照覆盖它的“最佳”规范进行分类。该解决方案称为(B)

A.基于类的排序方案

B.基于规则的排序方案

C.基于度量的排名方案

D.基于规范的排名方案。

55.下列哪些算法是基于规则的分类器(A)

A、C4.5

KNN

C.娜?贝叶斯

神经网络

56、如果规则集R中不存在由同一记录触发的两条规则,则规则集R中的规则称为(C);

A.无序规则

B、穷举规则

C、互斥规则

D.有序规则

57、如果R中存在一条覆盖属性值任意组合的规则,则规则集合R中的该规则称为(B)

58.如果规则集中的规则按优先级降序排列,则称该规则集为(D)

59、如果允许一条记录触发多个分类规则,则将每个触发规则的结果视为对应类别的一票,然后统计票数来确定测试记录的类别标签,称为(A)

60.考虑两支球队之间的足球比赛:球队0和球队1。假设球队0在65%的比赛中获胜,球队1在其余比赛中获胜。0队获胜的比赛中只有30%是在1队的主场获胜,而1队获胜的比赛中有75%是在主场获胜。如果下一场比赛在1队的主场进行,则1队获胜的概率为(C)

A,0.75

乙,0.35

C,0.4678

D,0.5738

61.下列关于人工神经网络(ANN)的说法不正确的是(A)

A.神经网络对训练数据中的噪声非常鲁棒

B、可以处理冗余特征

C.训练ANN是一个耗时的过程

D、至少有一个隐藏层的多层神经网络

62、通过聚合多个分类器的预测来提高分类精度的技术称为(A)

A、组合()

B、聚集()

C、合并()

D、投票()

63.简单地将数据对象集合划分为不重叠的子集,使得每个数据对象恰好位于一个子集中。这种类型的聚类称为(B)

A.层次聚类

C.非互斥聚类

D.模糊聚类

64.在基本的K-means算法中,当邻近函数为(A)时,适当的质心是簇中每个点的中值。

A.曼哈顿距离

B.欧氏距离平方

C、余弦距离

D、分歧

65.(C)是一个与其他观察结果有很大不同的观察结果,以至于怀疑它是由不同的机制产生的。

A.边界点

B.质心

C.异常值

D、核心点

66.BIRCH是(B)的一种。

A、分类器

B.聚类算法

D.特征选择算法

67、检测单变量正态分布中的异常值属于异常检测中基于(A)的异常值检测。

A、统计方法

B、邻近性

C、密度

D.集群技术

68.(C)两个簇的邻近度定义为不同簇的所有点对的平均成对邻近度,这是一种凝聚层次聚类技术。

A.MIN(单链)

B.MAX(全链)

C.团体平均数

D、沃德法

69.(D)两个簇的接近度定义为两个簇合并时引起的平方误差的增量。它是一种凝聚层次聚类技术。

A.O(m)

B、O(平方米)

C、O(logm)

溶解氧(m*logm)

71、在基于图的聚类评价度量表中,如果聚类度量为(Ci,C),聚类权重为mi,则其类型为(C)。

A.基于图的内聚性

B.基于原型的内聚力

C.基于原型的分离

D.基于图的内聚和分离

72.关于K-means总和的比较,下列说法不正确的是(A)。

A.K-means丢弃它识别为噪声的对象,并且通常对所有对象进行聚类。

B.K-means使用基于原型的簇概念并使用基于密度的概念。

C和K均值很难处理非球形簇和不同大小的簇,但可以处理不同大小和形状的簇。

D和K均值可以找到分离不清晰的簇。即使簇重叠,也能找到,但重叠的簇会被合并。

73、该聚类算法的算法流程如下:①构造k近邻图。②使用多层图划分算法对图进行划分。③:合并在相对互连性和相对接近性方面最好地保持簇的自相似性的簇。④until:不再有可以合并的簇。(三)。

MST

B.

C.

D.-(日本)

74.考虑这样一种情况:一个对象恰好与另一个对象相对较近,但属于不同的类。由于两个对象一般不会共享很多邻居,因此应选择相似度计算方法(D)。

A.欧氏距离平方

B、余弦距离

C.直接相似性

D.共享最近邻居

75.以下是可扩展的聚类算法(A)。

A、治愈

D.

76.下列哪种聚类算法不属于基于原型的聚类(D)。

A.模糊c均值

B、EM算法

C.SOM

77.关于混合模型聚类算法的优缺点,下列说法正确的是(B)。

答:当簇仅包含少量数据点或数据点近似共线时,混合模型也可以很好地处理。

B.混合模型比K均值或模糊c均值更通用,因为它可以使用各种类型的分布。

C.混合模型很难发现不同大小和椭圆形状的簇。

D.当存在噪声和异常值时,混合模型不会出现问题。

78.下列哪种聚类算法不属于基于网格的聚类算法(D)。

A.斯廷

C.黑手党

D.BIRCH

79.对象的离群值分数是对象周围密度的倒数。这是基于(C)的异常值定义。

A、概率

D.聚类

80.以下关于(JP)聚类算法的说法不正确(D)。

A.JP聚类擅长处理噪声和异常值,并且可以处理不同大小、形状和密度的聚类。

C.JP聚类基于SNN相似度的概念。

通过数据挖掘过程推断出的关系和摘要通常称为:(AB)

A、型号

B、图案

C、型号

D、模具

2.寻找数据集中的关系就是找到一种能够准确、方便、有价值地概括数据的某种特征的表示形式。此过程包括以下哪些步骤?(ABCD)

A.决定要使用的表示的特征和结构

B.决定如何量化和比较不同表示法与数据的拟合程度

C.选择一个算法过程来优化评分函数

D.决定使用什么数据管理原则来有效地实现算法。

3.数据挖掘的预测建模任务主要包括哪些类型的问题?(AB)

B.返回

C.模式发现

D、模式匹配

4.数据挖掘算法的组成部分包括:(ABCD)

A.模型或模型结构

B.评分函数

C.优化和搜索方法

D.数据管理策略

A、统计数据

B.计算机组成原理

C.矿物开采

D、人工智能

6.在现实世界的数据中,元组的某些属性缺失值是很常见的。描述这个问题的各种方法是:(ABCDE)

A忽略元组

B使用属性的平均值来填充缺失值

C使用全局常量来填充缺失值

D使用属于给定元组的同一类的所有样本的平均值

E用最可能的值填充缺失值

7.以下哪些是高维数据可视化技术(ABCE)?

一个矩阵

B平行坐标系

C星坐标D散点图

E面

8.关于数据挖掘中的原始数据,存在的问题是:(ABCDE)

A不一致

B重复

C不完整

D包含噪声

E高维

9、以下是不同的有序数据:(ABCE)

B序列数据

D交易数据

E空间数据

10.以下是数据集的一般特征:(BCD)

连续性

B尺寸

C稀疏性

D分辨率

E差异性

11.以下常用于降维的线性代数技术是:(AC)

主成分分析

B特征提取

C奇异值分解

D特征权重

E离散化

12.下列哪一项是数据仓库的基本特征:(ACD)

A.数据仓库是面向主题的

B.数据仓库中的数据是集成的

C.数据仓库中的数据比较稳定

D.数据仓库中的数据反映了历史变化

E.数据仓库是面向事务的

13.以下都是数据仓库的不同术语。您认为哪一项是正确的(BCDE)。

THE END
1.数据挖掘概念(AnalysisServices浏览数据 如以下关系图中突出显示的那样,数据挖掘过程的第三步就是浏览已准备的数据。 您必须了解数据,以便在创建挖掘模型时作出正确的决策。浏览技术包括计算最小值和最大值,计算平均偏差和标准偏差,以及查看数据的分布。例如,通过查看最大值、最小值和平均值,您可以确定数据并不能代表客户或业务流程,因此您必须获https://technet.microsoft.com/zh-cn/library/ms174949(en-us,sql.105).aspx
2.人工智能三大算法能否终结人类的劳动苦海使用随机森林,可以有效地解决单一模型可能出现的问题,比如误差率高或者对异常值敏感等。但即便如此,在处理极其复杂的大型数据集时,还需寻找更高效、更精确的手段——这就是支持向量机登场的时候了。 解锁支持向量机之力 支持向量机会成为解决二分类问题的一种重要工具,它通过在超平面上找到最佳分隔界限,即所谓“最大https://www.xstkmqmgl.cn/shou-ji/440919.html
3.面试题人工智能工程师高频面试题汇总:机器学习深化篇(题目+解析: 当输入\( x \)为正无穷大时,Sigmoid函数的输出值趋近于1。 06 在神经网络中,Sigmoid函数的导数最大值是多少? A. 0.25 B. 0.5 C. 1 D. 0 答案:A 解析: Sigmoid函数的导数的最大值发生在\( x = 0 \)时,此时导数值为0.25。 07 在深度学习中,哪个激活函数因其计算效率高而被广泛使用? https://blog.51cto.com/u_15343919/12843670
4.如何计算和应用难度系数:定义方法与优化策略探讨coefficient在学习和研究的过程中,难度系数是一个非常重要的概念,m.shengshangyin.com,。它不仅适用于学术领域,也广泛应用于各种技能的评估、考试的设计以及课程的难易程度评估。本文将深入探讨难度系数的定义、计算方法、应用场景以及影响因素。 一、难度系数的定义 (Definition of Difficulty Coefficient) https://www.163.com/dy/article/JJHE2EIA0556A727.html
5.工业项目投资建设流程(精选6篇)因此, 利用易工程化的前沿技术提升企业信息化建设能力, 以信息“化”为手段, 融合多学科智能技术解决方案, 实现整个工厂生产经营过程的智能化、自动化和最优化应该是现阶段信息化发展乃至“两化”深度融合的必然选择。 智能化技术是一个多学科综合技术的集大成, 涉及计算机、数字图像化、数据处理、机器学习、自动化、https://www.360wenmi.com/f/filetua68xb9.html
6.企业审计之内部审计12篇(全文)在执行财会审计工作时,事务所应当及时做出调整,适时抓住重点,为了提升审计水平,审计科更需及时结合当下经济形势,结合中小企业的工作部署情况,结合生产经营现状,进行准确的风险评估,确保审计项目无误进行。在修改完善审计管理制度的过程中,应当在细节上进行规范,制定出领导与职工需要遵守的共同行为准则,确保工作廉洁高效的https://www.99xueshu.com/w/ikeyfcz7rguy.html
7.数据挖掘面试150道题(附答案)腾讯云开发者社区1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D.自然语言处理 2. 以下两种描述分别对应哪两种对分类算法的评价标准? (A) (a) 警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 https://cloud.tencent.com/developer/article/2103985
8.真题解析系统集成项目管理工程师2022年下半年真题卷(综合C 详细可行性研究是一项费时、费力且需一定资金支持的工作 D 详细可行性研究完成之后才能形成项目建议书和项目可行性研究报告 项目建议书通过批复后或者项目建议与项目可行性阶段进行合并后,项目建设单位应该开展项目可行性研究方面的工作。 30 关于中标候选人的描述,不正确的是()。 A 中标候选人不超过 3 个,并标明https://download.csdn.net/blog/column/11806975/132559644
9.企业如何成本控制论文(通用18篇)会计信息化技术的本质是将会计技术与计算机信息技术相互融合形成的一项新的技术,其融合过程较为缓慢,不可能一蹴而就。因此,会计信息化是分阶段的进行发展,实现全面的将会计技术与计算机信息技术融合。由此我们可以发现,会计信息化具有全面与层次化发展的特点,在不同的时期,会计信息化的具体表现也存在着不同。 https://www.yjbys.com/bylw/qitaleilunwen/123778.html
10.企业财务管理研究论文我国现正处于大数据时代快速发展的阶段,在这一阶段,大部分企业都为了顺应时代发展的潮流相应的对财务管理模式进行了改革,虽然各个企业在财务管理方面的改革程度有所不同,但大多数企业财务管理模式的改革主要集中在财务管理的内容与目标这两个方面,同时也包括财务管理职能的改革。但在这一过程中却普遍存在着财务管理理念https://www.unjs.com/lunwen/guanli/20220804131406_5391761.html
11.胜意科技X艾媒咨询2022年中国企业费用管理发展白皮书面对这些不确定,企业对费用管理的认知也是矛盾的,费用覆盖面广但总金额占比小、发生频次高但合规性差、种类繁杂处理费时费力却长期不受重视,多重因素下,企业费用管理逐渐成为企业管理“洼地”。 企业费用管理现状与痛点 聚焦费用管理全流程,从理念到工具,企业缺少最优解决方案https://www.shifair.com/informationDetails/67316.html
12.产品架构开发方法分享记录周金根在我们软件企业,其实都不太愿意做项目,费时费力不讨好 北京-周金根(22626496) 14:08:35 做产品时企业的根本,你想一个产品成千上万的用户,只要copy就可以卖钱,多好啊 北京-李红兵(10422562) 14:09:09 @小叶子走过,西直门,还是是住建部的。 北京-周金根(22626496) https://www.cnblogs.com/zhoujg/p/3974677.html
13.互联网医疗:重塑就医体验,解决医疗痛点澎湃号·湃客挂号、收费时间长、候诊时间长、等待报告时间长,看病时间短,长期以来成为患者的就医痛点。这不仅使得患者就医过程费时费力,还极大影响了患者的就医体验。 4. 缺乏日常健康咨询服务 患者在日常健康管理方面缺乏专业指导,对于慢性病患者来说,缺乏持续的健康咨询和管理服务。 https://www.thepaper.cn/newsDetail_forward_27520844
14.中国装料在即的全球首个三代核电AP1000:经得起质疑其实在国际上,首堆拖期是普遍现象。比如,作为法国三代核电EPR的首堆,芬兰奥尔基洛托3号机组于2005年开工,原计划2009年投产,现在估计要拖期9年。核电技术的跨代研发总会遇到意想不到的问题,在建造过程中费时费力发现和解决这些问题,“没有什么可奇怪的”。 https://www.guancha.cn/industry-science/2017_12_22_440161.shtml
15.这款还原度超高的《兽娘动物园》游戏,竟出自一位全靠自学的日本阿宅Q:现阶段遇到的最费时费力的部分是什么? A:比较难的是角色的动作表现,因为每一个角色都需要基本的动作。比如说角色的静止待机形态,还有走路和跑步等状态。对于不同的角色,我希望尽量使用不同的动作。 另外我还参考了现实生活中的一些动物习性,试图在游戏中再现角色的动作和表情。比如说现实中的猫伸懒腰是一个很http://www.chuapp.com/article/284815.html