数据挖掘基础知识解析:关联规则发现与分类算法评价标准详解

友情提醒:信息内容由网友发布,本站并不对内容真实性负责,请自鉴内容真实性。

多项选择题

B.聚类

三、分类

D.自然语言处理

2.哪两个分类算法的评价标准对应于以下两个描述?(一个)

(a)警察抓小偷,描述被警察抓到的人有多少是小偷的标准。

(b)描述被警察抓获的小偷比例的标准。

一个。,

B、

C、中华民国

D.,中华民国

3.以下哪个步骤是对原始数据进行积分、变换、降维、数值降维的任务?(三)

A.频繁模式挖掘

B.分类与预测

C.数据预处理

D.数据流挖掘

4.当数据的标签未知时,可以使用哪种技术将具有相似标签的数据与具有其他标签的数据分开?(二)

A、分类

D.隐马尔可夫链

5.什么是KDD?(一个)

A.数据挖掘和知识发现

B.领域知识发现

C.文档知识发现

D.动态知识发现

6.使用交互式和可视化技术探索数据属于数据挖掘任务的哪一类?(一个)

A.探索性数据分析

B.建模描述

C.预测建模

D.寻找模式和规则

7.对数据的整体分布进行建模;将多维空间分组等问题属于数据挖掘任务的哪一类?(二)

8.建立一个模型,通过该模型根据已知的变量值来预测某个其他变量的值。它属于哪种类型的数据挖掘任务?(三)

A.根据内容搜索

9.用户有感兴趣的模式,希望在数据集中找到相似的模式。它属于哪种类型的数据挖掘任务?(一个)

11.下列哪项不是数据预处理的方法?(四)

变量替换

离散化

C聚合

D估计缺失值

12.假设12个销售价格记录组已排序如下:5、10、11、13、15、35、50、55、72、92、204、215。使用以下每种方法将其分为四个垃圾箱。当分成等频率(等深度)时,15位于哪个方框中?(二)

第一个

B第二

C第三

D第四

13、上题中,当盒子被分成等宽(宽度为50)时,哪个盒子的面积是15英寸?(一个)

14.下列哪项不属于数据的属性类型:(D)

名义上的

B序数

C间隔

D不同

15、上题中,定量属性类型为:(C)

16.仅非零值重要的二元属性称为:(C)

计数属性

B离散属性

C不对称二元属性

D对称性

17.下列哪种方法不是特征选择的标准方法:(D)

一个嵌入

B过滤器

C包装

D采样

特征提取

B特征修改

C将数据映射到新空间

D特征结构

19.考虑值集{1,2,3,4,5,90},其截断均值(p=20%)为(C)

甲2

乙3

C3.5

D5

20.以下哪一种是将数据映射到新空间的方法?(一个)

傅立叶变换

B特征权重

C渐进式采样

D维降维

21.熵是消除不确定性所需的信息量。投掷均匀正六面体骰子的熵为:(B)

一个1位

B2.6位

C3.2位

D3.8位

22、假设属性的最大值和最小值分别为12000元和98000元。使用最大和最小归一化方法将属性值映射到0到1的范围。属性上的$73,600将转换为:(D)

0.821

乙1.224

C1.458

直径0.716

23.假设用于分析的数据包含属性年龄。数据元组中age的值如下(按升序排列):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:使用mean-by-bin平滑方法对上述数据进行平滑,bin深度为3。第二个框值为:(A)

18.3

乙22.6

C26.8

直径27.9

24.考虑值集{12243324556826},其四分位数范围为:(A)

31号

乙24

C55

d3

25.大学各年龄段学生人数为:一年级学生200人,二年级学生160人,三年级学生130人,四年级学生110人。那么等级属性的众数为:(A)

一年级

二年级B

C三年级

D四年级

等高线图

B饼图

C曲面图

D向量场图

27.在抽样方法中,当适当的样本量难以确定时,可以采用的抽样方法有:(D)

带替换的简单随机抽样

B无放回的简单随机抽样

C分层抽样

D渐进式采样

B.新捕获的数据会覆盖原来的快照;

C.数据仓库随着事件的变化不断删除旧的数据内容;

29、基础数据的元数据是指:(D)

C、基本元数据包括日志文件和恢复执行处理的定时调度信息;

D.基础元数据包括加载更新处理、分析处理和管理等信息。

30.下列关于数据粒度的描述不正确的是:(C)

A、粒度是指数据仓库中小数据单元的详细程度和层次;

B、数据越详细,粒度越小,级别越高;

C、数据全面性越高,粒度越大,层次越高;

D、具体的粒度划分会直接影响数据仓库的数据量和查询的质量。

31、关于数据仓库的发展特点,描述不正确的是:(A)

A、数据仓库开发要从数据开始;

B、开发前必须明确数据仓库的使用要求;

C、数据仓库的发展是一个不断循环的过程和启发式发展;

D.在数据仓库环境中,操作环境中没有固定且精确的处理流程。数据仓库中的数据分析和处理更加灵活,没有固定的模型。

32.关于数据仓库测试,下列说法不正确的是:(D)

A、在完成数据仓库的实施过程中,需要对数据仓库进行各种测试。测试工作应包括单元测试和系统测试。

B.当数据仓库的每个单独组件完成后,需要对它们进行单元测试。

C.系统的集成测试需要对数据仓库的所有组件进行广泛的功能测试和回归测试。

D.测试前无需制定详细的测试计划。

33、OLAP技术的核心是:(D)

A.在线;

B、快速响应用户;

C.互操作性。

D.多维分析;

34.关于OLAP的特点,下列哪项是正确的:(D)

(1)快速性(2)可分析性(3)多维性(4)信息性(5)可共享性

A.(1)(2)(3)

B.(2)(3)(4)

C.(1)(2)(3)(4)

D.(1)(2)(3)(4)(5)

35、关于OLAP和OLTP区别的描述,错误的说法是:(C)

答:OLAP主要是关于如何理解聚合的大量不同数据。它与OTAP应用程序不同。

B.与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务。

C、OLAP的特点是事务量大,但事务内容比较简单,重复率高。

D.OLAP基于数据仓库,但其最终数据源与OLTP一样来自底层数据库系统,并且都面向相同的用户。

36、OLAM技术一般称为“数据在线分析与挖掘”。下列说法正确的是:(D)

A、OLAP和OLAM都是基于客户端/服务器模型,只有后者具有与用户的交互性;

B.因为OLAM立方体和用于OLAP的立方体有本质的区别。

C、基于WEB的OLAM是WEB技术和OLAM技术的结合。

D、OLAM服务器通过用户图形界面接收用户的分析指令,并利用元数据的知识对超级立方体执行某些操作。

37.关于OLAP和OLTP,下列说法不正确的是:(A)

A、OLAP事务量较大,但事务内容比较简单,重复率较高。

C.OLTP面对的是决策者和高层管理者。

D.OLTP是以应用程序为中心、应用程序驱动的。

38.假设X={1,2,3}是频繁项集,则可以从X生成__(C)__关联规则。

A.4

B.5

C.6

D.7

40.概念分层图是__(B)__图。

A.无向和非循环

B.有向无环

C.定向和循环

D.无向和循环

41、频繁项集、频繁闭项集、最大频繁项集的关系为:(C)

A.频繁项集频繁闭项集=最大频繁项集

B.频繁项集=频繁闭项集最大频繁项集

C.频繁项集频繁闭项集最大频繁项集

D.频繁项集=频繁闭项集=最大频繁项集

42.考虑以下频繁3项集集合:{1,2,3}、{1,2,4}、{1,2,5}、{1,3,4}、{1,3,5},{2,3,4},{2,3,5},{3,4,5}假设数据集中只有5项,使用合并策略,并且候选生成过程得到的4项集不包含(C)

A.1,2,3,4

B.1,2,3,5

C.1,2,4,5

D.1,3,4,5

43、下列选项中,t不是s的子序列(C)

A.s=t=

B.s=t=

C、s=t=

D.s=t=

44.在图集合中发现一组公共子结构的任务称为(B)

A.频繁子集挖掘

B.频繁子图挖掘

C.频繁的数据项挖掘

D.频繁模式挖掘

45.下列哪项测量是不可逆的(D)

A、系数

B、概率

C.科恩度量

D、利息因素

46.下面的__(A)__不是向模式发现任务添加主观信息的方法。

A.与同期其他数据比较

B.可视化

C.基于模板的方法

D.主观利益衡量

47.从下面的购物篮中最多可以提取多少件3件套(C)

身份证购买

1牛奶、啤酒、尿布

2个面包、黄油、牛奶

3牛奶、尿布、饼干

4面包、黄油、饼干

5啤酒、饼干、尿布

6牛奶、尿布、面包、黄油

7面包、黄油、尿布

8啤酒、尿布

9牛奶、尿布、面包、黄油

10瓶啤酒、饼干

A.1

B.2

C.3

D.4

48.下列哪些算法是分类算法?(二)

一个。

B、C4.5

C,K-均值

数字高程模型

49.以下哪种分类方法可以更好地避免样本不平衡问题?(一个)

克恩恩

B、支持向量机

C·贝叶斯

D、神经网络

50.决策树不包括哪个节点?(三)

A、根节点(rootnode)

B、内部节点(node)

C、外部节点(node)

D、叶子节点(叶子节点)

53.下列关于决策树的叙述哪一项是错误的(C)

A.冗余属性不会对决策树的准确性产生不利影响

B.决策树中的子树可能会重复多次

C.决策树算法对噪声干扰非常敏感

D.寻找最佳决策树是一个NP完全问题

54.在基于规则的分类器中,规则根据规则质量的某种度量进行排序,以确保每个测试记录都按照覆盖它的“最佳”规范进行分类。该解决方案称为(B)

A.基于类的排序方案

B.基于规则的排序方案

C.基于度量的排名方案

D.基于规范的排名方案。

55.下列哪些算法是基于规则的分类器(A)

A、C4.5

KNN

C.娜?贝叶斯

神经网络

56、如果规则集R中不存在由同一记录触发的两条规则,则规则集R中的规则称为(C);

A.无序规则

B、穷举规则

C、互斥规则

D.有序规则

57、如果R中存在一条覆盖属性值任意组合的规则,则规则集合R中的该规则称为(B)

58.如果规则集中的规则按优先级降序排列,则称该规则集为(D)

59、如果允许一条记录触发多个分类规则,则将每个触发规则的结果视为对应类别的一票,然后统计票数来确定测试记录的类别标签,称为(A)

60.考虑两支球队之间的足球比赛:球队0和球队1。假设球队0在65%的比赛中获胜,球队1在其余比赛中获胜。0队获胜的比赛中只有30%是在1队的主场获胜,而1队获胜的比赛中有75%是在主场获胜。如果下一场比赛在1队的主场进行,则1队获胜的概率为(C)

A,0.75

乙,0.35

C,0.4678

D,0.5738

61.下列关于人工神经网络(ANN)的说法不正确的是(A)

A.神经网络对训练数据中的噪声非常鲁棒

B、可以处理冗余特征

C.训练ANN是一个耗时的过程

D、至少有一个隐藏层的多层神经网络

62、通过聚合多个分类器的预测来提高分类精度的技术称为(A)

A、组合()

B、聚集()

C、合并()

D、投票()

63.简单地将数据对象集合划分为不重叠的子集,使得每个数据对象恰好位于一个子集中。这种类型的聚类称为(B)

A.层次聚类

C.非互斥聚类

D.模糊聚类

64.在基本的K-means算法中,当邻近函数为(A)时,适当的质心是簇中每个点的中值。

A.曼哈顿距离

B.欧氏距离平方

C、余弦距离

D、分歧

65.(C)是一个与其他观察结果有很大不同的观察结果,以至于怀疑它是由不同的机制产生的。

A.边界点

B.质心

C.异常值

D、核心点

66.BIRCH是(B)的一种。

A、分类器

B.聚类算法

D.特征选择算法

67、检测单变量正态分布中的异常值属于异常检测中基于(A)的异常值检测。

A、统计方法

B、邻近性

C、密度

D.集群技术

68.(C)两个簇的邻近度定义为不同簇的所有点对的平均成对邻近度,这是一种凝聚层次聚类技术。

A.MIN(单链)

B.MAX(全链)

C.团体平均数

D、沃德法

69.(D)两个簇的接近度定义为两个簇合并时引起的平方误差的增量。它是一种凝聚层次聚类技术。

A.O(m)

B、O(平方米)

C、O(logm)

溶解氧(m*logm)

71、在基于图的聚类评价度量表中,如果聚类度量为(Ci,C),聚类权重为mi,则其类型为(C)。

A.基于图的内聚性

B.基于原型的内聚力

C.基于原型的分离

D.基于图的内聚和分离

72.关于K-means总和的比较,下列说法不正确的是(A)。

A.K-means丢弃它识别为噪声的对象,并且通常对所有对象进行聚类。

B.K-means使用基于原型的簇概念并使用基于密度的概念。

C和K均值很难处理非球形簇和不同大小的簇,但可以处理不同大小和形状的簇。

D和K均值可以找到分离不清晰的簇。即使簇重叠,也能找到,但重叠的簇会被合并。

73、该聚类算法的算法流程如下:①构造k近邻图。②使用多层图划分算法对图进行划分。③:合并在相对互连性和相对接近性方面最好地保持簇的自相似性的簇。④until:不再有可以合并的簇。(三)。

MST

B.

C.

D.-(日本)

74.考虑这样一种情况:一个对象恰好与另一个对象相对较近,但属于不同的类。由于两个对象一般不会共享很多邻居,因此应选择相似度计算方法(D)。

A.欧氏距离平方

B、余弦距离

C.直接相似性

D.共享最近邻居

75.以下是可扩展的聚类算法(A)。

A、治愈

D.

76.下列哪种聚类算法不属于基于原型的聚类(D)。

A.模糊c均值

B、EM算法

C.SOM

77.关于混合模型聚类算法的优缺点,下列说法正确的是(B)。

答:当簇仅包含少量数据点或数据点近似共线时,混合模型也可以很好地处理。

B.混合模型比K均值或模糊c均值更通用,因为它可以使用各种类型的分布。

C.混合模型很难发现不同大小和椭圆形状的簇。

D.当存在噪声和异常值时,混合模型不会出现问题。

78.下列哪种聚类算法不属于基于网格的聚类算法(D)。

A.斯廷

C.黑手党

D.BIRCH

79.对象的离群值分数是对象周围密度的倒数。这是基于(C)的异常值定义。

A、概率

D.聚类

80.以下关于(JP)聚类算法的说法不正确(D)。

A.JP聚类擅长处理噪声和异常值,并且可以处理不同大小、形状和密度的聚类。

C.JP聚类基于SNN相似度的概念。

通过数据挖掘过程推断出的关系和摘要通常称为:(AB)

A、型号

B、图案

C、型号

D、模具

2.寻找数据集中的关系就是找到一种能够准确、方便、有价值地概括数据的某种特征的表示形式。此过程包括以下哪些步骤?(ABCD)

A.决定要使用的表示的特征和结构

B.决定如何量化和比较不同表示法与数据的拟合程度

C.选择一个算法过程来优化评分函数

D.决定使用什么数据管理原则来有效地实现算法。

3.数据挖掘的预测建模任务主要包括哪些类型的问题?(AB)

B.返回

C.模式发现

D、模式匹配

4.数据挖掘算法的组成部分包括:(ABCD)

A.模型或模型结构

B.评分函数

C.优化和搜索方法

D.数据管理策略

A、统计数据

B.计算机组成原理

C.矿物开采

D、人工智能

6.在现实世界的数据中,元组的某些属性缺失值是很常见的。描述这个问题的各种方法是:(ABCDE)

A忽略元组

B使用属性的平均值来填充缺失值

C使用全局常量来填充缺失值

D使用属于给定元组的同一类的所有样本的平均值

E用最可能的值填充缺失值

7.以下哪些是高维数据可视化技术(ABCE)?

一个矩阵

B平行坐标系

C星坐标D散点图

E面

8.关于数据挖掘中的原始数据,存在的问题是:(ABCDE)

A不一致

B重复

C不完整

D包含噪声

E高维

9、以下是不同的有序数据:(ABCE)

B序列数据

D交易数据

E空间数据

10.以下是数据集的一般特征:(BCD)

连续性

B尺寸

C稀疏性

D分辨率

E差异性

11.以下常用于降维的线性代数技术是:(AC)

主成分分析

B特征提取

C奇异值分解

D特征权重

E离散化

12.下列哪一项是数据仓库的基本特征:(ACD)

A.数据仓库是面向主题的

B.数据仓库中的数据是集成的

C.数据仓库中的数据比较稳定

D.数据仓库中的数据反映了历史变化

E.数据仓库是面向事务的

13.以下都是数据仓库的不同术语。您认为哪一项是正确的(BCDE)。

THE END
1.数据挖掘的分析方法可以划分为关联分析序列模式分析分类分析和序列模式分析着重于时间序列数据的趋势分析。Python中的spade库可以实现这一功能。 fromspadeimportSequenceMining# 数据转化为序列格式sequences=data[['TransactionID','Item']].groupby('TransactionID')['Item'].apply(list)# 使用SPADE算法进行序列模式挖掘mined_patterns=SequenceMining(sequences.tolist()) https://blog.51cto.com/u_16213297/12863680
2.机器学习找不到创新点?三种特征选择的方法包你拿下顶会!文章介绍了一种新的特征选择框架shap-select,该框架通过在验证集上对目标变量与原始特征的SHAP值进行线性或逻辑回归,并根据回归系数的符号和显著性水平来实现高效的特征选择。在Kaggle信用卡欺诈数据集上的评估表明,shap-select在解释性、计算效率和性能方面均表现出色。 https://www.bilibili.com/read/cv40067807
3.数据挖掘概念(AnalysisServicesSQL Server 2008 提供用于创建和使用数据挖掘模型的集成环境,称为 Business Intelligence Development Studio。该环境包括数据挖掘算法和工具,使用这些算法和工具更易于生成用于各种项目的综合解决方案。有关使用 BI Development Studio 的详细信息,请参阅使用 Business Intelligence Development Studio 进行开发和实现。 https://technet.microsoft.com/zh-cn/library/ms174949(en-us,sql.105).aspx
4.数据挖掘之七种常用的方法经管文库(原现金交易docx 203.39 KB0个论坛币 GDP和人均GDP平减说明.xls 27 KB0个论坛币 关键词:数据挖掘 https://bbs.pinggu.org/thread-13312809-1-1.html
5.中国建设银行申请数据分析方法相关专利,能解决无法及时有效识别和发专利摘要显示,本申请提供了一种数据分析方法、装置、设备、介质及产品。属于网络安全技术领域,该方法包括:获取各机构报送的各机构的从业人员的行为数据;对行为数据进行数据清洗和数据格式转换后,存入空白数据集中,得到行为数据集;采用关联规则挖掘算法挖掘行为数据集中行为数据之间的关联性,得到目标关联规则;根据聚类分析算https://www.163.com/dy/article/JJN5Q8DK0519QIKK.html
6.python数据挖掘算法的过程详解python第一步:数据选择 可以通过业务原始数据、公开的数据集、也可通过爬虫的方式获取。 第二步: 数据预处理 数据极可能有噪音,不完整等缺陷,需要对数据进行数据标准化,方法有min-max 标准化,z-score 标准化,修正的标准z-score。 第三步:特征值数据转换 将数据提取特征使这些数据符合特定数据挖掘算法的分析模型。数据https://www.jb51.net/article/238548.htm
7.数据分析与挖掘11篇(全文)近年来,数据挖掘技术经过不断发展,已经成为一个涉及多个学科的交叉型综合学科。通常而言,经典的数据挖掘算法都可以直接用到Web数据挖掘上来,但为了提高挖掘质量,要在扩展算法上进行了研究,包括复合关联规则算法、改进的序列发现算法等。 2. Web数据挖掘的概念 https://www.99xueshu.com/w/ikeyp687ycyz.html
8.人工智能心得体会(通用11篇)直到几年前,遗传算法、进化规划、进化策略三个领域的研究才开始交流,并发现它们的共同理论基础是生物进化论。因此,把这三种方法统称为进化计算,而把相应的算法称为进化算法。 3、数据挖掘与知识发现 知识获取是知识信息处理的关键问题之一。20世纪80年代人们在知识发现方面取得了一定的进展。利用样本,通过归纳学习,或者https://www.ruiwen.com/xindetihui/5729744.html
9.数据挖掘十大经典算法(详解)数据挖掘算法因素属性的值可以是连续量,C4.5 对其排序并分成不同的集合后按照ID3 算法当作离散量进行处理,但结论属性的值必须是离散值. 2) 训练例的因素属性值可以是不确定的,以 ? 表示,但结论必须是确定的 3. 对已生成的决策树进行裁剪,减小生成树的规模. 二、数据挖掘十大经典算法(2) k-means https://blog.csdn.net/hello_dear_you/article/details/89340399
10.一篇文章教你如何用R进行数据挖掘腾讯云开发者社区1、 R中的数据类型和对象 2、 R中的控制语句简介 3、 常用的R包 三、 用R进行数据预处理 1、 数据集中基本概念 2、 图形展示 3、 缺失值处理 4、 连续性变量与分类变量的处理 5、 特征变量计算 6、标签编码和独热编码 四、 用机器学习的算法构建预测模型 https://cloud.tencent.com/developer/article/1041955
11.学术长安华山论剑:“深度学习与大数据感知”国际研讨会专家观点刘静教授首先对复杂网络和进化算法进行了简单介绍,复杂网络在现实中广泛存在,它揭示相应的复杂系统的特征,刘静教授指出复杂网络的特性是:“任何一个网络中,无论是生物网络、社会网络还是人际交互网络,都会发现只有很少数的点的连接度是非常大的”。用进化算法去解决问题时,刘静教授认为:“只要定义了:1、种群、个体如何https://ipiu.xidian.edu.cn/info/1097/1189.htm
12.数据分析中的数据挖掘需要哪些算法数据分析中的数据挖掘需要以下算法:一、分类算法;二、聚类算法;三、关联规则算法;四、分类与回归树算法;五、Adaboost算法;六、期望最大化算法;七、最近邻算法;八、神经网络算法。在数据分析中,数据挖掘算法可以帮助发现数据中隐藏的模式、关系、趋势和异常。 https://www.linkflowtech.com/news/1594
13.不懂这25个名词,好意思说你懂大数据?数据挖掘关乎如下过程,从一大群数据中以复杂的模式识别技巧找出有意义的模式,并且得到相关洞见。它与前文所述的「分析」息息相关,在数据挖掘中,你将会先对数据进行挖掘,然后对这些得到的结果进行分析。为了得到有意义的模式(pattern),数据挖掘人员会使用到统计学(一种经典的旧方法)、机器学习算法和人工智能。 https://gxq.guiyang.gov.cn/zjgxq/zjgxqxyzs/zjgxqxyzsdsjqy/201710/t20171013_17120534.html
14.涵盖平台算法与分析,从0到1构建用户画像系统前阿里巴巴算法专家,作为团队负责人带领构建高性能、高可用、高效率的推荐系统和搜索引擎。目前就职于Shopee(新加坡),担任电商搜索算法专家。Tpami审稿人、TKDE审稿人、KDD审稿人、AAAI审稿人、IJCAI、EMNLP审稿人,拥有多项国家知识产权局专利,在人工智能、推荐系统、数据挖掘、知识图谱等多个领域的国际顶级期刊和会议发表https://hub.baai.ac.cn/view/33583
15.数据挖掘提升算法AdBoost算法这个算法的原名叫什么相信大家都清楚,不知道标题为什么变成了敏感词。 组合方法(集成方法) 两种不同的翻译,这种方法是聚集多个分类算法的预测来提高分类的准确率,组合方法由训练数据构建一组基分类器,然后通过对每个基分类器的预测进行投票来进行分类。 组合方法的类型: https://www.jianshu.com/p/9e4db2759866
16.2020年媒体技术趋势报告:13大领域89项变革全输出实际上每天你都在主动地或被动地创建不计其数的数据(比如在Facebook上上传和标记照片、开车去上班等)。这些数据通常是在你没有发现的情况下被算法挖掘和使用的,并用于制作广告、帮助潜在广告主预测我们的行为、确定我们的抵押贷款利率,甚至帮助执法部门预测我们是否可能犯罪。 https://36kr.com/p/5267903