2.以下两种描述分别对应哪两种对分类算法的评价标准?(A)
(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。
(b)描述有多少比例的小偷给警察抓了的标准。
A.Precision,Recall
B.Recall,Precision
C.Precision,ROC
D.Recall,ROC
3.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)
A.频繁模式挖掘
B.分类和预测
C.数据预处理
D.数据流挖掘
4.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)
A.分类
C.关联分析
D.隐马尔可夫链
5.什么是KDD?(A)
B.领域知识发现
C.文档知识发现
D.动态知识发现
A.探索性数据分析
B.建模描述
D.寻找模式和规则
A.根据内容检索
11.下面哪种不属于数据预处理的方法?(D)
A变量代换
B离散化
C聚集
D估计遗漏值
12.假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?(B)
A第一个
B第二个
C第三个
D第四个
13.上题中,等宽划分时(宽度为50),15又在哪个箱子里?(A)
14.下面哪个不属于数据的属性类型:(D)
A标称
B序数
C区间
D相异
15.在上题中,属于定量的属性类型是:(C)
16.只有非零值才重要的二元属性被称作:(C)
A计数属性
B离散属性
C非对称的二元属性
D对称属性
A嵌入
B过滤
C包装
D抽样
C映射数据到新的空间
19.考虑值集{1、2、3、4、5、90},其截断均值(p=20%)是(C)
A2
B3
C3.5
D5
20.下面哪个属于映射数据到新的空间的方法?(A)
A傅立叶变换
C渐进抽样
D维归约
21.熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是:(B)
A1比特
B2.6比特
C3.2比特
D3.8比特
22.假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:(D)
A0.821
B1.224
C1.458
D0.716
23.假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:(A)
A18.3
B22.6
C26.8
D27.9
24.考虑值集{12243324556826},其四分位数极差是:(A)
A31
B24
C55
D3
25.一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是:(A)
A一年级
B二年级
C三年级
D四年级
A等高线图
B饼图
C曲面图
D矢量场图
27.在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是:(D)
A有放回的简单随机抽样
B无放回的简单随机抽样
C分层抽样
D渐进抽样
B.捕捉到的新数据会覆盖原来的快照;
29.关于基本数据的元数据是指:(D)
C.基本元数据包括日志文件和简历执行处理的时序调度信息;
D.基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息.
30.下面关于数据粒度的描述不正确的是:(C)
B.数据越详细,粒度就越小,级别也就越高;
C.数据综合度越高,粒度也就越大,级别也就越高;
D.在测试之前没必要制定详细的测试计划.
33.OLAP技术的核心是:(D)
A.在线性;
B.对用户的快速响应;
C.互操作性.
D.多维分析;
34.关于OLAP的特性,下面正确的是:(D)
(1)快速性(2)可分析性(3)多维性(4)信息性(5)共享性
A.(1)(2)(3)
B.(2)(3)(4)
C.(1)(2)(3)(4)
D.(1)(2)(3)(4)(5)
35.关于OLAP和OLTP的区别描述,不正确的是:(C)
A.OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同.
B.与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务.
C.OLAP的特点在于事务量大,但事务内容比较简单且重复率高.
36.OLAM技术一般简称为”数据联机分析挖掘”,下面说法正确的是:(D)
A.OLAP和OLAM都基于客户机/服务器模式,只有后者有与用户的交互性;
B.由于OLAM的立方体和用于OLAP的立方体有本质的区别.
C.基于WEB的OLAM是WEB技术与OLAM技术的结合.
D.OLAM服务器通过用户图形借口接收用户的分析指令,在元数据的知道下,对超级立方体作一定的操作.
37.关于OLAP和OLTP的说法,下列不正确的是:(A)
A.OLAP事务量大,但事务内容比较简单且重复率高.
C.OLTP面对的是决策人员和高层管理人员.
D.OLTP以应用为核心,是应用驱动的.
A、4
B、5
C、6
D、7
A、无向无环
B、有向无环
C、有向有环
D、无向有环
41.频繁项集、频繁闭项集、最大频繁项集之间的关系是:(C)
A、频繁项集频繁闭项集=最大频繁项集
B、频繁项集=频繁闭项集最大频繁项集
C、频繁项集频繁闭项集最大频繁项集
D、频繁项集=频繁闭项集=最大频繁项集
42.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含(C)
A、1,2,3,4
B、1,2,3,5
C、1,2,4,5
D、1,3,4,5
43.下面选项中t不是s的子序列的是(C)
A、s=<{2,4},{3,5,6},{8}>t=<{2},{3,6},{8}>
B、s=<{2,4},{3,5,6},{8}>t=<{2},{8}>
C、s=<{1,2},{3,4}>t=<{1},{2}>
D、s=<{2,4},{2,4}>t=<{2},{4}>
44.在图集合中发现一组公共子结构,这样的任务称为(B)
A、频繁子集挖掘
B、频繁子图挖掘
C、频繁数据项挖掘
D、频繁模式挖掘
45.下列度量不具有反演性的是(D)
A、系数
B、几率
C、Cohen度量
D、兴趣因子
46.下列__(A)__不是将主观信息加入到模式发现任务中的方法。