D.数据收集能力远远超过人们的分析和理解能力
A.结构化
B.半结构化
C.非结构化
D.不清楚
A.是
B.不是
5.(单选题)建立数据仓库的主要目的是
A.规范管理数据
B.日常事务处理
C.更新数据方便
D.联机分析与决策支持
A.根据历史中奖号码预测福利彩票下期中奖号码
B.计算公司的年销售额和盈利;
C.监测病人的异常心率变化情况;
D.预测掷色子的点数;
A.探索性数据分析
B.建模描述
C.预测建模
D.寻找模式和规则
8.(单选题)建立数据仓库的主要目的是()。
A.规范管理数
A.对
B.错
A.分类与预测
B.关联挖掘
C.聚类
D.回归分析
B.聚类
C.关联分析
A.分析与预测
C.关联挖掘
C.回归分析
D.聚类
A.分类与挖掘
C.聚类分析
A.正确
B.错误
A.需要
B.不需要
3.(判断题)统计的幸存者偏见是指采集的数据刚好和要分析的目标背道而驰。
A.会
B.不会
A.侵犯
B.不侵犯
A.不侵犯
B.侵犯
A.教师个人隐私
B.学生个人隐私
C.俩者都有
D.不侵犯个人隐私
A.名义型变量
B.有序型变量
C.区间标称型变量
D.比率型变量
2.(单选题)下面哪个不属于数据的属性类型
A.标称
B.序数
C.区间
D.相异
A.计数属性
B.离散属性
C.非对称的二元属性
D.对称属性
A.连续性数值型
B.离散性数值型
C.序数型
D.标称型
A.9
B.10
C.19
D.1024
7.(单选题)关于基本数据的元数据是指
C.基本元数据包括日志文件和简历执行处理的时序调度信息
D.基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息
8.(单选题)下面不属于数据集的一般特性的有:_______
A.连续性
B.维度
C.稀疏性
D.分辨率
A.不一致
B.重复
C.不完整
D.含噪声
E.纬度高
10.(多选题)下面属于数据集的一般特性的有
E.相异性
1.(单选题)一所大学内的各年级人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是:
A.一年级
B.二年级
C.三年级
D.四年级
2.(单选题)关于正态分布,下列说法错误的是:
A.正态分布具有集中性和对称性
B.正态分布的均值和方差能够决定正态分布的位置和形态
C.正态分布的偏度为0,峰度为1
D.标准正态分布的均值为0,方差为1
3.(单选题)考虑值集{1,2,3,4,5,90},其40%截尾均值是_______
A.2
B.3
C.3.5
D.5
C.4
A.10
B.9
C.8
D.11
A.最大或最小的截尾平均方法
B.均值方法
C.alpha截尾均值法
1.(单选题)数据可视化工作在数据分析与挖掘中的作用:
A.只对数据分析和挖掘的结果进行展示,起到了锦上添花的作用
B.很简单的工作
C.很容易学会
D.贯穿这个数据分析和挖掘的过程
A.等高线图
B.饼图
C.曲面图
D.矢量场图
4.(单选题)如果对某列数据进行帕累托贡献度分析,那么
A.要对数据做升序排序
B.要对数据做降序排序
C.不需要排序
D.必须要进行数据采样
5.(多选题)下面哪些属于可视化高维数据技术
A.矩阵
B.平行坐标系
C.星形坐标
D.散布图
E.Chernoff脸
A.可以
B.不可以
C.不知道
2.(单选题)如果数据有很多列,需要找出重复的列,最优方案是____
B.任两列做散点图观察
C.通过循环比较每个值
D.任两列做差,每个差均为0
A.n×n维
B.n×p维
C.p×p维
D.p×n维
D.无法判断
A.101-81
C.(101-1)/(551-1)-(81-1)/(301-1)
6.(判断题)使用平均绝对偏差比使用标准差更稳健。
A.异常数据
B.真实数据
C.污染数据
D.都对
A.准确性
B.唯一性
C.可靠性
D.完整性
3.(单选题)在数据清洗中,对“脏”数据源需要进行操作处理,不包括以下哪个方面
A.完全清除某些输入字段
B.自动替换掉某些错误数据值
C.对分配和调整的规则进行完备的文档记录
D.补入一些丢失的数据
4.(单选题)在数据清洗中,增量抽取机制不适用于()特点的数据表
A.源表变化数据相对数据总量较小
B.标表需要记录过期信息或者冗余信息
C.业务系统能直接提供增量数据
D.源表变化数据不规律
A.固定值插补
B.中位数插补
C.均值插补
D.随机数插补
A.3
B.4
C.5
D.6
A.元素
B.阈值
C.关键值
D.数组
B.[-1,1]
C.[min,max],min和max为指定值
A.0.8
B.0.445
C.0.778
D.0.7
A.0.917
B.0.0917
C.9.17
D.0.00917
1.(单选题)数据压缩是指在()前提下,缩减数据量以减少存储空间,提高其传输、存储和处理效率,或按照一定的算法对数据进行重新组织,减少数据的冗余和存储的空间的一种技术方法。
A.不丢失有用的信息
B.不丢失所有信息的
C.不丢失真实信息的
D.以上三个都是
B.OLAP是数据立方体的一种常见的简单分析方法.
C.数据立方体的上卷操作等价于维度规约.
D.数据立方体的聚集只是数据规约的一种方式。
D.数据规约技术需要同时考虑降低数据数量和数据维度两个方面。
A.分类
D.隐马尔可夫链
A.第一个
B.第二个
C.第三个
D.第四个
D.等频分箱技术需要知道数据的值域范围和分箱数目。
D.性别也需要进一步概念分层。
1.(单选题)分类通常会把模型数据集拆分成两个部分,其中一个部分用来评估模型好与不好,这个部分叫做()。
A.训练集
B.测试集
C.已知数据
D.未知数据
2.(单选题)在做前期样本规划时,训练集()、验证集()和检验集()样本量分配方案哪个比较适合()
A.训练50%,验证0%,检验50%;
B.训练100%,验证0%,检验0%
C.训练0%,验证100%,检验0%;
D.训练60%,验证30%,检验10%
3.(单选题)点击率的预测是一个数据比例不平衡问题(比如训练集中样本呈阴性的比例为99%,阳性的比例是1%),如果我们用这种数据建立模型并使得训练集的准确率高达99%。我们可以得出结论是:()
A.模型的准确率非常高,我们不需要进一步探索;
B.模型不好,我们应建一个更好的模型;
C.无法评价模型;
D.以上都不正确
4.(单选题)银行根据客户以往贷款记录情况,将客户分为低风险客户和高风险客户。对一个新来的申请者,银行计算风险,决定接受或拒绝该申请。这属于()算法的应用
A.聚类
B.分类
C.关联
D.回归
D.样本量是否超过50.
1.(单选题)以下哪些算法是分类算法_______
A.DBSCAN
B.C4.5
C.K-Mean
D.EM
2.(单选题)在ID3算法中信息增益是指()。
A.信息的溢出程度
B.信息的增加效益
C.熵增加的程度最大
D.熵减少的程度最大
3.(单选题)在进行决策树算法的时候,下面的结论不正确的是()
A.决策树算法针对属性进行计算,所以一定会终止,所以不用考虑决策树的终止性问题;
B.一个数据集的决策树可能不唯一;
C.决策树进行属性分裂的时候有可能某个分支不需要用上所有类别属性进行规则式的建立
D.CART算法也是决策树算法。
C.属性值可以是序数型变量
D.属性值可以是离散取值的整数。
D.样本的类别标签。
C.关联规则挖掘
A.BernoulliNB
B.GaussianNB
C.MultinomialNB
3.(多选题)
1.(单选题)以下哪些算法是基于规则的分类器
A.C4.5
B.KNN
C.NaiveBayes
D.ANN
2.(单选题)下面关于ID3算法中说法错误的是
A.ID3算法要求特征必须离散化
D.ID3算法是一个二叉树模型
A.信息增益
B.信息增益率
C.Gini指标
D.A和B
6.(判断题)关于决策树节点划分根据之一是信息增益越大越好
1.(单选题)
(b)描述有多少比例的小偷给警察抓了的标准。
2.(单选题)
a.多重变量用于同一个模型b.模型的可解释性c.特征的信息d.交叉验证
5.(多选题)哪些选项对K折交叉验证的描述是正确的
5.(简答题)
importpandasaspd
importxgboostasxgb
print(Y_pred)
[29.4957733.61253]
1.(单选题)以下属于关联分析的是
3.(单选题)置信度()是衡量兴趣度度量()的指标
5.(单选题)()表示在先决条件X发生的情况下,由关联规则“X→Y”推出Y的概率。
6.(单选题)小王养了一头猪和一只鸡,一天,猪问鸡:“主人去哪里了”,猪含泪答道:“去买粉条了”。鸡很同情的说:“老弟,来世再见。”以上对话体现了数据分析方法中的()。
7.(判断题)支持度是衡量关联规则重要性的一个指标
8.(判断题)可信度是对关联规则的准确度的衡量。
9.(判断题)给定关联规则A→B,意味着:若A发生,B也会发生。
10.(判断题)关联规则可以用枚举的方法产生。
11.(判断题)不满足给定评价度量的关联规则是无趣的。
1.(单选题)非频繁模式()
2.(单选题)对频繁项集、频繁闭项集、极大频繁项集的关系描述正确的是()[注:分别以1、2、3代表之]
3.(单选题)若{A,B}是极大频繁项集,则下列一定不属于频繁项集的是
4.(单选题)若{A,B}是极大频繁项集,则下列一定属于频繁项集的是
5.(单选题)若{A,B}是极大频繁项集,则下列可能属于频繁项集的是
6.(单选题)考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}。假定数据集中只有5个项,采用合并策略,由候选产生过程得到频繁4-项集不包含________
从频繁项集的性质可知。
8.(单选题)满足最小支持度阈值的所有项集称为()。
9.(多选题)
10.(判断题)频繁闭项集可用来无损还原频繁项集。
11.(判断题)对于项集来说,置信度没有意义。
1.(单选题)Apriori算法的加速过程依赖于以下哪个策略()
2.(单选题)以下哪个会降低Apriori算法的挖掘效率
4.(单选题)Apriori算法使用哪个指标筛选项目集()()
5.(单选题)以下选项中,哪个有可能是Apriori算法所挖掘出来的结果()
6.(单选题)
7.(单选题)
8.(单选题)
9.(判断题)Apriori算法是一种典型的关联规则挖掘算法。
10.(判断题)Apriori算法产生的关联规则总是确定的。
3.(单选题)
4.(判断题)啤酒和尿布的故事是聚类分析的典型案例。
5.(判断题)高置信度的规则不一定是合理的。
1.(单选题)如果不考虑外部信息,聚类结构的有良性度量应当采用()
2.(单选题)分类算法就是按照某种标准给对象贴标签,再根据标签来归类,以下属于分类算法的是()。
3.(单选题)无监督学习中应用最广的是()。
1.(单选题)聚类方法中,以下哪种方法需要指定聚类个数。()
6.(判断题)K均值可以很好得处理不同密度得数据
DBSCAN算法的过程是()
①删除噪声点。
②每组连通的核心点形成一个簇。
③将所有点标记为核心点、边界点和噪声点。
④将每个边界点指派到一个与之关联的核心点的簇中。
⑤为距离在Eps之内的所有核心点之间赋予一条边。
3.(单选题)在基本DBSCAN的参数选择方法中,点到它的K个最近邻的距离中的K选作为哪一个参数()
4.(单选题)当采用K-距离的方法选择DBSCAN的Eps和MinPts参数时,如果设置的K的值太大,则小簇(尺寸小于K的簇)可能会被标记为()
5.(单选题)DBSCAN之所以难以有效处理高维数据,其主要原因是()
6.(单选题)关于K均值和DBSCAN的比较,以下说法不正确的是()
7.(单选题)对于DBSCAN,参数Eps固定,当MinPts取值较大时,会导致()
9.(判断题)K均值可以发现不是明显分离的簇,即便簇有重叠,也可以发现,但是DBSCAN会合并有重叠的簇。
10.(判断题)DBSCAN的参数Eps固定时,MinPts的值越大越好。
11.(判断题)DBSCAN会把所有点划分到各自的簇中
12.(判断题)在所有核心点的Eps半径邻域内的点数都不少于MinPts阈值。
13.(判断题)DBSCAN能够很好的区分原始数据的形状,但受限于用户指定的参数。
14.(判断题)在做聚类时,DBSCAN会删掉它认为是噪声点的数据点。
16.(判断题)DBSCAN相对抗噪声,并且能够处理任意形状与大小的簇。
维修费用12.38
截距0.08
系数1.23
6.(简答题)
1.(单选题)决策树分类方法中,CART算法使用的分裂准则是:
4.(判断题)CART分类回归树是一种典型的二叉决策树,可以做分类或者回归。
5.(判断题)CART决策树分为分类树和回归树,当因变量Y为离散变量时为分类树,当因变量Y为连续变量时为回归树