在使用历史数据构造训练集(Train)集、验证(Validation)集和检验(Test)时,以下哪个样本量分配方案比较适合?
A.训练50%,验证0%,检验50%
B.训练100%,验证0%,检验0%
C.训练0%,验证100%,检验0%
D.训练60%,验证30%,检验10%
2、答案(A)
一个累积提升度曲线,当深度(Depth)等于0.1时,提升度为(Lift)为3.14,以下哪个解释正确
A.根据模型预测,从最高概率到最低概率排序后,最高的前10%中发生事件的数量比随机抽样的响应率高3.14
B.选预测响应概率大于10%的样本,其发生事件的数量比随机抽样的响应率高3.14
C.根据模型预测,从最高概率到最低概率排序后,最高的前10%中预测的精确度比随机抽样高3.14
D.选预测响应概率大于10%的样本,其预测的精确度比随机抽样高3.14
3、答案(C)
在使用历史数据构造训练(Train)集、验证(Validation)集和检验(Test)集时,训练数据集的作用在于
A.用于对模型的效果进行无偏的评估
B.用于比较不同模型的预测准确度
C.用于构造预测模型
D.用于选择模型
4、答案(D)
B.加大了处理的难度
5、答案(C)
D.以上均不对
6、答案(B)
B.根据是否缺失,生成指示变量,仅使用指示变量作为解释变量
7、答案(B)
B.卡方检验
D.T检验
8、答案(A)
以下哪个方法可以剔除多变量情况下的离群观测
9、答案(C)
以下哪种变量筛选方法需要同时设置进出模型的变量显著度阀值
A.向前逐步法
B.向后逐步法
C.逐步法
D.全子集法
10、答案(A)
A.R方
B.调整R方
C.AIC
D.BIC
11、[答案B.]
将复杂的地址简化成北、中、南、东四区,是在进行?
A.数据正规化(Normalization)B.数据一般化(Generalization)C.数据离散化(Discretization)D.数据整合(Integration)
12、【答案(A)】
13、[答案B.]
A.最小信赖度(MinimumConfidence)
B.最小支持度(MinimumSupport)
C.交易编号(TransactionID)
D.购买数量
14、[答案B.]
A.买B商品的顾客中,有60%的顾客会同时购买A
B.买A商品的顾客中,有60%的顾客会同时购买B
C.同时购买A,B两商品的顾客,占所有顾客的60%
D.两商品A,B在交易数据库中同时被购买的机率为60%
15、【答案(B)】
下表为一交易数据库,请问A→C的支持度(Support)为:
A.75%B.50%C.100%D.66.6%
TID
ItemsBought
1
A,B,C
2
A,C
3
A,D
4
B,E,F
16、【答案(D)】
下表为一交易数据库,请问A→C的信赖度(Confidence)为:
17、[答案D.]
A.BCAB.CABC.BACD.CBA
18、[答案C.]
A.调整隐藏层个数
B.调整输入值
C.调整权重(Weight)
D.调整真实值
19、[答案A.]
B.买打印机后过一个月会买墨水夹
C.买计算机所获得的利益
D.以上皆非
20、[答案D.]
如何利用「体重」以简单贝式分类(NaiveBayes)预测「性别」?
A.选取另一条件属性
B.无法预测
C.将体重正规化为0~1之间
D.将体重离散化
21、[答案B.]
22、[答案B.]
简单贝式分类(NaiveBayes)可以用来预测何种数据型态?
23、[答案B.]
A.输入层节点个数设定为3
B.隐藏层节点个数设定为0
C.输出层节点个数设定为3
D.隐藏层节点个数设定为1
24、[答案B.]
A.信用卡发卡银行侦测潜在的卡奴
B.基金经理人针对个股做出未来价格预测
C.电信公司将人户区分为数个群体
D.以上皆是
25、[答案D.]
小王是一个股市投资人,手上持有某公司股票,且已知该股过去历史数据如下表所示,今天为预测2/6的股价而计算该股3日移动平均,请问最近的3日移动平均值为多少?
日期
股价
2/1
10
2/2
12
2/3
13
2/4
16
2/5
19
A.11B.13C.14D.16
26、[答案C.]
下列哪种分类算法的训练结果最难以被解释?
A.NaiveBayes
B.LogisticRegression
C.NeuralNetwork
D.DecisionTree
27、[答案B.]
数据遗缺(NullValue)处理方法可分为人工填补法及自动填补法,下列哪种自动填补法可得到较准确的结果?
A.填入一个通用的常数值,例如填入"未知/Unknown"
B.把填遗缺值的问题当作是分类或预测的问题
C.填入该属性的整体平均值
D.填入该属性的整体中位数
1、(AB)
对于决策类模型、以下哪些统计量用于评价最合适?
A.错分类率
B.利润
C.ROC指标
D.SBC
2、(BD)
对于估计类模型、以下哪些统计量用于评价最合适?
B.极大似然数
C.ROC统计量
3、(AB)
以下哪个变量转换不会改变变量原有的分布形式
A.中心标准化
B.极差标准化
C.TURKEY打分
D.百分位秩
4、(AB)
连续变量转换时,选取百分位秩而不选用最大最小秩的原因
A.避免模型在使用时,值域发生明显变化
B.避免输入变量值域变化对模型预测效果的影响
5、(BC)
立刻扫码
看更多数据分析师认证试题
——学数据分析技能一定要了解的大厂入门券,CDA数据分析师认证证书!
CDA(数据分析师认证),与CFA相似,由国际范围内数据科学领域行业专家、学者及知名企业共同制定并修订更新,迅速发展成行业内长期而稳定的全球大数据及数据分析人才标准,具有专业化、科学化、国际化、系统化等特性。
同时,CDA全栈考试布局和认证体系已得到社会认可,并由为IBM、华为等提供全球认证服务的PearsonVUE面向全球提供灵活的考试服务。