2、根据王珏的理解,下列不属于对问题空间W的统计描述是()o
A.一致性假设
B.划分
C.泛化能力
D.学习能力
正确答案:D
3、下列描述无监督学习错误的是()。
A.无标签
B.核心是聚类
C.不需要降维
D,具有很好的解释性
正确答案:C
4、下列描述有监督学习错误的是()
A.有标签
B.核心是分类
C.所有数据都相互独立分布
D.分类原因不透明
5、下列哪种归纳学习采用符号表示方式?()
A.经验归纳学习
B遗传算法
C.联接学习
D.强化学习
6、混淆矩阵的假正是指()。
A.模型预测为正的正样本
B.模型预测为正的负样本
C.模型预测为负的正样本
D.模型预测为负的负样本
正确答案:B
7、混淆矩阵的真负率公式是为()。
A.TP/(TP+FN)
B.FP/(FP+TN)
C.FN/(TP+FN)
D.TN/(TN+FP)
8、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,准确率是()。
A.1/4
B.l/2
C.4/7
D.4/6
9、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,精确率是()。
D.2/3
10、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,召回率是().
11、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,Fl-score是().
A.4/13
B.8/13
0.00/2.00
12、EM算法的E和M指什么?()
A.Expectation-Maximum
B.Expect-Maximum
C.Extra-Maximum
D.Extra-Max
13、EM算法的核心思想是?()
A.通过不断地求取目标函数的下界的最优值,从而实现最优化的目标。
B.列出优化目标函数,通过方法计算出最优值。
C.列出优化目标函数,通过数值优化方法计算出最优值。
D.列出优化目标函数,通过坐标下降的优化方法计算出最优值。
14、LDA模型的隐变量2是()。
A.每个词对应的主题
B.每篇文档对应的主题
C.每段话对应的主题
D.每个词组对应的主题
15、LDA模型中的一个主题指()。
A.词集合上的一个概率分布
B.词组集合上的一个概率分布
C.整个文档上的一个概率分布
D.整个文档集合上的一个概率分布
16、SVM算法的性能取决于()。
A.核函数的选择
B.核函数的参数
C.软间隔参数
D.以上所有
17、SVM中的代价参数C表示什么?()
A.在分类准确性和模型复杂度之间的权衡
B.交叉验证的次数
C.以上都不对
D.用到的核函数
18、下列有关支持向量机说法不正确的是().
A得到的是局部最优解
B.具有很好的推广能力
C.是凸二次优化问题
D.采用结构风险最小化原理
19、下列有关核函数不正确的是()。
A.可以采用cross-validalion方法选择最佳核函数
B.满足Mercer条件的函数不一定能作为支持向量机的核函数
C.极大地提高了学习机器的非线性处理能力
D.函数与非线性映射并不是—对应的关系
20、一对一法分类器,k个类别需要多少个SVM()。
A.k(k-l)/2
B.k(k-l)
C.k
D.k!
22、有关聚类分析说法错误的是()。
A.无须有标记的样本
B.可以用于提取一些基本特征
C.可以解释观察数据的一些内部结构和规律
D.聚类分析一个簇中的数据之间具有高差异性
23、两个n维向量a(xii,%i2,…,Xin)和0(小1,%22,…,%2n)之间的欧式距离(euclidean
distance)为()。
A.d12=J(a-B)(a-B)T
a2=Zfc=ilxlk-x2k\
C.d12=maxCkii-x2il)
D.cos(O)=(a/)/(|a||°|)
24、闵可夫斯基距离表示为曼哈顿距离时p为()(.
A.1
B.2
C.3
D.4
25、关于K-means说法不正确的是()。
A.算法可能终止于局部最优解
B.簇的数目k必须事先给定
C.对噪声和离群点数据敏感
D.适合发现非凸形状的簇
26、k中心点算法每次迭代的计算复杂度是多少?()
A.O(l)
B.O(k)
C.O(nfc)
D.O(fc(n-fc)2)
27、下面是矩阵M=(:;)的特征值为()。
A.3
C.-1
D.0
A.4
B.5
C.6
D.7
29、下图中有多少个最大团?()
B.l
C.2
D.3
30、假设某事件发生的概率为p,则此事件发生的几率为().
A.p
B.l-p
C.P/(I-P)
D.(l-p)/P
31、贝叶斯网络起源于贝叶斯统计学,是以()为基础的有向图模型,它为处理不
确定知识提供了有效的方法。
A.线性代数
B.逻辑学
C.概率论
D.信息论
32、下列哪项说法不正确。()
A.人工智能是对人类智能的模拟
B.人工神经元是对生物神经元的模拟
C.生物神经信号由树突传递给轴突
D.人工神经元的激活函数可以有多种设计
33、下列哪项说法正确。()
A.异或问题中能找到一条直线正确划分所有点
B.随着自变量数目的增多,所有二值函数中线性可分函数的比例逐渐增大
c.如果一个神经网络结构里面有多个神经元,就一定能解决异或问题
D.通常一个神经元包括线性和非线性两种运算
34、通用近似定理说明()。
A.多层感知机可以做为函数近似器逼近任意函数
B,只需一个隐藏层的多层感知机就能作为通用函数近似器,因此没必要设计深层网络
C.给定隐藏层神经元,三层感知机可以近似任意从一个有限维空间到另一个有限维空
间的Borel可测函数
D.以上全不对
35、强化学习基本要素有哪些?()
A.状态、动作、奖励
B.状态、动作、折扣因子
C.动作、折扣因子、奖励
D.状态、奖励、探索策略
36、不需要建模环境,等待真实反馈再进行接下来的动作,这是哪种强化学习算法。
()
A.Model-free方法
B.Model-based方法
C.Policy-based方法
D.Value-based方法
37、Q-learning属于哪种算法。()
A.On-policy算法
B.Off-policy算法
C.Model-based算法
D.Value-based算法
38、马尔科夫决策过程由哪几个元素来表示()
A.状态、动作、转移概率、策略、折扣因子
B.状态、动作、转移概率、折扣因子、回报函数
C.状态、动作、输入、输出、回报函数
D.状态、动作、值、策略、回报函数
39、关于episode说法错误的是()。
A.一个印isode就是一个从起始状态到结束的经历
B.蒙特卡洛方法需要很少的episode就可以得到准确结果
C.TD方法每次更新不需要使用完整的episode
D.蒙特卡洛的方法需要等到整个episode结束才能更新
40、如果我们的机器(或智能体)每次训练更新的损耗会比较大,我们更倾向于选择
哪种算法。()
A.Sarsa
B.Q-learning
C.两者都可以
D.两者都不行
41、关于策略梯度的方法说法正确的是()。
A.只适用于离散动作空间
B.适用于连续动作空间
C.策略梯度的方法与DQN中的目标函数一致
D.策略梯度的方法通过Q值挑选动作
二、判断题
1、关于EM算法的收敛性,EM算法理论上不能够保证收敛。
正确答案:x
2、关于EM算法的用途,EM算法只适用不完全数据的情形。
3、Jessen不等式等号成立的条件是:变量为常数。
正确答案:V
4、Jessen不等式E(f(x))>=f(E(x)),左边部分大于等于右边部分的条件是函数f是凸
函数,如果f是凹函数,左边部分应该是小于等于右边部分。
5、EM算法因为是理论可以保证收敛的,所以肯定能够取得最优解。
正确答案:X
6、EM算法首先猜测每个数据来自哪个高斯分布,然后求取每个高斯的参数,之后再
去重新猜测每个数据来自哪个高斯分布,类推进一步迭代,直到收敛,从而得到最后
的参数估计值。
7、EM算法,具有通用的求解形式,因此对任何问题,其求解过程都是一样,都能很
容易求得结果。
8、EM算法通常不需要设置步长,而且收敛速度一般很快。
9、吉布斯采样是一种通用的采样方法,对于任何概率分布都可以采样出对应的样本。
10、LDA模型的核心假设是:假设每个文档首先由主题分布表示,然后主题由词概率
分布表示,形成文档-主题-词的三级层次。
11、Gibbs采样是一类通用的采样方法,和M-H采样方法没有任何关系。
12、关于LDA模型中的K,K的指定,必须考虑数据集合的特点,选择一个较为优化
的数值。
13、LDA模型是一种生成式模型。
14、主题建模的关键是确定数据集合的主题个数。
15、主题建模本质上是:一种新的文档表示方法,主要是通过主题的分布来表示一个
文档。一种数据压缩方法,将文档压缩在更小的空间中。
16、SVM中的泛化误差代表SVM对新数据的预测准确度。
17、若参数C(costparameter)被设为无穷,只要最佳分类超平面存在,它就能将所
有数据全部正确分类。
18、"硬间隔"是指SVM允许分类时出现一定范围的误差。
19、支持向量是最靠近决策表面的数据点。
20、数据有噪声,有重复值,不会导致SVM算法性能下降。
21、分裂层次聚类采用的策略是自底向上。
22、DBSCAN对参数不敏感。
23、EM聚类属于软分聚类方法。
24、k-means算法、EM算法是建立在凸球形的样本空间上的聚类方法。
25、逻辑斯蒂回归模型是一种回归算法。
26、燧最大时,表示随机变量最不确定,也就是随机变量最随机,对其行为做准确预
测最困难。
27、从最大嫡思想出发得出的最大嫡模型,采用最大化求解就是在求P(y|x)的对数似
然最大化。
28、GIS算法的收敛速度由计算更新值的步长确定。C值越大,步长越大,收敛速度就
越快。
29、贝叶斯网络具有的条件独立性是结点与其后代结点条件独立。
30、最大似然估计方法是实例数据不完备情况下的学习方法。
31、隐马尔可夫模型是一种统计模型,经常用来描述一个含有隐含未知参数的马尔可
夫过程。
32、LSTM和GRU网络因为引入了门控单元,可以缓解梯度消失问题。
34、卷积神经网络通常比全连接神经网络参数少,因此能力更差。
35、训练算法的目的就是要让模型拟合训练数据。
36、反向传播算法中需要先计算靠近输入层参数的梯度,再计算靠近输出层参数的梯
度。
三、多选题
1、LDA模型在做参数估计时,最常用的方法是()。
A.Gibbs采样方法
B.变分推断
C.梯度下降
D.Beamsearch
正确答案:A、B
2、以下关于逻辑斯蒂回归模型的描述正确的是()。
A.针对分类的可能性进行建模,不仅能预测出类别,还可以得到属于该类别的概率。
B.直接对分类的可能性进行建模,无需事先假设数据分布,这样就避免了假设分布不
准确所带来的问题。
C,模型本质仍然是一个线性模型,实现相对简单。
D.逻辑斯蒂回归模型是线性回归模型
正确答案:A、B、C、D
3、条件随机场需要解决的关键问题有()。
A.特征函数的选择
B.参数估计
C.约束条件
D.模型推断
正确答案:A、B、D
4、基于搜索评分的方法,关键点在于()。
A,确定合适的搜索策略
B.确定搜索优先级
C.确定评分函数
D.确定选择策略
正确答案:A、C
5、基于约束的方法通过统计独立性测试来学习结点间的()。
A.独立性
B.依赖性
C.完备性
正确答案:A、D
6、在数据不完备时,贝叶斯网络的参数学习方法有()o
A.高斯逼近
B.最大似然估计方法
C.蒙特卡洛方法
D.拉普拉斯近似
正确答案:A、C、D
7、隐马尔可夫模型的三个基本问题是()。
A.估值问题
B.状态更新
C.寻找状态序列
D.学习模型参数
8、通常有哪几种训练神经网络的优化方法?()
A.梯度下降法
B.随机梯度下降法
C.小批量随机梯度下降法
D.集成法
正确答案:A、B、C
9、为什么循环神经网络可以用来实现自动问答,比如对一句自然语言问句给出自然语
言回答?()
A.因为自动问答可以看成是一种序列到序列的转换
B.因为循环神经网要比卷积神经网更强大
C.因为循环神经网络能够处理变长输入
D.因为卷积神经网络不能处理字符输入
10、以下关于蒙特卡洛方法描述正确的是().
A.蒙特卡洛方法计算值函数可以采用First-visit方法
B.蒙特卡洛方法方差很大
C.蒙特卡洛方法计算值函数可以采用Every-visit方法
D.蒙特卡洛方法偏差很大
11、在Q-learning中,以下说法正确的是()。
A.在状态b时计算的Q(s,,a,),对应的动作出并没有真正执行,只是用来更新当前Q值
B.在状态『时计算的Q(s1a。,同时也执行了动作优
C.更新中,Q的真实值为r+yOnaxQ(s,,a,))
D.更新中,Q的真实值为Q(s,a)
12、Sarsa与Q-learning的区别是?()
A.Sarsa是off-policy,而Q-learning是on-policy
B.Sarsa是on-policy,而Q-learning是off-policy
C.Q-learning在算法更新时,对应的下一个动作并没有执行,而sarsa的下一个动作在
这次更新时已经确定了
D.Q-learning是一种保守的算法,sarsa是一种贪婪勇敢的算法