Print学堂在线南京大学机器学习初步(2022秋)考试题答案1.单选题(1分)朴素贝叶斯分类器采用了()假设:即对已知类别,假设所有属性相互独立。A独依赖B道德图C有向无环图依赖D属性条件独立性
正确答案:D2.单选题(1分)下列说法错误的是()A根据训练数据是否拥有标记信息,学习任务可以大致划分为两类:监督学习、无监督学习B支持向量机的原问题和对偶问题都是二次规划问题C决策树相比于对数几率回归更适合分线性分类问题D留一法对模型性能的估计总是比交叉验证方法更准确
正确答案:D4.单选题(1分)当多隐层神经网络使用线性激活函数时,下列哪个选项是正确的A神经网络的输出是输入的线性函数B经验损失最小化具有唯一解C神经网络的输出是权重的线性函数D神经网络具有万有逼近性
正确答案:A5.填空题(1分)支持向量机原始问题目标函数最优值是对偶问题得到的目标函数最优值的______(上界/下界)
正确答案:填空1:上界6.单选题(1分)下列关于类别不平衡问题的描述中正确的是哪个A复制小类样本可以高效解决类别不平衡问题B当大类和小类一样重要时需要针对不平衡问题做特殊处理C阈值移动法需要构造平衡数据集来处理类别不平衡问题D过采样与欠采样都通过构造平衡数据集来处理类别不平衡问题
正确答案:D7.单选题(1分)下列关于多元线性回归中使用正则项的说法中正确的是A使用正则化后,多元线性回归可以找到多个最优解B即便计算机具有无限精度,多元线性回归也需要使用正则项C样例维度小于样例数是使用正则项的原因之一D使用正则项只有理论意义,实际应用中无需使用
正确答案:B8.单选题(1分)下列哪些函数可以作为核函数A以上函数均可以作为核函数B线性核C高斯核D多项式核
正确答案:A9.单选题(1分)考虑正类样本(-1,0),(0,1),(-1,1)和负类样本(1,0),(0,-1),(1,-1),通过支持向量机的基本型得到的解为A以上答案均不是By=xCy=x+1Dy=x-1
正确答案:B10.单选题(1分)以下关于模型评估与选择的说法,错误的是A当数据集很大时,通过留一法进行模型评估的计算代价是非常高昂的B交叉验证t检验是基于列联表的C训练模型时,仅仅保证训练误差为0是不够的D模型的超参选择需要在验证集上进行测试
正确答案:B11.单选题(1分)下列关于线性模型的描述中正确的是哪个A线性模型通过投票法或加权平均法可以得到非线性模型B线性模型既可以处理回归任务,也可以处理分类任务C线性模型的表达能力与神经网络相同D线性模型无法拟合与输入呈指数关系的输出
正确答案:B12.填空题(1分)Sigmoid函数在一点的函数值总是______(大于/等于/小于/无法确定)该点的导数值。
正确答案:填空1:大于13.单选题(1分)以下关于机器学习的说法错误的是()A学得模型后,待测试的样本我们称为“测试样本”,亦称“测试示例”B预测离散值的任务一般称为分类任务C在聚类任务中,我们需要事先知道数据的标记信息D同一个算法在不同数据集上,一般不能得到同样一个模型
正确答案:C14.填空题(1分)对于参数估计过程,统计学界的______(频率主义/贝叶斯主义)学派认为参数虽然未知,但却是客观存在的固定值,因此,可通过优化似然函数等准则来确定参数值。
正确答案:填空1:频率主义15.单选题(1分)下列哪一种数据集切分方式会导致划分的训练集和测试集与初始数据集分布不同A留出法B交叉验证法C自助法D以上做法均不会
正确答案:C16.单选题(1分)下列有关支持向量机,说法正确的是A利用SMO算法求解支持向量机时,只需要迭代更新参数一次B通过支持向量机求解出的划分超平面是对训练样本局部扰动的“容忍”性最好的划分超平面C支持向量机只能处理线性可分的数据D一般情况下,支持向量机训练完后解与全部样本都有关系
正确答案:B17.填空题(1分)如果决策树过拟合训练集,减少决策树最大深度______(是/否)为一个好主意。
正确答案:填空1:是18.单选题(1分)下列说法错误的是()ACART算法的评价指标是基尼系数B当样本均匀分布于所有类中时,熵最大CID3算法能解决过拟合问题D在某些情况下样本特征向量中一些分量没有值,这称为属性缺失
正确答案:C19.单选题(1分)下列关于集成学习的说法中正确的是哪个A已有的多样性定义可以作为优化目标直接优化BBagging中不同个体学习器的数据是从同一数据集中采样得到的,因而需要其他途径使基学习器具有多样性C个体学习器犯错的样本具有一定差异性是集成学习取得好性能的要求之一DBoosting中所有个体学习器的权重是相等的
正确答案:C20.单选题(1分)当西瓜收购公司去瓜摊收购西瓜时既希望把好瓜都收走又保证收到的瓜中坏瓜尽可能的少,请问他应该分别考虑什么评价指标A准确率查全率B查全率查准率C查准率查全率D查全率准确率
正确答案:B21.单选题(1分)下列说法错误的是()A机器学习一般有“独立同分布”假设B用数据建立模型的过程叫训练C学得模型适用于新样本的能力称为“泛化”能力D测试数据应和训练数据一样
正确答案:D22.单选题(1分)以下关于聚类的说法,错误的是A聚类好坏存在绝对标准B密度聚类假设聚类结构可以通过样本分布的紧密程度确定C原型聚类得到的每一个簇都是凸的D聚类可以作为其他学习算法的前驱过程
正确答案:A23.填空题(1分)决策树划分时,若其中一个属性为样本的编号(各样本编号不同),若基于该属性进行划分,则信息增益最______(大/小)
正确答案:填空1:大24.填空题(1分)若任务中数据的属性是连续值,此类任务称为______(分类/回归/不确定)。
正确答案:填空1:不确定25.填空题(1分)当查准率和查全率均为1时,F1度量为______。(计算结果保留三位小数)
正确答案:填空1:1.00026.单选题(1分)下列说法错误的是()A信息增益准则对可取值较多的属性有所偏好B基尼指数越小,数据集的纯度越高C决策树学习时,给定划分属性,若样本在该属性上的值缺失,会随机进入一个分支D随着决策树学习时的深度增加,位于叶结点的样本越来越少
正确答案:C27.填空题(1分)当学习器在训练集上把训练样本自身的一些特征当作了所有潜在样本都具有的一般性质时,泛化性能可能会因此下降,这种现象一般称为______。(过拟合/欠拟合)
正确答案:填空1:过拟合28.单选题(1分)下列关于神经网络万有逼近性的说法中正确的是哪个A万有逼近性保证了神经网络在现实任务中优异的表现B万有逼近性是神经网络独有的性质C包含足够多神经元的单隐层神经网络具有万有逼近性D万有逼近性表明任意一个神经网络都可以逼近任意函数
正确答案:C29.单选题(1分)下列说法错误的是()A决策树属于生成式模型B反映了分类器所能达到的最好性能C贝叶斯决策论是概率框架下实施决策的基本理论D如果概率都能拿到真实值,那么根据贝叶斯判定准则做出的决策是理论上最好的决策
正确答案:A30.填空题(1分)对于两个样本点(0,0),(1,1),若我们将其投影到与拉普拉斯核函数关联的RKHS中时,则两个样本投影后的点距离为______(保留三位小数)
正确答案:填空1:1.230解析
31.填空题(1分)设为一正自然数,考虑数据集。记为最小二乘法在数据集上学得的线性模型的斜率,则的值为______(保留3位小数或填写"不存在")。
正确答案:填空1:1.50032.填空题(1分)考虑如下三分类的例子,使用投票法集成的结果的精度为______(保留3位小数)。
正确答案:填空1:0.20033.填空题(1分)如果为了同时得到多个聚类簇数的聚类结果(如下图所示),最适合使用______(原型聚类/密度聚类/层次聚类)
正确答案:填空1:层次聚类34.填空题(1分)使用BP算法优化神经网络,若发现损失函数剧烈波动,可能是优化步长偏______(大/小)。
正确答案:填空1:大35.单选题(1分)下列说法错误的是()A对连续属性,计算条件概率可考虑概率密度函数B贝叶斯学习等于贝叶斯分类器C极大似然估计需要假设某种概率分布形式D朴素贝叶斯分类器中,对给定类别,模型假设所有属性间相互独立
正确答案:B36.填空题(1分)考虑如图数据集,其中与为特征,其取值集合分别为,为类别标记,其取值集合为。使用所给训练数据,学习一个朴素贝叶斯分类器,考虑样本,请计算的值______(保留2位有效数字)。
正确答案:填空1:0.0337.单选题(1分)以下哪种方式通常不能帮助解决决策树过拟合()。A限制最大树深度B预剪枝C去除训练集一半样本D后剪枝