2023年大数据应用技能竞赛考试题库500题.pdf|非结构化数据处理与应用题库_在线学习

2023年大数据应用技能竞赛考试题库(精简500题)

一`单选题

1.random库中用于生成随机小数的函数是()。

Avrandom()

Bvrandint()

C、getrandbits()

Dvrandrange()

答案：A

2.以下哪些方法不可以直接来对文本分类()

A、Kmeans

B'决策树

Cv支持向量机

DvKNN

3.下列哪些不是目前机器学习所面临的问题是()o

A、测试集的规模

B、维度灾难

C、特征工程

D、过拟合

4.卷积神经网络能通过卷积以及池化等操作将不同种类的鸟归为一类。关于卷积

神经网络能达到该效果的原因,下列说法不正确的是()。

A、同样模式的内容(如鸟嘴)在图像不同位置可能出现

B、池化之后的图像主体内容基本不变

C、不同种类鸟的相同部位(如鸟嘴)形状相似

D、池化作用能使不同种类鸟变得相似

答案:D

5.关于正态分布,下列说法错误的是()。

A、正态分布具有集中性和对称性

B、正态分布的均值和方差能够决定正态分布的位置和形态

C、正态分布的偏度为0,峰度为1

D、标准正态分布的均值为0,方差为1

答案：C

6.以下代码的输出结果为0oImPOrtnUmPyaSnPA=np.array(1-1.7,1.5,-0.2,0.

6,10])Print(np.ceiI(a))

A、[-1.71.5-0.20.610.]

B、[-2.1.-1.0.10.]

C、[-1.71.5-0.20.610.]

Dv[-1.2.-0.1.10.]

答案：D

7.下面说法错误的是()。

A、可以利用统计量对缺失值进行填补

B、可以利用K近邻值对缺失值进行填补

C、只要有缺失值就必须把对应记录删除

D、对于缺失值较多的属性可以考虑删除

8.以下()属于NoSQL数据库中Key-VaIue的缺点。

A、数据无结构

B、查询性能不高,缺乏统一查询语法

C、功能相对有限

D、功能相对有限,不易于做分布式集群

9.以下关于新旧MapReduceAPI的描述错误的是()

Av新APl放在。rg.apache,hadoop.mapreduce包中，而旧APl则是放在org.apa

che.hadoop.mapred中

B、新APl倾向于使用接口方式,而旧APl倾向于使用抽象类

G新APl使用Configuration,而旧API使用JobConf来传递配置信息

D、新APl可以使用Job对象来提交作业

答案：B

10.ordinaIencoder将属性转化为()。

A、独热编码

B、附带特性的数字

C、二进制编码

D、ASCII码

11.在Iinu×下预装了Python2,Python3且默认Python版本为Python3,下列描

述可以正确启动Python有()。

Av在IinUX应用程序TerminaI,打开一个终端窗口。输入WhiChPythOn

B、在IinUX应用程序TerminaI,打开一个终端窗口。输入PythOn2或Python3

G在IinUX应用程序TerminaI,打开一个终端窗口。输入WhiChPython3

Dv在IinUX应用程序Terminal,打开一个终端窗口。输入输入WhiChPythOn2

12.以下可以应用关键词提取的是()。

Ax文献检索

B、自动文摘

C、文本聚类/分类

D、以上答案都正确

Ax增加树的深度

B、增加学习率

C、减少数的深度

D、减少树的个数

14.大数据环境下的隐私担忧,主要表现为()

A、人信息的被识别与暴露

B、户画像的生成

Dx毒入侵

15.下列关于RNN说法正确的是(_)o

A、RNN可以应用在NLP领域

B、LSTM是RNN的一个变种

C、在RNN中一个序列当前的输出与前面的输出也有关

16.np.Iinalg.SVd()函数可以实现()功能。

A、计算协方差矩阵

B、实现奇异值分解

C、计算方差

D、计算均值；

17.k-NN最近邻方法在什么情况下效果较好()

A、样本较多但典型性不好

B、样本较少但典型性好

C、样本呈团状分布

D、样本呈链状分布

18.当()时,可以不考虑RDD序列化处理。

A、完成成本比较高的操作后

B、执行容易失败的操作之前

GRDD被重复利用

D、实时性要求高

19.数据探索是指针对目标可变、持续、多角度的搜索或分析任务,下列哪项不是

其搜索过程的特点()。

A、有选择

B、有策略

C、有目标

D、反复进行的

20.下列关于数据科学流程与方法的描述中,错误的是()。

A、数据科学的基本流程包括数据化、数据加工(DataWrangling或DataMunging)x

数据规整化'探索性分析、数据分析与洞见、结果展现以及数据产品的提供

B、对于数据形态不符合要求的乱数据,要通过清洗成为规整数据

C、数据分析包括描述性分析、诊断性分析、预测性分析和规范性分析

D、数据可视化会遇到视觉假象问题,人眼对亮度和颜色的相对判断容易造成视觉

假象

答案:B

21.彩色图像增强时，()处理可以采用RGB0

A、直方图均衡化

B、同态滤波

C、加权均值滤波

D、中值滤波

22.以下关于pandas中groupby方法说法正确的是()。

Axgroupby能够实现分组聚合

BxgrouPby方法的结果能够直接查看

C、grouPby是PandaS提供的一Z^b用来分组的方法

Dxgroupby方法是pandas提供的一个用来聚合的方法

23.MapReduce编程模型,键值对&It;key,vaIue>的key必须实现哪个接口0

A、WritabIeparabIe;

B、parabIe;

CxWritabIe;

DvLongWritabIe;

24.下列()不是神经网络的代表。

A、卷积神经网络

B、递归神经网络

C、残差网络

D、xgboostM∕

25.某篮运动员在三分线投球的命中率是2(1),他投球10次,恰好投进3个球的

概率()。

A、128(15)

B、16(3)

C、8(5)

D116(7)

26.标准正态分布的均数与标准差是()。

A、0,1

B、1,0

C、0,0

D、1,1

27.为提高计算性能,Spark中Transformation操作采用的是()计算模式。

A、活性

B、惰性

C、实时

Dv非实时

28.matplotIib中的step函数绘制的是什么图()。

A、阶梯图

Bx直方图

C、间断条形图

D、堆积折线图

29.下面()负责MapReduce任务调度。

AxNameNode

B、Jobtracker

CxTaskTracker

DxSecondaryNameNode

30.()计算框架源自一种分布式计算模型,其输入和输出值均为“键-值对”结构。

AxMahout

BxMapReduce

CxSpark

D、Sqoop

31.Hadoop中biner()函数的功能是()。

A、数据排序

B、数据标记

C、数据分析

D、数据合并

32.假设函数中不包括global保留字,对于改变参数值的方法，以下选项中错误

的是0。

A、参数是列表类型时,改变原参数的值

B、参数的值是否改变与函数中对变量的操作有关与参数类型无关

C、参数是整数类型时,不改变原参数的值

D、参数是组合类型(可变对象)时,改变原参数的值

33.下面哪个属于映射数据到新的空间的方法()。

A、傅立叶变换

B、特征加权

C、渐进抽样

Dv维归约

答案:A

34.下列关于运算符优先级的说法中，不正确的一个是()。

A、运算符按照优先级顺序表进行运算

B、同一优先级的运算符在表达式中都是按照从左到右的顺序进行运算的

C、同一优先级的运算符在表达式中都是按照从右到左的顺序进行运算的

D、括号可以改变运算的优先次序

35.matpIOtIib中的legend函数作用是什么()。

A、设置标签文本

B、绘制网格线

C、标示不同图形的文本标签图例

D、设置X轴的数值显示范围

36.为了降低MaPRedUCe两个阶段之间的数据传递量,一般采用()函数对map阶段

的输出进行处理。

A、sort()

Bxbiner()

Cxjoin()

D、gather()

37.以下不属于有监督的词义消歧方法的是()。

AvFliP-FIoP算法

B、贝叶斯分类器

C、最大熠消歧

D、基于词典的消歧

38.如果我们说线性回归模型完美地拟合了训练样本(训练样本误差为零),则下

面哪个说法是正确的()

A、测试样本误差始终为零

B、测试样本误差不可能为零

C、以上答案都不对

39.视觉通道表现力评价指标不包括()。

A、精确性

Bv可辨认性

C、可分离性

D、可转换性

40.下列哪个不是RDD的缓存方法()

Avpersist

Bxcache

CxMemory

41.下列算法中，不属于外推法的是()。

A、移动平均法

B、回归分析法

C、指数平滑法

D、季节指数法

42.关于脏数据和乱数据的区分，以下哪种不属于脏数据()。

A、含有缺失数据

B、冗余数据

C、噪声数据

D、不规则形态数据

43.数据集成的基本类型。

A、内容集成结构集成

B、内容集成规约集成

C、规约集成结构集成

D、模式集成结构集成参

44.随机森林与Bagging中基学习器多样性的区别是()。

A、都来自样本扰动

B、都来自属性扰动

C、来自样本扰动和自属性扰动

D、多样本集结合

45.RDD默认的存储级别是()

A、MEMoRYJ)NLY

B、MEMORY_0NLY_SER

C、MEM0RY_AND,DISK

D、MEM0RY_AND_DISK_SER

46.下列哪种算法可以用神经网络构建？(_)1.K-NN最近邻算法2.线性回归3.逻

辑回归

Ax1and2

Bx2and3

Cx1,2and3

DxNoneoftheabove

47.()的主要目标是提供可扩展的机器学习算法及其实现，旨在帮助开发人员更

加方便快捷地创建智能应用程序。

B、Flume

CxSqoop

DxHBase

48.下列关于LSTM说法错误的是(_)0

A、LSTM中存在Sigmoid函数

B、LSTM中存在tanh函数

C、LSTM又称长短时记忆网络

D、RNN是LSTM的变种

49.在集成学习中,对于数据型输出，最常见的结合策略是()。

A、平均法

B、投票法

C、学习法

50.以下关于Hadoop中MapReduce说法正确的是()。

Ax可以没有reduce任务

BxRedUCer输入为随机输入

C、ShUffle主要实现数据可视化功能

Dx一个reducer只能从一个map复制所需要的partition

51.对于SVM分类算法,待分样本集中的大部分样本不是支持向量,下列说法正确

A、需要将这些样本全部强制转换为支持向量

B、需要将这些样本中可以转化的样本转换为支持向量,不能转换的直接删除

C、移去或者减少这些样本对分类结果没有影响

D、以上都不对

答案:C

52.以下哪个数据类型不可以作为索引对数组进行选取()。

A、booIean

BxtupIe

C、dict

Dxint

53.如果我们现有一个安装2.6.5版本的hadoop集群,在不修改默认配置的情况

下存储200个每个200M的文本文件,请问最终会在集群中产生多少个数据块(包

括副本)()

Av200

B、40000

C、400

D、1200

54.数据科学家可能会同时使用多个算法(模型)进行预测,并且最后把这些算法

的结果集成起来进行最后的预测(集成学习)，以下对集成学习说法正确的是()。

C、在集成学习中使用“平均权重”而不是“投票”会比较好

D、单个模型都是用的一个算法

55.(假设PreCiSiOn=TP/(TP+FP),recaII=TP/(TP+FN))在二分类问题中，当测试

集的正例和负例数量不均衡时,以下评价方案哪个是相对不合理的()。

AxAccuracy:(TP+TN)∕alI

B、F-vaIue:2recaIIprecision/(recaII+precision)

CxG-mean:sqrt(precision*recaII)

D、AUC:曲线下面积

56.以下滤波器对图像中的椒盐噪声滤波效果最好的是()。

A、中值滤波

B、均值滤波

Cx最大值滤波

D、最小值滤波

57.若建立一个5000个特征,100万数据的机器学习模型,则应该怎么有效地应对

这样的大数据训练()。

A、随机抽取一些样本,在这些少量样本之上训练

B、可以试用在线机器学习算法

C、应用PCA算法降维,减少特征数

58.Python中定义私有属性的方法是()。

A、使用private关键字

B、使用PUbIiC关键字

C、使用_XX_定义属性名

D、使用_XX定义属性名

59.模型构建完毕需要对模型进行评估量化,需要用到哪个模块()。

Axutils

Bxmixture

Cxmetrics

DxmanifoId

60.以下哪种方法不属于特征选择的标准方法：()O

A、嵌入

Bv过滤

C、包装

Dv抽样

61.有关数据仓库的开发特点,不正确的描述是()。

A、数据仓库开发要从数据出发；

B、数据仓库使用的需求在开发出去就要明确；

C、数据仓库的开发是一个不断循环的过程,是启发式的开发；

D、在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据

仓库中数据分析和处理更灵活,且没有固定的模式

62.以下哪一种分布是二维随机变量的分布()。

A、正态分布

B、二项分布

C、边缘分布

D、指数分布

63.输入图像为32x32,经过步长为1,不进行padding,卷积核为5x5的卷积层后,

得到的特征图尺寸是多少()

Av28x28

B、27x27

C、29x29

D、32x32;

64.读代码，请写出程序正确的答案()。#!/USr∕bin∕envPythOn3N=1OOSum=OCoun

ter=1WhiIecounter&11;=n:Sum+counterCounter+=1Print("1到%d之和为:％d"%

(n,sum))

Av结果：1到100之和为:5000

Bv结果:1到100之和为:0

G结果：1到100之和为:2050

Dv结果：1到100之和为:5020

65.大数据平台核心分布式存储与计算组件采用Hadoop技术体系中分布式存储、

分布式计算框架,及Spark等开源产品和技术,实现对数据的安全控制和管理功

能,其中分布式存储不包括()。

A、HDFS

BxPostgresqI

C、Hive

D、HBase

66.scikit-learn中的k-means类，哪个参数是用来调节k值的()0

Axn_cIusters

B、max_iter

Cvn_init

Dvinit

67.任一随机事件出现的概率为()

A、在-1与1之间

B、小于O

Cx不小于1

D、在。与1之间

68.对连续图像的离散化采样决定了图像的O。

A、空间分辨率

C、地面分辨率

Dx灰度值

69.Spark的劣势()

A、运算速度快

Bx业务实现需要较少代码

C、提供很多现成函数

D、需要更多机器内存

70.决策树中的叶结点对应于()。

A、属性

Bv样本

C、决策结果

D、标签值

71.MapReduce对map()函数的返回值进行处理后再返回给reduce()函数的目的

是()。

A、减少map0函数和reduce()函数之间的数据传输

B、优化map()函数

G优化reduce。函数

D、这一步骤并无必要

72.关于表述数据可视化在数据科学中重要地位说法中，下列不正确的是()。

A、视觉是人类获得信息的最主要途径

B、数据可视化处理可以洞察统计分析无法发现的结构和细节

C、数据可视化处理结果的解读对用户知识水平的要求较高

D、可视化能够帮助人们提高理解与处理数据的效率

73.arr1=np.arange(O,20,1),arr2=arr1.reshape(4,5),arr2[1:3,1]的输出结

果为0。

A、[[6],[11]]

B、[[5],[10]]

C、[6,11]

D、[5,10]

74.下列哪项方法不属于图像分割方法()。

A、边缘检测法

B、阈值分割法

C、区域分割法

D、特征提取法

75.为了允许支持向量机在一些样本上出错，引入()的概念。

Ax软间隔

Bx硬间隔

Cv间隔

D、误差

76.以下不是开源工具特点的是()。

A、免费

B、可以直接获取源代码

C、用户可以修改源代码并不加说明用于自己的软件中

77.关于缺失值填补,不正确的说法是()。

A、填补数据可以用中位数或者众数等

B、PandaS.dropna可以用来填补缺失值

D、哑变量填补是将缺失值当做一类新特征处理

78.下列哪个函数可以计算字典元素个数()。

A、CmP

BxIen

Cxstr

D、type

79.()是Spark中的抽象数据模型。

A、RDD

BxScheduIer

CxStorage

D、Shuffle

80.Hadoop生态系统中，()主要解决的是日志类数据的收集和处理问题。

81.一般将原始业务数据分为多个部分，()用于模型的构建。

A、训练集

B、测试集

C、验证集

D、全部数据

82.以下可以作为文本分类准则的是()。

A、预测准确率

B、鲁棒性

C、可扩展性

83.“数据的故事化描述”是指为了提升数据的()和()，将数据还原成关联至特定

的情景的过程。

A、可理解性可记忆性可体验性

B、可接受性可记忆性可体验性

C、可接受性可记忆性可呈现性

D、可理解性可记忆性可呈线性

84.以下代码的输出结果为()。ImportnumpyasnpA-np.arange(12).reshape(3,4)

Print(np.deIete(a,5))

A、[[0123][4567][891011]]

B、[0123467891011]

C、[[023][467][81011]]

D、[246810)

85.傅里叶变换得到的频谱中,低频系数对应于()。

A、物体边缘

B、噪声

C、变化平缓部分

D、变化剧烈部分

86.下列程序打印结果为()。ImPOrtreStrI="Python'sfeatures"Str2=re.match

(r,(.*)on(.*).*,,str1,re.MIre.l)Print(str2.group(1))

A、Python

BxPyth

Cxthon,s

D、Python,sfeatures

87.scipy.stats.isf函数的作用是()。

A、随机变量的生存函数

BxSCiPy.stats.Sf的逆

C、计算随机变量的期望和方差

D、随机变量的累积分布函数

88.ApacheSqoop主要设计目的是()。

A、数据清洗

B、数据转化

C、数据ETL

D、数据可视化

89.如果需要训练的特征维度成千上万,在高维情形下出现的数据样本稀疏、距离

计算困难。我们通过什么方法可以缓解这个问题()。

A、K均值算法

B、支持向量机

Cv降维

D、以上答案都不正确

90.关于SoM神经网络描述错误的是：(_)O

A、一种竞争学习型的无监督神经网络

B、将高维输入数据映射到低维空间,保持输入数据在高维空间的拓扑结构

C、SOM寻优目标为每个输出神经元找到合适的权重

D、输出层神经元以矩阵方式排列在二维空间

A、等高线图

Bv饼图

Cx曲面图

Dx矢量场图

92.在TF-IDF算法中，在计算完词频与逆文档频率后,将二者()后得到最终的结

果。

A、相加

B、相减

C、相乘

D、相除

93.jieba的哪一种模式会把文本精确切分,不存在冗余单词()。

A、匹配模式

B、全模式

C、精准模式

D、搜索引擎模式

94.关于SPark的说法中，()是错误的。

A、采用内存计算模式

B、可利用多种语言编程

C、主要用于批处理

D、可进行map()操作

95.()对应于决策树结果,其他节点对应于()。

A、叶节点,属性测试

B、根结点,学习测试

C、内部节点,学习测试

D、叶节点,分类测试

96.对于分类类型的变量，()是个非常好的展示工具。

A、柱状图

Bx折线图

C、饼状图

D、直方图

97.线性判别分析(LDA)从贝叶斯决策理论阐释，当两类数据同先验且满足()时,L

DA达到最优分类。

A、满足高斯分布

B、协方差相等

C、满足高斯分布且协方差相等

D、协方差不等

98.以下哪个模块不是SCiPy库中的()。

AxcIuster

Bxrandom

Cxsignal

Dvmisc

99.对于数据3,3,2,3,6,3,10,3,6,3.2.①这组数据的众数是3;②这组数据的众

数与中位数的数值不相等;③这组数据的中位数与平均数的数值不相等;④这组

数据的平均数与众数的数值相等.其中正确结论的个数为()。

A、1

B、2

C、3

D、4

100.给定一个长度为n的不完整单词序列,我们希望预测下一个字母是什么。比

如输入是predictio(9个字母组成)，希望预测第十个字母是什么。下面哪种神经

网络结构适用于解决这个工作()

A、循环神经网络

B、全连接神经网络

C、受限波尔兹曼机

D、卷积神经网络

101.假设你在卷积神经网络的第一层中有5个卷积核,每个卷积核尺寸为7X7,

具有零填充且步幅为1。该层的输入图片的维度是224X224X3。那么该层输出

的维度是多少()

A、217x217x3

B、217x217x8

G218x218x5

Dv220x220x7

102.以下使用其本身可以达成数据透视功能的函数是()。

Axgroupby

Bxtransform

C、crosstab

Dvpivot_tabIe

103.在python3中以下安装第三方模块命令正确的是()。

Axpip-instalIsklearn

BxpipinstaIlsklearn

Cxpip-upgrageskIearn

Dxpip-isklearn

104.下列关于线性回归分析中的残差说法正确的是()。

A、残差均值总是为零

B、残差均值总是约等于零

C、残差均值总是大于零

105.stats.describe()函数的作用是()。

A、计算变异系数

B、计算数据集的样本偏度

C、计算所传递数组的几个描述性统计信息

D、计算关于样本平均值的第n个矩

106.()是人们从(多条)信息中发现的共性规律、模式、模型、理论和方法等。

A、信息

B、知识

C、理解

D、智慧

107.数据销毁环节的安全技术措施有通过软件或物理方式保障磁盘中存储数据

的()`不可恢复,如数据销毁软件、硬盘消磁机、硬盘粉碎机等。

A、暂时隔离

B、暂时删除

C、永久删除

D、不作处理

108.在Hadoop生态系统中，()可以将结构化的数据文件映射成一张数据库表,并

提供简单的查询语言。

A、Pig

BxHbase

DxMapReduce

109.Python语句print(0xA+0xB)的输出结果是Ooo

A0xA+0xB

B、A+B

CxOxAOxB

Dx21

110.有数组arr=NUmPy.array(11,2,3,4])，执行arr.dtype后输出结果为()。

Axint32

B、int64

CxfIoat32

DxfIoat64

111.以下选项中哪个不属于数据预处理的方法()。

B、数据集成

C、数据变换

D、数据统计

112.CNN神经网络对图像特征提取带来了变革性的变化,使之前的人工特征提取

升级到数据驱动的自动特征提取,在CNN中,起到特征提取作用的网络层是：(_)o

AxconvoIUtion层

BxfulIconnect层

CxmaxpooIing层

D、norm层

113.下列关于文本分类的说法不正确的是()。

A、文本分类是指按照预先定义的主题类别，由计算机自动地为文档集合中的每个

文档确定一个类别

B、文本分类大致可分为基于知识工程的分类系统和基于机器学习的分类系统

C、文本的向量形式一般基于词袋模型构建,该模型考虑了文本词语的行文顺序

D、构建文本的向量形式可以归结为文本的特征选择与特征权重计算两个步骤

114.聚类算法的性能度量可称为()o

A、密度估计

B、异常检测

C、有效性指标

Dx分布结构

115.数据整合和分组的说法,不正确的是()。

Ax数据连接可以用concat或merge函数

Bxaxis=1表示轴向连接

C、数据分组可以使用mean函数

D、使用agg可以自定义多个聚合函数

116.评估完模型之后,发现模型存在高偏差(highbias),应该如何解决()0

A、减少模型的特征数量

B、增加模型的特征数量

C、增加样本数量

117.MatpIotlib的核心是面向Oo

A、过程

B、对象

C、结果

D、服务

118.scipy.stats模块中随机变量的残存函数是()。

Avcdf

Bxrvs

Cxpdf

Dxsf

119.以下内容符合物体识别任务的是()。

A、不能对图像进行压缩或剪裁

B、遵守误差最小准则和最佳近似准则

C、可以不指定分类的类别数量

D、事先给定样本的分布特征

120.以下关于图像平滑的叙述中错误的是()。

A、可以减少噪声

B、可以使图像变得均匀

C、图像的细节部分可以不保持原有特征

D、可以采用基于卷积的滤波方法

121.K-means++算法选择初始seeds的基本思想就是:初始的聚类中心之间的相

互距离要尽可能的远。那么算法流程为()。1.从输入的数据点集合中随机选择一

个点作为第一个聚类中心2.对于数据集中的每一个点X,计算它与最近聚类中心

(指已选择的聚类中心)的距离D(x)3.选择一个新的数据点作为新的聚类中心，

选择的原则是:D(X)较大的点,被选取作为聚类中心的概率较大4.重复2和3直

到k个聚类中心被选出来5.利用这k个初始的聚类中心来运行标准的k-means

算法

A、2.5.4.3.1

B、1.5.4.2.3

Cx1.2.3.4.5

D、4.3.2.1.5

122.留出法直接将数据集划分为()个互斥的集合。

A、—

B、二

C、三

D、四

123.a=1,b=2,c=3,以下表达式值为True的是()。

Axa>=bor(c+5)%3==1

Bnot(a==Iandb!=C)

Cxnotaandb=-c

Dxaanda+b>=c

124.机器学习算法在学习过程中对某种类型假设的偏好,称为Oo

A、训练偏好

B、归纳偏好

C、分析偏好

Dv假设偏好

125.下列关于L1正则化与L2正则化描述错误的是()。

A、Ll范数正则化有助于降低过拟合风险

B、L2范数正则化有助于降低过拟合风险

C、Ll范数正则化比L2范数正则化更有易于获得稀疏解

D、L2范数正则化比Ll范数正则化更有易于获得稀疏解

126.Scikit-Learn中()可以实现计算模型准确率。

Axaccuracy_score

Bxaccuracy

Cxf1_score

Dvf2_score

127.下面哪个操作是窄依赖()

Axjoin

Bxfilter

Cxgroup

Dxsort

D、现象之间完全无关

129.不属于Mayer-SchnbergerV和CukierK.在其著名论著《Bigdata:AreVoIU

tionthatwiIItransformhowweIive,work,andthink》中提出了大数据时代统计的

思维变革的是()。

A、不是随机样本,而是全体数据

B、不是精确性,而是混杂性

C、不是描述性分析,而是预测性分析

130.通过KMeans算法进行聚类分析后得出的聚类结果的特征是()。

A、同一聚类中的对象间相似度高,不同聚类中的对象间相似度高

B、同一聚类中的对象间相似度高,不同聚类中的对象间相似度低

C、同一聚类中的对象间相似度低,不同聚类中的对象间相似度低

D、同一聚类中的对象间相似度低,不同聚类中的对象间相似度高

131.支持向量回归与传统回归模型的差别()。

A、模型输出与真实值相同

B、模型输出与真实值存在偏差

C、模型输出大于真实值

D、模型输出小于真实值

132.下列有关HDFS的容错机制描述错误的是()。

A、HDFS可以使用机架位感知的方法实现容错机制；

BxHDFS可以使用基于erasurecode的方法实现容错机制；

C、HDFS使用机架位感知的方法先把一份拷贝放入同机架上的机器,然后再拷贝

一份到其他服务器；

D、HDFS使用机架位感知的方法先把一份拷贝放入同机架上的机器,然后再拷贝

一份到同机架机器的不同位置上；

133.a=np.arange(10),a[2:4]截取到的数组为()。

A、[1,2,3]

B、[2,3,4]

C、[2,3]

D、[1,2]

134.下列关于分词的说法正确的是()

A、中文句子字之间没有空格,无法分词

B、一个句子的分词结果是唯一的

C、中文分词是将一系列无空格间隔字符串分割成一系列单词的过程

D、分词没有实际应用价值

135.()是交叉验证法的一种特例。

A、自助法

B、留一法

C、交叉验证法

D、错误率分析

136.假设已从标准库functooIs导入reduce()函数，那么表达式reduce(Iambda

x,y：x+y,11,2,3])的值为()。

AxNone

B、6

D、9

137.如何交换二维Numpy数组中的两列()。在数组arr中交换列1和20arr=np.

arange(9).reshape(3,3)

Axarr[:,[1,0,2]]

Bxarr[:,[1,0,3]]

Cxarr[:,[1,0,1]]

D、arr[:,[1,0]]

138.Python语句Iist(range(1,10,3))执行结果为()o

A、[1,10,30]

B、[1,3,6,9]

C、[1,4,7]

D、[2r5,8]

139.假设有列表a=【'name','age','sex'】和b=【'Dong',38,'MaIe'】，请使用

一个语句将这两个列表的内容转换为字典,并且以列表a中的元素为“键”，以列

表b中的元素为“值”，这个语句可以写为()。

Axc=dict(cross(a,b))

Bxc=dict(zip(a,b))

Cxc=map(zip(a,b))

D、c=b

140.如何从一个数组中移除那些存在于另一个数组中的项()。A=np.array([1,

2,3,4,5])B=np.array([5,6,7,8,91)期望输出：array(11,2,3,4])

Axnp.setdiff1d(a,b)

Bvsetdiff1d(a)

Cxsetdiff1d(b)

141.在逻辑回归输出与目标对比的情况下，以下评估指标中哪一项不适用Oo

A、AUC-ROC

B、准确度

CxLogIoss

D、均方误差

142.Numpy中对数组进行转置的函数是哪个()。

Axtranspose()

BxrolIaxisO

Cxswapaxes()

Dxtan()

143.Seaborn要求原始数据的输入类型不能是()

AxDataframe

BxSeries

CxNumpy

144.数据可视化的本质是()。

A、将数据转换为知识

B、将知识转换为数据

C、将数据转换为信息

D、将信息转换为智慧

145.大数据平台技术架构不包含的是()

A、数据整合

B、数据存储

C、数据计算

D、数据溯源

146.机器学习中L1正则化和L2正则化的区别是()。

A、使用L1可以得到稀疏的权值,使用L2可以得到平滑的权值

B、使用L1可以得到平滑的权值,使用L2可以得到平滑的权值

C、使用L1可以得到平滑的权值,使用L2可以得到稀疏的权值

D、使用L1可以得到稀疏的权值,使用L2可以得到稀疏的权值

147.下列关于关键词提取的说法错误的是()

B、TF-IDF模型是关键词提取的经典方法

C、文本中出现次数最多的词最能代表文本的主题

D、这个问题设计数据挖掘,文本处理,信息检索等领域；

148.考虑值集{12243324556826},其四分位数极差是：()

A、21

B、24

C、55

D、3

149.在HadoOP中，下面哪个是默认的InputFormat类型，它将每行内容作为新值，

而将字节偏移量作为key()。

A、FiIeInputFormat

BxTextInputFormat

CxKeyVaIueTextInputFormat

D、bineTextInputFormat

150.pynlpir是一种常用的自然语言理解工具包,其中进行分词处理的函数是()。

Axopen()

B、segment()

C、AddUserWord()

Dxgenerate()

A、0.82

B、0.64

C、0.8

D、0.7

152.关于Python文件处理，以下选项中描述错误的是()。

AxPython能处理JPG图像文件

BxPython不可以处理PDF文件CPython能处理

GSV文件

DKPython能处理ExceI文件

153.划分聚类算法是一种简单的较为基本的重要聚类方法。它的主要思想是通过

将数据点集分为()个划分,并使用重复的控制策略使某个准则最优化,以达到最

终的结果

A、D

B、K

C、E

D、F

154.关于Python语言的特点，以下选项中描述错误的是()。

A、PythOn语言是非开源语言

B、PythOn语言是跨平台语言

C、Python语言是多模型语言

D、PythOn语言是脚本语言

155.不属于判别式模型的是()。

A、决策树

B、BP神经网络

C、支持向量机

Dv贝叶斯

156.聚类是一种典型的无监督学习任务,然而在现实聚类任务中我们往往能获得

一些额外的监督信息,于是可通过()来利用监督信息以获得更好的聚类效果。

A、监督聚类

B、半监督聚类

C、聚类

D、直推聚类

列哪种做法是正确的()

Bx增加学习率

C、减小树的深度

D、减少树的数量

158.Python中的os模块常见方法描述错误的是()。

Axos.remove()删除文件

Bos.rename()重命名文件

C、os.walk()读取所有的目录名

D、os.chdir()改变目录

159.多分类图像识别任务常采用()作为输出的编码方式。

A、二进制编码

BvOne-hot编码

C、霍夫曼编码

D、曼切斯特编码

160.表达式历近'101',2)的值为()。

A、5

C、10

161.以下关于模块说法错误的是()。

Ax一个XX.py就是一个模块；

B、任何一个普通的XX.py文件可以作为模块导入；

C、模块文件的扩展名不一定是.py;

D、运行时会从制定的目录搜索导入的模块,如果没有,会报错异常

162.当try子句中没有任何错误时,一定不会执行()语句。

A、try

BxsIse

Cxexcept

DxfinalIy

163.假设你需要调整参数来最小化代价函数(CoStfUnCtion),会使用()技术。

A、穷举搜索

B、随机搜索

GBayeSian优化

D、以上全是

164.下面哪项不属于循环神经网络的输出模式。(_)

A、单输出

B、多输出

C、同步多输出

D、异步多输出

165.np.sort()函数返回的是0。

A、已排序的原数组

B、排好序的数组拷贝

C、原数组

D、原数组的拷贝

166.在Apriori算法中,候选项集划分为不同的桶,存放在()中。

A、字典

B、集合

GHash树

Dv列表

167.大数据参考架构的水平轴和垂直轴分别为()。

A、信息(活动)价值链和信息技术价值链

B、信息技术价值链和信息(活动)价值链

C、信息交互价值链和信息技术价值链

D、信息(活动)价值链和信息交互价值链

168.情感信息归纳常见的存在形式是()。

A、语料库

B、情感文摘

D、情感倾向

169.以下关于副本和视图描述错误的是()。

A、Numpy的切片操作返回原数据的视图

B、调用Ndarray的VieW()函数产生一X^b视图

GPython序列的切片操作,调用deepCopy()函数

Dx调用Ndarray的COPy()函数产生—y个视图

170.属于卷积神经网络应用方向的是(_)0

A、图像分类

BX目标检测

C、图像语义分割

171.下列不属于数据科学跨平台基础设施和分析工具的是()0

Av微软AZUre

BvGoogIe云平台

G阿里云

D、Adobephotoshop

172.scipy库中用于物理和数学常量计算的模块是()。

Axscipy.cIuster

B、scipy.io

Cxscipy.constants

Dxscipy.Iinalg

173.执行如下代码:ImporttimePrint(time.time())以下选项中描述错误的是()。

A、Ame库是Python的标准库;

Bx可使用time.Ctime(),显示为更可读的形式；

Gtime.SleeP⑸推迟调用线程的运行,单位为毫秒；

D、输出自1970年1月I日00:00:00AM以来的秒数；

174.Python语句:f=OPen(),以下选项中对f的描述错误的是()。

A、*f是文件句柄,用来在程序中表达文件

Bv表达式Print(f)执行将报错

C、*f是一个Python内部变量类型

D、将f当作文件对象,fread()可以读入文件全部信息

175.常用的图像去噪方法有()。

Axι斯滤波

B、中值滤波

C、P-M方程去噪

176.运行下面的代码后,变量n的类型是().N={}

Axset

B、list

C、未知类型

Dxdict

177.有N个样本,一般用于训练,一般用于测试。若增大N值,则训练误差和测试

误差之间的差距会如何变化()。

Ax增大

B、减小

C、无法确定

D、无明显变化

178.任何一个核函数都隐式地定义了一个()空间。

A、希尔伯特空间

B、再生希尔伯特空间

C、再生核希尔伯特空间

D、欧式空间

179.选择哪一个解作为输出，将由学习算法的归纳偏好决定,常见的做法是引入

A、线性回归

B、线性判别分析

G正则化项

D、偏置项

180.Numpy库的主要功能是()。

A、科学计算

B、绘图

C、爬取网站数据、提取结构性数据

D、机器学习库

181.下列关于可视化方法体系说法不正确的是()。

A、通常采用视觉图形元素和视觉通道两个维度进行视觉编码

B、常用的共性方法有统计图表、图论方法、视觉隐喻和图形符号学等

C、领域方法在所属领域内其可视化的信度和效果往往低于基础方法的直接应用

D、视觉编码为其他数据可视化方法提供了方法学基础

182.设计为8层的卷积神经网络AIeXNet网络成功使用(_)函数,其效果远远地

超过了SigmOid函数。

AvReLU函数

Bxsigmoid函数

Cvtanh函数

D、sin函数

183.线性模型中的权重w值可以看做各个属性X的()。

A、正则化系数

B、对最终决策结果的贡献度

C、高维映射

D、取值

184.最早被提出的循环神经网络门控算法是什么()

A、长短期记忆网络

B、门控循环单元网络

C、堆叠循环神经网络

D、双向循环神经网络

185.如果只写open(fiIename),那就是用()模式打开。

A、r

Bxw

Dxb

186.依托(),结合应用推进数据归集,形成统一的数据斐源中心。

A、全业务数据中心和数据中台

B、营销基础数据平台和大数据平台

C、全业务中心和营销基础数据平台

D、全业务数据中心和大数据平台

187.MapReduce编程模型中以下组件哪个是最后执行的()

AxMapper

BxPartitioner

CxReducer

DxRecordReader

188.假如我们使用Lasso回归来拟合数据集,该数据集输入特征有100个(X1,X

2....X100)o现在,我们把其中一个特征值扩大10倍(例如是特征X1),然后用

相同的正则化参数对Lass。回归进行修正。那么,下列说法正确的是()

A、特征X1很可能被排除在模型之外

B、特征X1很可能还包含在模型之中

C、无法确定特征X1是否被舍

189.data=Numpy.array([[[1,2,3],[4,5,6]],[[7,8,9],[10,11,12]]]),

data的形状(shape)为()o

A、(2,2,3)

B、(2,3,2)

C、(3,2,3)

D、(3,2,2)

B、饼图

C、曲面图

191.一个MapReduce程序中的MapTask的个数由什么决定()

A、输入的总文件数

B、客户端程序设置的mapTask的个数

GFilelnputFormat.getSpICS(JobCOnteXtjob)计算出的逻辑切片的数量

D、输入的总文件大小/数据块大小

192.数据可视化的方法论基础是()。

A、统计图表

B、视觉编码理论

C、图论

D、图形符号学

193.当特征值大致相等时会发生什么()

A、PCA将表现出色

B、PCA将表现不佳

C、不知道

D、以上都没有

194.训练完SVM模型后,不是支持向量的那些样本我们可以丢掉,也可以继续分

类：()。

Av正确

B、错误

195.可分解为偏差'方差与噪声之和的是()。

Av训练误差(trainingerror)

Bv经验误差(empiricaIerrOr)

G均方误差(meanSqUarederrOr)

Dx泛化误差(generaIizationerror)

196.以下()是对DMM(数据管理成熟度模型)中“已管理级”基本特点的正确表述。

A、组织机构的数据管理关键活动能够根据结构自身的反馈以及外部环境的变革

进行不断优化。

B、组织机构已用定量化的方式管理其关键过程的执行过程。

C、组织机构只有在项目管理过程中执行了D.M给出的关键过程,而缺乏机构层次

的统筹与管理

D、组织机构的数据管理工作超出了项目管理的范畴,由组织机构统一管理了其数

据管理关键过程

197.以下属于图像处理的常用方法有()。

A、图像变换

B、图像编码压缩

C、图像增强和复原

198.以下属于深度学习框架的是(_)。

AxTensorflow

BvCaffe

CxPyTorch

199.下列关于支持向量的说法正确的是()。

A、到分类超平面的距离最近的且满足一定条件的几个训练样本点是支持向量

B、训练集中的所有样本点都是支持向量

C、每一类样本集中都分别只有一个支持向量

D、支持向量的个数越多越好

200.变量的不确定性越大,相对应信息埼有什么变化()。

Ax燧变小

Bv熔变大

C、不变

201.LSTM中，(__)的作用是确定哪些新的信息留在细胞状态中，并更新细胞状态。

A、输入门

B、遗忘门

C、输出门

D、更新门

202.数据管理成熟度模型中成熟度等级最高是哪一级()。

A、已优化级

B、已测量级

C、已定义级

D、已管理级

203.下列不属于聚类性能度量外部指标的是()。

A、Jaccard系数

B、FM系数

CxRand指数

D、DB指数；

204.执行以下代码段Print(bool(,FaIse'))Print(booI())时,输出为()。

A、TrueTrue

B、TrueFaIse

C、FaIseTrue

DxFaIseFaIse

205.数据科学是一门以()为主要研究任务的独立学科。

A、“数据驱动”“数据业务化”“数据洞见”“数据产品研发”和(或)“数据

生态系统的建设”

B、数据研发

C、数据处理

D、数据洞见

206.Hadoop中，Reducer的三个阶段是_。

A、ShuffIe-Sort-Reduce

BxShuffIe-Reduce-Sort

CxReduce-ShuffIe-Sort

D、Sort-ShuffIe-Reduce

207.下列场景中最有可能应用人工智能的是()。

A、刷脸办电

B、舆情分析

C、信通巡检机器人

208.当使用不同类型的数组进行操作时,结果数组的类型会进行()。

A、向下转换

B、向上转换

C、不进行转换

D、无法计算

209.传统目标检测流程包括()。

A、区域选择

B、特征提取

C、分类器分类

210.关于文件的打开方式，以下选项中描述正确的是0。

A、文件只能选择二进制或文本方式打开

B、文本文件只能以文本方式打开

C、所有文件都可能以文本方式打开

D、所有文件都可能以二进制方式打开

211.以下选项中，输出结果是FaIse的是()o

A、>>>5isnot4

Bx>>>5!=4

G>>>FaIse!=0

Dv>>>5is5

212.以下说法正确的是()。

A、关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。

B、寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式

C、数据挖掘的主要任务是从数据中发现潜在的规律,从而能更好的完成描述数据、

预测数据等任务。

D、在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。

213.在IBMPASS中,聚类算法分为分层聚类、KohonennetworkxK平均值聚类和()

四种。

A、系统聚类

B、两步聚类

C、模型聚类

D、其它聚类

214.下面哪行代码最适合接受系统输入的一个整数()。

A、num=input。

B、num-input(u6")

Cxnum=int(input())

Dxnum=fIoat(input())

215.如何在pyplot中设置X轴、y轴的刻度位置()。

AxxIabeI()×yIabeI()

BxxIim()vyIim()

Cxxscale()xyscaIe()

Dxxticks()yticks()

216,导入模块的方式错误的是()。

Aximportmo

Bxfrommoimport*;

Cximportmoasm

Dximportmfrommo

217.特征工程的目的是()。

A、找到最合适的算法

B、得到最好的输入数据

C、减低模型复杂度

D、加快计算速度

218.关于bagging下列说法错误的是：()。

A、各基分类器之间有较强依赖,不可以进行并行训练

B、最著名的算法之一是基于决策树基分类器的随机森林

C、当训练样本数量较少时,子集之间可能有重叠

D、为了让基分类器之间互相独立,需要将训练集分为若干子集

219.对于数据3,3,2,3,6,3,10,3,6,3.2.①这组数据的众数是3;②这组数据的

众数与中位数的数值不相等;③这组数据的中位数与平均数的数值不相等;④这

组数据的平均数与众数的数值相等.其中正确结论的个数为()。

220.卷积神经网络中每层卷积层(ConVOlUtiOnalIayer)由若干卷积单元组成,每

个卷积单元的参数都是通过反向传播算法最佳化得到,其作用是(_)。

Av增强图像

B、简化图像

C、特征提取

D、图像处理

221.关于层次聚类算法：(1)不断重复直达达到预设的聚类簇数⑵不断合并距离

最近的聚类簇⑶对初始聚类簇和相应的距离矩阵初始化⑷对合并得到的聚类

簇进行更新。正确的执行顺序为()。

A、1234

B、1324

C、3241

D、3412

222.能使图像亮度得到平缓渐变,减小突变梯度,改善图像质量的是()O

Ax图像平滑

B、图像分类

C、图像识别

D、图像分割

223.关于HDFS的特征,下列说法错误的是()。

A、支持超大文件

B、基于商用硬件

C、流式数据访问

D、低吞吐量

224.数组分割使用以下哪个函数()。

Axvstack()

B、hstack()

C、splitO

DxView()

225.以下说法正确的是()。

A、散点图不能在子图中绘制

B、散点图的X轴刻度必须为数值

C、折线图可以用作查看特征间的趋势关系

226.()选择成为支持向量机的最大变数。

A、核函数

B、样本空间

C、模型

Dv算法

227.关系云的一个重要功能是提供()。

A、数据库即服务

B、虚拟服务

C、弹性计算

D、按需服务

228.Python的sys模块常用方法描述错误的是()。

A、sys.argv命令行参数LiSt,第一个元素是程序本身路径

Bvsys.moduIes.keys()返回所有字典中的keys

Cxsys.exc_info()获取当前正在处理的异常类

Dxsys.exit(n)退出程序

229.检测一元正态分布中的离群点,属于异常检测中的基于()的离群点检测。

A、统计方法

B、邻近度

C、密度

D、聚类技术

230.数组允许批量计算而无须任何for循环,这种特性叫Oo

A、矩阵化；

B、便捷化；

C、批量化；

Dv失量化；

231.Hadoop生态系统中,HBase是一种()o

A、分布式文件系统

B、数据仓库

C、实时分布式数据库

D、分布式计算系统

232.scipy中模块integrate的作用是0。

A、程序输入输出

B、差值计算

C、计算积分

D、向量计算;

233.下面哪个操作肯定是宽依赖()

Axmap

BxfIatMap

CxreduceByKey

DxsampIe

234.关于Python赋值语句，以下选项中不合法的是()。

A、x=1;y=1

Bxx=y=1

C、x—(y—1)

D、×,y=y,×

235.关于混合模型聚类算法的优缺点,下面说法正确的是()。

A、当簇只包含少量数据点,或者数据点近似协线性时,混合模型也能很好地处理

B、混合模型很难发现不同大小和椭球形状的簇

C、混合模型比K均值或模糊c均值更一般,因为它可以使用各种类型的分布

D、混合模型在有噪声和离群点时不会存在问题

236.()主要提供内存计算框架

AvSPark核心层

B、资源计算层

C、服务核心层

DvSpark层

237.下列核函数特性描述错误的是()。

A、只要一个对称函数所对应的核矩阵半正定,就能称为核函数；

B、核函数选择作为支持向量机的最大变数；

C、核函数将影响支持向量机的性能；

D、核函数是一种降维模型；

238.以下说法不正确的是()。

A、卷积神经网络主要用于目标识别、图像分割等方面

B、循环神经网络主要用于处理序列数据

C、长短时记忆神经网络主要用于处理序列数据

D、长短时记忆神经网络是和循环神经网络完全不同的一种新型神经网络

239.卷积神经网络(convoIutionaIneuraInetwork,CNN),是一种专门用来处理具

THE END

2023年大数据应用技能竞赛考试题库500题.pdf

2023年大数据应用技能竞赛考试题库500题.pdf

自考软件工程：2003年1月02333软件工程历年真题及答案浙江

数据库原理及应用期末考试复习题库+

论文目录与摘要

数据存储技术论文(文献)

挖掘非结构化数据潜能——向量数据库的探索之路

一文读懂特征工程特征工程（featureengineering）：利用领域知识和现有数据，创造出新的特征，用于机器学习

2020年8月00051管理系统中计算机应用自考真题及答案

DingoDB

从混乱到可控：非结构化数据在远程监造中的作用光伏元数据

大数据应用蓝皮书“双碳”数字化监测服务平台及应用解决方案学术探讨管理荟萃