大数据工程技术人员初级理论考核试题与答案20230225.pdf|数据挖掘过程是循环的过程_在线学习

1.下列哪个选项不属于数据可视化的范畴（I［单选题］*

A科学可视化

B.图表可视化。

C.信息可视化

D.可视化分析

2.下列哪个选项不属于最为常见的六种图形（1［单选题］*

A.饼图

B.条形图

C.树图V

D.柱状图

3.下列（）可视化图表通常用颜色深浅表示数值大小［单选题］*

A.柱状图

B.热力图V

C.散点图

D.气泡图

4.数据集合中出现次数最多的数值被称为（）［单选题］*

A.平均数

B.众数V

C.中位数

D极差

5.（）指总体中的最大值与最小值的差，反映总体标志值的差异范围。［单选题］*

A.极差V

B方差

C.标准差

D.离散系数

6.分析买家购买商品时产生流量和金额的各渠道情况需要细分（）［单选题］*

A斐端

C地区

D.品类V

额大小是（）指标［单选题］*

A.支付金额V

B.买家数

C.单价

D.客单价

8.平均停留时长和跳失率都是（）的分析内容［单选题］*

A.交易分析

B.流量分析V

C.访客分析

D.商品分析

9.商品分析中的重点商品选择可以借助（）方法［单选题］*

A.回归分析

C.漏斗分析

D.ABC分类V

10.ABC分类中畅销的、库存周转率高的高价值商品为（）［单选题］*

A.B类

B.C类

C.A类V

D.都不属于

11.流量质量评估采用（）作为衡量流量有效性的宏观指标［单选题］*

A.访客数

B.转化率V

C.浏览量

D.浏览时长

12.据WardM0（2010）的研究，超过（）的人脑功能用于视觉信息的处理，视觉信息

处理是人脑的最主要功能之一。［单选题］*

A.30%

B.50%V

C.70%

D.40%

13.当前，市场上已经出现了众多的数据可视化软件和工具，下面工具不是大数据可视

化工具的是（X［单选题］*

A.Tableau

B.Datawatch

C.PIatfora

D.PhotoshopV

14.从宏观角度看，数据可视化的功能不包括（1［单选题］*

A.信息记录

B.信息的推理分析

C.信息清洗V

D.信息传播

15.目前有多种成熟的知识可视化工具，下面（）不属于这类可视化工具。［单选题］*

A.概念图

B.思维导图

C.认知地图

D.趋势图V

16.可视化模型有助于理解可视化的具体过程，常用的可视化模型不包括［单选题］*

A循环模型

B.分析模型

C.递进模型V

D.顺序模型

17.人眼的视场是很宽的，垂直方向能超过80°,水平方向能超过（\［单选题］*

A.180°

B.170°

C.160°V

D.150°

18.雷达图适用于（）数据，且每个维度必须可以排序。［单选题］*

A.一维

B二维

C.三维

D.多维V

19.下列四项中，不属于数据库特点的是（1［单选题］*

A.数据共享

B.数据完整性

C.数据冗余很高V

D.数据独立性高

20.（）是位于用户与操作系统之间的一层数据管理软件，它属于系统软件，它为用户

或应用程序提供访问数据库的方法。数据库在建立、使用和维护时由其统一管理、统一控制。

［单选题］*

A.DBMSV

B.DB

C.DBS

D.DBA

21.在SQL中，建立表用的命令是（\［单选题］*

A.CREATESCHEMA

B.CREATETABLEV

C.CREATEVIEW

D.CREATEINDEX

22.SQL的视图是从（）中导出的。［单选题］*

A.基本表

B视图

C.基本表或视图，

D.数据库

23.下列哪个不是sql数据库文件的后缀（1［单选题］*

A..mdf

B..ldf

C..tifV

D..ndf

24.数据定义语言的缩写词为（X［单选题］*

A.DDLV

B.DCL

C.DML

D.DBL

25.目前（）数据库系统已逐渐淘汰了网状数据库和层次数据库，成为当今最为流行的

商用数据库系统。［单选题］*

A.关系V

B.面向对象

C.分布

D.逻辑

26.SQL语言中,删除一个表中所有数据，但保留表结构的命令是（）。［单选题］

A.DELETEV

B.DROP

C.CLEAR

D.REMORE

27.在MSSQLServer中，关于数据库的说法正确的（\［单选题］*

A.一个数据库可以不包含事务日志文件

B.一个数据库可以只包含一个事务日志文件和一个数据库文件V

C.一个数据库可以包含多个数据库文件，但只能包含一个事务日志文件

D.一个数据库可以包含多个事务日志文件，但只能包含一个数据库文件

28.数据库管理系统的英文缩写是（I［单选题］*

B.DBS

C.DBA

D.DB

29.建立索引的目的是（1［单选题］*

A.降低SQLServer数据检索的速度

B.与SQLServer数据检索的速度无关

C.加快数据库的打开速度

D提高SQLServer数据检索的速度V

30.以下关于主键的描述正确的是（I［单选题］*

A.标识表中唯一的实体V

B.创建唯一的索引，允许空值

C.只允许以表中第一字段建立

D.表中允许有多个主键

31.有关数据冗余说法错误的是（X［单选题］*

A.数据库中，数据存在副本的现象，就是数据冗余

B.通过分类存储，可以有效减少数据冗余，但是会增加数据查找的复杂性

C.在数据库设计阶段,一定要尽最大可能避免数据冗余,最好做到无数据冗余。

D.数据冗余通常是由于数据库设计引起的。V

32.关于标识列，以下说法正确的是（X［单选题］*

A.使用sql语句插入数据时，可以为标识列指定要插入的值。

B.设定标识时，必须同时指定标识种子和标识递增量。7

C.若设定标识时，未指定标识递增量，

D.只能把主键设定为标识列。

33.现有表user，字段:userid,username,salary,deptid.email;表department,

字段：deptid,deptname;下面（）应采用检查约束来实现。［单选题］*

A若department中不存在deptid为2的纪录，则不允许在user表中插入deptid为

2的数据行。

B.若user表中已经存在userid为10的记录，则不允许在user表中再次插入userid

为10的数据行。

C.User表中的salary（薪水）值必须在1000元以上。V

D.若User表的email列允许为空，则向user表中插入数据时，可以不输入email值。

34.以下不属于企业管理器功能的是（X［单选题］*

A.创建并管理所有数据库、登陆、用户、权限等。

B.管理和执行数据导入导出、数据库备份等多项辅助功能。

C.定义sqlserver组。

D.调试、执行sql语句，批处理和脚本。V

35.将原始数据进行集成、变换、维度规约、数值规约是在（）步骤的任务。［单选题］

A.频繁模式挖掘

B.分类和预测

C.数据预处理V

D.数据流挖掘

36.某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数

据挖掘的（）问题。［单选题］*

A.关联规则发现V

B.聚类

C.分类

D启然语言处理

37.当不知道数所带标签时，可以使用（）技术位使带同类标签的数据与带其他标签的

数据相分离。［单选题］*

A.分类

B.聚类V

C.关联分析

D.隐马尔可夫链

38.下面（）属于映射数据到新的空间的方法。［单选题］*

A.傅里叶变换V

B特彳励口权

C.渐进抽样

D.维归约

A.等高线图

B.饼图V

C.曲面图

D.矢量场图

40.可用作数据挖掘分析中的关联规则算法有（\［单选题］*

A.决策树、对数回归、关联模式

B.K均值法、SOM神经网络

C.Apriori算法、FP-Tree算法V

D.RBF神经网络、K均值法、决策树

41.下列（）不是可视化交互方法。［单选题］*

A.概览+细节技术

B.焦点+上下文技术

C.概览+缩放技术V

D.平移+缩放技术

42.下列（）属于可视化交互设备。［单选题］*

A.平板电脑

B.触摸屏

C.立体眼镜

D.以上都是V

43.可视分析的运行过程可看作是（）的循环过程。［单选题］*

A."数据-知识—数据"V

B."知识—知识—知识”

C."数据-数据一数据"

D."知识T数据T数据"

A.蓝牙

B.云计算V

C博弈论

D.Wifi

45.极坐标图形是使用（）来绘制的。［单选题］*

A.原点和半径

B.相角和距离V

C.横纵坐标

D.原点和相角

46.文本可视化流程是（）［单选题］

A.原始文本-〉文本信息挖掘-＞视图绘制-＞人机交互。V

B.原始文本-＞视图绘制-〉人机交互。

C.原始文本-〉文本信息挖掘-＞人机交互。

D.原始文本-＞文本信息挖掘-＞视图绘制。

47.下列属于反映比例关系的可视化图表的是（＞［单选题］*

A.旭日图V

B.散点图

C.热力图

48.下列属于数据收集内部渠道的是（入

①客户调查②专家与客户访谈③专业调研机构④内部数据库

A.①、②、④V

B.①、③、④

C.①、②、③

D.①、②、③、④

49.作为电商企业，以下（）图可以有效地提供不同商品的销售和趋势情况。［单选题］

B.分组直方图

C.气泡图

D.条形图和线图的组合图V

50.下列属于基本图表的是（X［单选题］*

A.瀑布图

B.滑珠图

C.漏斗图

D.折线图V

51.对于一个右偏的频数分布，一般情况下（）的值最大。［单选题］*

A.中位数

B.众数

C.算术平均数V

D.无法判断

52.散点图是对成组的（）数值进行比较，气泡图是对（）数值进行比较。［单选题］*

A.两个；两个

B.两个；三个V

C.三个；两个

D.四个；三个

53.图表操作以下个操作①选择数据源②图表布局③插入图表，他们的正确顺序是（1

A.①②③

B.①③②V

C.③①②

D.②①③

54.使用一下那种可视化工具不需要编程基础（1［单选题］*

A.D3.js

B.TableauV

C.Vega

□.Processing

55.现有两个数据（0,1,0,LO）与（0,0,1,1,1）,其中每个属性为二元属性类型,则它们

的Jaccard相似系数为（）。［单选题］*

A.0.75V

B.0.6

C.0.5

D.0.25

56.下面哪个选项不是表达维度的展现方式（\［单选题］*

A.次序V

B彳至向

C.螺旋形

D线性

57.下面哪个维度表示事件组之间的关系（1［单选题］*

A.布局维度V

B.表达维度

C比例维度

D.随机

58.要展示多个文档之间的主题相似性，以下哪类可视化技术较为合适（1［单选题］*

A.图结构可视化，如节点连接图

B.空间数据可视化，如体绘制

C.时序数据可视化，如主题河流

D.高维数据可视化，如降维投影V

59.若有一个数据集,每个数据点有5个属性，以下哪种可视化技术最适用于表示其属

A.降维投影后使用二维散点图进行可视化

B.像素图

C.散点图矩阵V

D.平行坐标系

60.可视化可以将难以理解的原始数据变换成用户可以理解的模式和特征,并显示出来。

依据可视化流程概念图，在原始数据和可视化中间这一步骤是（1［单选题］*

A.用户感知

B.数据分析

C.数据采集

D.数据处理和变换V

61.在TamaraMunzner提出的可视分析模型中，可视设计的whatwhyhow三个维度

中的what指代的是（工［单选题］*

A.可视化任务的抽象

B.对于要被可视化的数据的抽象V

C.视觉编码形式的设计

D.可视化交互形式的设计

62.可视化和其他数据分析处理方法最大的不同是用户起到了关键作用，可视化映射后

的结果只有通过（）才能转换成知识和灵感。［单选题］

A.可视化映射

B.数据处理与变换

C.用户感知V

D.以上答案均不正确

63.下列哪一个不属于可视化三部曲（\［单选题］

A.可视化编码映射

B.视图与交互设计

C.可视化代码实现V

D.可展示数据筛选

64.颜色的视觉通道不包括（\［单选题］*

A.饱和度

B.色相/色调

C.透明度

D.美观度V

65.可视化的输入是（X［单选题］*

A.数据V

B代码

C.视觉形式

D语言

66.可视化的输出是（）。［单选题］*

A.数据

C.视觉形式V

。语言

67.哪句话可以说明可视化的作用（I［单选题］*

A.一图胜千言V

B.掷地有声

C.力透纸背

D.画龙点睛

68.数据的维度指的是（1［单选题］*

A.重要属性的数量

B.属性值的大小

C.属性的数量V

D.样本的数量

69.以下关于统计的说法中,错误的是（）。［单选题］*

A.统计学是关于收集、整理、分析数据和从数据中得出结论的科学

B.描述统计和推断统计的作用只能分开发挥V

C.参数估计是利用样本信息推断总体特征

D.描述统计的内容包括如何用图表或数学方法对数据进行整理和展示

70.用组中值代表各组内得一般水平得假定条件就是（入［单选题］*

A.各组得次数均相等

B.各组得组3巨均相等

C.各组得变量值均相等

D.各组次数在本组内呈均匀分布V

71.RFM模型的R代表什么？（）［单选题］*

72.多维数据模型中的钻取主要指（I［单选题］*

A.从细粒度数据向高层的聚合

B.将汇总数据拆分到更细节的数据V

C.选择维中特定的值进行分析

D.选择维中特定的值进行聚合

73.数据分析的具体步骤为分析业务含义、制定分析计划、拆分查询数据、提炼业务洞

察和（I［单选题］*

A.提交报告

B.反馈汇总

C.产出业务决策V

D以上都对

74.上卷是钻取的逆操作（\［单选题］*

A.正确V

B错误

C.不确定

75.苹果手机的LOGO遵循了闭合性原则中的（＞［单选题］*

A.形状闭合

B.负形闭合V

C.经验闭合

D.截断闭合

76.OLAP的目标是满足决策支持或多维环境特定的查询和报表需求，它的技术核心是

（X［单选题］*

A.表

B维V

C.数据

D统计

77.基于OLAP技术通过对数据进行多层次、多阶段的分析处理，获得高度归纳的信息

是（I［单选题］*

A.多维数据分析V

B.多维标度分析

C.业务分析

D.逻辑分析

78.下述对维度成员的描述错误的是（\［单选题］*

A.维的一个取值称为该维的一个维度成员（简称维成员）

B.如果一个维是多级别的，那么该维的维度成员是在不同维级别的取值的组合。

C.银行会给不同经济性质的企业贷款，比如国有、集体等，若通过企业性质的角度来分

析贷款数据，那么经济性质就是维度成员V

79.PV和UV分别指的是（1［单选题］*

A.访客数和浏览量

B.浏览量和访客数V

C.浏览量和买家数

D.买家数和浏览量

80.下列哪个不是数据库对象（\［单选题］*

A.数据模型

C.表

D.用户V

1.运用基于计算机的方法，包括新技术，从而在数据中获得有用知识的整个过程，就叫

做数据挖掘。［判断题］*

对V

错

2.大数据往往可能蕴含着丰富的规律和知识，所以在大数据之上应用数据挖掘就成了理

所当然的活动了。［判断题］*

3.1989年，术语"数据库中的知识发现”正式确立，即KDD,［判断题］*

4.通过数据挖掘技术，可以发现许多深层的、手工无法发现的规律，帮助企业在激烈的

竞争环境中，占有更多的先机。［判断题］*

5.一般而言，数据仓库应先行建立完成，数据发掘才能有效率的进行。［判断题］*

6.Web数据挖掘是通过数据库中的一些属性来预测另一个属性，它在验证用户提出的

假设过程中提取信息。［判断题］*

对

错V

7.与分类不同的是，回归的输出是离散的类别值，而分类的输出是连续数值。［判断题］

8.近年来，随着人工智能机器学习模式识别和数据挖掘等领域中传统方法的不断发展以

及各种新方法新技术的不断涌现，分类方法得到了长足的发展。［判断题］*

9.”根据客户的消费行为，把客户分成三个类，第一个类的主要特征是……"，实际上这

是一个分类问题。［判断题］*

10.至今Apriori仍然作为聚类分析的经典算法被广泛讨论。［判断题］*

11.神经网络在学习中，一般分为“有教师学习"和"无教师学习"两种。［判断题］*

12.早期的数据挖掘工具采用命令行界面，而且文本格式的输出也不够直观。［判断题］

I3.k-Means聚类算法以相对距离作为相似度测度，它是求对应某一初始聚类中心向量

V最优分类，使得评价指标J最小。［判断题］*

14.从混淆矩阵中，可以衍生出各种评价的指标。错误发现率(Falsediscoveryrate,

FDR),表示在模型预测为正类的样本中，真正的负类的样本所占的比例。［判断题］*

15.层次聚类方法的基本思想是：通过某种相似性测度计算节点之间的相似性，并按相

似度由高到低排序，逐步重新连接个节点。［填空题］

_______________________________（答案：请设置答案）

似度由高到低排序，逐步重新连接个节点。［判断题］*

16.政府2.0、政府3.0,与政府以后的治理改革和服务型政府建设的目标是完全不一致

的。［判断题］*

17.深度学习就是指Tensorflow框架。［判断题］*

18.大数据的价值重在挖掘，目的在于从数据中获取有用知识。［判断题］*

19.简单随机抽样，是从总体N个对象中任意抽取n个对象作为样本,最终以这些样本

作为调查对象。在抽取样本时，总体中每个对象被抽中为调查样本的概率可能会有差19筒

单随机抽样,是从总体N个对象中任意抽取n个对象作为样本，最终以这些样本作为调查

对象。在抽取样本时，总体中每个对象被抽中为调查样本的概率可能会有差异。［判断题］*

20.维是人们观察数据的特定角度，是考虑问题时的一类属性。［判断题］

1、在进行数据探索性分析时，经常使用各种可视化图形的方式。请说明探索性分析的

目标，以下几种图形的核心指令，以及各图的主要功能。［填空题］*

答案解析:（1）条形图

核心指令：plt.bar（x,y）（3分）

作用：用来表现类别数据的频数分布（3分）

（2）箱线图

核心指令：sns.boxplot（x,y,data）（4分）

作用：用来表现数值型数据的数据分布情况，如中位数、上四分位数、下四分位数、四

THE END

大数据工程技术人员初级理论考核试题与答案20230225.pdf

数据挖掘流程详细解析袋鼠社区

大数据工程技术人员初级理论考核试题与答案20230225.pdf

数据挖掘流程知青

数据挖掘150道试题学会你也具有专业能力

数据挖掘的具体工作内容

数据挖掘课程样例十一篇

郝祥军等｜AI重塑知识观：数据科学影响下的知识创造与教育发展方法论认识论科学方法

数据挖掘的过程包括哪些步骤

注册会计师前景分析范文

大数据挖掘技术和流程

小型企业管理论文