大数据HCIA练习题（附答案）.pdf|在线平台方式有哪几种_在线平台

一、单选题（共40题，每题1分，共40分）

1、HBase的某张表的RowKey划分SplitKey为9,E,a,z,请问该表有

几个Region

A、3

B、4

C、5

D、6

正确答案：C

2、下列关于Flinkbarrier描述错误的是？

A、在插入barrier的时候，会暂时阻断数据流

B、一个barrier将本周起快照的数据与下一个周期快照的数据分隔开来

C、barrier周期性插入到数据流中，并作为数据流的一部分随之流动

D、barrier是Flink快照的核心

正确答案：A

3、FusioninsightHD中HBase的某张表的RowKey划分SplitKey为9,E,

a,z,请问该表有几个Region

正确答案：c

4、以下关于HBase二级索引的描述哪一项是正确的？

A、二级索引把要查找的列与rowkey关联成一个索引表

B、此时列成新的rowkey,原rowkey成为value

C、二级索引查询了2次

D、以上完全正确

正确答案：D

5、Hive中的哪些操作可以合并

A、UNI0NALL

B、JOIN

C、SELECT

D、GROUPBY

6、HBase中数据存储的文件格式是什么？

A、HFile

B、HLog

C、TextFile

D、SequenceFile

7、spark的核心模块是？

A、sparksql

B、mapreduce

C、sparkstreaming

D、sparkcore

8、FusioninsightHD中，关于HBase的BIoomFilter特性理解，说法不

正确的是？

A、可以用来过滤数据

B、可以用来优化随机读性能

C、会增加存储的消耗

D、可以准确判断某条数据不存在

9、关于FusioninsightHDStreaming的Supervisor描述正确的是？

A、Supervisor负责资源分配和任务调度

B、Supervisor负责接受Nimbus分配的任务，启动和停止属于自己管理

的worker进程

C、Supervisor是运行具体处理逻辑的进程

D、Supervisor是一个Topology中接收数据然后执行处理的组件

正确答案：B

10、关于HBase的Region分裂流程Split的描述不正确的是？

A、Split过程中并没有真正的将文件分开，仅仅是创建了引用文件

B、Split为了减少Region中数据大小，从而将一个Region分裂成两个

Region

C、Split过程中该表会暂停服务

D、Split过程中被分裂的Region会暂停服务

11、Zookeeper的scheme认证方式不包括以下哪项？()

A、sasl

B、world

C、digest

D、auth

12、在FusionlnsightHD中，创建Loader作业的进行数据转换的正确步

骤是O

A、加载、转换、输出

B、输入设置、转换、输出

C、加载、转化、抽取

D、抽取、转换、输出

13、Flume数据采集过程中，下列选项中能对数据进行过滤和修饰的是？

A、Sink

B、ChannelSelector

C、Interceptor

D、Channel

14、FusionlnsightHD系统中，LDAP数据同步方式是哪个？

A、单向同步

B、双向同步

C、隔离不同步

D、数据交叉同步

可以在HBaseshell中执行什么命令？

A、use_permission

B、whoami

C、who

D、get_user

16、下列选项中，关于Zookeeper可靠性含义说法正确的是？()

A、可靠性通过主备部署莫属实现

B、可靠性是指更新只能成功或者失败，没有中间状态

C、可靠性是指无论哪个Server。对外展示的均是同一个视图

D、可靠性是指一条消息被一个Server接收，它将被所有Server接受

17、下列那些命令是HDFS下载文件/目录到本地的()

A、dfs-mkdir

B、dfs-put

C、dfs-cat

D、dfs-get

18、Flink中的()接口用于流数据处理，()接口用于批处理？

A、DataStreamAPI,DataSetAPI

B、DatabatchAPI,DataStreamAPI

C、StreamAPI,BatchAPI

D、BatchAPI,StreamAPI

19、在很多小文件场景下，Spark会起很多Tasko当SQL逻辑中存在

Shuffle操作时，会大大增加hash分桶数，严重影响性能。

Fusioninsight中，针对小文件的场景通常采用()算子，来对Table中

的小文件生成的partition进行合并，减少partition数，从而避免再

shuffle的时候，生成过多的hash分桶,提高性能。

A、groupby

B、connect

C、coalesce

D、join

20、下列选项中，关于Zookeeper可靠性含义说法正确的是？

A、可靠性通过主备部署模式实现

B、可靠性是指一条消息被一个server接收，它将被所有server接受

C、可靠性是指无论哪个server,对外展示的均是同一个视图

D、可靠性是指更新只能成功或者失败，没有中间状态

21、FusionlnsightHD系统中HDFS默认BlockSize是多少

A、32M

B、64M

C、128M

D、256M

22、以下关于Ka珠a的描述错误的有（）

A、用作活动流和运营数据处理管道的基础

B、由ApacheHadoop开发，并于2011年开源

C、具有信息持久化、高吞吐、实时等特性

D、使用Scala、Java语言实现

23、FusionlnsightHD集群组网设计中，有一种机架可以按照业务需求线

性扩展，这种机架被称为（）

A、基本框

B、扩展框

C、管理框

D、数据框

24、FusionlnsightHD使用HBase客户端批量写入10条数据，某个

RegionServer节点上包含该表的2个Region,分别A和B,10条数据中

有两条属于A,4条属于B,请问写入这10条数据需要向该

RegionServer发送几次RPC请求？

A、1

B、2

C、3

D、4

25、FusionlnsightHD系统审计日志不可以记录下面哪些操作？

A、手动清除告警

B、启停服务实例

C、删除服务实例

D、查询历史监控

26、华为FusionlnsightHD系统中关于HDFS的DataNode说法正确的是？

A、不会检查数据的有效性

B、周期性地将本节点的Block发送给NameNode

C、不同的DataNode存储的Block一定是不同的

D、一个DataNode上的Block可以是相同的

27、下面哪些场景不是Flink组件擅长的？()

A、迭代计算

B、数据存储

C、批处理

D、流处理

28、YARN调度器分配资源申请的顺序，下面哪一个描述是正确的？

A、任意机器-＞同机架-〉本地资源

B、任意机器-＞本地资源-〉同机架

C、本地资源-〉同机架-〉任意机器

D、同机架-＞任意机器-〉本地资源

29、下列关于HBase的BloomFilter特性理解不正确的是？

A、用来过滤数据

B、用来优化随机读取的性能

D、可以准确判断某条数据不存在S

30、为了保证流应用的快照存储的可靠性，快照主要存储在？

A、HDFS中

B、jobManager的内存中

C、可靠性高的单机数据库中

D、本地文件系统中

31、FusioninsightHD的Manager界面对Loader的操作不包括下列哪个？

A、启动Loader实例

B、查看Loader服务状态

C、配置Loader参数

D、查看Loader运行日志

32、SoIrCloud模式是集群模式，在此模式下Solr服务器强依赖于以下

哪个服务？

A、HBase

B、HDFS

C、ZooKeeper

D、Yarn

33、HBase的底层数据以()的形式存在的？

A、KeyValue

B、行存储

C、实时存储

D、列存储

34、以下关于Flink关键特性描述不正确的是？

A、SparkStreaming与Flink相比，时延更低

B、Flink流式处理引擎能够同时提供支持流处理和批处理应用的功能

C、与FusionlnghtHD中的Streaming相比，Flink具有更高的吞吐量

D、checkpoint实现了Flink的容错

35、在有N个节点FusionlnsightHD集群中部署HBase时，推荐部署()

个HMaster进程，()个RegionServer进程

A、3,N

B、N,N

C、2,N

D、2,2

36、关于DataSet,下列说法不正确的是？()

A、DataSet是一个由特定域的对象组成的强类型集合

B、DataSet不需要反序列化就可执行大部分操作

C、DataSet执行sort、filter、shuffle等操作需要进行反序列化

D、DataSet与RDD高度类似，性能比RDD好

37、以下关于Hive的描述不正确的是？

A、Hive的最佳使用场合是大数据集的批处理作业

B、Hive查询操作过程严格遵守HadoopMapReduce的作业执行模型，Hive

将用户的HiveQL语句通过解释器转为MapReduce作业提交到Hadoop集

群上

C、Hive构建在基于静态批处理的Hadoop之上，Hadoop通常都有较高的

延迟并且在作业提交和调度的时候需要大量的开销

D、Hive可以实现在大规模数据集上实现低延迟快速的查询。

38、Hive中的这条命令

^ALTERTABLEemployeelADDcolumns(columnistring)是什么含义？

A、删除表

B、增加列

C、创建表

D、修改文件格式

39、以下关于kafkapartition偏移量的描述不正确的是？()

A、offset是一个String型字符串

B、每条消息在文件中的位置称为。ffset(偏移量)

C、消费者通过(offset、partition、topic)跟踪记录

D、唯一标记一条消息

40、Flink的数据转换操作在以下哪个环节中完成？()

A、soure

B、Transformation

C、Sink

DAChannel

二、多选题(共30题，每题1分，共30分)

1、Hadoop的HDFS是一种分布式文件系统，适合以下哪种场景的数据存

储和管理？

A、大量小文件存储

B、高容错、高吞吐量

C、低延迟读取

D、流式数据访问

正确答案：BD

2、Nimbus在Streaming架构中的功能包括？

A、资源分配

B、启动/关闭工作进程

C、任务调度

D、监控任务执行状态

正确答案：ACD

3、FusioninsightManager界面显示Hive服务状态为Bad时，可能原因

有哪些？

A、DBService不可用

B、HDFS服务不可用

C、MetaStore实例不可用

D、HBase服务不可用

正确答案：ABC

4、在Fusioninsight产品中，关于创建Kafka的Topic,以下哪些描述

是正确的？

A、在创建Kafka的Topic时,必须设置Partiton个数

B、在创建Kafka的Topic时，必须设置Partition副本个数

C、设置多副本可以增强Kafka服务的容灾能力

D、以上全都正确

正确答案：ABCD

5、对于容量调度器的任务选择，以下说法正确的是

A、资源回收请求队列优先

B、资源利用量最低的队列优先

C、最大队列层级优先

D、最小队列层级优先

正确答案：ABD

6、采用Flume传输数据过程中，为了防止因Flume进程重启而丢失数据,

可以使用以下哪种Channel类型？

A、MemoryChannel

B、JDBCChannel

C、FileChannel

D、HDFSChannel

正确答案：BC

7、HBase的数据文件HFile中一个KeyValue格式包含哪些信息？

A、Key

B、Value

C、TimeStamp

D、KeyType

8、根据数据流如何在两个Transformation之间传输数据，数据流可以

分为哪些类型？

A、一对多流

B、redistributingint

C、一对一流

D、Distributing流

正确答案：AC

9、HBase的数据文件HFile中一个KeyValue格式包含哪些信息？

C、Timestamp

10、Hadoop集群规模很大时，数据的分布情况会非常关键，用户需要根

据数据分布情况，决定集群是否扩容，数据是否需要做均衡等。以下关

于Fusioninsight资源分布监控说法正确的有()

A、帮助用户迅速找到资源消耗最高的节点，采用适当的措施

B、通过每个服务主页的资源分布查看界面，查看到关键的资源分布情况

C、可以帮助用户快速聚集在最关键的资源消耗上

D、通过DashBoard界面，可以查看到主机资源分布情况。例如内存占有

率在50-75%的主机列表，并提供链接跳转

11、下面关于flink窗口的描述错误的是

12、华为大数据解决方案中平台架构包括以下哪些组成部分？

A、DataFarm层

B、GaussDB200

C、FusionlnsightManager

D、Hadoop层

13、FusioninsightHD系统中使用Streaming客户端Shell命令查看拓扑

或提交拓扑失败，以下哪些定位手段是正确的？

A、查看客户端异常堆栈，判断是否客户端使用问题

B、查看主Nimbus的运行日志，判断是否Nimbus服务端异常

C、查看Supervisor运行日志，判断是否Supervisor异常

D、查看Worker运行日志

正确答案：AB

14、执行HBase读数据业务，需要读取哪几部分数据？

C、MemStore

D、HDFS

15、Fusioninsight家族包含下列哪些子产品()()

A、HD

B、Libra

C、Manager

D、Miner

E、Farmer

F、DWS

正确答案：ABCDE

16、以下关于Hadoop分布式文件系统HDFS联邦描述正确的有？

A、一个Namespace使用一个blockpool管理数据块

B、一个Namespace可使用多个blockpool管理数据块

C、每个blockpool的磁盘空间是物理共享的，逻辑空间是隔离的

D、支持NameNode/Namespace水平扩展

17、在FusionlnsightHD中，Flink主要与以下哪些组件进行交互？

A、Kafka

B、YARN

C、Zookeeper

18、HBase集群定时执行Compaction的目的是什么？

A、减少同一个Region,同一个ColumnFamily下的文件数目

B、提升数据读取性能

C、减少同一个ColumnFamily的文件数据

D、减少同一个Region的文件数目

19、在FusionlnsightHD中，以下哪一项不属于Hive的流控特性

A、支持对已建立的总连接数做阈值控制

B、支持对每个用户已经建立的连接数做阈值控制

C、支持对某个特定用户已建立的连接数做阈值控制

20、Flink的兼容性体现在以下哪些方面？

A、能够使用Hadoop的格式化输入和输出

B、YARN能够作为Flink集群的资源调度管理器

C、能够从本地获取数据

D、能够与Hadoop原有的Mappers和Reducers混合使用

21、以下关于Ka珠aPartition说法正确的有？

A、每个Partition都是有序且不可变的消息队列

B、每个Partition在存储层面对应一个log文件

C、Partition数量决定了每个Consumergroup中并发消费者的最大数量

D、引入Partition机制，保证了Kafka的高吞吐能力

22、以下属于Streaming的特点的是？

A、属于事件驱动

B、延迟低

C、可做连续查询

D、数据先存储在计算

23、Hbase中的以下哪种场景会触发Flush操作？

A、当Wals中的文件数量达到阈值时

B、Hbase定期刷新Memstore,默认周期为1小时

C、MemStore占用内存的总量和RegionServer总内存比值超出了预设的

阈值大小

D、Region中MemStore的总大小，达到了预设的FlushSize阈值

24、Zookeeper中的数据节点znode分为哪几种类型？

A、temporary

B、persistent

C、semi-persistent

D、ephemeral

25、Hadoop的HDFS是一种分布式文件系统，适合以下哪种应用场景的数

据存储和管理？

26、HDFS不适用于以下哪些场景？

A、流式数据访问

B、大量小文件存储

C、大文件存储与访问

D、随机写入

27、关于SparkSQL&Hive区别与联系，下列说法正确的是？

A、SparkSQL的执行引擎为Sparkcore,Hive默认的执行引擎为

MapReduce

B、SparkSQL不可以使用Hive的自定义函数

C、SparkSQL兼容绝大部分Hive的语法和函数

D、SparkSQL依赖Hive的元数据

28、大数据商业咨询服务方案在规划环节主要考虑以下哪些设计？

A、大数据商业模式设计

B、商业场景全景规划

C、典型场景需求设计

D、场景分解和业务设计

29、大数据时代的到来，依赖于以下哪些技术的提升？

A、网络

B、硬件设备制造

C、云计算

D、人工智能

30、YARN容量调度器的主要特点有哪些（）

A、灵活性

B、多重租赁

C、动态更新配置文件

D、容量保证

三、判断题（共30题，每题1分，共30分）

1、ResourecManager米用高可用方案，当ActiveResourceManager发现

故障时，只能通过内置的Zookeeper来启动Standby的ResourceManager

将其状态切换为Active。

A、正确

B、错误

2、现有3个机架，有一个文件需要存3份，其中副本1和副本2存放在

与client相同的机架且不同的服务器上。根据HDFS的副本放置策略一

定要存放在其他机架。

3、在YARN的任务调度中，一旦ApplicationMaster申请到资源后，便

与对应的ResourceManager通信，要求它启动任务。

4、Mapreduce过程中，默认情况下，一个分片就是一个块，也是一个

mapTask.

5、驱动型Source是flume周期性主动去获取数据。（）

6、Channel的作用类似队列，用于临时缓存进来的数据，当Sink成功地

将数据发送到下一跳的Channel或最终目的，数据会从Channel移除

7、FusionlnsightHD系统中，在创建Kafka的Topic时必须设置

Partition个数和副本个数，设置多副本可以增强Kafka服务的容灾能力。

8、假设HDFS在写入数据时只存2份，那么在写入过程中，HDFSClient

先将数据写入DataNodel,再将数据写入DataNode2。（）

9、FusionlnsightHD产品中，一个典型的Kafka集群包含若干Producer,

若干Borker,若干Consumer和一■个Zookeeper集群

10、topology在任务完成后会自动结束运行。（）

11、Channels支持事务，提供较弱的顺序保证，可以连接任何数量的

Source和Sinko

12、Hadoop系统中，如果文件系统的备份因子是3,那么每次MapReduce

任务运行的task所需要的文件都要从3个有副本的机器上传输需要处理

的文件。

13、Fusioninsighttool是为技术支持工程师和维护工程师提供的一套健

中潜在的问题，并生成健康检查报告。方便技术支持工程师各维护工程

师快速了解系统的健康状况。O

14、大数据需要传统行业思维的转变，要把数据收集，分析中作为业务

流程的重要组成，数据端驱动业务流程优化，实现智能化和自动化，并

依托数据资产实现跨界拓展

15、FusionlnsightHD产品中,zookeeper服务不可用会导致kafka服务

不可用。

16、在Flink中，checkpoint机制能够保证应用在运行过程中出现失效

时，从某一个检查点恢复，在此过程中，流快照是根据数据流入建立的

17、Kafka作为一个分布式消息系统，支持在线和离线消息处理，并提供

了JAVAAPI以便其他组件对接使用。在Funsionlnsight解决方案中，

Kafka属于FusioninsightHD模块。

18、Fusioninsight集群组网设计中，二层组网指集群内二层交换，集群

THE END

大数据HCIA练习题（附答案）.pdf

在线教育的模式可以有哪些懂视

线上教学模式

医院培训方式有哪几种医护人员医院培训医疗

新媒体类型有哪几种

j2EE经典面试题JAVA之迷

Vue2面试题收集对vue2知识点一个收集，一共收集了一百道问答题，结合源码看一看希望能在面试中有用处，另外vue3正在

智慧园区平台

慧志愿

blackboard教学平台使用：指南篇

大数据HCIA练习题（附答案）.pdf

林子雨：高校MOOC课程制作过程全记录与经验分享

pdf如何压缩5m以下？三个方法值得一试！