1.spark的四大组件下面哪个不是(D)A.SparkStreamingBMlibCGraphxDSparkR
2.下面哪个端口不是spark自带服务的端口(C)A.8080B.4040C.8090D.18080
3.spark1.4版本的最大变化(B)AsparksqlRelease版本B引入SparkRCDataFrameD支持动态资源分配
4.SparkJob默认的调度模式(A)AFIFOBFAIRC无D运行时指定
5.哪个不是本地模式运行的个条件(D)Aspark.localExecution.enabled=trueB显式指定本地运行CfinalStage无父StageDpartition默认值
6.下面哪个不是RDD的特点(C)A.可分区B可序列化C可修改D可持久化
7.关于广播变量,下面哪个是错误的(D)A任何函数调用B是只读的C存储在各个节点D存储在磁盘或HDFS
8.关于累加器,下面哪个是错误的(D)A支持加法B支持数值类型C可并行D不支持自定义类型
9.Spark支持的分布式部署方式中哪个是错误的(D)AstandaloneBsparkonmesosCsparkonYARNDSparkonlocal
10.Stage的Task的数量由什么决定(A)
A.PartitionB.JobC.StageD.TaskScheduler
11.下面哪个操作是窄依赖(B)A.joinB.filterCgroupDsort
12.下面哪个操作肯定是宽依赖(C)AmapBflatMapCreduceByKeyDsample
14默认的存储级别(A)AMEMORY_ONLYBMEMORY_ONLY_SERCMEMORY_AND_DISKDMEMORY_AND_DISK_SER
15spark.deploy.recoveryMode不支持那种(D)A.ZooKeeperB.FileSystemDNONEDhadoop
16.下列哪个不是RDD的缓存方法(C)Apersist()BCache()CMemory()
17.Task运行在下来哪里个选项中Executor上的工作单元(C)ADriverprogramB.sparkmasterC.workernodeDClustermanager
18.hive的元数据存储在derby和mysql中有什么区别(B)A.没区别B.多会话C.支持网络环境D数据库的区别
19.DataFrame和RDD最大的区别(B)A.科学统计支持B.多了schemaC.存储方式不一样D.外部数据源支持
20.Master的ElectedLeader事件后做了哪些操作(D)A.通知driverB.通知workerC.注册applicationD.直接ALIVE
21.下列哪一项不是applicationMaster的功能(D)
A.数据切分B.为应用程序申请资源,并进一步分配给内部任务C.任务监控与容错D.所有应用的管理者
22.SparkRDD中没有的特性是(D)
A.位置优先B.分布式C.弹性D.固定大小
23.以下是Spark中executor的作用是(ABC)
A.保存计算的RDD分区数据B.向Driver反向注册C.接受Driver端发送来的任务Task,作用在RDD上进行执行D.做资源调度任务
24.Stage的Task的数量不是由什么决定(BCD)
25.spark的特点包括(ABD)
A.快速B.通用C.可延伸D.兼容性
26.Task运行不在以下选项中Executor上的工作单元(ABD)
A.DriverprogramB.sparkmasterC.workernodeD.Clustermanager
27.关于spark容错说法错误的有(AD)
A.在容错机制中,如果一个节点死机了,而且运算窄依赖,则只要把丢失的父RDD分区重算即可,依赖于其他节点
B.宽依赖开销更大
C.Checkpoint可以节约大量的系统资源
D.RDD的容错机制是基于SparkStreaming的容错机制
28.SparkRdd转换算子有(ABC)
A.mapB.filterC.mapPartitionsD.collect
29.下面哪些端口是spark自带服务的端口(ABD)
A.8080B.4040C.8090D.18080
30.关于spark中数据倾斜引发原因正确的选项有(ABCD)
A.key本身分布不均衡B.计算方式有误C.过多的数据在一个task里面D.shuffle并行度不够
31.Sparkdriver的功能是什么(ABD)
A.是作业的主进程B.负责了作业的调度C.负责向HDFS申请资源D.负责作业的解析