大数据技术及应用|Pig处理非结构化数据_在线学习

A、Map函数将输入的元素转换成形式的键值对

B、MapReduce框架采用了Master/Slave架构，包括一个Master和若干个Slave

C、Hadoop框架是用Java实现的，MapReduce应用程序则一定要用Java来写

D、不同的Map任务之间不能互相通信

正确答案：C

A、worker

C、profile

D、yarn-site.xml

A、NameNode存储元数据信息，DataNode存储数据文件

B、DataNode维护block列表信息，并上报给NameNode

C、NameNode维护文件、block和DataNode之间的映射关系

D、客户端同时向多个副本的DataNode传输数据

A、适用于海量流数据的处理

B、适用于海量数据的批处理

C、可以实现秒级结果返回

D、可以应对多步骤复杂的数据处理

A、文件

B、目录

C、块

D、字节

A、DataNode无法正常启动

B、NameNode重启

C、NameNode磁盘空间不足

D、Block上报率低于阈值

正确答案：ABCD

A、修改初始IP为静态IP

B、安装好适配版本的JDK

D、Zookeeper安装配置

正确答案：ABC

A、HDFS主要有NameNode、Client和DataNode三部分组成

B、MapReduce程序编写时，Driver类和Inputformat类一样可使用系统默认，一般不用专门编写

C、YARN框架中的ApplicationMaster一直存在，为了方便任务启动时监控进程

D、MapReuduce框架的计算资源由YARN框架调配

正确答案：BC

A、/etc/profile文件：修改IP映射

B、hadoop-env.sh文件：添加JDK环境变量

C、yarn-site.xml文件：配置YARN框架

D、slaves文件：添加各个数据节点名称

正确答案：BCD

A、前者相比后者学习起来更难

B、前者所需硬件价格贵，可扩展性差，后者硬件便宜，扩展性好

C、前者是共享式(共享内存/共享存储)，容错性差，后者是非共享式的，容错性好

D、前者适用于实时、细粒度计算、计算密集型，后者适用于批处理、非实时、数据密集型

A、数据节点在名称节点的统一调度下进行数据块的创建、删除和复制等操作

B、数据节点通常只有一个

C、数据节点用来存储具体的文件内容

D、数据节点的数据保存在磁盘中

正确答案：ACD

A、本地模式

B、伪分布式

C、全分布式

D、HA模式

A、HDFS是分布式文件系统

B、HDFS正常工作的情况下，主要进程有一个NameNode和若干个DataNode

C、HDFS中SecondaryNameNode是对NameNode节点宕机的预防措施，这两个进程需要在同一个节点上

D、当数据存储DataNode时，DataNode会生成数据块对数据进行存储，且数据块大小是固定的，2.x版本默认为128MB

正确答案：ABD

A、JobTracker

B、Client

C、TaskTracker

D、Task

A、Block是HDFS的最小存储单元

B、Block存储在DataNode的本地磁盘上

C、Block大小的设置目标是让任务数量尽可能的小

D、Block也是数据网络传输的最小单位

正确答案：AB

A、名称节点用来负责具体用户数据的存储

B、名称节点作为中心服务器，负责管理文件系统的命名空间及客户端对文件的访问

C、名称节点通常用来保存元数据

D、名称节点的数据保存在内存中

A、HDFS中元数据有YARN框架进行管控

C、YARN框架每次为MapReduce调配的计算资源都是某个单节点上的

D、HDFS的副本机制是由YARN进行分配的

第一空：最小化寻址开销；

第一空：合并；

第一空：切分；

第一空：128；

正确答案：×

正确答案：√

A、一

B、二

C、三

D、四

A、insertoverwritetablestudentselect*fromuserwhereage>10;//向表student中插入来自user表的age大于10的数据并覆盖student表中原有数据

B、createdatabaseuserdb;//创建数据库userdb

C、loaddatalocalinpath‘/usr/local/data’overwriteintotableusr;//把目录’/usr/local/data’下的数据文件中的数据以追加的方式装载进usr表

D、createtableifnotexistsusr(idbigint,namestring,ageint);//如果usr表不存在，创建表usr，含三个属性id,name,age

A、Zookeeper是一个集群管理工具，常用于分布式计算，提供配置维护、域名服务、分布式同步等。

B、HBase的实现包括的主要功能组件是库函数，一个Master主服务器和一个Region服务器

C、如果不启动Hadoop，则HBase完全无法使用

D、如果通过HBaseShell插入表数据，可以插入一行数据或一个单元格数据。

正确答案：A

A、Hive的结果返回延迟较高

B、Hive可以在视图上更新、插入和删除数据

C、Hive暂不支持存储过程

D、Hive暂不支持列级别数据的增加、更新、删除操作

A、100MB-200MB

B、500MB-1000MB

C、1GB-2GB

D、2GB-4GB

A、每个HBase表都由若干行组成，每个行由行键（rowkey）来标识

C、HBase列族支持动态扩展，可以很轻松地添加一个列族或列

D、HBase中执行更新操作时，会删除数据旧的版本，并生成一个新的版本

A、内部表的创建过程和数据加载过程，可以分别独立完成，也可以在同一个语句中一次完成

B、删除内部表时，元数据与数据都会被删除

C、外部表指向已经在HDFS中存在的数据

D、删除外部表时，元数据与数据都会被删除

A、Hlog是以WAL（预写日志）方式在写数据时产生的日志文件

B、HBase写数据时，先写Hlog，然后就写入StoreFile

C、定期会删除Hlog过期数据

D、一个Region服务器只有一个Hlog文件，可以提高对表的写操作性能

A、列式数据库

B、关系数据库

C、文档数据库

D、行式数据库

A、分区和分桶的目的都是为了提高数据检索的效率

B、分区的数量通常是不固定的

C、分桶的数据通常是不固定的

D、分区之下可再有分区或者分桶

B、list：显示表的所有数据

C、put：向表、行、列指定的单元格添加数据

D、create：创建表

A、HBase多用于存储非结构化和半结构化的松散数据

B、HBase是针对谷歌BigTable的开源实现

C、HBase是一个行式分布式数据库，是Hadoop生态系统中的一个组件

D、HBase是一种关系型数据库，现成功应用于互联网服务领域

A、Hive将元数据存储在关系型数据库中

B、Hive的元数据包含表的名字、表数据所在HDFS目录、表属性等

C、Hive的计算引擎只能是ApacheMapReduce

D、Hive的存储引擎可以是HDFS，也可以是Hbase

A、loaddatalocalinpath‘/usr/local/data’overwriteintotableusr;将本地目录的文件写入到usr表中，并覆盖usr表中原有数据

B、loaddatainpath’hdfs://localhost:9000/data’overwriteintotableusr;将HDFS目录上的文件写入到usr表中，并覆盖usr表中原有数据

C、loaddatainpath‘/usr/local/data’intotableusr;将本地目录的文件写入到usr表中，不覆盖usr表中原有数据

D、insertintotableusr1select*fromusrwhereage=10;向表usr1中插入来自usr表的数据并追加在原有数据后

A、TINYINT

B、FLOAT

C、BINARY

D、STRING

A、数据模型

B、数据维护

C、可伸缩性

D、存储模式

A、通过单个行健访问

B、通过一个行健的区间来访问

C、全表扫描

D、通过某列的值区间

A、Store由一个MemStore和若干个StoreFile组成

B、数据的读写都是先访问MemStore

C、Store中可以存储任意多个StoreFile

D、多个Store可以存储在一个Region中

A、在数据的基础上，通过算法构建出模型并对模型进行评估

B、评估的性能如果达到要求，就用该模型来测试其他的数据

C、评估的性能如果达不到要求，就要调整算法来重新建立模型，再次进行评估

D、通过算法构建出的模型不需要评估就可以用于其他数据的测试

A、df.write.json(“people.json”)

B、df.json(“people.json”)

C、df.write.format(“csv”).save(“people.json”)

D、df.write.csv(“people.json”)

A、图结构数据的计算：Hive

B、基于实时数据流的数据处理：Storm

C、复杂的批量数据处理：MapReduce

D、基于历史数据的交互式查询：Impala

A、流水线将多个工作流阶段（转换器和评估器）连接在一起，形成机器学习的工作流，并获得结果输出

B、要构建一个机器学习流水线，首先需要定义流水线中的各个PipelineStage

C、PipelineStage称为工作流阶段，包括转换器和评估器，比如指标提取和转换模型训练等

D、流水线构建好以后，就是一个转换器（Transformer）

A、SparkStreaming

B、MLlib

C、GraphX

D、Flink

A、Java

B、Scala

C、Matlab

D、Python

A、可分区

B、可序列化

C、可修改

D、可持久化

A、转换器是一种可以将一个DataFrame转换为另一个DataFrame的算法

B、技术上，转换器实现了一个方法fit()，它通过附加一个或多个列，将一个DataFrame转换为另一个DataFrame

C、一个模型就是一个转换器，它把一个不包含预测标签的测试数据集DataFrame打上标签，转化成另一个包含预测标签的DataFrame

D、技术上，转换器实现了一个方法transform()，它通过附加一个或多个列，将一个DataFrame转换为另一个DataFrame

A、在Shark原有的架构上重写了逻辑执行计划的优化部分，解决了Shark存在的问题

B、SparkSQL在Hive兼容层面仅依赖HiveQL解析和Hive元数据

C、SparkSQL执行计划生成和优化都由Catalyst（函数式关系查询优化框架）负责

D、SparkSQL执行计划生成和优化需要依赖Hive来完成

A、printSchema()

B、select()

C、filter()

D、sendto()

A、Shark提供了类似Pig的功能

B、Shark把SQL语句转换成MapReduce作业

C、Shark重用了Hive中的HiveQL解析、逻辑执行计划翻译、执行计划优化等逻辑

D、Shark的性能比Hive差很多

A、map

B、filter

C、reduceByKey

D、union

A、groupBy

C、count

D、map

C、groupByKey

D、join

A、DriverProgram

B、SparkMaster

C、WorkerNode

D、ClusterManager

A、机器学习和人工智能是不存在关联关系的两个独立领域

B、机器学习强调三个关键词：算法、经验、性能

C、推荐系统、金融反欺诈、语音识别、自然语言处理和机器翻译、模式识别、智能控制等领域，都用到了机器学习的知识

D、机器学习可以看作是一门人工智能的科学，该领域的主要研究对象是人工智能

A、take(n)：返回数据集中的第n个元素

B、map(func)：将每个元素传递到函数func中，并将结果返回为一个新的数据集

C、filter(func)：筛选出满足函数func的元素，并返回一个新的数据集

D、count()：返回数据集中的元素个数

A、传统的机器学习算法，由于技术和单机存储的限制，大多只能在少量数据上使用

B、利用MapReduce框架在全量数据上进行机器学习，这在一定程度上解决了统计随机性的问题，提高了机器学习的精度

C、MapReduce可以高效支持迭代计算

D、Spark无法高效支持迭代计算

A、复杂的批量数据处理

B、基于历史数据的交互式查询

C、大数据的分布式计算

D、基于实时数据流的数据处理

A、容易使用

B、通用性好

C、运行速度快

D、运行模式多样

A、具有高效的容错性

B、利用进程模型

C、可以将中间结果持久化到内存

D、表达能力有限

正确答案：AC

A、MapReduce

B、Hadoop

C、Spark

D、Storm

A、运行速度快

B、容易使用，简洁的API设计有助于用户轻松构建并行程序

C、通用性，Spark提供了完整而强大的技术栈

A、集群资源管理器（ClusterManager）

B、执行进程（Executor）

D、任务控制节点DriverProgram

A、SparkSQL可以提供DataFrameAPI，可以对内部和外部各种数据源执行各种关系操作

B、可以支持大量的数据源和数据分析算法，组合使用SparkSQL和SparkMLlib，可以融合传统关系数据库的结构化数据管理能力和机器学习算法的数据处理能力

C、SparkSQL无法对各种不同的数据源进行整合

D、SparkSQL无法融合结构化数据管理能力和机器学习算法的数据处理能力

A、RDD的中间结果会持久化到内存

B、RDD采用lineage机制实现高效容错性

C、RDD采用数据冗余存储方式实现容错性

D、RDD存放的数据可以是未序列化的java对象

A、制作“表头”

B、制作“表中的记录”

C、制作映射表

D、把“表头”和“表中的记录”拼装在一起

A、集群资源管理器ClusterManager

B、运行作业任务的工作节点WorkerNode

C、每个工作节点上负责具体任务的执行进程Executor

D、每个应用的任务控制节点Driver

A、RDD是一个弹性分布式数据集

B、RDD的数据可以修改

C、RDD可以分成多个分区

D、RDD不仅支持数据集的粗粒度操作，也支持数据项的细粒度操作

B、spark.mllib包含基于DataFrame的原始算法API

C、spark.mllib包含基于RDD的原始算法API

D、spark.ml则提供了基于RDD的、高层次的API

A、执行计划优化完全依赖于Hive，不方便添加新的优化策略

B、执行计划优化不依赖于Hive，方便添加新的优化策略

C、Spark是线程级并行，而MapReduce是进程级并行，因此，Spark在兼容Hive的实现上存在线程安全问题，导致Shark不得不使用另外一套独立维护的、打了补丁的Hive源码分支

D、Spark是进程级并行，而MapReduce是线程级并行，因此，Spark在兼容Hive的实现上存在线程安全问题，导致Shark不得不使用另外一套独立维护的、打了补丁的Hive源码分支

A、Local

B、Standalone

C、SparkonMesos

D、SparkonYARN

A、利用反射机制推断RDD模式

B、使用编程方式定义RDD模式

C、利用投影机制推断RDD模式

D、利用互联机制推断RDD模式

A、DataFrame的推出，让Spark具备了处理大规模结构化数据的能力

B、DataFrame比原有的RDD转化方式更加简单易用，而且获得了更高的计算性能

C、Spark能够轻松实现从MySQL到DataFrame的转化，并且支持SQL查询

D、DataFrame是一种以RDD为基础的分布式数据集，提供了详细的结构信息

A、具有两个NameNode，可以改进单个NameNode单点故障问题

B、将MapReduce中资源管理和作业控制分开

C、ResourceManager负责所有应用程序的资源分配，ApplicationMaster负责管理一个应用程序

D、Yarn仅可为MapReduce计算框架提供服务

A、edits文件保存的是自最新检查点之后的所有文件更新操作

B、edits文件的大小对于重启NameNode是没有影响的

C、fsimage文件保存的内容有：文件目录信息、文件副本数、Block与DataNode映射关系等

D、StandbyNameNode会定期合并edits和fsimage，并返回给ActiveNameNode

A、分布式文件系统HDFS是一种关系型数据库

B、分布式文件系统HDFS是GoogleBigtable的一种开源实现

C、分布式文件系统HDFS是谷歌分布式文件系统GFS（GoogleFileSystem）的一种开源实现

D、分布式文件系统HDFS比较适合存储大量零碎的小文件

（1）/etc/udev/rules.d/70-persistent-net

（2）/etc/sysconfig/network-scripts/ifcfg-ens33

（3）/etc/sysconfig/network

A、①②

B、①②③

C、②③

D、①③

E、无

F、5

G、0

A、hdfsdfs–dir/user/root/

B、hdfsdfs–report/user/root/

C、hdfsdfs–ls/user/root/

D、hdfsdfs–display/user/root/

A、<“hello”,1,1><“hadoop”,1><“world”,1>

B、<“hello”,2><“hadoop”,1><“world”,1>

C、<“hello”,<1,1>><“hadoop”,1><“world”,1>

D、<“hello”,1><“hello”,1><“hadoop”,1><“world”,1>

A、名称节点，主节点

B、从节点，主节点

C、数据节点，名称节点

D、名称节点，数据节点

A、hadoopfs–get/user/root/live.txt/opt

B、hadoopfs–download/user/root/live.txt/opt

C、hadoopfs–put/user/root/live.txt/opt

D、hadoopfs–move/user/root/live.txt/opt

A、输入MapReduce的数据必须为键值对类型，但MapReduce不可以将数据转换为键值对

B、在Mapper阶段完成后数据会传入环形缓冲区

C、MapReduce中根据键值对进行分组的步骤在Shuffle阶段进行

D、在不设置分区的情况下，MapReduce的结果文件为一个

正确答案：AD

A、shuffle阶段会执行partition、sort、merge等工作

B、shuffle阶段的partition数量是由Map任务的结果数量决定的

C、shuffle阶段的任务是由MapReduce框架自身完成的，不需要用户干预

D、shuffle阶段的任务是在缓存上进行的，如果文件很大，会spill到磁盘上

A、.MEATA.表，Zookeeper文件，-ROOT-表

B、-ROOT-表，Zookeeper文件，.MEATA.表

C、Zookeeper文件，.MEATA.表，-ROOT-表

D、Zookeeper文件，-ROOT-表，.MEATA.表

A、评估器是学习算法或在训练数据上的训练方法的概念抽象

B、在机器学习流水线里，评估器通常是被用来操作DataFrame数据并生成一个转换器

C、评估器实现了方法transfrom()，它接受一个DataFrame并产生一个转换器

D、评估器实现了方法fit()，它接受一个DataFrame并产生一个转换器

A、DataFrame可容纳各种数据类型，与RDD数据集相比，它包含了模式（schema）信息，类似于传统数据库中的二维表格

B、流水线用DataFrame来存储源数据

C、转换器（Transformer）是一种可以将一个DataFrame转换为另一个DataFrame的算法

D、评估器（Estimator）是一种可以将一个DataFrame转换为另一个DataFrame的算法

A、Scala运行于Java平台，兼容现有的Java程序

B、Scala具备强大的并发性，支持函数式编程

C、Scala是一种多范式编程语言

D、Scala是Spark的主要编程语言，但Spark还支持Java、Python、R作为编程语言

A、spark.read.json(“people.json”)

B、spark.read.parquet(“people.json”)

C、spark.read.format(“json”).load(“people.json”)

D、spark.read.format(“csv”).load(“people.json”)

A、存在一个父RDD的一个分区对应一个子RDD的多个分区，则为宽依赖

B、存在一个父RDD的多个分区对应一个子RDD的一个分区，则为宽依赖

C、存在一个父RDD的一个分区只被一个子RDD的一个分区所使用，则为窄依赖

D、存在一个父RDD的一个分区被一个子RDD的多个分区所使用，则为窄依赖

A、宽依赖可以实现“流水化”优化

B、窄依赖可以实现“流水化”优化

C、尽量将窄依赖划分到同一个stage中

D、宽依赖对于作业job的优化更有利

A、<“hello”,1>、<“hello”,1>、<“hadoop”,1>和<“world”,1>

B、<“hello”,2>、<“hadoop”,1>和<“world”,1>

C、<“hello”,<1,1>>、<“hadoop”,1>和<“world”,1>

D、<“hello”,1,1>、<“hadoop”,1>和<“world”,1>

A、保证数据可靠性

B、节约存储空间

C、加快数据传输速度

D、容易检查数据错误

A、job.setOutputKeyClass(Text.class);job.setOutputValueClass(Text.class)

B、job.setOutputKeyClass(IntWritable.class);job.setOutputValueClass(Text.class)

C、job.setOutputKeyClass(Text.class);job.setOutputValueClass(LongWritable.class)

D、job.setOutputKeyClass(Text.class);job.setOutputValueClass(DoubleWritable.class)

THE END

大数据技术及应用

数据分布检验利器：通过QQ图进行可视化分布诊断异常检测插值正态分布

图解大数据Hive与HBase详解@海量数据库查询

大数据分布式计算Hadoop

大数据处理论文

互联网数据挖掘与分析方法考核试卷.docx

从优秀到顶尖，你的数据科学家之路还差这13个技能

金融咨询网

大数据技术汇总十篇

常见非结构数据库包括什么?Worktile社区

大数据hadooppighiveMahouthbase菜菜920

大数据技术及应用

pig的原理及特点是什么

ApachePig概述ApachePig教程

干货：大数据分析平台架构(BigDataAnalyticsPlatform)

数据处理论文