图解大数据Hive与HBase详解@海量数据库查询|Pig处理非结构化数据_在线学习

丰富的线上&线下活动，深入探索云世界

做任务，得社区积分和周边

最真实的开发者用云体验

让每位学生受益于普惠算力

让创作激发创新

资深技术专家手把手带教

遇见技术追梦人

技术交流，直击现场

海量开发者使用工具、手册，免费下载

极速、全面、稳定、安全的开源镜像

开发手册、白皮书、案例集等实战精华

为开发者定制的Chrome浏览器插件

大家知道在计算机领域，关系数据库大量用于数据存储和维护的场景。大数据的出现后，很多公司转而选择像Hadoop/Spark的大数据解决方案。

Hadoop使用分布式文件系统，用于存储大数据，并使用MapReduce来处理。Hadoop擅长于存储各种格式的庞大的数据，任意的格式甚至非结构化的处理。

Hadoop非常适合批量处理任务，但它只以顺序方式访问数据。这意味着如果要查询，必须搜索整个数据集，即使是最简单的搜索工作。

当处理结果在另一个庞大的数据集，也是按顺序处理一个巨大的数据集。在这一点上，一个新的解决方案，需要访问数据中的任何点（随机访问）单元。

HBase是建立在Hadoop文件系统之上的分布式面向列的数据库。

HBase是一个数据模型，类似于谷歌的Bigtable设计，可以提供快速随机访问海量结构化数据。它利用了Hadoop的文件系统（HDFS）提供的容错能力。

它是Hadoop的生态系统，提供对数据的随机实时读/写访问，是Hadoop文件系统的一部分。我们可以直接或通过HBase的存储HDFS数据。使用HBase在HDFS读取消费/随机访问数据。HBase在Hadoop的文件系统之上，并提供了读写访问。

要提到HBase，就要顺带提到google的Bigtable。HBase是在谷歌BigTable的基础之上进行开源实现的，是一个高可靠、高性能、面向列、可伸缩的分布式数据库，可以用来存储非结构化和半结构化的稀疏数据。

BigTable和HBase存储的都是非结构化数据。

BigTable是一个用于管理结构化数据的分布式存储系统，构建在GFS、Chubby、SSTable等google技术之上。本质上说，BigTable是一个稀疏的、分布式的、持久化的、多维的、排序的键值（key-value）映射。

HBase在大数据生态环境中的位置如下图所示，它建立在HadoopHDFS之上的分布式面向列的数据库。

如下图所示，HBase有以下特点：

Table在行的方向上分割为多个Region，每个Region分散在不同的RegionServer中。

每个HRegion由多个Store构成，每个Store由一个MemStore和0或多个StoreFile组成，每个Store保存一个ColumnsFamily。StoreFile以HFile格式存储在HDFS中。

HBase包含以下三个组件：

HBaseTables通过行健的范围(rowkeyrange)被水平切分成多个Region。一个Region包含了所有的在Region开始键(startKey)和结束键(endKey)之内的行。Regions被分配到集群的节点上，成为RegionServers，提供数据的读写服务；一个RegionServer可以服务1000个Region。

Hive是基于Hadoop的一个数据仓库工具，用于结构化数据的查询、分析和汇总。Hive提供类SQL查询功能，它将SQL转换为MapReduce程序。

Hive不支持OLTP，Hive无法提供实时查询。

Hive的优点

Hive的缺点(局限性)

Hive中所有的数据都存储在HDFS中Hive中包含以下数据模型：

Hive并不适合需要低延迟的应用，适合于大数据集的批处理作业：

THE END

图解大数据Hive与HBase详解@海量数据库查询

数据分布检验利器：通过QQ图进行可视化分布诊断异常检测插值正态分布

图解大数据Hive与HBase详解@海量数据库查询

大数据分布式计算Hadoop

大数据处理论文

互联网数据挖掘与分析方法考核试卷.docx

从优秀到顶尖，你的数据科学家之路还差这13个技能

金融咨询网

大数据技术汇总十篇

常见非结构数据库包括什么?Worktile社区

大数据hadooppighiveMahouthbase菜菜920

大数据技术及应用

pig的原理及特点是什么

ApachePig概述ApachePig教程

干货：大数据分析平台架构(BigDataAnalyticsPlatform)

数据处理论文