厦门大学林子雨编著《大数据技术原理与应用》
教材配套大数据软件安装和编程实践指南
工信部”全国云计算及大数据应用技术人才培训考试项目”唯一指定大数据教材
全国多所高校大数据课程选用本教材,京东、当当等各大网店畅销书籍
入门级精品教材,丰富的教材配套资源帮助读者实现“零基础”学习大数据
扫一扫手机访问本主页
【“学习指南”使用方法】本主页的学习指南内容,主要分为“章节配套学习指南”和“章节配套专题博客”两大类,读者在学习完《大数据技术原理与应用》教材某个章节的内容后,应当首先阅读下面的“章节配套学习指南”,然后,再去阅读“章节配套专题博客”,在博客查缺补漏(因为,“章节配套专题博客”里面的内容,有些已经被包含到了“章节配套学习指南”中了)。
(一)章节配套大数据软件安装和编程实践指南
(二)章节配套专题博客
章节配套专题博客,是为了学习某个具体的技术专题而撰写的,每篇博客都是学习某个具体技术。
第1章大数据概述
本章都是概念性知识,不需要上机实践,所以,没有配套博客。
第2章大数据处理架构Hadoop
【教程编号】章节配套专题博客2-1
【教程名称】在Windows系统下安装Linux虚拟机
【教程内容】Hadoop和NoSQL数据库的学习,大多需要Linux环境。搭建Linux环境可以通过两种方式:(1)在电脑上安装双操作系统,即同时安装Linux和Windows操作系统,在电脑启动的时候,可以选择进入Linux系统;(2)在安装好Windows操作系统的电脑上,在开机进入Windows操作系统以后,安装Linux虚拟机,即在Windows运行环境下虚拟出一个Linux运行环境。本教程介绍如何在Windows系统下安装Linux虚拟机,描述了在Windows操作系统下使用开源虚拟机软件VirtualBox安装CentOS6.4(Linux的一个发行版)的教程,读者也可以使用其他虚拟机VMwareWorkstation安装。
【教程编号】章节配套专题博客2-2
【教程名称】Hadoop安装教程_单机/伪分布式配置(Ubuntu14.04)
【教程内容】注意:Linux有不同的发行版,主要有Ubuntu和CentOS等。建议采用CentOS。本教程采用Ubuntu14.04(Linux的一个发行版)。(单机/伪分布式安装,采用Hadoop2.6.0/Ubuntu14.04)当开始着手实践Hadoop时,安装Hadoop往往会成为新手的一道门槛。尽管安装其实很简单,书上有写到,官方网站也有Hadoop安装配置教程,但由于对Linux环境不熟悉,书上跟官网上简略的安装步骤新手往往Hold不住。加上网上不少教程也甚是坑,导致新手折腾老几天愣是没装好,很是打击学习热情。本教程由厦门大学数据库实验室出品,转载请注明。本教程适合于原生Hadoop2,包括Hadoop2.6.0,Hadoop2.4.1等版本,主要参考了官方安装教程,步骤详细,辅以适当说明,保证按照步骤来,都能顺利安装并运行Hadoop。另外有Hadoop安装配置简略版方便有基础的读者快速完成安装。此外,希望读者们能多去了解一些Linux的知识,以后出现问题时才能自行解决。
【教程编号】章节配套专题博客2-3
【教程名称】Hadoop安装教程_单机/伪分布式配置(CentOS6.4)
【教程内容】注意:Linux有不同的发行版,主要有Ubuntu和CentOS等。建议采用CentOS。本教程采用CentOS6.4(Linux的一个发行版)。(单机/伪分布式安装,采用Hadoop2.6.0/CentOS6.4)当开始着手实践Hadoop时,安装Hadoop往往会成为新手的一道门槛。尽管安装其实很简单,书上有写到,官方网站也有Hadoop安装配置教程,但由于对Linux环境不熟悉,书上跟官网上简略的安装步骤新手往往Hold不住。加上网上不少教程也甚是坑,导致新手折腾老几天愣是没装好,很是打击学习热情。本教程由厦门大学数据库实验室出品,转载请注明。本教程适合于原生Hadoop2,包括Hadoop2.6.0,Hadoop2.4.1等版本,主要参考了官方安装教程,步骤详细,辅以适当说明,保证按照步骤来,都能顺利安装并运行Hadoop。另外有Hadoop安装配置简略版方便有基础的读者快速完成安装。此外,希望读者们能多去了解一些Linux的知识,以后出现问题时才能自行解决。
【教程编号】章节配套专题博客2-4
【教程名称】Hadoop集群安装配置教程
【教程内容】(集群安装)当开始着手实践Hadoop时,安装Hadoop往往会成为新手的一道门槛。尽管安装其实很简单,书上有写到,官方网站也有Hadoop安装配置教程,但由于对Linux环境不熟悉,书上跟官网上简略的安装步骤新手往往Hold不住。加上网上不少教程也甚是坑,导致新手折腾老几天愣是没装好,很是打击学习热情。本教程由厦门大学数据库实验室出品,转载请注明。本教程适合于原生Hadoop2,包括Hadoop2.6.0,Hadoop2.4.1等版本,主要参考了官方安装教程,步骤详细,辅以适当说明,保证按照步骤来,都能顺利安装并运行Hadoop。另外有Hadoop安装配置简略版方便有基础的读者快速完成安装。此外,希望读者们能多去了解一些Linux的知识,以后出现问题时才能自行解决。
【教程编号】章节配套专题博客2-5
【教程名称】Hadoop2.4.1单机版自定义实现类以及编译运行
第3章Hadoop分布式文件系统
本章暂无章节配套专题博客。
第4章分布式数据库HBase
【教程编号】章节配套专题博客4-1
【教程名称】HBase的安装与运行
【教程内容】HBase是一个分布式的、面向列的开源数据库,源于Google的一篇论文《BigTable:一个结构化数据的分布式存储系统》。HBase以表的形式存储数据。表有行和列组成。列划分为若干个列族/列簇(columnfamily)。本教程介绍HBase的基本安装和使用方法。本教程运行环境是在Ubuntu-64位系统下,HBase版本为hbase-0.94.27。
第5章NoSQL数据库
【教程编号】章节配套专题博客5-1
【教程名称】MongoDB简易安装和操作教程
【教程内容】文档数据库MongoDB是目前在IT行业非常流行的一种非关系型数据库(NoSQL),本教程为简易教程,将指导大家如何安装和使用MongoDB。
【教程编号】章节配套专题博客5-2
【教程名称】Redis安装与运行
【教程内容】Redis是一个key-value存储系统,即键值对非关系型数据库,和Memcached类似,目前正在被越来越多的互联网公司采用。本教程只是简易的教程,指导大家如何安装运行Redis以及简单地操作Redis。
第6章云数据库
第7章MapReduce
【教程编号】章节配套专题博客7-1
【教程名称】使用命令行编译打包运行自己的MapReduce程序
【教程内容】网上的MapReduceWordCount教程对于如何编译WordCount.java几乎是一笔带过…而有写到的,大多又是0.20等旧版本版本的做法,即javac-classpath/usr/local/hadoop/hadoop-1.0.1/hadoop-core-1.0.1.jarWordCount.java,但较新的2.X版本中,已经没有hadoop-core*.jar这个文件,因此编辑和打包自己的MapReduce程序与旧版本有所不同。本文以Hadoop2.4.1环境下的WordCount实例来介绍2.x版本中如何编辑自己的MapReduce程序。
【教程编号】章节配套专题博客7-2
【教程名称】使用Eclipse编译运行MapReduce程序
【教程内容】上篇介绍了使用命令行编译打包运行自己的MapReduce程序,使用Eclipse更加方便。要在Eclipse上编译和运行MapReduce程序,需要安装hadoop-eclipse-plugin,可使用Github上的hadoop2x-eclipse-plugin,测试环境:Ubuntu14.04、Hadoop2.6.0、Eclipse3.8。本教程在Hadoop2.6.0下验证通过,理论上适合于任何原生Hadoop2版本,如Hadoop2.4.1也可以。
第8章流计算
【教程编号】章节配套专题博客8-1
【教程名称】Storm安装教程
【教程内容】本教程介绍了如何在单机上安装、运行Storm。本教程基于CentOS6.4系统,使用的Storm版本为0.9.6.
【教程编号】章节配套专题博客8-2
【教程名称】Maven编译代码
【教程内容】Storm官方提供了入门代码(Stormstarter),即“Storm安装教程”中运行的实例(jar是编译后的)。本教程即介绍如何使用Maven来编译代码,以运行于Storm中。
第9章图计算
【教程编号】章节配套专题博客9-1
【教程名称】图计算框架Hama的基础操作实践
【教程内容】Hama是GooglePregel的开源实现,与Hadoop适合于分布式大数据处理不同,Hama主要用于分布式的矩阵、graph、网络算法的计算。简单说,Hama是在HDFS上实现的BSP(BulkSynchronousParallel)计算框架,弥补Hadoop在计算能力上的不足。本教程主要介绍hama的安装配置以及用hama解决一些算法问题。
第10章数据可视化
【教程编号】章节配套专题博客10-1
【教程名称】D3可视化库使用指南
【教程内容】D3的全称是(Data-DrivenDocuments),顾名思义可以知道是一个被数据驱动的文档。听名字有点抽象,说简单一点,其实就是一个JavaScript的函数库,使用它主要是用来做数据可视化的。本教程介绍如何安装和使用D3可视化库,完成基本的可视化图形的绘制。
【教程编号】章节配套专题博客10-2
【教程名称】可视化工具Tableau简易教程
【教程内容】在目前的互联网界,大数据是非常火的一块领域,并且已经渗入到生活的方方面面。然而面对庞大的数据,如果只是用表格或者文本来显示数据,那么数据将不易阅读,而且很难看出数据间的关系。Tableau是一款数据可视化工具,托放式的操作,精美的图表,让这款软件在大数据可视化方面大放光彩。本教程是Tableau简易教程,向大家介绍Tableau以及指导大家简易操作Tableau。
【教程编号】章节配套专题博客10-3
【教程名称】Easel.ly信息图制作实践
【教程编号】章节配套专题博客10-4
【教程名称】数据可视化工具魔镜和基于ECharts可视化库的图表制作
【教程内容】本教程为数据可视化的中级教程,首先介绍魔镜这款数据可视化工具,用户只需要拖拽控件即可生成绚丽的图形,对于没有编辑基础的文科生,上班族来说,也是极易上手。魔镜这款软件有分为云平台和企业版,如果要制作高级图形,如人口迁徙图,热度图等等就需要用到企业版,而企业版需要收费。所以本篇教程,还介绍了制作图形图像的代码库ECharts,可以编程实现简单的图形和高级图形。ECharts免费使用,而且接口简单,对于有一点编程基础的用户,可以很容易上手。
第11章大数据在互联网领域的应用
【教程编号】章节配套专题博客11-1
【教程名称】大数据推荐系统的编程实现
备注:第12章和第13章是关于大数据的应用,属于学生自学内容,都是概念性介绍,不需要上机练习,因此,不需要学习指南。