hadoop是使用Java开发的一个大数据平台,自然少不了Java运行环境的安装了,当然使用hadoop不一定需要java语言,hadoop的开发支持很多种语言。
hadoop需要使用SSH的方式登陆,linux下需要安装SSH。客户端已经安装好了,只需要安装服务端就可以了:
sudoapt-getinstallopenssh-server
一共有三步:
1.生成公钥私钥ssh-keygen-trsa,将在~/.ssh文件夹下生成文件id_rsa:私钥,id_rsa.pub:公钥
2.导入公钥到认证文件,更改权限:
1)导入本机:cat~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys
2)导入服务器:
首先将公钥复制到服务器:
scp~/.ssh/id_rsa.pubxxx@host:/home/xxx/id_rsa.pub
然后,将公钥导入到认证文件,这一步的操作在服务器上进行:
cat~/id_rsa.pub>>~/.ssh/authorized_keys
最后在服务器上更改权限:
chmod700~/.sshchmod600~/.ssh/authorized_keys
3)测试:sshlocalhost第一次需要输入yes,之后就不需要了。
2.解压、移动到你想要放置的文件夹
tar-zvxfhadoop-2.7.3.tar.gz
mv./hadoop-2.7.3.tar.gz/opt/hadoop
3.创建hadoop用户和组,并授予执行权限
sudoaddgrouphadoop
sudousermod-a-Ghadoopxxx#将当前用户加入到hadoop组
sudogeditetc/sudoers#将hadoop组加入到sudoer
在rootALL=(ALL)ALL后hadoopALL=(ALL)ALL
sudochmod-R755/opt/hadoop
sudochown-Rxxx:hadoop/opt/hadoop//否则ssh会拒绝访问
4.修改配置文件,和JDK的安装一样,可以选择修改哪个文件。这里修改/etc/profile
exportHADOOP_HOME=/opt/hadoop2.7.3
exportPATH=.:${JAVA_HOME}/bin:${HADOOP_HOME}/bin:$PATH
source/etc/hadoop
5.测试是否配置成功
hadoopversion
6.hadoop单机配置(非分布式模式)
hadoop默认是非分布式模式,不需要进行其它配置。可以测试demo来观察是否配置正确。
cd/opt/hadoop
mkdirinput
cpREADME.txtinput
bin/hadoopjarshare/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.7.3-sources.jarorg.apache.hadoop.examples.WordCountinputoutput
7.hadoop伪分布式配置
伪分布式只需要更改两个文件就够了。配置文件都在hadoop目录下的etc/hadoop中。
首先是core-site.xml,设置临时目录位置,否则默认会在/tmp/hadoo-hadoop中,这个文件夹在重启时可能被系统清除掉,所以需要改变配置路径。
开启hdfs:./sbin/start-dfs.sh如果出现ssh认证输入yes就可以了。
输入jps命令查看是否启动成功
关闭hdfs:./sbin/stop-dfs.sh
cp./etc/hadoop/mapred-site.xml.template./etc/hadoop/mapred-site.xml
vim./etc/hadoop/mapred-site.xml
开启历史服务器,这样可以在web界面中查看任务运行情况:./sbin/mr-jobhistory-daemon.shstarthistoryserver
由于本机之前进行的配置,所以难免在写的时候会遗漏一些细节,如果有什么问题,请指教。