Hadoop伪分布式配置过程
由于后续暑期实习的需要,开始学习起了hadoop~首先当然是需要安装一个hadoop的环境了,这里记录一下今天的安装过程,发现其实还是挺简单的(当然配置完全分布式可能比较麻烦。。。)。
先在Vmware里面安装一个Ubuntu 14.04,这个就不介绍了。
安装一些预备软件。
1
sudo apt-get install ssh rsync
安装Java,为了简单直接安装OpenJDK了。
1
sudo apt-get install openjdk-7-jdk
下载Hadoop包,我这里尝试的是hadoop-2.7.1.tar.gz,解压压缩包至/home根目录。
1
tar -xf hadoop-2.7.1.tar.gz
先
cd ~/hadoop-2.7.1
,后续操作基本都以这个目录为基础进行。修改etc/hadoop/hadoop-env.sh
,将export JAVA_HOME=${JAVA_HOME}
修改为export JAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk-amd64
。当然如果在环境变量里面加了JAVA_HOME
这里应该就不用改了。。。然后尝试运行bin/hadoop
,如果能显示提示就说明没问题了。修改下述文件。
etc/hadoop/core-site.xml:
1
2
3
4
5
6<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>etc/hadoop/hdfs-site.xml:
1
2
3
4
5
6
7
8
9
10<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/ts/hdfs</value>
</property>
</configuration>格式化系统,并开启NameNode daemon和DataNode daemon。
1
2bin/hdfs namenode -format
sbin/start-dfs.sh这时候访问http://localhost:50070/ ,应该可以看到信息了。
创建目录,与自己用户名对应。
1
2bin/hdfs dfs -mkdir /user
bin/hdfs dfs -mkdir /user/ts配置YARN。
配置etc/hadoop/mapred-site.xml
:
1
2
3
4
5
6<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
配置etc/hadoop/yarn-site.xml
:
1
2
3
4
5
6<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
开启ResourceManager daemon和NodeManager daemon:
1
sbin/start-yarn.sh