Hadoop伪分布式配置过程
由于后续暑期实习的需要,开始学习起了hadoop~首先当然是需要安装一个hadoop的环境了,这里记录一下今天的安装过程,发现其实还是挺简单的(当然配置完全分布式可能比较麻烦。。。)。
- 先在Vmware里面安装一个Ubuntu 14.04,这个就不介绍了。 
- 安装一些预备软件。 - 1 - sudo apt-get install ssh rsync 
- 安装Java,为了简单直接安装OpenJDK了。 - 1 - sudo apt-get install openjdk-7-jdk 
- 下载Hadoop包,我这里尝试的是hadoop-2.7.1.tar.gz,解压压缩包至/home根目录。 - 1 - tar -xf hadoop-2.7.1.tar.gz 
- 先 - cd ~/hadoop-2.7.1,后续操作基本都以这个目录为基础进行。修改- etc/hadoop/hadoop-env.sh,将- export JAVA_HOME=${JAVA_HOME}修改为- export JAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk-amd64。当然如果在环境变量里面加了- JAVA_HOME这里应该就不用改了。。。然后尝试运行- bin/hadoop,如果能显示提示就说明没问题了。
- 修改下述文件。 - etc/hadoop/core-site.xml: - 1 
 2
 3
 4
 5
 6- <configuration> 
 <property>
 <name>fs.defaultFS</name>
 <value>hdfs://localhost:9000</value>
 </property>
 </configuration>- etc/hadoop/hdfs-site.xml: - 1 
 2
 3
 4
 5
 6
 7
 8
 9
 10- <configuration> 
 <property>
 <name>dfs.replication</name>
 <value>1</value>
 </property>
 <property>
 <name>hadoop.tmp.dir</name>
 <value>/home/ts/hdfs</value>
 </property>
 </configuration>
- 格式化系统,并开启NameNode daemon和DataNode daemon。 - 1 
 2- bin/hdfs namenode -format 
 sbin/start-dfs.sh
- 这时候访问http://localhost:50070/ ,应该可以看到信息了。 
- 创建目录,与自己用户名对应。 - 1 
 2- bin/hdfs dfs -mkdir /user 
 bin/hdfs dfs -mkdir /user/ts
- 配置YARN。 
配置etc/hadoop/mapred-site.xml:
1
2
3
4
5
6<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>
配置etc/hadoop/yarn-site.xml:
1
2
3
4
5
6<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>
开启ResourceManager daemon和NodeManager daemon:
1
sbin/start-yarn.sh