Hadoop伪分布式配置过程

由于后续暑期实习的需要,开始学习起了hadoop~首先当然是需要安装一个hadoop的环境了,这里记录一下今天的安装过程,发现其实还是挺简单的(当然配置完全分布式可能比较麻烦。。。)。

  1. 先在Vmware里面安装一个Ubuntu 14.04,这个就不介绍了。

  2. 安装一些预备软件。

    1
    sudo apt-get install ssh rsync
  3. 安装Java,为了简单直接安装OpenJDK了。

    1
    sudo apt-get install openjdk-7-jdk
  4. 下载Hadoop包,我这里尝试的是hadoop-2.7.1.tar.gz,解压压缩包至/home根目录。

    1
    tar -xf hadoop-2.7.1.tar.gz
  5. cd ~/hadoop-2.7.1,后续操作基本都以这个目录为基础进行。修改etc/hadoop/hadoop-env.sh,将export JAVA_HOME=${JAVA_HOME}修改为export JAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk-amd64。当然如果在环境变量里面加了JAVA_HOME这里应该就不用改了。。。然后尝试运行bin/hadoop,如果能显示提示就说明没问题了。

  6. 修改下述文件。

    etc/hadoop/core-site.xml:

    1
    2
    3
    4
    5
    6
    <configuration>
    <property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
    </property>
    </configuration>

    etc/hadoop/hdfs-site.xml:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    <configuration>
    <property>
    <name>dfs.replication</name>
    <value>1</value>
    </property>
      <property>
          <name>hadoop.tmp.dir</name>
           <value>/home/ts/hdfs</value>
       </property>
    </configuration>
  7. 格式化系统,并开启NameNode daemon和DataNode daemon。

    1
    2
    bin/hdfs namenode -format
    sbin/start-dfs.sh
  8. 这时候访问http://localhost:50070/ ,应该可以看到信息了。

  9. 创建目录,与自己用户名对应。

    1
    2
    bin/hdfs dfs -mkdir /user
    bin/hdfs dfs -mkdir /user/ts
  10. 配置YARN。

配置etc/hadoop/mapred-site.xml:

1
2
3
4
5
6
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

配置etc/hadoop/yarn-site.xml:

1
2
3
4
5
6
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>

开启ResourceManager daemon和NodeManager daemon:

1
sbin/start-yarn.sh