hadoop 2.0 安装 - ●●◐2dot5

hadoop 2.0 安装
大数据平台 / dataplatform 2dot5 写在2017年04月25日

Hadoop2.0

配置SSH

安装

在线安装ssh #sudo apt-get install openssh-serveropenssh-client

手工安装ssh

存储ssh密码

#ssh-keygen -t dsa -P ” -f ~/.ssh/id_dsa

#cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

#sudo chmod go-w $HOME $HOME/.ssh

#sudo chmod 600 $HOME/.ssh/authorized_keys

#sudo chown `whoami` $HOME/.ssh/authorized_keys

测试

连接本地服务，无密码登陆，则说明ssh服务安装配置正确

#ssh localhost

#exit

安装JDK

安装

必须1.6或者1.6以上版本。

#sudo mkdir /usr/java

#cd /usr/java

#sudo wgethttp://download.oracle.com/otn-pub/java/jdk/6u31-b04/jdk-6u31-linux-i586.bin

#sudo chmod o+w jdk-6u31-linux-i586.bin

#sudo chmod +x jdk-6u31-linux-i586.bin

#sudo ./jdk-6u31-linux-i586.bin

修改环境变量

/etc/profile文件中增加如下代码

export  JAVA_HOME=/usr/java/jdk1.6.0_24

export  PATH=$PATH:/usr/java/jdk1.6.0_24/bin

export  CLASSPATH=/usr/java/jdk1.6.0_24/lib/dt.jar:/usr/java/jdk1.6.0_24/lib/tools.jar

#source /etc/profile

测试

# java -version

显示java版本，则证明安装配置正确

安装hadoop

选择一个linux系统，下载并解压hadoop2.0.x并解压到/home/hadoop-2.0.0-alpha。

设置hadoop环境变量

/etc/profile文件增加如下内容

export  HADOOP_PREFIX=”/home/hadoop-2.0.0-alpha”

export  PATH=$PATH:$HADOOP_PREFIX/bin

export  PATH=$PATH:$HADOOP_PREFIX/sbin

export  HADOOP_MAPRED_HOME=${HADOOP_PREFIX}

export  HADOOP_COMMON_HOME=${HADOOP_PREFIX}

export  HADOOP_HDFS_HOME=${HADOOP_PREFIX}

export  YARN_HOME=${HADOOP_PREFIX}

#source /etc/profile

修改hadoop配置文件

hadoop 2.x 版本中 /etc/hadoop 是默认的配置文件夹

1、编辑 core-site.xml

<configuration>

<property>

<name>fs.default.name</name>

<value>hdfs://localhost:8020</value>

<description>The name of the default file system. Either the literal string “local” or a host:port for NDFS.

</description>

<final>true</final>

</property>

</configuration>

2、编辑hdfs-site.xml

<configuration>

<property>

<name>dfs.namenode.name.dir</name>

<value>file:/home/hadoop_space/dfs/name</value>

<description>Determines where on the local filesystem the DFS name node should store the name table. If this is a comma-delimited list of directories then the name table is replicated in all of the directories, for redundancy. </description>

<final>true</final>

</property>

<property>

<name>dfs.datanode.data.dir</name>

<value>file:/home/hadoop_space/dfs/data</value>

<description>Determines where on the local filesystem an DFS data node should store its blocks. If this is a comma-delimited list of directories, then data will be stored in all named directories, typically on different devices.Directories that do not exist are ignored.

</description>

<final>true</final>

</property>

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

<property>

<name>dfs.permissions</name>

<value>false</value>

</property>

</configuration>

说明：file:/home/hadoop_space/dfs/name和file:/home/hadoop_space/dfs/data

是计算机中的一些文件夹，用于存放数据和编辑文件。

3、创建文件mapred-site.xml

<configuration>

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

<property>

<name>mapred.system.dir</name>

<value>file:/home/hadoop_space/mapred/system</value>

<final>true</final>

</property>

<property>

<name>mapred.local.dir</name>

<value>file:/home/hadoop_space/mapred/local</value>

<final>true</final>

</property>

</configuration>

说明：file:/home/hadoop_space/mapred/system和file:/home/hadoop_space/mapred/local用于存放数据。

4、编辑yarn-site.xml

<configuration>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<property>

<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

</configuration>

5、创建hadoop-env.sh

并添加：export JAVA_HOME=/usr/java/jdk1.6.0_24

启动hadoop

1、格式化 namenode

# hdfs namenode -format

2、开始守护进程

# hadoop-daemon.sh start namenode

# hadoop-daemon.sh start datanode

或者用以下命令替换上述命令：

# start-dfs.sh

3、开始 yarn 守护进程

# yarn-daemon.sh start resourcemanager

# yarn-daemon.sh start nodemanager

或者用以下命令替换上述命令：

# start-yarn.sh

检查守护进程是否启动

# jps

2539 NameNode

2744 NodeManager

3075 Jps

3030 DataNode

2691 ResourceManager

如果上述五个进程都存在，则证明hadoop启动成功。

查看hadoop资源管理页面

http://localhost:8088

上传文件

#列出HDFS文件

hdfs dfs -ls /

hdfs dfs -ls /tmp

#创建存储文件夹

hadoop fs -mkdir /tmp

创建一个文件test.txt,文件内容为hello world

#上传文件/root/tmp到/tmp/test.txt

hadoop fs -copyFromLocal /home/test.txt /tmp/test.txt或hafs dfs -copyFromLocal /home/test.txt /tmp/test.txt

#查看test.txt文件内容

hadoop fs -cat /tmp/test.txt

或者hdfs dfs -cat /tmp/test.txt

hadoop fs -cat hdfs://localhost:8020/tmp/test.txt

或者hdfs dfs -cat hdfs://localhost:8020/tmp/test.txt

DFSShell

HDFS允许用户数据由文件和文件夹式的管理，它提供一个接口叫DFSShell，让用户和HDFS中的数据交互　　命令集的语法跟其他的shells（bash,csh）相似

创建目录foodir : hadoop fs -mkdir /foodir

查看文件 /foodir/myfile.txt : hadoop dfs -cat /foodir/myfile.txt

删除文件/foodir/myfile.txt : hadoop dfs -rm /foodir myfile.txt

DFSAdmin

DFSAdmin命令集是用于管理dfs集群的，这些命令只由HDFS管理员使用

将集群设置成安全模式 : hadoop dfsadmin -safemode enter

产生一个数据节点的列表 : hadoop dfsadmin -report或者hdfs dfsadmin -report

去掉一个数据节点: hadoop dfsadmin -decommission datanodename

上一篇: java Socket 简单的即时聊天（IM）

下一篇: HBase shell 基本命令

近期文章

分类目录