Contents

CDH quick start VM 中运行wordcount例子

主要步骤

Step 1

对于wordcount1.0 ,按照http://www.cloudera.com/content/cloudera/en/ documentation/HadoopTutorial/CDH4/Hadoop-Tutorial/ht_usage.html# topic_5_2 执行。

Step 2

hadoop fs -mkdir /user/cloudera 这条语句意思是在hadoop文件系统下创建新文件夹。在终端中执行cd /user/cloudera是错误的,会出现找不到文件提示。我的理解是hadoop文件系统为每一个组件建立了一个文件夹,其中user是主目录,下面对应的是各个组件文件夹。如下面代码所示,cloudera,hdfs,hive都有自己对应的文件夹。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
[cloudera@quickstart ~]$ hadoop fs -ls /user/cloudera
Found 1 items
drwxr-xr-x   - cloudera cloudera          0 2015-01-11 05:16 /user/cloudera/wordcount
[cloudera@quickstart ~]$ hadoop fs -ls /user/hdfs
Found 1 items
drwxr-xr-x   - hdfs supergroup          0 2015-01-10 23:45 /user/hdfs/.Trash
[cloudera@quickstart ~]$ hadoop fs -ls /user/hive
Found 1 items
drwxrwxrwx   - hive hive          0 2015-01-11 03:46 /user/hive/warehouse
[cloudera@quickstart ~]$

Step 3

在进行第三部的时候compile wordcount.java,首先要把源代码拷贝下来,在/home/cloudera/下面新建文件WordCount.java,注意区分大小写。然后执行

1
2
mkdir wordcount_classes
javac -classpath /usr/lib/hadoop/hadoop-common-2.5.0-cdh5.2.0.jar:/usr/lib/hadoop/client/hadoop-mapreduce-client-core-2.5.0-cdh5.2.0.jar -d wordcount_classes WordCount.java

注意根据自己的版本把上面的代码替换成适合自己的。

Step 4

完成上步之后,完全按照 官网说明 即可。