2008-05-08

hadoop的reducer输出多个文件

关键字: hadoop, mapreduce
有时候我们想到这样的功能: reducer能根据key(或value)值来输出多个文件,同一key(或value)处于同一个文件中。现在hadoop的0.17.x版本可以重写MultipleOutputFormat的generateFileNameForKeyValue就可以实现此功能。 比如: package org.apache.hadoop.mapred.lib; import java.io.IOException; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.io.Writabl ...
2007-11-19

通过shell在linux上运行hadoop的真面目

关键字: hadoop, mapreduce
<!-- @page { size: 21cm 29.7cm; margin: 2cm } P { margin-bottom: 0.21cm } --> /usr/lib/jvm/java-6-sun/bin/java -Xmx1000m   -Dhadoop.log.dir=/home/hadoop01/hadoop/hadoop-0.14.3/logs -Dhadoop.log.file=hadoop.log -Dhadoop.home.dir=/home/hadoo ...
2007-06-23

mpich2集群的几个要点

关键字: mpi,mpich2
1. ssh     这东西连起来真麻烦, 比如有三台机器有10,20,30     要建ssh的有: 10->20,20->10, 10->30,30->10, 20->30, 30->20     最少要建连接数是一个排列数A(n, 2), 其中n代表节点数, 2代表任选两个节点. 3个节点得有A(3, 2) = 6. 2. 如果是用root用户, 则mpd.conf文件放在/etc下面,而不是.mpd.conf.其它用户是.mpd.conf 3. mp ...
coderplay
搜索本博客
存档
最新评论