2008-05-20
nutch源代码分析之Injector
关键字: injector, nutch, hadoop, mapreduce
Injector分两步MapReduce操作:获取爬虫数据、将数据合并到爬虫数据库中。
参见Injector.inject(Path crawlDb, Path urlDir)方法
MapReduce1: 把输入数据转换为数据库所需的格式
MapReduce2: 合并到已有数据库
参见Injector.inject(Path crawlDb, Path urlDir)方法
MapReduce1: 把输入数据转换为数据库所需的格式
- 输入:未处理的,包含url信息的文本文件
- Map(line) -> <url, CrawlDatum>; status=db_unfetched
- Reduce()是同一化(即具有相同key值的key-value对根据key值排序后,连续写在SequenceFile中,这是Hadoop默认的Reducer)
- 输出: 包含临时文件的目录
MapReduce2: 合并到已有数据库
- 输入:第一步的输出和已存在的数据库
- Map是同一化
- Reduce: 合并CrawlDatum成单个入口
- 输出: 新版本的数据库
- 03:14
- 浏览 (448)
- 评论 (0)
- 分类: lucene&nutch
- 发布在 lucene爱好者 圈子
- 相关推荐
发表评论
- 浏览: 21369 次
- 性别:

- 来自: 广州

- 详细资料
搜索本博客
最新评论
-
lucene2.3.2与2.2.0建索 ...
泡坛看到有人说已经在这上面开发中文分词了吧?
-- by Arbow -
lucene2.3.2与2.2.0建索 ...
没有嘞,谢谢阿宝同学,哈哈~~ 这个看features貌似很牛的说。不过要用它还 ...
-- by coderplay -
lucene2.3.2与2.2.0建索 ...
aol同学有没有试用过 Sphinx 的索引?据说这个项目的性能比lucene高 ...
-- by Arbow -
ejabberd在linux平台的安 ...
# erl -pa /var/lib/ejabberd/ebin \ # ...
-- by wenew -
ejabberd在linux平台的安 ...
按照我的经历:outrace:需要修改你的hosts表试试。coderplay: ...
-- by eric.l






评论排行榜