2008-05-20

nutch源代码分析之Fetcher

关键字: fetcher, nutch, lucene, mapreduce, hadoop

MapReduce:获取的urls集

  • 输入:<url,CrawlDatum>, 按主机分块, 按hash排序
  • Map(url,CrawlDatum) $\to$ <url,FetcherOutput>
      通过多线程、异步map实现
      调用已有的Nutch协议插件
  • FetcherOutput: <CrawlDatum, 网页内容Content>
  • Reduce()是同一化
  • 输出: 两种文件: <url,CrawlDatum>, <url,Content>

 

评论
发表评论

您还没有登录,请登录后发表评论

coderplay
搜索本博客
存档
最新评论