2008-07-29

lucene2.3.2与2.2.0建索引的速度比较

关键字: lucene, search engine, seo, index
文本材料大小: 43.9 MB 文件数目: 19997个 分析器:    lucene标准StandardAnalyzer lucene-2.2.0 索引大小: 16,901,638 字节 耗时: 158094 total milliseconds 110437 total milliseconds 106328 total milliseconds lucene-2.3.2 索引大小: 16,177,772字节 默认16M缓存耗时: 15407 total milliseconds 15500 total millise ...
2008-07-07

关于分布式lucene

关键字: distributed, lucene, search engine
有NFS, haproxy/lvs等解决方案。 或者基于HDFS自己实现一个能提供多个客户端同时写Index的文件系统   为什么不用hadoop的HDFS? 原因有三: 1. HDFS多个client写同一个index. 但我们希望能够实现此功能,以达到并行建立索引的目的。 2. lucene的索引一般包括几种不同的文件。这些文件大多会比HDFS的64M块要小,所以用HDFS存储不是很有效。 3. 以后hadoop的底层可能会建立一个抽象层。这个抽象层可以适用于各种不同的存储方式(不光是HDFS)和并行处理服务。   另外,自己建立一个luce ...
2008-07-04

职友集的搜索

关键字: search engine, jobui, google
我先试了一个搜索“和服”,这个词,返回1092条结果。不过应该都是没用的。 且看前面几条: 财务软件实施和服务顾问     参考工资   查看人脉 服务经理和服务工程师Service Manager and Engineer   参考工资   查看人脉 服务经理和服务工程师Service Manager and Engineer   参考工资   看样子是采用的二元分词做的。   http://s ...
2008-05-23

nutch演示

关键字: nutch, lucene, search engine
  抓取了系里的网站 http://cs.jnu.edu.cn 和lucene的网站 http://lucene.apache.org/ 然后对这两个网站进行搜索.
2008-05-23

中文分词演示

关键字: lucene, words segment, analyzer
中文分词是中文信息检索的基础,也是一项难题。 下面随手做的一个演示, lucene的Analyzer扩展。  
2008-05-20

nutch源代码分析之ParseSegment

关键字: parsesegment, crawl, nutch, lucene, hadoop, mapreduce
ParseSegment
2008-05-20

nutch源代码分析之Fetcher

关键字: fetcher, nutch, lucene, mapreduce, hadoop
MapReduce:获取的urls集 输入:<url,CrawlDatum>, 按主机分块, 按hash排序 Map(url,CrawlDatum) $\to$ <url,FetcherOutput> 通过多线程、异步map实现 调用已有的Nutch协议插件 FetcherOutput: <CrawlDatum, 网页内容Content> Reduce()是同一化 输出: 两种文件: <url,CrawlDatum>, <url,Content>  
2008-05-20

nutch源代码分析之Generator

关键字: generator, nutch, mapreduce, hadoop
MapReduce1:选择要获取的urls 输入:爬虫数据库文件 public Path generate(...) { ... job.setInputPath(new Path(dbDir, CrawlDb.CURRENT_NAME)); job.setInputFormat(SequenceFileInputFormat.class); } Map() -> 如果date <= now, 反转成<CrawlDatum, url> /** Selects entries due for fetch. * ...
2008-05-20

nutch源代码分析之Injector

关键字: injector, nutch, hadoop, mapreduce
Injector分两步MapReduce操作:获取爬虫数据、将数据合并到爬虫数据库中。 参见Injector.inject(Path crawlDb, Path urlDir)方法 MapReduce1: 把输入数据转换为数据库所需的格式 输入:未处理的,包含url信息的文本文件 Map(line) -> <url, CrawlDatum>; status=db_unfetched Reduce()是同一化(即具有相同key值的key-value对根据key值排序后,连续写在SequenceFile中,这是Hadoop默认的Reducer) 输出: 包 ...
coderplay
搜索本博客
存档
最新评论