2008-07-29

lucene2.3.2与2.2.0建索引的速度比较

关键字: lucene, search engine, seo, index
文本材料大小: 43.9 MB 文件数目: 19997个 分析器:    lucene标准StandardAnalyzer lucene-2.2.0 索引大小: 16,901,638 字节 耗时: 158094 total milliseconds 110437 total milliseconds 106328 total milliseconds lucene-2.3.2 索引大小: 16,177,772字节 默认16M缓存耗时: 15407 total milliseconds 15500 total millise ...
2008-07-07

关于分布式lucene

关键字: distributed, lucene, search engine
有NFS, haproxy/lvs等解决方案。 或者基于HDFS自己实现一个能提供多个客户端同时写Index的文件系统   为什么不用hadoop的HDFS? 原因有三: 1. HDFS多个client写同一个index. 但我们希望能够实现此功能,以达到并行建立索引的目的。 2. lucene的索引一般包括几种不同的文件。这些文件大多会比HDFS的64M块要小,所以用HDFS存储不是很有效。 3. 以后hadoop的底层可能会建立一个抽象层。这个抽象层可以适用于各种不同的存储方式(不光是HDFS)和并行处理服务。   另外,自己建立一个luce ...
2008-07-04

职友集的搜索

关键字: search engine, jobui, google
我先试了一个搜索“和服”,这个词,返回1092条结果。不过应该都是没用的。 且看前面几条: 财务软件实施和服务顾问     参考工资   查看人脉 服务经理和服务工程师Service Manager and Engineer   参考工资   查看人脉 服务经理和服务工程师Service Manager and Engineer   参考工资   看样子是采用的二元分词做的。   http://s ...
coderplay
搜索本博客
存档
最新评论