2008-07-07
关于分布式lucene
关键字: distributed, lucene, search engine有NFS, haproxy/lvs等解决方案。
或者基于HDFS自己实现一个能提供多个客户端同时写Index的文件系统
为什么不用hadoop的HDFS?
原因有三:
1. HDFS多个client写同一个index. 但我们希望能够实现此功能,以达到并行建立索引的目的。
2. lucene的索引一般包括几种不同的文件。这些文件大多会比HDFS的64M块要小,所以用HDFS存储不是很有效。
3. 以后hadoop的底层可能会建立一个抽象层。这个抽象层可以适用于各种不同的存储方式(不光是HDFS)和并行处理服务。
另外,自己建立一个lucene特有的索引存储,可以加深对hadoop架构的认识。
基本设计
占个位先
- 14:15
- 浏览 (100)
- 评论 (0)
- 分类: lucene&nutch
- 相关推荐
发表评论
- 浏览: 21377 次
- 性别:

- 来自: 广州

- 详细资料
搜索本博客
最新评论
-
lucene2.3.2与2.2.0建索 ...
泡坛看到有人说已经在这上面开发中文分词了吧?
-- by Arbow -
lucene2.3.2与2.2.0建索 ...
没有嘞,谢谢阿宝同学,哈哈~~ 这个看features貌似很牛的说。不过要用它还 ...
-- by coderplay -
lucene2.3.2与2.2.0建索 ...
aol同学有没有试用过 Sphinx 的索引?据说这个项目的性能比lucene高 ...
-- by Arbow -
ejabberd在linux平台的安 ...
# erl -pa /var/lib/ejabberd/ebin \ # ...
-- by wenew -
ejabberd在linux平台的安 ...
按照我的经历:outrace:需要修改你的hosts表试试。coderplay: ...
-- by eric.l






评论排行榜