2008-07-07

关于分布式lucene

关键字: distributed, lucene, search engine

有NFS, haproxy/lvs等解决方案。

或者基于HDFS自己实现一个能提供多个客户端同时写Index的文件系统

 

为什么不用hadoop的HDFS?

原因有三:

1. HDFS多个client写同一个index. 但我们希望能够实现此功能,以达到并行建立索引的目的。

2. lucene的索引一般包括几种不同的文件。这些文件大多会比HDFS的64M块要小,所以用HDFS存储不是很有效。

3. 以后hadoop的底层可能会建立一个抽象层。这个抽象层可以适用于各种不同的存储方式(不光是HDFS)和并行处理服务。

 

另外,自己建立一个lucene特有的索引存储,可以加深对hadoop架构的认识。

 

基本设计

 

占个位先

评论
发表评论

您还没有登录,请登录后发表评论

coderplay
搜索本博客
存档
最新评论