文本材料大小: 43.9 MB
文件数目: 19997个
分析器: lucene标准StandardAnalyzer
lucene-2.2.0
索引大小: 16,901,638 字节
耗时:
158094 total milliseconds
110437 total milliseconds
106328 total milliseconds
lucene-2.3.2
索引大小: 16,177,772字节
默认16M缓存耗时:
15407 total milliseconds
15500 total millise ...
- 22:42
- 浏览 (78)
- 评论 (3)
- 分类: lucene&nutch
有NFS, haproxy/lvs等解决方案。
或者基于HDFS自己实现一个能提供多个客户端同时写Index的文件系统
为什么不用hadoop的HDFS?
原因有三:
1. HDFS多个client写同一个index. 但我们希望能够实现此功能,以达到并行建立索引的目的。
2. lucene的索引一般包括几种不同的文件。这些文件大多会比HDFS的64M块要小,所以用HDFS存储不是很有效。
3. 以后hadoop的底层可能会建立一个抽象层。这个抽象层可以适用于各种不同的存储方式(不光是HDFS)和并行处理服务。
另外,自己建立一个luce ...
- 14:15
- 浏览 (100)
- 评论 (0)
- 分类: lucene&nutch
我先试了一个搜索“和服”,这个词,返回1092条结果。不过应该都是没用的。
且看前面几条:
财务软件实施和服务顾问 参考工资 查看人脉
服务经理和服务工程师Service Manager and Engineer 参考工资 查看人脉
服务经理和服务工程师Service Manager and Engineer 参考工资
看样子是采用的二元分词做的。
http://s ...
- 12:45
- 浏览 (88)
- 评论 (0)
- 分类: lucene&nutch
抓取了系里的网站 http://cs.jnu.edu.cn
和lucene的网站 http://lucene.apache.org/
然后对这两个网站进行搜索.
- 20:08
- 浏览 (139)
- 评论 (0)
- 分类: lucene&nutch
中文分词是中文信息检索的基础,也是一项难题。
下面随手做的一个演示, lucene的Analyzer扩展。
- 20:03
- 浏览 (176)
- 评论 (0)
- 分类: lucene&nutch
ParseSegment
- 19:36
- 浏览 (173)
- 评论 (0)
- 分类: lucene&nutch
MapReduce:获取的urls集
输入:<url,CrawlDatum>, 按主机分块, 按hash排序
Map(url,CrawlDatum) $\to$ <url,FetcherOutput>
通过多线程、异步map实现
调用已有的Nutch协议插件
FetcherOutput: <CrawlDatum, 网页内容Content>
Reduce()是同一化
输出: 两种文件: <url,CrawlDatum>, <url,Content>
- 17:28
- 浏览 (169)
- 评论 (0)
- 分类: lucene&nutch
MapReduce1:选择要获取的urls
输入:爬虫数据库文件
public Path generate(...) {
...
job.setInputPath(new Path(dbDir, CrawlDb.CURRENT_NAME));
job.setInputFormat(SequenceFileInputFormat.class);
}
Map() -> 如果date <= now, 反转成<CrawlDatum, url>
/** Selects entries due for fetch. * ...
- 03:33
- 浏览 (276)
- 评论 (0)
- 分类: lucene&nutch
- 发布在 lucene爱好者 圈子
Injector分两步MapReduce操作:获取爬虫数据、将数据合并到爬虫数据库中。
参见Injector.inject(Path crawlDb, Path urlDir)方法
MapReduce1: 把输入数据转换为数据库所需的格式
输入:未处理的,包含url信息的文本文件
Map(line) -> <url, CrawlDatum>; status=db_unfetched
Reduce()是同一化(即具有相同key值的key-value对根据key值排序后,连续写在SequenceFile中,这是Hadoop默认的Reducer)
输出: 包 ...
- 03:14
- 浏览 (449)
- 评论 (0)
- 分类: lucene&nutch
- 发布在 lucene爱好者 圈子
- 浏览: 21377 次
- 性别:

- 来自: 广州

- 详细资料
搜索本博客
最新评论
-
lucene2.3.2与2.2.0建索 ...
泡坛看到有人说已经在这上面开发中文分词了吧?
-- by Arbow -
lucene2.3.2与2.2.0建索 ...
没有嘞,谢谢阿宝同学,哈哈~~ 这个看features貌似很牛的说。不过要用它还 ...
-- by coderplay -
lucene2.3.2与2.2.0建索 ...
aol同学有没有试用过 Sphinx 的索引?据说这个项目的性能比lucene高 ...
-- by Arbow -
ejabberd在linux平台的安 ...
# erl -pa /var/lib/ejabberd/ebin \ # ...
-- by wenew -
ejabberd在linux平台的安 ...
按照我的经历:outrace:需要修改你的hosts表试试。coderplay: ...
-- by eric.l






评论排行榜