抓取了系里的网站 http://cs.jnu.edu.cn
和lucene的网站 http://lucene.apache.org/
然后对这两个网站进行搜索.
- 20:08
- 浏览 (138)
- 评论 (0)
- 分类: lucene&nutch
中文分词是中文信息检索的基础,也是一项难题。
下面随手做的一个演示, lucene的Analyzer扩展。
- 20:03
- 浏览 (176)
- 评论 (0)
- 分类: lucene&nutch
ParseSegment
- 19:36
- 浏览 (173)
- 评论 (0)
- 分类: lucene&nutch
MapReduce:获取的urls集
输入:<url,CrawlDatum>, 按主机分块, 按hash排序
Map(url,CrawlDatum) $\to$ <url,FetcherOutput>
通过多线程、异步map实现
调用已有的Nutch协议插件
FetcherOutput: <CrawlDatum, 网页内容Content>
Reduce()是同一化
输出: 两种文件: <url,CrawlDatum>, <url,Content>
- 17:28
- 浏览 (169)
- 评论 (0)
- 分类: lucene&nutch
MapReduce1:选择要获取的urls
输入:爬虫数据库文件
public Path generate(...) {
...
job.setInputPath(new Path(dbDir, CrawlDb.CURRENT_NAME));
job.setInputFormat(SequenceFileInputFormat.class);
}
Map() -> 如果date <= now, 反转成<CrawlDatum, url>
/** Selects entries due for fetch. * ...
- 03:33
- 浏览 (276)
- 评论 (0)
- 分类: lucene&nutch
- 发布在 lucene爱好者 圈子
Injector分两步MapReduce操作:获取爬虫数据、将数据合并到爬虫数据库中。
参见Injector.inject(Path crawlDb, Path urlDir)方法
MapReduce1: 把输入数据转换为数据库所需的格式
输入:未处理的,包含url信息的文本文件
Map(line) -> <url, CrawlDatum>; status=db_unfetched
Reduce()是同一化(即具有相同key值的key-value对根据key值排序后,连续写在SequenceFile中,这是Hadoop默认的Reducer)
输出: 包 ...
- 03:14
- 浏览 (449)
- 评论 (0)
- 分类: lucene&nutch
- 发布在 lucene爱好者 圈子
使用figure会进行浮动环境,这样插的图latex会自动调整。 一般我们不需要这样的功能。
可以使用
\begin{figure}[h]
\end{figure}
或者使用\includegraphics 插入,如果列figure估计列不出来
如果想要放在自己指定位置并且需要交叉引用的话,要使用以下的格式:
\makeatletter
\def\@captype{figure}
\makeatother
\includegraphics{*.eps}
\caption{...\label{...}}
比如pstopdf的, 以前用的都是ps2pdf.exe
现在这儿是用
>texmfstart --verbose pstopdf.rb beamertest.ps
texmfstart version 2.0.3
locating 'pstopdf.rb' in current path '.'
locating 'pstopdf.rb' in caller path './../ruby'
kpse : direct (forced)
using kpsewhich variable RUBYINPUTS
testing './pstopdf.rb'
testing 'e:/tex ...
中文没有粗体,斜体。这些都是洋文的, windows上的都是伪粗,伪斜。
1. 首先是轻量距离量度的选择,是选择数据模型其中的一个属性,还是其它外部属性这对canopy的分布最为重要。
2. T1, T2的取值影响到canopy重叠率f,以及canopy的粒度。
3. Canopy有消除孤立点的作用,而K-means在这方面却无能为力。建立canopies之后,可以删除那些包含数据点数目较少的canopy,往往这些canopy是包含孤立点的。
4. 根据canopy内点的数目,来决定聚类中心数目k,这样效果比较好
有时候我们想到这样的功能: reducer能根据key(或value)值来输出多个文件,同一key(或value)处于同一个文件中。现在hadoop的0.17.x版本可以重写MultipleOutputFormat的generateFileNameForKeyValue就可以实现此功能。
比如:
package org.apache.hadoop.mapred.lib;
import java.io.IOException;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.io.Writabl ...
- 19:39
- 浏览 (179)
- 评论 (0)
- 分类: mapreduce¶llel
好记性不如烂笔头,记一下:
NetflixDataPrep(准备数据) -> NetflixCanopyMaker(产生canopy中心) -> NetflixCanopyData(分配所有点到各canopy) -> NetflixKMeansIter(进行k-means聚类)
假设数据记录条数为n, 第二步产生的canopy数量为c, 那第三步计算量则为 n * c,就算用了mapper计算量也非常大。一定要改进成增量式的方法。 研究一下~~
- 浏览: 21375 次
- 性别:

- 来自: 广州

- 详细资料
搜索本博客
最新评论
-
lucene2.3.2与2.2.0建索 ...
泡坛看到有人说已经在这上面开发中文分词了吧?
-- by Arbow -
lucene2.3.2与2.2.0建索 ...
没有嘞,谢谢阿宝同学,哈哈~~ 这个看features貌似很牛的说。不过要用它还 ...
-- by coderplay -
lucene2.3.2与2.2.0建索 ...
aol同学有没有试用过 Sphinx 的索引?据说这个项目的性能比lucene高 ...
-- by Arbow -
ejabberd在linux平台的安 ...
# erl -pa /var/lib/ejabberd/ebin \ # ...
-- by wenew -
ejabberd在linux平台的安 ...
按照我的经历:outrace:需要修改你的hosts表试试。coderplay: ...
-- by eric.l






评论排行榜