2008-05-23

nutch演示

关键字: nutch, lucene, search engine
  抓取了系里的网站 http://cs.jnu.edu.cn 和lucene的网站 http://lucene.apache.org/ 然后对这两个网站进行搜索.
2008-05-23

中文分词演示

关键字: lucene, words segment, analyzer
中文分词是中文信息检索的基础,也是一项难题。 下面随手做的一个演示, lucene的Analyzer扩展。  
2008-05-20

nutch源代码分析之ParseSegment

关键字: parsesegment, crawl, nutch, lucene, hadoop, mapreduce
ParseSegment
2008-05-20

nutch源代码分析之Fetcher

关键字: fetcher, nutch, lucene, mapreduce, hadoop
MapReduce:获取的urls集 输入:<url,CrawlDatum>, 按主机分块, 按hash排序 Map(url,CrawlDatum) $\to$ <url,FetcherOutput> 通过多线程、异步map实现 调用已有的Nutch协议插件 FetcherOutput: <CrawlDatum, 网页内容Content> Reduce()是同一化 输出: 两种文件: <url,CrawlDatum>, <url,Content>  
2008-05-20

nutch源代码分析之Generator

关键字: generator, nutch, mapreduce, hadoop
MapReduce1:选择要获取的urls 输入:爬虫数据库文件 public Path generate(...) { ... job.setInputPath(new Path(dbDir, CrawlDb.CURRENT_NAME)); job.setInputFormat(SequenceFileInputFormat.class); } Map() -> 如果date <= now, 反转成<CrawlDatum, url> /** Selects entries due for fetch. * ...
2008-05-20

nutch源代码分析之Injector

关键字: injector, nutch, hadoop, mapreduce
Injector分两步MapReduce操作:获取爬虫数据、将数据合并到爬虫数据库中。 参见Injector.inject(Path crawlDb, Path urlDir)方法 MapReduce1: 把输入数据转换为数据库所需的格式 输入:未处理的,包含url信息的文本文件 Map(line) -> <url, CrawlDatum>; status=db_unfetched Reduce()是同一化(即具有相同key值的key-value对根据key值排序后,连续写在SequenceFile中,这是Hadoop默认的Reducer) 输出: 包 ...
2008-05-14

latex插图位置问题

关键字: latex, figure
使用figure会进行浮动环境,这样插的图latex会自动调整。 一般我们不需要这样的功能。 可以使用 \begin{figure}[h] \end{figure} 或者使用\includegraphics 插入,如果列figure估计列不出来 如果想要放在自己指定位置并且需要交叉引用的话,要使用以下的格式: \makeatletter \def\@captype{figure} \makeatother \includegraphics{*.eps} \caption{...\label{...}}
2008-05-14

texlive下面有很多程序执行ruby脚本

关键字: texlive, ruby, latex
比如pstopdf的, 以前用的都是ps2pdf.exe 现在这儿是用 >texmfstart --verbose pstopdf.rb beamertest.ps texmfstart version 2.0.3 locating 'pstopdf.rb' in current path '.' locating 'pstopdf.rb' in caller path './../ruby' kpse : direct (forced) using kpsewhich variable RUBYINPUTS testing './pstopdf.rb' testing 'e:/tex ...
2008-05-12

中文粗体,斜体的问题

关键字: latex, bold
中文没有粗体,斜体。这些都是洋文的, windows上的都是伪粗,伪斜。
2008-05-10

关于canopy聚类的几点思考

关键字: 数据挖掘, 聚类分析, redpoll
1. 首先是轻量距离量度的选择,是选择数据模型其中的一个属性,还是其它外部属性这对canopy的分布最为重要。 2. T1, T2的取值影响到canopy重叠率f,以及canopy的粒度。 3. Canopy有消除孤立点的作用,而K-means在这方面却无能为力。建立canopies之后,可以删除那些包含数据点数目较少的canopy,往往这些canopy是包含孤立点的。 4. 根据canopy内点的数目,来决定聚类中心数目k,这样效果比较好
2008-05-08

hadoop的reducer输出多个文件

关键字: hadoop, mapreduce
有时候我们想到这样的功能: reducer能根据key(或value)值来输出多个文件,同一key(或value)处于同一个文件中。现在hadoop的0.17.x版本可以重写MultipleOutputFormat的generateFileNameForKeyValue就可以实现此功能。 比如: package org.apache.hadoop.mapred.lib; import java.io.IOException; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.io.Writabl ...
2008-05-08

canopy-clustering执行顺序

关键字: canopy, clustering, data mining, mapreduce
好记性不如烂笔头,记一下: NetflixDataPrep(准备数据) -> NetflixCanopyMaker(产生canopy中心) -> NetflixCanopyData(分配所有点到各canopy) -> NetflixKMeansIter(进行k-means聚类) 假设数据记录条数为n, 第二步产生的canopy数量为c, 那第三步计算量则为 n * c,就算用了mapper计算量也非常大。一定要改进成增量式的方法。 研究一下~~
2008-05-06

asguard

interface使用Multiname,如果a.swf
coderplay
搜索本博客
存档
最新评论