2008-05-10
关于canopy聚类的几点思考
关键字: 数据挖掘, 聚类分析, redpoll
1. 首先是轻量距离量度的选择,是选择数据模型其中的一个属性,还是其它外部属性这对canopy的分布最为重要。
2. T1, T2的取值影响到canopy重叠率f,以及canopy的粒度。
3. Canopy有消除孤立点的作用,而K-means在这方面却无能为力。建立canopies之后,可以删除那些包含数据点数目较少的canopy,往往这些canopy是包含孤立点的。
4. 根据canopy内点的数目,来决定聚类中心数目k,这样效果比较好
2. T1, T2的取值影响到canopy重叠率f,以及canopy的粒度。
3. Canopy有消除孤立点的作用,而K-means在这方面却无能为力。建立canopies之后,可以删除那些包含数据点数目较少的canopy,往往这些canopy是包含孤立点的。
4. 根据canopy内点的数目,来决定聚类中心数目k,这样效果比较好
发表评论
- 浏览: 21362 次
- 性别:

- 来自: 广州

- 详细资料
搜索本博客
最新评论
-
lucene2.3.2与2.2.0建索 ...
泡坛看到有人说已经在这上面开发中文分词了吧?
-- by Arbow -
lucene2.3.2与2.2.0建索 ...
没有嘞,谢谢阿宝同学,哈哈~~ 这个看features貌似很牛的说。不过要用它还 ...
-- by coderplay -
lucene2.3.2与2.2.0建索 ...
aol同学有没有试用过 Sphinx 的索引?据说这个项目的性能比lucene高 ...
-- by Arbow -
ejabberd在linux平台的安 ...
# erl -pa /var/lib/ejabberd/ebin \ # ...
-- by wenew -
ejabberd在linux平台的安 ...
按照我的经历:outrace:需要修改你的hosts表试试。coderplay: ...
-- by eric.l






评论排行榜