2008-05-10

关于canopy聚类的几点思考

关键字: 数据挖掘, 聚类分析, redpoll
1. 首先是轻量距离量度的选择,是选择数据模型其中的一个属性,还是其它外部属性这对canopy的分布最为重要。
2. T1, T2的取值影响到canopy重叠率f,以及canopy的粒度。
3. Canopy有消除孤立点的作用,而K-means在这方面却无能为力。建立canopies之后,可以删除那些包含数据点数目较少的canopy,往往这些canopy是包含孤立点的。
4. 根据canopy内点的数目,来决定聚类中心数目k,这样效果比较好
评论
发表评论

您还没有登录,请登录后发表评论

coderplay
搜索本博客
存档
最新评论