marquistj13 / arxiv-pcm-and-apcm-revisited-an-uncertainty-perspective Goto Github PK
View Code? Open in Web Editor NEWA New Look at PCM and APCM
A New Look at PCM and APCM
仿照 J.M. Keller 96年的correspondence的图二画出cost function图。其实apcm也有类似的图,只是人家只画出一个而已(我理解人家的无奈之处,毕竟现实中只有两个cluster,如果给定三个cluster让人家聚类,很明显最后是要干掉一个的,估计不好画,或者说里边有什么不可告人的秘密?)
我决定按照这两篇paper的类似画法吧,只是我探究的是bandwidth 不确定性参数即 sigma_v 的作用,因此不同的sigma_v对应不同的图吧。(还可以解释一句,由于有俩cluster,你非得聚成3个,因此fcm初始化的时候的bandwidth是偏小的)
update: apcm中画的是,用fcm初始化以后,取出最小的bandwidth,然后再去画图的。
error=0.005
,有点大了吧?得换成npcm中的error=1e-5
吧?error
设的过大,那么原本要merge的两个cluster,有可能不会merge了,如npcm项目的fig6_closer_npcm.py当alpha设的小的时候。error=0.005
承担了;其二:由于小cluster和大cluster的 基于上一个issue的原因,这个带宽会自动增大,直到增大至和旁边的cluster相比,再也抢不到任何点了就行了(注意此时聚类中心也基本不动的话,那么聚类也就停止了,因为我们现在讨论的是,各个physical cluster内部的cluster已经merge,只剩下各个代表physical cluster的clusters之间的对决了,此时,如果只根据前后两次迭代时每个cluster的点不变来决定是否终止聚类显然是不行的,因为在两个cluster非常靠近的情况下,如npcm项目的fig6_closer_npcm.py,两次迭代时各个cluster的点虽然可能不变,但由于两个cluster离的太近了,导致两个cluster中间的点也位于高密度区域,只是密度相对没那么大,但这也足够使得两个cluster的聚类中心逐渐向cluster中间靠拢,同时保持各个cluster的点数不变,但总有一个时刻这些点会重新分家的,即两个cluster merge的时刻)。
因此和apcm相比的一个重大优点就是,带宽更接近真实cluster的带宽。
仿照apcm的图7画图就行了。要改一下,因为指定的cluster数目比较多的情况下,才涉及这俩参数的折衷,详细原理不解释了,paper中有,readme,md也提到了.
数据暂定为fig1的。给定类数10,横轴为设定的noise level,纵轴为选取的sigma_v. 聚出来的类数为对应的函数值,用色彩图表示。
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.