一種基于密度的聚類的算法

作者：時(shí)間：2011-08-18 來(lái)源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

將物理或抽象對(duì)象的集合分成由類似的對(duì)象組成的多個(gè)類的過(guò)程被稱為聚類。由聚類所生成的簇是一組數(shù)據(jù)對(duì)象的集合，這些對(duì)象與同一個(gè)簇中的對(duì)象彼此相似，與其他簇中的對(duì)象相異目前，它已成為數(shù)據(jù)挖掘研究領(lǐng)域中一個(gè)非常活躍的研究方向。聚類分析技術(shù)在模式識(shí)別、數(shù)據(jù)分析、圖像處理和市場(chǎng)研究等許多領(lǐng)域得到了廣泛的應(yīng)用。

本文引用地址：http://2s4d.com/article/150341.htm

　　許多算法被設(shè)計(jì)用來(lái)聚類數(shù)值類型的數(shù)據(jù)。但是，應(yīng)用可能要求聚類其他類型的數(shù)據(jù)，如二元類型（binary），分類/標(biāo)稱類型（categorical/nominal），序數(shù)型（ordinal）數(shù)據(jù)，或者這些數(shù)據(jù)類型的混合。其主要思想是：只要臨近區(qū)域的密度（對(duì)象或數(shù)據(jù)點(diǎn)的數(shù)目）超過(guò)某個(gè)閾值就繼續(xù)聚類。樣的方法可以用來(lái)過(guò)濾噪聲和孤立點(diǎn)數(shù)據(jù)，發(fā)現(xiàn)任意形狀的類。

　　DBSCAN算法利用類的高密度連通性可以快速發(fā)現(xiàn)任意形狀的類，但是當(dāng)處理的數(shù)據(jù)量較大時(shí)，一般的聚類算法不能滿足在線聚類這一特點(diǎn)，計(jì)算復(fù)雜度高，速度慢。

　　1 DBSCAN算法

　　DBSCAN（Density-Based Spatial Clustering of Applacations with Noise）是一個(gè)比較有代表性的基于密度的聚類算法。與劃分和層次聚類方法不同，它將簇定義為密度相連的點(diǎn)的最大集合，能夠把具有足夠高密度的區(qū)域劃分為簇，并可在噪聲的空間數(shù)據(jù)庫(kù)中發(fā)現(xiàn)任意形狀的聚類。DBSCAN算法具有足夠高密度的區(qū)域劃分為一類，并可以在帶有噪聲的空間數(shù)據(jù)庫(kù)中發(fā)現(xiàn)任意形狀的聚類

　　DBSCAN算法提出了一些新的定義：

　　DBSCAN算法是基于密度的聚類算法，它將類看作是數(shù)據(jù)空間中被低密度區(qū)域分割開的高密度對(duì)象區(qū)域。在該算法中，發(fā)現(xiàn)一個(gè)聚類的過(guò)程是基于這樣的事實(shí)：一個(gè)聚類能夠被其中的任意一個(gè)核心對(duì)象所確定。其基本思想是：考察數(shù)據(jù)庫(kù)D中的某一個(gè)點(diǎn)P，若P是核心點(diǎn)，則通過(guò)區(qū)域查詢得到該點(diǎn)的鄰域，鄰域中的點(diǎn)和P同屬于一個(gè)類，這些點(diǎn)將作為下一輪的考察對(duì)象，并通過(guò)不斷地對(duì)種子點(diǎn)進(jìn)行區(qū)域查詢來(lái)擴(kuò)展它們所在的類，直至找到一個(gè)完整的類。

　　2 M-DBSCAN算法

　　2.1 在線聚類

　　由于處理數(shù)據(jù)量較大，一次性處理完畢不但運(yùn)算量大，復(fù)雜度高，而且對(duì)存儲(chǔ)空間的需求量大，因此本文提出一種在線式聚類算法，可以動(dòng)態(tài)增加聚類數(shù)目。

　　算法的原理是：隨著輸入樣本數(shù)據(jù)的不斷增加，實(shí)時(shí)動(dòng)態(tài)地增加聚類個(gè)數(shù)或調(diào)整聚類中心及聚類半徑，在形成的任意一個(gè)聚類中，聚類中心與屬于此聚類的樣本點(diǎn)的相似度都不小于一個(gè)閾值dthr，dthr的選取將直接影響到聚類數(shù)目。

　　將在線式聚類算法引入后，算法的描述如下：

　?。?）積累一小段時(shí)間內(nèi)的數(shù)據(jù)，進(jìn)行歸一化壓縮，進(jìn)行相似度計(jì)算，得到相似度矩陣；

　　（2）通過(guò)對(duì)相似度矩陣進(jìn)行比較分析，找出鄰域密度最大的數(shù)據(jù)點(diǎn)作為第一個(gè)初始類的中心c1；

　?。?）對(duì)尚未加入此類的數(shù)據(jù)點(diǎn)xi，比較與類中心的距離是否大于給定閾值dthr，若是，則加入此類，否則創(chuàng)建一個(gè)新類cj；

　?。?）處理完這一小段數(shù)據(jù)后，對(duì)新到來(lái)的一個(gè)數(shù)據(jù)點(diǎn)進(jìn)行與（3）相同的做法，確定其類別；

　　（5）直到?jīng)]有數(shù)據(jù)到來(lái)為止，輸出聚類結(jié)果。