分群(clustering) 是將一堆資料物件聚類成數個群集,讓同一群擊內的資料物件有很高的相似性,而不同群集間則有不相似的特性。在判別資料上的相似性會依照資料特徵進行衡量,通常可能會是量測距離等。
群集分析是什麼
就是將觀測的資料切分不同子集合的動作,每一個子集合都是一個群集。在百百種的分群演算法中,每種形成群集的效果都是不一樣,這些的演算法很適合挖掘未知的資訊。群集分析可以用來挖掘資料內部的分布,觀察每個群集的特徵,並進行下一步地分析動作。當然也可用作於資料前處理步驟,像是資料特性、屬性子集合選取或分類法等。而分群相較於分類,它能夠自動的找到群組。
集群分析方法
分割式分群法
- 找出互斥的球形群集
- 以距離為基礎
- 使用
mean
與medoid
來代表群集中心點 - 對於中小型資料集很有效率
演算法有,k-means
、k-medoids
等
階層式分群法
- 透過階層分解方式來分群
- 不能修正錯誤的合併或分割
- 可以結合微分群技術或考慮資料物件間的關聯性
演算法有,BIRCH
、Chameleon
等
密度式分群法
- 找到任意形狀的群集
- 群集為空間中的資料物件密集的區域,不同群集則被低密度區域分隔
- 群集密度
- 每個資料物件得鄰近區域內包含至少最小數量的資料點
- 可以過濾離群值
演算法有,DBSCAN
、OPTICS
、DENCLUE
等