了解你的資料
在這兩年的碩士班中,我將利用 30 天將我學習到的知識進行分享。如果有錯誤歡迎指教。
有許多的資料都可以進行資料探勘,如:串流資料、時間序列資料、文字資料等。而透過資料探勘方式我們可以從該資料提取知識,也就是從資料中找到有意義的知識。在進行資料探勘時,資料的處裡也是相對重要,資料處裡過程有許多流程如下
- Data Cleaning
- 刪除聲噪和刪除不一致數據
- Data integration
- 多種數據源可以組合一起
- Data Selection
- 從資料庫中提取與分析任務相關的數據
- Data transformation
- 透過匯總或聚集操作,把數據變換和統一成適合挖掘形式
- Data mining
- 使用智能方法提取數據模式
- Pattern evaluation
- 數據某種興趣度度量,識別代表知識的真正有趣模式
- Knowledge presentation
- 使用可視化和知識表示技術,向用戶提供挖掘知識
from “Data Mining. Concepts and Techniques, 3rd Edition”
第一天要講的主題是了解你的資料。當不了解資料,做探勘的意義就不大,其被找出來的知識將會讓人疑惑 ?
一個資料的集合是由許多資料實體組成,以網路流量來說,流量可能被儲存至資料庫或是 Hadoop 等數據儲存方案,當中的實體可能是一個 TCP 流量、網路流量等。再以儲存方式來看,一列為一個實體,一欄為一個屬性。
屬性
屬性簡單來說就是代表資料實體的特徵或變數等。一個資料實體的屬性集合,可稱它為特徵向量,該特徵向量描述了該實體。
接下來的介紹將會參考"Data Mining. Concepts and Techniques, 3rd Edition"。
- 名目屬性(nominal attribute)
- 也被稱作類別(categorical)
- 符號或事物名稱
- 每個值代表某種類別、編碼或狀態
- 該值不被視為數值屬性(numeric attribute) 不具有意義的序,非定量的
- 找出中位數、均值是無意義的
例:hair_color 此值可能包含黑、棕、紅、白等顏色。
- 二元屬性(binary attribute)
- nominal attribute 的一種
- 只存在 0 或 1 兩種類別,也可將其視為 boolean 表真或假
- 對稱的
- 同等價值,攜帶相同權重
- 以性別為例
- 非對稱的
- 重要性不同
- 愛滋病為例
例:smoker 描述抽菸對象,1 表示有,0 則沒有
- 順序屬性(ordinal attribute)
- 其可能的值之間具有意義的序或評價等級,但相繼值之間的差是未知的
例:飲料的大小能有小、中、大;成績可能有 A+、A、A-、B+ 等
數值屬性(numeric attribute)
- 是定量的
- 可度量的量,用整數或時數值表示
- 區間尺度
- 相等單位尺度度量
- 比率尺度
- 是具有固定零點數值屬性
- 可以說某個數值是另一個數值的多少倍
- 因為是有序的,因此可計算平均值、中位數與眾數
離散(discrete)屬性和連續(continuous)屬性
- 前者具有有限或無限可數個值,可用整數或非整數表示
- 通常為計數的資料,如:新生兒人數、每戶家庭人數等
- 非離散的屬性就是連續數性
- 將一組數據分成幾組,再統計每組次數
- 前者具有有限或無限可數個值,可用整數或非整數表示
上述是針對資料屬性進行識別的方式,而下一章將會進入利用統計方式了解你的資料。
參考資料
- Data Mining. Concepts and Techniques, 3rd Edition