30 天學習歷程-day01

August 17, 2020

了解你的資料

在這兩年的碩士班中,我將利用 30 天將我學習到的知識進行分享。如果有錯誤歡迎指教。

有許多的資料都可以進行資料探勘,如:串流資料、時間序列資料、文字資料等。而透過資料探勘方式我們可以從該資料提取知識,也就是從資料中找到有意義的知識。在進行資料探勘時,資料的處裡也是相對重要,資料處裡過程有許多流程如下

  1. Data Cleaning
  1. Data integration
  1. Data Selection
  1. Data transformation
  1. Data mining
  1. Pattern evaluation
  1. Knowledge presentation

“資料處裡流程”from “Data Mining. Concepts and Techniques, 3rd Edition”

第一天要講的主題是了解你的資料。當不了解資料,做探勘的意義就不大,其被找出來的知識將會讓人疑惑 ?

一個資料的集合是由許多資料實體組成,以網路流量來說,流量可能被儲存至資料庫或是 Hadoop 等數據儲存方案,當中的實體可能是一個 TCP 流量、網路流量等。再以儲存方式來看,一列為一個實體,一欄為一個屬性。

屬性

屬性簡單來說就是代表資料實體的特徵變數等。一個資料實體的屬性集合,可稱它為特徵向量,該特徵向量描述了該實體。

接下來的介紹將會參考"Data Mining. Concepts and Techniques, 3rd Edition"。

例:hair_color 此值可能包含黑、棕、紅、白等顏色。

例:smoker 描述抽菸對象,1 表示有,0 則沒有

例:飲料的大小能有小、中、大;成績可能有 A+、A、A-、B+ 等

上述是針對資料屬性進行識別的方式,而下一章將會進入利用統計方式了解你的資料。

參考資料