30 天學習歷程-day09

August 27, 2020

以棒球員捕手為例,當他面對一位打者時,需要判斷說該打者對於什麼球種是安全的,那些球種是有風險的;醫療方面可能是分析乳癌的病患資料,並在幾種特定解決方法中,該給於怎樣的治療。這些例子中,資料分析方法就是分類(classification)。假設是預測棒球雙方的比數,該資料分析任務就是數值預測迴歸分析(regression analysis)是最常用來數值預測的統計方法。

要進行資料分類,其程序大致為兩步驟,學習步驟此階段會建立模型;分類步驟此階段會利用模型來預測給定資料的類別標籤。學習步驟中會給定資料集合中的資訊,藉由分類演算法分析資料集合中一組樣本和其對應的類別標籤建立一個分類器。一個值組 $X$ 為 $n$ 維度的特徵向量,$X = (x_1, x_2, …, x_3)$,其每個 $X$ 會對應一個類別,該類別可由類別標籤屬性來定義。假設一個樣本對應的標籤已經被定義好,該學習步驟可稱為監督式學習(supervised learning),這與**非監督式學習(unsupervised learning)**不同,樣本無對應的標籤,需透過學習才知道,常見的方式就是使用分群(clustering)。以之前寫過的簡單線性迴歸來說,我們會希望透過映射函數來預測給定的資料樣本 $X$ 對應的類別標籤 $y$,就是找一個函數來分割資料的類別。

分類步驟會使用模型來進行分類,然而其正確率是多少 ? 在計算該值時不應該拿訓練資料進行評估,因分類器會傾向於過擬合(overfit) 訓練資料,就是說學習過程中,有些異常的資料會被過度學習,而該異常資料並不會出現在一般的資料集中。我們應當使用測試資料來進行正確率的評分。