30 天學習歷程-day11

August 29, 2020

特徵選取是指在開發一個機器學習模型時,減少輸入特徵數量的過程。這過程不但能減少計算上的成本,有時還能因為特徵選取減少了聲噪的影響因而建構出一個良好的模型。特徵選擇可分為以下

統計的特徵選取方法

通常在輸入和輸出變量之間使用 correlation 統計作為過濾器特徵選擇的基礎。統計量測選擇高度依賴於可變數據類型,如下

從數據類型來看的話數值是屬於 Regression 問題,分類是 Classification 問題。通常過濾器特徵選擇中使用的統計測量與目標變數一次計算一個輸入變數。因此,它們被稱為單變量統計(univariate statistical)測量。

以下是基於過濾器特徵選擇的單變量統計測量方法 from https://machinelearningmastery.com/

數值輸入與數值輸出

數值輸入與分類輸出

Kendall 假設分類變數是 Ordinal

分類輸入與分類輸出

scikit-learn 的特徵選取

scikit-learn 中提供了許多的統計測量,如下