將
不同範圍的數值特徵縮放到相似的範圍內。這對於許多
基於距離或梯度的演算法(如 KNN, SVM, 神經網路)非常重要,可以
避免數值範圍大的特徵主導模型訓練,並加速收斂。常用方法:
- 標準化 (Standardization / Z-score): 將數據轉換為平均數為 0,標準差為 1 的分佈。公式: (x - mean) /
std_dev。
- 正規化 (Normalization / Min-Max Scaling): 將數據縮放到 [0, 1] 或 [-1, 1] 的區間。公式: (x - min) /
(max - min)。