🌲 梯度提升與集成學習

XGBoost、LightGBM、early stopping、調參與 SHAP 解釋——表格資料競賽的王者

單棵決策樹容易過擬合，集成卻能又穩又準。搞懂兩大門派——bagging（並行投票）與 boosting（逐步糾錯），後者正是 XGBoost 的核心。

「梯度提升」聽起來嚇人，核心其實一句話：每棵新樹專門擬合前面還沒修好的『殘差』。用一維迴歸把這過程一輪一輪畫給你看。

sklearn 的梯度提升概念清楚但慢。工業界與 Kaggle 真正在用的是 XGBoost——更快、內建正則化、會自己處理缺值。跑出你的第一個 XGBoost 模型。

樹種太少會欠擬合、太多會過擬合。early stopping 讓 XGBoost 自己盯著驗證集，一旦不再進步就停在最佳點。

XGBoost 有一大把旋鈕，手動試不完。用隨機搜尋系統性地找好設定，並認識更聰明的貝氏最佳化 Optuna。

XGBoost 不是唯一。LightGBM（微軟）以速度著稱，CatBoost（Yandex）擅長類別特徵。比較它們，知道何時用哪個。

feature_importances_ 只說得出『整體哪些特徵重要』，說不出方向、也無法解釋單筆預測。SHAP 補上這塊，是模型解釋的黃金標準。

把前七課全部串起來，走一遍表格資料競賽的標準流程：資料 → 切分 → XGBoost + early stopping → 調參 → 測試集驗收 → SHAP 解讀。

留言 0