01 入門

從單棵樹到集成

單棵決策樹容易過擬合,集成卻能又穩又準。搞懂兩大門派——bagging(並行投票)與 boosting(逐步糾錯),後者正是 XGBoost 的核心。

從單棵樹到集成 範例輸出

這堂課的完整程式碼在 Jupyter notebook 裡。點下面按鈕在 Colab 開啟,就能直接執行、修改、實驗——你的修改不會動到原檔。

scikit-learn 第 07 課你看過:單一決策樹容易過擬合,而隨機森林種很多棵樹投票,又穩又準。這堂課把「集成學習」的兩大門派講清楚,並點出本模組的主角——boosting

這堂課你會學到

  • 為什麼集成能把一堆弱模型變強
  • 分清楚 bagging(並行投票)boosting(逐步糾錯)
  • 親手比較單棵樹 / 隨機森林 / 梯度提升的表現

兩種相反的集成思路

Bagging(隨機森林)Boosting(梯度提升)
樹怎麼長並行,各自獨立序列,一棵接一棵
每棵樹看什麼隨機抽的資料子集前面所有樹還沒做好的部分
在對付什麼降低 variance(過擬合)降低 bias(欠擬合)
比喻一群專家各自投票取平均一個學徒不斷修正自己的錯誤

預覽圖就是三者的對決:兩種集成都遠勝單棵樹。但它們「集成」的方式完全相反——bagging 把一堆容易過擬合的深樹平均掉雜訊;boosting 則讓一串很淺的弱樹接力修正彼此的錯誤。本模組專攻後者。

👉 在 Colab 裡把 GradientBoostingClassifier 的樹數調大,或換個資料集,看三種模型的排名會不會變。

#ensemble #bagging #boosting #random-forest

留言 0

留言載入中…