07 進階

樹模型與特徵重要性

決策樹用是非題做判斷，人看得懂、還告訴你哪些特徵最重要。把很多棵樹合起來投票，就是橫掃表格資料的隨機森林。

樹模型與特徵重要性範例輸出

這堂課的完整程式碼在 Jupyter notebook 裡。點下面按鈕在 Colab 開啟，就能直接執行、修改、實驗——你的修改不會動到原檔。

🚀 在 Google Colab 開啟在 GitHub 檢視

很多強大的模型是黑盒，但樹模型不是——它的每個判斷都看得懂，還會主動告訴你「我最看重哪些特徵」。這份可解釋性，在醫療、金融這類需要交代決策理由的場景特別珍貴。

這堂課你會學到

訓練 DecisionTreeClassifier 並把整棵樹畫出來
觀察 max_depth 如何造成過擬合：訓練分數衝高、測試分數卻停滯
用 RandomForestClassifier 集合多棵樹投票，大幅提升表現
讀 feature_importances_，知道模型根據什麼下判斷

不只給答案，還給理由

預覽圖是隨機森林算出的特徵重要性——模型不只吐出預測，還排序了「哪些特徵在說話」。這往往是交付成果時最有價值的洞察。

決策樹單獨用容易過擬合、也不穩；隨機森林種很多棵看不同資料子集、不同特徵子集的樹，最後投票，是表格資料的常勝軍。在 notebook 裡你會親眼看到單棵深樹把訓練資料背到 100%、測試卻變差的過擬合曲線。

👉 在 Colab 裡調 n_estimators（50 / 200 / 500），看準確率與訓練時間的取捨；再比較森林和單棵深樹的特徵重要性排序。

#scikit-learn #decision-tree #random-forest #feature-importance #overfitting

留言 0

留言載入中…