← 回機率統計專區

Chapter 2 · 推論

📏 最大似然估計

「最小平方」其實是「假設誤差是常態」下的最大似然。拖點,看損失曲面變形,看擬合線跟著最佳化。

資料 + MLE 擬合線 — 拖動藍點看擬合怎麼變

負對數似然 (NLL) 等高線 — (β₀, β₁) 空間裡的損失曲面

MLE 解 (β̂₀, β̂₁) 真實參數 (0.5, 1.4) 熱圖:暖色 = 損失低
產生資料的噪聲 0.60

調整 σ 後按下方「重新生成資料」才會用新的 σ 重抽。

🧮 即時估計
真實 β₀ · β₁
MLE β̂₀
MLE β̂₁

提示: 抓著任一個藍色資料點上下拖 — 紅色擬合線會即時更新,下方等高線的橘色十字會跟著平移。 擺爛離群點看看 — 一個離群值能把整條線拉歪多少。

📖 為什麼最小平方就是 MLE

假設我們的模型是 每個 ε 是獨立的常態 N(0, σ²)

「最大似然估計」(MLE) 的問題:給定資料 ,找一組 讓觀測到這筆資料的機率最大

那個機率(似然函式)長這樣:

取對數、丟掉跟 無關的常數,最大化似然等同於 最小化

這就是最小平方誤差。你右下角看到的「Σr²」就是這個量 — 而上方那張等高線圖,畫的就是這個損失函式在 平面上的樣子。橘色十字標的就是讓 Σr² 最小的位置,也就是 MLE 解。

OLS(普通最小平方)有閉式解 — 不需要梯度下降,直接寫出來:

🎮 動手試試

  1. 小幅度拖點 — 看擬合線斜率輕微改變、等高線整碗微微平移。
  2. 創造離群點:把某一個點往遠處拖(比如 y = 4)。觀察擬合線被拉歪多少。這就是 OLS 的脆弱性 — 常態誤差假設不喜歡離群值。
  3. 把噪聲拉到 2.0 重新生成 — 資料散,等高線「碗」變淺、變寬。MLE 還是會找到最低點,但離真實參數可能比較遠。
  4. 把噪聲拉到 0.05 重新生成 — 資料貼合一條線,等高線變陡峭、橘色十字幾乎重合白色叉(真實參數)。

💡 為什麼 OLS 的離群點問題這麼大

因為損失是 平方 誤差 — 一個誤差 5 的點貢獻 25,誤差 1 的點貢獻 1,25 倍的影響。這直接對應「常態分布的尾巴衰減太快」。

如果換成 Laplace 分布的噪聲假設,MLE 就會變成最小化絕對誤差(L1 損失),對離群值穩健很多。「換噪聲假設」就是「換損失函式」 — Robust statistics 整門學問都圍繞這件事。

🚀 之後會用到

  • MCMC(下一頁)— MLE 是點估計、Bayes 後驗是分布。當分布沒有閉式時就靠 MCMC 取樣。
  • 熵 / cross-entropy loss — 分類問題的 MLE 等於 minimise cross-entropy
  • 深度學習 — 損失函式幾乎都是某個機率假設下的 NLL(MSE = Gaussian、cross-entropy = Categorical、Huber = robust Gaussian)

留言 0

留言載入中…