← 回機率統計專區

Chapter 2 · 推論

📏 最大似然估計

「最小平方」其實是「假設誤差是常態」下的最大似然。拖點，看損失曲面變形，看擬合線跟著最佳化。

資料 + MLE 擬合線 — 拖動藍點看擬合怎麼變

負對數似然 (NLL) 等高線 — (β₀, β₁) 空間裡的損失曲面

MLE 解 (β̂₀, β̂₁) 真實參數 (0.5, 1.4) 熱圖：暖色 = 損失低

產生資料的噪聲

σ

0.60

調整 σ 後按下方「重新生成資料」才會用新的 σ 重抽。

🧮 即時估計

真實 β₀ · β₁—

MLE β̂₀—

MLE β̂₁—

\sum r_{i}^{2} =

—

提示： 抓著任一個藍色資料點上下拖 — 紅色擬合線會即時更新，下方等高線的橘色十字會跟著平移。擺爛離群點看看 — 一個離群值能把整條線拉歪多少。

📖 為什麼最小平方就是 MLE

假設我們的模型是 $y_{i} = β_{0} + β_{1} x_{i} + ε_{i}$ ，每個 ε 是獨立的常態 N(0, σ²)。

「最大似然估計」(MLE) 的問題：給定資料 ${(x_{i}, y_{i})}$ ，找一組 $(β_{0}, β_{1})$ ，讓觀測到這筆資料的機率最大。

那個機率（似然函式）長這樣：

L (β_{0}, β_{1}) = i = 1 \prod n \frac{1}{σ 2 π} exp (- \frac{( y _{i} - β _{0} - β _{1} x _{i} ) ^{2}}{2 σ ^{2}})

取對數、丟掉跟 $β$ 無關的常數，最大化似然等同於 最小化：

i = 1 \sum n (y_{i} - β_{0} - β_{1} x_{i})^{2}

這就是最小平方誤差。你右下角看到的「Σr²」就是這個量 — 而上方那張等高線圖，畫的就是這個損失函式在 $(β_{0}, β_{1})$ 平面上的樣子。橘色十字標的就是讓 Σr² 最小的位置，也就是 MLE 解。

OLS（普通最小平方）有閉式解 — 不需要梯度下降，直接寫出來：

\hat{β_{1}} = \frac{\sum ( x _{i} - x ˉ ) ( y _{i} - y ˉ )}{\sum ( x _{i} - x ˉ ) ^{2}}, \hat{β_{0}} = \overset{y}{ˉ} - \hat{β_{1}} \overset{x}{ˉ}

🎮 動手試試

小幅度拖點 — 看擬合線斜率輕微改變、等高線整碗微微平移。
創造離群點：把某一個點往遠處拖（比如 y = 4）。觀察擬合線被拉歪多少。這就是 OLS 的脆弱性 — 常態誤差假設不喜歡離群值。
把噪聲拉到 2.0 重新生成 — 資料散，等高線「碗」變淺、變寬。MLE 還是會找到最低點，但離真實參數可能比較遠。
把噪聲拉到 0.05 重新生成 — 資料貼合一條線，等高線變陡峭、橘色十字幾乎重合白色叉（真實參數）。

💡 為什麼 OLS 的離群點問題這麼大

因為損失是平方誤差 — 一個誤差 5 的點貢獻 25，誤差 1 的點貢獻 1，25 倍的影響。這直接對應「常態分布的尾巴衰減太快」。

如果換成 Laplace 分布的噪聲假設，MLE 就會變成最小化絕對誤差（L1 損失），對離群值穩健很多。「換噪聲假設」就是「換損失函式」 — Robust statistics 整門學問都圍繞這件事。

🚀 之後會用到

MCMC（下一頁）— MLE 是點估計、Bayes 後驗是分布。當分布沒有閉式時就靠 MCMC 取樣。
熵 / cross-entropy loss — 分類問題的 MLE 等於 minimise cross-entropy
深度學習 — 損失函式幾乎都是某個機率假設下的 NLL（MSE = Gaussian、cross-entropy = Categorical、Huber = robust Gaussian）

留言 0

留言載入中…