Chapter 2 · 推論
「最小平方」其實是「假設誤差是常態」下的最大似然。拖點,看損失曲面變形,看擬合線跟著最佳化。
調整 σ 後按下方「重新生成資料」才會用新的 σ 重抽。
提示: 抓著任一個藍色資料點上下拖 — 紅色擬合線會即時更新,下方等高線的橘色十字會跟著平移。 擺爛離群點看看 — 一個離群值能把整條線拉歪多少。
假設我們的模型是 ,每個 ε 是獨立的常態 N(0, σ²)。
「最大似然估計」(MLE) 的問題:給定資料 ,找一組 ,讓觀測到這筆資料的機率最大。
那個機率(似然函式)長這樣:
取對數、丟掉跟 無關的常數,最大化似然等同於 最小化:
這就是最小平方誤差。你右下角看到的「Σr²」就是這個量 — 而上方那張等高線圖,畫的就是這個損失函式在 平面上的樣子。橘色十字標的就是讓 Σr² 最小的位置,也就是 MLE 解。
OLS(普通最小平方)有閉式解 — 不需要梯度下降,直接寫出來:
因為損失是 平方 誤差 — 一個誤差 5 的點貢獻 25,誤差 1 的點貢獻 1,25 倍的影響。這直接對應「常態分布的尾巴衰減太快」。
如果換成 Laplace 分布的噪聲假設,MLE 就會變成最小化絕對誤差(L1 損失),對離群值穩健很多。「換噪聲假設」就是「換損失函式」 — Robust statistics 整門學問都圍繞這件事。
留言 0
留言載入中…