← 回機率統計專區

Chapter 2 · 推論

🔮 貝氏定理

你對一枚硬幣的「正面機率 p」原本有看法（先驗）。看到資料後，看法會怎麼更新（後驗）？

先驗 Prior 後驗 Posterior 真值 p（隨機抽樣用）

🪞 先驗 Beta(α, β)

α

2.0

β

2.0

🪙 加觀測

真值 p0.70

🧮 即時統計

觀測 H / T0 / 0

經驗 H 比例—

先驗平均—

後驗平均—

後驗 Beta—

📖 Bayes 公式在做什麼

Bayes 定理長這樣：

P (p ∣ data) = \frac{P ( data ∣ p ) P ( p )}{P ( data )}

左邊是「看完資料後，p 的分布」（後驗）。右邊由三塊組成：

$P (p)$ · 先驗 — 你對 p 一開始的想法
$P (data ∣ p)$ · 似然 — 「假設 p 是這個值，看到這筆資料的機率有多大」
$P (data)$ · 邊際 — 把所有 p 加總後平均的似然（在這頁等價於歸一化常數）

🎁 Beta-Binomial 共軛先驗的魔法

當先驗是 $Beta (α, β)$ 且觀測是 Binomial（H 次正面、T 次反面），後驗剛好也是 Beta：

Posterior = Beta (α + H, β + T)

這就是「共軛先驗」(conjugate prior) — 先驗和後驗同一個家族。所以這頁不需要任何積分，後驗永遠是另一條 Beta 曲線，就是把參數加上資料計數而已。

白話翻譯：先驗的 α 可以理解成「幻想中事先看過 α-1 次正面」、β 是「幻想中事先看過 β-1 次反面」。資料來了之後，把幻想跟真實計數合在一起。

🎮 動手試試

點 無資訊 (1, 1) 先驗 — 是水平線。加 10 個正面、0 個反面 — 後驗就是 Beta(11, 1)，往右靠。
點 強「公平」(20, 20)，再加 10 個正面 — 後驗只稍微往右靠。強先驗難說服，但資料量大到一定程度，還是會主宰。
把真值 p 拉到 0.8、按 用真值抽 10 次 幾次 — 看後驗逐漸往 0.8 靠。觀察「需要多少資料才能蓋過弱 / 強先驗」。
點 偏正面 (8, 2) 但實際上抽到 5 反 5 正 — 先驗會被資料拉回中間。

💡 為什麼貝氏跟頻率派吵不完

頻率學派說「p 是固定的，只是我不知道是多少」，貝氏說「p 本身就是個機率分布」。這個哲學差異導致兩派在估計、信賴區間、檢定上方法不同，但實務上：

資料量大時，兩派結果幾乎一樣（LLN + CLT 把先驗壓平）
資料量少 / 先驗有意義時（醫療診斷、罕見事件），貝氏優勢大
機器學習基本上是貝氏的：L2 正則化 = 對權重的常態先驗，dropout = 變分推論

🚀 之後會用到

最大似然估計（下一頁）— MLE 等價於「無資訊先驗下的後驗眾數」
MCMC — 後驗不像 Beta 這麼乾淨時的數值取樣法

留言 0

留言載入中…