Bayes 定理長這樣:
P(p∣data)=P(data)P(data∣p)P(p)
左邊是「看完資料後,p 的分布」(後驗)。右邊由三塊組成:
- P(p) · 先驗 — 你對 p 一開始的想法
- P(data∣p) · 似然 — 「假設 p 是這個值,看到這筆資料的機率有多大」
- P(data) · 邊際 — 把所有 p 加總後平均的似然(在這頁等價於歸一化常數)
🎁 Beta-Binomial 共軛先驗的魔法
當先驗是 Beta(α,β) 且觀測是 Binomial(H 次正面、T 次反面),後驗剛好也是 Beta:
Posterior=Beta(α+H,β+T)
這就是「共軛先驗」(conjugate prior) — 先驗和後驗同一個家族。所以這頁不需要任何積分,後驗永遠是另一條 Beta 曲線,就是把參數加上資料計數而已。
白話翻譯:先驗的 α 可以理解成「幻想中事先看過 α-1 次正面」、β 是「幻想中事先看過 β-1 次反面」。資料來了之後,把幻想跟真實計數合在一起。
🎮 動手試試
- 點 無資訊 (1, 1) 先驗 — 是水平線。加 10 個正面、0 個反面 — 後驗就是 Beta(11, 1),往右靠。
- 點 強「公平」(20, 20),再加 10 個正面 — 後驗只稍微往右靠。強先驗難說服,但資料量大到一定程度,還是會主宰。
- 把真值 p 拉到 0.8、按 用真值抽 10 次 幾次 — 看後驗逐漸往 0.8 靠。觀察「需要多少資料才能蓋過弱 / 強先驗」。
- 點 偏正面 (8, 2) 但實際上抽到 5 反 5 正 — 先驗會被資料拉回中間。
💡 為什麼貝氏跟頻率派吵不完
頻率學派說「p 是固定的,只是我不知道是多少」,貝氏說「p 本身就是個機率分布」。這個 哲學 差異導致兩派在估計、信賴區間、檢定上方法不同,但實務上:
- 資料量大時,兩派結果幾乎一樣(LLN + CLT 把先驗壓平)
- 資料量少 / 先驗有意義時(醫療診斷、罕見事件),貝氏優勢大
- 機器學習基本上是貝氏的:L2 正則化 = 對權重的常態先驗,dropout = 變分推論
🚀 之後會用到
- 最大似然估計(下一頁)— MLE 等價於「無資訊先驗下的後驗眾數」
- MCMC — 後驗不像 Beta 這麼乾淨時的數值取樣法
留言 0
留言載入中…