← 回機率統計專區

Chapter 2 · 推論

🔮 貝氏定理

你對一枚硬幣的「正面機率 p」原本有看法(先驗)。看到資料後,看法會怎麼更新(後驗)?

先驗 Prior 後驗 Posterior 真值 p(隨機抽樣用)
🪞 先驗 Beta(α, β)
2.0
2.0
🪙 加觀測

真值 p0.70
🧮 即時統計
觀測 H / T0 / 0
經驗 H 比例
先驗平均
後驗平均
後驗 Beta

📖 Bayes 公式在做什麼

Bayes 定理長這樣:

左邊是「看完資料後,p 的分布」(後驗)。右邊由三塊組成:

  • · 先驗 — 你對 p 一開始的想法
  • · 似然 — 「假設 p 是這個值,看到這筆資料的機率有多大」
  • · 邊際 — 把所有 p 加總後平均的似然(在這頁等價於歸一化常數)

🎁 Beta-Binomial 共軛先驗的魔法

當先驗是 且觀測是 Binomial(H 次正面、T 次反面),後驗剛好也是 Beta:

這就是「共軛先驗」(conjugate prior) — 先驗和後驗同一個家族。所以這頁不需要任何積分,後驗永遠是另一條 Beta 曲線,就是把參數加上資料計數而已。

白話翻譯:先驗的 α 可以理解成「幻想中事先看過 α-1 次正面」、β 是「幻想中事先看過 β-1 次反面」。資料來了之後,把幻想跟真實計數合在一起。

🎮 動手試試

  1. 無資訊 (1, 1) 先驗 — 是水平線。加 10 個正面、0 個反面 — 後驗就是 Beta(11, 1),往右靠。
  2. 強「公平」(20, 20),再加 10 個正面 — 後驗只稍微往右靠。強先驗難說服,但資料量大到一定程度,還是會主宰。
  3. 把真值 p 拉到 0.8、按 用真值抽 10 次 幾次 — 看後驗逐漸往 0.8 靠。觀察「需要多少資料才能蓋過弱 / 強先驗」。
  4. 偏正面 (8, 2) 但實際上抽到 5 反 5 正 — 先驗會被資料拉回中間。

💡 為什麼貝氏跟頻率派吵不完

頻率學派說「p 是固定的,只是我不知道是多少」,貝氏說「p 本身就是個機率分布」。這個 哲學 差異導致兩派在估計、信賴區間、檢定上方法不同,但實務上:

  • 資料量大時,兩派結果幾乎一樣(LLN + CLT 把先驗壓平)
  • 資料量少 / 先驗有意義時(醫療診斷、罕見事件),貝氏優勢大
  • 機器學習基本上是貝氏的:L2 正則化 = 對權重的常態先驗,dropout = 變分推論

🚀 之後會用到

  • 最大似然估計(下一頁)— MLE 等價於「無資訊先驗下的後驗眾數」
  • MCMC — 後驗不像 Beta 這麼乾淨時的數值取樣法

留言 0

留言載入中…