← 回機率統計專區

Chapter 1 · 基礎

🎯 大數法則 與 中央極限定理

兩個定理回答兩個問題:「抽夠多次平均會收斂嗎?」「收斂得多快、長什麼樣?」

來源分布 真實均值 μ 樣本累積 / 直方圖 理論常態 (CLT)
🔁 模式
🦒 來源分布
🧮 即時統計
已抽次數
累計均值
真實均值 μ

📖 兩個定理,一個故事

大數法則(LLN, Law of Large Numbers)說:當你不斷從同一個分布抽樣,累計樣本平均會收斂到母體均值。

LLN 解釋的是「為什麼民調抽到夠多人就會準」、「為什麼擲一萬次骰子的平均一定接近 3.5」。但 LLN 不告訴你收斂得多快,也不告訴你「離 μ 多遠的機率有多大」

那個答案來自 中央極限定理(CLT, Central Limit Theorem)

白話:把樣本均值的「偏差」放大 √n 倍,會收斂到一個常態分布。換成日常的講法:

  • 樣本均值 的標準差是 ,跟 n 的平方根成反比
  • 不管來源分布長什麼樣(偏的、跳的、雙峰的),樣本均值的形狀都會變成鐘形
  • 樣本數加 4 倍,誤差只縮一半 — 這是「為什麼資料科學要的不是樣本多、是樣本大」

🎮 動手試試

  1. 切到 LLN 模式、選 Exp(1),按開始。注意累計均值線一開始上下亂跳,但很快貼到 μ=1 的橘色橫線。
  2. 切到 CLT 模式、選 雙峰混合常態=2 — 結果直方圖會明顯雙峰。把 拉到 30 — 雙峰會消失、變鐘形。這就是「中央極限」三個字最神奇的地方
  3. 同樣 CLT 模式、把 從 10 拉到 40 — 看紅色理論曲線變窄到原來的一半(σ/√n 從 σ/√10 變成 σ/√40 ≈ σ/√10 ÷ 2)。
  4. 切到 兩骰加總=1 — 樣本均值的分布就是「2 顆骰子加總」的三角形。=10 — 變鐘形。CLT 不挑分布,只要有限變異數就行。

💡 為什麼這兩個定理這麼重要

它們幾乎是所有統計推論的基礎

  • 信賴區間 — 「樣本均值 ± 1.96 σ/√n 內包含真值的機率約 95%」就是 CLT 的直接應用
  • A/B 測試的樣本量計算 — 用 σ/√n 估算「要多大樣本才能偵測 X% 差異」
  • 蒙地卡羅模擬 — 數值積分的誤差 = O(1/√n),這個 √n 就是 CLT 給的
  • 機器學習的損失收斂 — SGD 每步用一個 mini-batch 估計梯度,「梯度估計誤差 ~ 1/√batch_size」也是 CLT

🚀 之後會用到

  • 貝氏定理(下一頁)— 也是另一種「資料越多越逼近真相」的數學描述
  • 最大似然估計 — MLE 估計值在大樣本下會服從常態(asymptotic normality)
  • 熵與 KL — Cross-entropy loss 的收斂率也仰賴 CLT

留言 0

留言載入中…