熵與 KL 散度 · 機率分布之間的距離

📖 三個量，一個故事

對每個結果，「驚訝度」定義為 $- lo g_{2} p_{i}$ 。機率越小、看到時越驚訝（罕見事件帶來大資訊）。熵就是這個驚訝度的期望值：

H (p) = - i \sum p_{i} lo g_{2} p_{i}

如果真實分布是 p、但你按 q 的機率去編碼，那每個事件的平均碼長是：

H (p, q) = - i \sum p_{i} lo g_{2} q_{i}

當 q = p， $H (p, q) = H (p)$ — 用對的分布、平均長度最短。當 q ≠ p、總是要付出代價。

這就是分類任務的 cross-entropy loss：神經網路輸出 q，標籤是 one-hot 的 p，loss = H(p, q)。最小化 cross-entropy = MLE = 讓 q 盡量像 p。

把交叉熵減去真正的熵，剩下的就是「因為用了錯誤分布而多付的 bits」：

D_{K L} (p ∥ q) = H (p, q) - H (p) = i \sum p_{i} lo g_{2} \frac{p _{i}}{q _{i}}

性質：總是 ≥ 0，且 = 0 當且僅當 p = q。是「分布之間的距離」（雖然不對稱、不滿足三角不等式 — 嚴格說是 divergence 不是 distance）。

兩個都均勻 — H(p) = H(q) = log₂(5) ≈ 2.32 bits、KL = 0。
把 p 的第一根拉到 0.8，q 維持均勻。看 H(p) 大幅下降（更確定），KL(p||q) 上升（你用「均勻」描述一個其實很集中的東西，要多付 bits）。
不對稱性：保持 p 集中在 bin 1，把 q 拉到集中在 bin 5。KL(p||q) 跟 KL(q||p) 都會很大、但數值不一樣。
關鍵直覺：把 q 的某根（比如 q[1]）幾乎拉到 0，但 p[1] 仍然不小。KL(p||q) 會爆（用一個「不可能」的分布去解釋一個確實有的事件）。

這頁是這個專區的最後一頁。如果你還想繼續往下，方向：