梯度與方向導數 · 多變數的「斜率」

📖 多變數的「斜率」是什麼？

一變數函式 $f (x)$ 的斜率 $f^{'} (x)$ 是一個數字。多變數函式 $f (x, y)$ 呢？站在某一點，往不同方向走 — 每個方向的瞬間變化率都不一樣。

最自然的兩個方向：沿 x 軸、沿 y 軸。這兩個變化率叫偏導數：

\frac{\partial f}{\partial x} = h \to 0 lim \frac{f ( x + h , y ) - f ( x , y )}{h}, \frac{\partial f}{\partial y} = h \to 0 lim \frac{f ( x , y + h ) - f ( x , y )}{h}

把這兩個數字塞進一個向量，就得到梯度：

\nabla f = (\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y})

梯度的幾何意義非常具體：在 (x₀, y₀) 那點，把曲面看成 3D 地形，梯度向量指向「最陡上升方向」，長度就是那個方向的斜率。畫面上的黃色箭頭就是它（投影在 xy 平面上）。

🧭 方向導數

選一個任意方向 $v = (cos θ, sin θ)$ （單位向量），「沿這個方向走」的瞬間變化率是方向導數：

D_{v} f = \nabla f \cdot v = \frac{\partial f}{\partial x} cos θ + \frac{\partial f}{\partial y} sin θ

關鍵觀察：這就是梯度向量和方向向量的內積。內積最大時，兩個向量同方向 — 確認了「梯度指向最陡上升方向」。

🎮 動手試試

預設：碗 $f (x, y) = x^{2} + y^{2}$ 。梯度是 $(2 x, 2 y)$ ，永遠指向遠離原點。試把 (x₀, y₀) 拖到 (1, 1) — 黃色箭頭指向 (1, 1) 的延伸方向，長度是 $8 \approx 2.83$ 。
把方向滑桿 $θ$ 滑到與梯度垂直的方向， $D_{v} f$ 應該變成 0 — 那條方向就是等高線方向，地形不上升也不下降。
切到鞍點 $x^{2} - y^{2}$ 。拖到 (0, 0) — 偏導都是 0，梯度長度是 0，這是個臨界點。然後拖到 (1, 0)，梯度沿 x 方向；拖到 (0, 1)，梯度沿 −y 方向。
切到漣漪 $sin (x) cos (y)$ 。地形上有山有谷，梯度永遠從谷指向山。在峰頂或谷底，梯度 = 0。
切到猴鞍 $x^{3} - 3 x y^{2}$ 。原點是高階臨界點 — 不只一個方向往下、不只一個方向往上。Hessian 在這裡也是 0 矩陣，二階測試失效。

🚀 為什麼這就是機器學習的核心

神經網路的損失函式 $L (θ_{1}, θ_{2}, \dots, θ_{n})$ 是一個極高維的多變數函式。要找最小值，我們不能解析地求 $\nabla L = 0$ （解不開），但能算梯度。算梯度後，往梯度反方向走一步 — 因為那是「最陡下降方向」。重複幾百萬次：

θ_{new} = θ_{old} - η \cdot \nabla L (θ_{old})

這就是梯度下降（Gradient Descent）。 $η$ 是「學習率」(learning rate)。整個深度學習基本上就是這條公式 + 鏈式法則（用來算 ∇L）。

下一章（Ch4 神經網路應用，籌備中）會把這條公式跟鏈式法則接起來 — 就是反向傳播。

💡 與線性代數的連結

方向導數的內積形式 $D_{v} f = \nabla f \cdot v$ ，跟我們在向量內積學到的「兩向量的相似程度」是同一件事。Cauchy–Schwarz 不等式告訴我們 $∣\nabla f \cdot v ∣ \leq ∣\nabla f ∣ \cdot ∣ v ∣$ ，取等號當兩向量平行 — 也就是「沿梯度方向走變化最快」的數學證明。

把 $\nabla f$ 當作線性映射 $R^{n} \to R$ ，這條映射就是「對輸入微小變化最敏感的方向」。從線性代數專區學的方向 / 投影 / SVD 的觀點看，這就是最大奇異向量。

🧭 梯度與方向導數

📖 多變數的「斜率」是什麼？

🧭 方向導數

🎮 動手試試

🚀 為什麼這就是機器學習的核心

💡 與線性代數的連結

留言 0