← 回微積分專區

Chapter 3 · 應用

🧭 梯度與方向導數

把函式變成 3D 地形 — 站在某點,「哪個方向上坡最陡?」這個方向,就是梯度。拖滑鼠繞圈、改 (x₀, y₀),看黃色箭頭怎麼指。

曲面 z = f(x, y) 取樣點 (x₀, y₀) 梯度 ∇f 自選方向 v + 變化率長條
🎯 選曲面
📍 取樣點
0.70
0.40
自選方向 45°

在 xy 平面上選一個方向,看那個方向的瞬間變化率(粉色長條)。

🧮 梯度與方向導數

梯度方向

📖 多變數的「斜率」是什麼?

一變數函式 的斜率 是一個數字。多變數函式 呢?站在某一點,往不同方向走 — 每個方向的瞬間變化率都不一樣

最自然的兩個方向:沿 x 軸、沿 y 軸。這兩個變化率叫偏導數

把這兩個數字塞進一個向量,就得到梯度

梯度的幾何意義非常具體:在 (x₀, y₀) 那點,把曲面看成 3D 地形,梯度向量指向「最陡上升方向」,長度就是那個方向的斜率。畫面上的黃色箭頭就是它(投影在 xy 平面上)。

🧭 方向導數

選一個任意方向 (單位向量),「沿這個方向走」的瞬間變化率是方向導數

關鍵觀察:這就是梯度向量和方向向量的內積。內積最大時,兩個向量同方向 — 確認了「梯度指向最陡上升方向」。

🎮 動手試試

  1. 預設: 。梯度是 ,永遠指向遠離原點。試把 (x₀, y₀) 拖到 (1, 1) — 黃色箭頭指向 (1, 1) 的延伸方向,長度是
  2. 把方向滑桿 滑到與梯度垂直的方向, 應該變成 0 — 那條方向就是等高線方向,地形不上升也不下降。
  3. 切到鞍點 。拖到 (0, 0) — 偏導都是 0,梯度長度是 0,這是個臨界點。然後拖到 (1, 0),梯度沿 x 方向;拖到 (0, 1),梯度沿 −y 方向。
  4. 切到漣漪 。地形上有山有谷,梯度永遠從谷指向山。在峰頂或谷底,梯度 = 0。
  5. 切到猴鞍 。原點是高階臨界點 — 不只一個方向往下、不只一個方向往上。Hessian 在這裡也是 0 矩陣,二階測試失效。

🚀 為什麼這就是機器學習的核心

神經網路的損失函式 是一個極高維的多變數函式。要找最小值,我們不能解析地求 (解不開),但能算梯度。算梯度後,往梯度反方向走一步 — 因為那是「最陡下降方向」。重複幾百萬次:

這就是梯度下降(Gradient Descent) 是「學習率」(learning rate)。整個深度學習基本上就是這條公式 + 鏈式法則(用來算 ∇L)。

下一章(Ch4 神經網路應用,籌備中)會把這條公式跟鏈式法則接起來 — 就是反向傳播

💡 與線性代數的連結

方向導數的內積形式 ,跟我們在 向量內積 學到的「兩向量的相似程度」是同一件事。Cauchy–Schwarz 不等式告訴我們 ,取等號當兩向量平行 — 也就是「沿梯度方向走變化最快」的數學證明。

當作線性映射 ,這條映射就是「對輸入微小變化最敏感的方向」。從線性代數專區 學的方向 / 投影 / SVD 的觀點看,這就是最大奇異向量。

留言 0

留言載入中…