Chapter 3 · 應用
把函式變成 3D 地形 — 站在某點,「哪個方向上坡最陡?」這個方向,就是梯度。拖滑鼠繞圈、改 (x₀, y₀),看黃色箭頭怎麼指。
在 xy 平面上選一個方向,看那個方向的瞬間變化率(粉色長條)。
一變數函式 的斜率 是一個數字。多變數函式 呢?站在某一點,往不同方向走 — 每個方向的瞬間變化率都不一樣。
最自然的兩個方向:沿 x 軸、沿 y 軸。這兩個變化率叫偏導數:
把這兩個數字塞進一個向量,就得到梯度:
梯度的幾何意義非常具體:在 (x₀, y₀) 那點,把曲面看成 3D 地形,梯度向量指向「最陡上升方向」,長度就是那個方向的斜率。畫面上的黃色箭頭就是它(投影在 xy 平面上)。
選一個任意方向 (單位向量),「沿這個方向走」的瞬間變化率是方向導數:
關鍵觀察:這就是梯度向量和方向向量的內積。內積最大時,兩個向量同方向 — 確認了「梯度指向最陡上升方向」。
神經網路的損失函式 是一個極高維的多變數函式。要找最小值,我們不能解析地求 (解不開),但能算梯度。算梯度後,往梯度反方向走一步 — 因為那是「最陡下降方向」。重複幾百萬次:
這就是梯度下降(Gradient Descent)。 是「學習率」(learning rate)。整個深度學習基本上就是這條公式 + 鏈式法則(用來算 ∇L)。
下一章(Ch4 神經網路應用,籌備中)會把這條公式跟鏈式法則接起來 — 就是反向傳播。
方向導數的內積形式 ,跟我們在 向量內積 學到的「兩向量的相似程度」是同一件事。Cauchy–Schwarz 不等式告訴我們 ,取等號當兩向量平行 — 也就是「沿梯度方向走變化最快」的數學證明。
把 當作線性映射 ,這條映射就是「對輸入微小變化最敏感的方向」。從線性代數專區 學的方向 / 投影 / SVD 的觀點看,這就是最大奇異向量。
留言 0
留言載入中…