08 專題

對齊 ②:RLHF 與 DPO

讓輸出對齊人類偏好,靠的是 RLHF——ChatGPT 的祕方。講清楚 RLHF 概念,並親手實作它的精簡替代品 DPO。整條學習線的終點。

對齊 ②:RLHF 與 DPO 範例輸出

這堂課的完整程式碼在 Jupyter notebook 裡。點下面按鈕在 Colab 開啟,就能直接執行、修改、實驗——你的修改不會動到原檔。

SFT 教模型「照格式回答」,但答得好不好、合不合人類喜好是另一回事。讓輸出對齊人類偏好,靠的是 RLHF(人類回饋強化學習)——ChatGPT 的祕方。這堂課講清楚 RLHF 的概念,並親手實作它的精簡替代品 DPO。這是本軌道、也是整條學習線的終點。

這堂課你會學到

  • 理解 RLHF 的三步驟與它為什麼複雜
  • 理解 DPO 如何用一個簡單的損失達到類似效果
  • 親手在迷你模型上跑 DPO,看它越來越偏好「好的回應」

RLHF 的精簡替代品:DPO

RLHF 靠三步:SFT → 訓練獎勵模型(找人對回答排序)→ 用 RL(PPO)微調。有效,但要訓練額外模型、還要跑不穩定的強化學習,很複雜。

DPO(Direct Preference Optimization) 證明了:你不需要獎勵模型、也不需要 RL。只要有一堆「偏好配對」(同一提示下,一個較好的 chosen、一個較差的 rejected),就能用一個簡單的分類損失,直接把模型往「偏好 chosen」推。

預覽圖是 DPO 的成果:margin(chosen 與 rejected 的對數機率差)一路往上——模型越來越偏好正確答案。我們沒訓練任何獎勵模型、也沒跑 RL,只用一個損失就把模型對齊了人類偏好。

從第 01 課的斷詞,到自注意力、Transformer、訓練、KV cache、SFT、DPO——你從零親手打造並對齊了一個語言模型。真實的 GPT 只是把每一塊放大幾百萬倍、資料多幾億倍,原理你已經全部掌握了。

🎓 走完從零打造 LLM 的旅程。下一個前沿是 AI Agent——讓模型不只會說話,還會用工具、做事情。

#llm #rlhf #dpo #alignment #preference

留言 0

留言載入中…