04 進階

組裝 Transformer

把自注意力和其他零件組裝成完整 GPT：多頭注意力、前饋層、殘差連接、LayerNorm，堆成 Transformer block。

組裝 Transformer 範例輸出

這堂課的完整程式碼在 Jupyter notebook 裡。點下面按鈕在 Colab 開啟，就能直接執行、修改、實驗——你的修改不會動到原檔。

🚀 在 Google Colab 開啟在 GitHub 檢視

有了自注意力這顆心臟,這堂課把它和其他零件組裝成一個完整的 GPT:多頭注意力、前饋層、殘差連接、LayerNorm,堆成 Transformer block,再疊成模型。

這堂課你會學到

理解多頭注意力:多個注意力頭平行看不同面向
認識 block 的四大件:注意力、前饋、殘差連接、LayerNorm
組出完整的 MiniGPT,數一數參數量

一個 block 的四大件

預覽圖就是一個 Transformer block 的資料流:

多頭注意力:把上一課的單頭複製成好幾頭,各自學不同的關注模式,再合併。
前饋網路(FFN):每個位置各自過一個小 MLP,做非線性轉換。
殘差連接(x = x + ...):讓梯度好傳、深層也訓得動。
LayerNorm:穩定每層數值分布,訓練更順。

MiniGPT = token/位置嵌入 → 疊 N 個 block → 輸出頭,對每個位置預測下一個字。我們這隻只有幾十萬參數,是 GPT-3(1750 億)的百萬分之一——但架構一模一樣。

👉 在 Colab 裡對照第 03 課:MultiHeadAttention 裡哪幾行對應「Q·K → 縮放 → 遮罩 → softmax → 加權 V」?

#llm #transformer #multi-head #residual #layernorm

留言 0

留言載入中…