01 入門

生成模型的世界觀 · 從加噪到去噪

前面的軌道讓模型辨識影像，這條軌道讓模型創造影像。比較 VAE/GAN/Diffusion 三條路線，並親眼看擴散的前向過程——把一張數字一步步加噪成雪花，建立「破壞是為了學會重建」的心智模型。

生成模型的世界觀 · 從加噪到去噪範例輸出

這堂課的完整程式碼在 Jupyter notebook 裡。點下面按鈕在 Colab 開啟，就能直接執行、修改、實驗——你的修改不會動到原檔。

🚀 在 Google Colab 開啟在 GitHub 檢視

歡迎來到 生成式影像 → 擴散模型生成影像。

前面的軌道讓模型辨識影像(分類、偵測、分割)。這條軌道反過來:讓模型創造影像。能無中生有畫出一張圖的模型,叫生成模型。

三條路線的直覺

VAE:學會把圖壓成一個小向量、再還原。生成 = 從向量空間取一點解碼。圖通常偏糊。
GAN:一個「畫家」和一個「鑑定師」對抗訓練。圖很銳利,但訓練不穩、容易崩。
Diffusion(擴散):今天的主流(Stable Diffusion、Midjourney、DALL·E 都是)。點子優雅到不可思議——

先學會「把圖一步步加噪變成雪花」,再反過來「從雪花一步步去噪還原成圖」。 會去噪,就會生成:餵一張純噪聲進去,反覆去噪,就「長」出一張全新的圖。

這堂課你會學到

三種生成模型(VAE / GAN / Diffusion)的核心直覺與取捨
親眼看擴散的前向過程:把一張 MNIST 數字一步步加噪,直到變成純雪花
建立「破壞是為了學會重建」的心智模型——整條軌道的靈魂

為什麼擴散贏了?

GAN 銳利但難馴,VAE 穩定但模糊。擴散把「生成」拆解成「許多次微小的去噪」,每一步都是個容易學的小任務,合起來卻能生出驚人細節——既穩定又高品質。理解了「加噪→去噪」這個顛倒的思路,你就掌握了當代影像生成的核心。

👉 這條軌道理念同 llm 軌道:功能不求強,重在徹底理解機制。先手刻一個 MNIST 迷你版(02–04),再用 diffusers 玩真正的 Stable Diffusion(06–08)。建議先學 ml/pytorch。

#diffusion #generative #vae #gan

留言 0

留言載入中…