🌫️ 擴散模型生成影像

手刻 forward/reverse diffusion 在 MNIST 上生成數字，再用 diffusers 玩 Stable Diffusion 文生圖、img2img 與 LoRA

前面的軌道讓模型辨識影像，這條軌道讓模型創造影像。比較 VAE/GAN/Diffusion 三條路線，並親眼看擴散的前向過程——把一張數字一步步加噪成雪花，建立「破壞是為了學會重建」的心智模型。

真正的擴散模型用精心設計的加噪排程，而且有個漂亮性質：任何一步 x_t 都能從原圖一步算出來，不必跑 t 次迴圈。親手實作 beta 排程與 closed-form 的 q_sample。

整條軌道的核心課。前向加噪不用學，要學的是反向去噪：訓練一個 U-Net 看著加噪圖預測「當初加進去的噪聲」。學會預測噪聲，餵純雪花反覆去噪，就生出全新的數字。

DDPM 老實走完全部 200 步，慢；DDIM 把取樣變成確定性、可以跳著走，只要 20 步就生出差不多的圖，快十倍。比較兩者，並把「雪花 → 數字」的逐步顯影過程畫出來。

我們的迷你模型只會隨機生數字。真正的 Stable Diffusion 能聽懂「一隻沙灘上的柯基」，靠的是文字條件：CLIP 把 prompt 變成向量、cross-attention 注入去噪。親眼見證 CLIP 把文字與影像對齊。

手刻迷你版讓你懂了原理，現在站上巨人肩膀：用 Hugging Face diffusers 跑真正的 Stable Diffusion，打一句話生一張圖。用 sd-turbo——一步生圖、免費 T4 跑得順、免授權手續。

純文字生圖像擲骰子。真正用在創作上需要控制：img2img（在起始圖上變化）、inpainting（只重繪局部）、LoRA（風格外掛）。三招把擲骰子般的生成變成可控的創作工具。

整條軌道的收尾，也是整個 AI/ML 弧線的最後一哩。把生成包成好用的 generate(prompt) 函式、批次比較不同 prompt，最後聊怎麼用 Gradio + Hugging Face Spaces 把它分享成一個任何人能用的網頁工具。

留言 0