【生成式AI導論 2024】第18講：有關影像的生成式AI (下) - 快速導讀經典影像生成方法 (VAE, Flow, Diffusion, GAN) 以及與生成的影片互動

Рет қаралды 28,050

Hung-yi Lee

Күн бұрын

Пікірлер: 37

@HungyiLeeNTU 7 ай бұрын

由於本週是本學期的最後一次上課，近期我將不會再更新更多的影片。本來預計介紹有關類神經網路編輯和語音生成式AI相關的內容，但是時間所限，未能進行，未來有機會再更大家分享。感謝大家的持續觀看到這部影片。

@boarfromoon 7 ай бұрын

老师能分享相关的slides吗，想了解相关的主要论文❤感谢老师的优质教学❤

@HungyiLeeNTU 7 ай бұрын

@@boarfromoon speech.ee.ntu.edu.tw/~hylee/genai/2024-spring.php 所有這門課的投影片都在這裡了

@danpoo007 7 ай бұрын

謝謝老師! 期待下次的課程

@mankwanfung4345 7 ай бұрын

多謝老師無私教導！我這個海外(老)學生感激不盡

@miku3920 7 ай бұрын

感謝老師，另外希望可以介紹一些新的RL模型，或是換一種方式講解舊的模型

@WHChen_loves_train 7 ай бұрын

過去在學時，除了聽老師上課也上台分享，自己是如何清心寡慾調參數的我畢業還能繼續自學，超感動der

@icerapierplus1000 6 ай бұрын

感谢老师，真的收获满满。祝愿老师身体健康，每天都开心快乐！

@fanwu-kd1nr 5 ай бұрын

李老师催更啦，好久没新东西看了哈哈哈哈哈哈

@deanhuang6194 Ай бұрын

用模型做資訊抽取，把中間生出來的數據再餵給下一個模型做圖片生成，然後把最有可能的數據給試出來，這個運作邏輯真的是 blew my mind

@Hans-ok5rc 7 ай бұрын

很感謝老師的教學

@echoslayerblack7987 2 ай бұрын

重點整理： - 影片 - **經典影像生成模型介紹**：涵蓋VAE（Variational Autoencoder）、Flow-Based Model、Diffusion Model、GAN（Generative Adversarial Network），各模型都有不同的生成技術。 - **Transformer的挑戰**：同樣的文字描述可能產生不同圖像，造成Transformer無所適從。為此，可引入額外資訊，以便模型更精確生成所需內容。 - **VAE的運作原理**：利用Encoder抽取影像中未被文字描述的資訊，再由Decoder生成包含“腦補資訊”的圖像。這種方法減少模型因不確定性而產生混合圖像的情況。 - **Flow-Based Model的特點**：與VAE類似，但僅需一個可逆的Decoder，減少模型訓練的計算量。 - **Diffusion Model原理**：透過多次去噪（Denoise），逐步去除雜訊以生成最終圖像，是目前最常用的影像生成技術。 - **GAN的結構與作用**：由Generator與Discriminator共同訓練，Generator生成圖像並試圖騙過Discriminator，使生成的圖像更真實。可將GAN視作提升影像生成模型的外掛。 - **交互式影像生成技術**：例如Genie模型能讀取畫面和玩家輸入，使生成的影像根據用戶動作進行即時變化，適合遊戲互動應用。 - **Genie在遊戲中的應用**：可根據動作和畫面變化反推出玩家輸入，實現隨機生成遊戲場景和角色移動，進而擴展至自駕模擬等應用。 - 補充概念 - **VAE與Flow-Based Model的對比**：VAE通過獨立的Encoder與Decoder實現影像生成，而Flow則利用可逆的Decoder來減少模型複雜度。 - **Diffusion Model的Denoise挑戰**：多次去噪的過程需要較大計算資源，因此當前的研究集中在如何用較少次數完成去噪。 - **GAN與RLHF的類比**：GAN的Discriminator如同RLHF中的Reward Model，通過對圖像與文字的匹配評價來訓練Generator。 - **交互影像生成的潛在應用**：從即時生成遊戲場景到駕駛模擬，未來可實現即時生成場景，並根據用戶操作不斷變化，創造更真實的模擬體驗。