【生成式AI導論 2024】第18講:有關影像的生成式AI (下) - 快速導讀經典影像生成方法 (VAE, Flow, Diffusion, GAN) 以及與生成的影片互動

  Рет қаралды 28,050

Hung-yi Lee

Hung-yi Lee

Күн бұрын

Пікірлер: 37
@HungyiLeeNTU
@HungyiLeeNTU 7 ай бұрын
由於本週是本學期的最後一次上課,近期我將不會再更新更多的影片。本來預計介紹有關類神經網路編輯和語音生成式AI相關的內容,但是時間所限,未能進行,未來有機會再更大家分享。感謝大家的持續觀看到這部影片。
@boarfromoon
@boarfromoon 7 ай бұрын
老师能分享相关的slides吗,想了解相关的主要论文❤感谢老师的优质教学❤
@HungyiLeeNTU
@HungyiLeeNTU 7 ай бұрын
@@boarfromoon speech.ee.ntu.edu.tw/~hylee/genai/2024-spring.php 所有這門課的投影片都在這裡了
@danpoo007
@danpoo007 7 ай бұрын
謝謝老師! 期待下次的課程
@mankwanfung4345
@mankwanfung4345 7 ай бұрын
多謝老師無私教導!我這個海外(老)學生感激不盡
@miku3920
@miku3920 7 ай бұрын
感謝老師,另外希望可以介紹一些新的RL模型,或是換一種方式講解舊的模型
@WHChen_loves_train
@WHChen_loves_train 7 ай бұрын
過去在學時,除了聽老師上課 也上台分享,自己是如何 清心寡慾 調參數的我 畢業還能繼續自學,超感動der
@icerapierplus1000
@icerapierplus1000 6 ай бұрын
感谢老师,真的收获满满。祝愿老师身体健康,每天都开心快乐!
@fanwu-kd1nr
@fanwu-kd1nr 5 ай бұрын
李老师催更啦,好久没新东西看了哈哈哈哈哈哈
@deanhuang6194
@deanhuang6194 Ай бұрын
用模型做資訊抽取,把中間生出來的數據再餵給下一個模型做圖片生成,然後把最有可能的數據給試出來,這個運作邏輯真的是 blew my mind
@Hans-ok5rc
@Hans-ok5rc 7 ай бұрын
很感謝老師的教學
@echoslayerblack7987
@echoslayerblack7987 2 ай бұрын
重點整理: - 影片 - **經典影像生成模型介紹**:涵蓋VAE(Variational Autoencoder)、Flow-Based Model、Diffusion Model、GAN(Generative Adversarial Network),各模型都有不同的生成技術。 - **Transformer的挑戰**:同樣的文字描述可能產生不同圖像,造成Transformer無所適從。為此,可引入額外資訊,以便模型更精確生成所需內容。 - **VAE的運作原理**:利用Encoder抽取影像中未被文字描述的資訊,再由Decoder生成包含“腦補資訊”的圖像。這種方法減少模型因不確定性而產生混合圖像的情況。 - **Flow-Based Model的特點**:與VAE類似,但僅需一個可逆的Decoder,減少模型訓練的計算量。 - **Diffusion Model原理**:透過多次去噪(Denoise),逐步去除雜訊以生成最終圖像,是目前最常用的影像生成技術。 - **GAN的結構與作用**:由Generator與Discriminator共同訓練,Generator生成圖像並試圖騙過Discriminator,使生成的圖像更真實。可將GAN視作提升影像生成模型的外掛。 - **交互式影像生成技術**:例如Genie模型能讀取畫面和玩家輸入,使生成的影像根據用戶動作進行即時變化,適合遊戲互動應用。 - **Genie在遊戲中的應用**:可根據動作和畫面變化反推出玩家輸入,實現隨機生成遊戲場景和角色移動,進而擴展至自駕模擬等應用。 - 補充概念 - **VAE與Flow-Based Model的對比**:VAE通過獨立的Encoder與Decoder實現影像生成,而Flow則利用可逆的Decoder來減少模型複雜度。 - **Diffusion Model的Denoise挑戰**:多次去噪的過程需要較大計算資源,因此當前的研究集中在如何用較少次數完成去噪。 - **GAN與RLHF的類比**:GAN的Discriminator如同RLHF中的Reward Model,通過對圖像與文字的匹配評價來訓練Generator。 - **交互影像生成的潛在應用**:從即時生成遊戲場景到駕駛模擬,未來可實現即時生成場景,並根據用戶操作不斷變化,創造更真實的模擬體驗。
@weibao9176
@weibao9176 6 ай бұрын
太精彩了,感谢老师❤
@蒂蒂-f7o
@蒂蒂-f7o 7 ай бұрын
謝謝老師~🎉🎉🎉🎉🎉
@feixiongluo4198
@feixiongluo4198 7 ай бұрын
Tks for valuable sharing
@angelalachiu
@angelalachiu 4 ай бұрын
感謝老師,讓我能看影片,渡過基本分😂😂下學期可以LLM為主嗎
@羅桑-g3g
@羅桑-g3g 7 ай бұрын
35:40 如果這邊的圖是訓練時完全沒看過,而且風格差異還這麼大,那這模型的威力確實是超乎想像。
@HellSeeker-d8r
@HellSeeker-d8r 5 ай бұрын
反向研究在AI领域的应用,牛逼!
@difeitang1823
@difeitang1823 Ай бұрын
看完芙莉莲了,老师再不更新都不知道下一部看啥了
@海童-k4r
@海童-k4r 7 ай бұрын
very nice tutorial
@corgirun7892
@corgirun7892 7 ай бұрын
Genie真是太惊艳了
@kirimaru73
@kirimaru73 7 ай бұрын
謝謝老師! 很久以前(上古時代),自己在玩Diffusion Model時只使用過2D latent image+U-net,有嘗試過一點點attention的架構,但很簡陋。請問現在大多已經改成使用Transformer了嗎?
@xx-mg5us
@xx-mg5us 6 ай бұрын
Stable Diffusion3和Sora是用的基于Transformer的DiT架构,但是个人觉得U-net也不过时~
@poohdang
@poohdang 6 ай бұрын
請問是否有合作信箱?
@elvis1322
@elvis1322 7 ай бұрын
頭香
@Natural_Motion
@Natural_Motion 7 ай бұрын
啊?这门课结束了?
@彼得程序員
@彼得程序員 6 ай бұрын
下學期聽說會有進階課程
GPT-4o 背後可能的語音技術猜測
38:13
Hung-yi Lee
Рет қаралды 59 М.
Sigma girl VS Sigma Error girl 2  #shorts #sigma
0:27
Jin and Hattie
Рет қаралды 124 МЛН
I'VE MADE A CUTE FLYING LOLLIPOP FOR MY KID #SHORTS
0:48
A Plus School
Рет қаралды 20 МЛН
УНО Реверс в Амонг Ас : игра на выбывание
0:19
Фани Хани
Рет қаралды 1,3 МЛН
Andro, ELMAN, TONI, MONA - Зари (Official Music Video)
2:50
RAAVA MUSIC
Рет қаралды 2 МЛН
【生成式AI】速覽圖像生成常見模型
26:57
Hung-yi Lee
Рет қаралды 41 М.
【機器學習2021】Transformer (上)
32:48
Hung-yi Lee
Рет қаралды 221 М.
Sigma girl VS Sigma Error girl 2  #shorts #sigma
0:27
Jin and Hattie
Рет қаралды 124 МЛН