【生成式AI】Stable Diffusion、DALL-E、Imagen 背後共同的套路

Рет қаралды 94,443

Hung-yi Lee

Күн бұрын

Пікірлер: 63

@HungyiLeeNTU Жыл бұрын

感謝黃敬峰先生提供字幕

@nikeshoxmiles123 Жыл бұрын

感謝老師時常貢獻您寶貴的知識！

@飛鴻-q1c Жыл бұрын

有一个紧跟前沿技术又会讲课的高水平老师，是学生们的幸事。感谢李老师无私分享😘

@TheBeader Жыл бұрын

講的太好了，簡直是人類版的ChatGPT

@hudsonvan4322 9 ай бұрын

其實是ChatGPT已經學過李宏毅老師的套路了

@ytl0623 Жыл бұрын

4:03 1024x1024 5:39 5:40 5:46 CLIP Score 6:54 U-Net size 6:59 9:48 13:54 Imagen 7:04 增大 9:30 Fréchet 10:19 前一頁投影片 13:56 DALL-E 14:40 Downsampling 18:08 18:30 19:16 Midjourney 19:31 state-of-the-art

@dorgon-research Жыл бұрын

感謝老師上傳影片，以前學生時期碩論是做ML相關(約10年前)，但畢業開始工作後就完全沒碰了，最近AI應用暴發，回來看才發現已經有一堆名詞不認識，老師影片真的造褔了廣大的學子們。有發現老師影片並不是全部都有字幕，就想到不知道現在的AI在幫忙產生影片SRT字幕檔上的效果如何。

@皇甫承佑-x5j Жыл бұрын

週更影片中我最想追的就是李老師的教學影片了!

@蒂蒂-f7o Жыл бұрын

最想聽的課程來了！！！🎉🎉🎉

@HungyiLeeNTU Жыл бұрын

下週停更一次喔

@FirminShao Жыл бұрын

讲的太好了，李老师。让没做过生成模型的我也对SOTA的生成式模型有了大致的了解，十分感谢！

@蓝狐 Жыл бұрын

0:00 简单介绍三家的套路有啥异同 4:30 首先介绍第 1 个Encoder 11:43 然后介绍第 3 个 Decoder 15:01 最后介绍第 2 个 Generation Model

@iLOGICNOTE 10 ай бұрын

雪中送炭, 非常感谢李宏毅老师.

@lidongxing Жыл бұрын

李老师的课没有高谈阔论，一次听懂，讲得通俗易懂

@nanakaka7 Жыл бұрын

這禮拜也跟上進度了感謝老師!!

@binren8267 Жыл бұрын

太Nice了！！！圈粉了，学到了很多！

@nikeshoxmiles123 Жыл бұрын

老師你的影片沒有逐字稿我有幫你生成該如何給你呢~

@HungyiLeeNTU Жыл бұрын

非常感謝幫忙生成逐字稿，這可以造福更多學生，歡迎把逐字稿寄到我的信箱：hungyilee@ntu.edu.tw

@joyfudesign Жыл бұрын

感謝老師的講解，讓我在看完一堆國外youtuber的影片後，有了更清晰的輪廓！另有幾個環節我一直無法搞懂，想請教老師，AI是怎麼理解繪畫中的「物理性質」與「風格問題」? 「物理性質」：例如光影表現，假設是狗頭人身，AI如何維持同一光源，頭與脖子間的影子又是如何判斷的呢? 「風格問題」：例如一隻畢卡索風格的狗，AI是如何轉化的呢? 感謝老師撥冗解答!

@蓝狐 Жыл бұрын

我也有这方面的疑惑，如果不同类别的光影需要像物品那样每张图重新做文字配对数据，工作量太大了，如果理解了明暗变化对应的向量关系，然后 AI 判断出来属于人类文字的某种光影描述，效率会很高

@lingshanliu5812 Жыл бұрын

哇期待！

@716Lufei Жыл бұрын

感谢感谢，讲的太好了

@mikitan5782 Жыл бұрын

好有趣的课程

@pleasuremore 11 ай бұрын

感谢课程分享

@jiacshane7952 Жыл бұрын

讲的太好了

@sanzhang-ph4pr 4 ай бұрын

为什么中间产物是图片的压缩版本，是考虑到内存大小的原因吗？

@wuyanchu Жыл бұрын

thx and god bless.. regards from hong kong ^_^

@PeiyangNi Жыл бұрын

15:55 这里在生成Latent Representation的时候用到了Encoder，然后再向Latent Representation中加入噪声得到Generation Model的训练资料。那这个Encoder是在Generation Model训练的过程中一起训练的吗？

@jiashupan9181 11 ай бұрын

我也有这个问题。我目前的猜想是我们只用图片训练了一个autoencoder，然后用autoencoder里的encoder生成训练generation model的latent representation。在生成图片时，我们用autoencoder里的decoder再把生成的latent representation返回pixel space。

@Richard-k5x4j 19 күн бұрын

李老师真是台湾的mvp

@llyy7386 Жыл бұрын

感谢老师的解说。很容易懂

@aiden3596 Жыл бұрын

老师请教一下，15:25的encoder是不是autoencoder里的那个encoder？按照我的理解，decoder所期望的input应该是原本autoencoder里encoder的output，那么在训练的时候，我应该拿那个encoder来获得图片的latent representation，从而使得generation model能够得到decoder所期望的input。不知道这种理解是否正确？

@j-jd8yf 5 ай бұрын

True

@wenquanchang4903 Жыл бұрын

installed, everything works, thanks!

@FirminShao Жыл бұрын

讲的很清楚👍

@蘇柏廷 Жыл бұрын

有機會聽到老師說明LORA嗎?哈哈

@En-pe3sh 10 ай бұрын

老師不好意思請教您一個問題，假設我訓練模型時某筆訓練資是雜訊n、文字敘述是" a cat in the snow"。那如果我在inference的時候，剛好也sample出雜訊n，但文字敘述是"a person in the snow"，請問這樣模型的輸出會不會就是我們想要的" a person in the sow" ?

@zhangbo0037 6 ай бұрын

棒

@j-jd8yf 5 ай бұрын

18:20 gaussian distribution出来的竟然是模糊的图片，解释依然令人费解，我觉得是因为加了文字的原因，而不是因为decoder。换而言之，一开始gaussian的第一张图绝对是杂乱无序的，只有当第二次输入加入文字后，才会显现出轮廓，即便没有decoder，我想应该也会这样。

@shanggangli369 Жыл бұрын

超级好

@peterlin963 Жыл бұрын

讲错了一个东西，Midjourney在生成过程中，要把有噪声的latent转成x0再给decoder，这样就有模糊的过程图。不是把带噪声的latent直接给decoder，这样子出来的会全是噪声

@hwj8640 Жыл бұрын

請問x0是什麼

@peterlin963 Жыл бұрын

@@hwj8640 去读ddpm的paper。diffusion模型可以有不同的formulation，可以predict epsilon噪声，x0原图，或mu。这些都有公式可以转换。现在的模型一般predict epsilon，然后 ddim step 转成 mu。但要过decoder看过程图，就必须每一步转成x0再过decoder。

@hwj8640 Жыл бұрын

@@peterlin963 好，多謝了

@aaronyang6917 Жыл бұрын

原来如此，多谢

@yoshiyuki1732ify Жыл бұрын

我想问一下decoder是分开训练的么？按照老师说的，这个decoder的训练似乎不需要考虑从输入的文字到输出的图片。感觉上是对输出做了一个变换，然后前面Encoder貌似用的pretrained model，对输入做一个变换。这样其实主要训练的就是中间的generator？

@張功逸 Жыл бұрын

想請問17:05中的 Noise Predictor，是如何同時餵進三種參數(text input, noise input, and step)的？有相關論文可以提供嗎？

@femtogary3723 Жыл бұрын

请教老师,a cat in the snow, 当text encoder时候，是每一个token生成对应向量,那么5个token有5个向量，10个token十个向量.Denoise module需要处理连续的不确定长度的向量,有点像rnn,lstm, 还是说a cat in the snow这句话直接encode成一个向量。有点像SentenceTransformer，把整个句子的意思转变成一个向量。

@run963741 Жыл бұрын

Stable Diffusion 所使用的 Text Encoder 是 CLIP ViT-L/14，這模型輸入句子最大長度為 77，在輸入時就會把 Text Padding (Truncate)為 77 再通過 CLIP ViT-L/14，輸出矩陣維度就是 77x768 (768 為 hidden_size)，所以 Stable diffustion 的 Text encoder 會統一將句子弄成 77x768 矩陣。當然最新的 Stable Diffusion 一定會想辦法突破 77 長度的限制，例如拿其他 Text encoder 來做...