【生成式AI】Stable Diffusion、DALL-E、Imagen 背後共同的套路

  Рет қаралды 94,443

Hung-yi Lee

Hung-yi Lee

Күн бұрын

Пікірлер: 63
@HungyiLeeNTU
@HungyiLeeNTU Жыл бұрын
感謝黃敬峰先生提供字幕
@nikeshoxmiles123
@nikeshoxmiles123 Жыл бұрын
感謝老師時常貢獻您寶貴的知識!
@飛鴻-q1c
@飛鴻-q1c Жыл бұрын
有一个紧跟前沿技术又会讲课的高水平老师,是学生们的幸事。感谢李老师无私分享😘
@TheBeader
@TheBeader Жыл бұрын
講的太好了,簡直是人類版的ChatGPT
@hudsonvan4322
@hudsonvan4322 9 ай бұрын
其實是ChatGPT已經學過李宏毅老師的套路了
@ytl0623
@ytl0623 Жыл бұрын
4:03 1024x1024 5:39 5:40 5:46 CLIP Score 6:54 U-Net size 6:59 9:48 13:54 Imagen 7:04 增大 9:30 Fréchet 10:19 前一頁投影片 13:56 DALL-E 14:40 Downsampling 18:08 18:30 19:16 Midjourney 19:31 state-of-the-art
@dorgon-research
@dorgon-research Жыл бұрын
感謝老師上傳影片,以前學生時期碩論是做ML相關(約10年前),但畢業開始工作後就完全沒碰了,最近AI應用暴發,回來看才發現已經有一堆名詞不認識,老師影片真的造褔了廣大的學子們。 有發現老師影片並不是全部都有字幕,就想到不知道現在的AI在幫忙產生影片SRT字幕檔上的效果如何。
@皇甫承佑-x5j
@皇甫承佑-x5j Жыл бұрын
週更影片中我最想追的就是李老師的教學影片了!
@蒂蒂-f7o
@蒂蒂-f7o Жыл бұрын
最想聽的課程來了!!!🎉🎉🎉
@HungyiLeeNTU
@HungyiLeeNTU Жыл бұрын
下週停更一次喔
@FirminShao
@FirminShao Жыл бұрын
讲的太好了,李老师。让没做过生成模型的我也对SOTA的生成式模型有了大致的了解,十分感谢!
@蓝狐
@蓝狐 Жыл бұрын
0:00 简单介绍三家的套路有啥异同 4:30 首先介绍第 1 个Encoder 11:43 然后介绍第 3 个 Decoder 15:01 最后介绍第 2 个 Generation Model
@iLOGICNOTE
@iLOGICNOTE 10 ай бұрын
雪中送炭, 非常感谢李宏毅老师.
@lidongxing
@lidongxing Жыл бұрын
李老师的课没有高谈阔论,一次听懂,讲得通俗易懂
@nanakaka7
@nanakaka7 Жыл бұрын
這禮拜也跟上進度了 感謝老師!!
@binren8267
@binren8267 Жыл бұрын
太Nice了!!!圈粉了,学到了很多!
@nikeshoxmiles123
@nikeshoxmiles123 Жыл бұрын
老師 你的影片沒有逐字稿 我有幫你生成 該如何給你呢~
@HungyiLeeNTU
@HungyiLeeNTU Жыл бұрын
非常感謝幫忙生成逐字稿,這可以造福更多學生,歡迎把逐字稿寄到我的信箱:hungyilee@ntu.edu.tw
@joyfudesign
@joyfudesign Жыл бұрын
感謝老師的講解,讓我在看完一堆國外youtuber的影片後,有了更清晰的輪廓! 另有幾個環節我一直無法搞懂,想請教老師,AI是怎麼理解繪畫中的「物理性質」與「風格問題」? 「物理性質」:例如光影表現,假設是狗頭人身,AI如何維持同一光源,頭與脖子間的影子又是如何判斷的呢? 「風格問題」:例如一隻畢卡索風格的狗,AI是如何轉化的呢? 感謝老師撥冗解答!
@蓝狐
@蓝狐 Жыл бұрын
我也有这方面的疑惑,如果不同类别的光影需要像物品那样每张图重新做文字配对数据,工作量太大了,如果理解了明暗变化对应的向量关系,然后 AI 判断出来属于人类文字的某种光影描述,效率会很高
@lingshanliu5812
@lingshanliu5812 Жыл бұрын
哇 期待!
@716Lufei
@716Lufei Жыл бұрын
感谢感谢,讲的太好了
@mikitan5782
@mikitan5782 Жыл бұрын
好有趣的课程
@pleasuremore
@pleasuremore 11 ай бұрын
感谢课程分享
@jiacshane7952
@jiacshane7952 Жыл бұрын
讲的太好了
@sanzhang-ph4pr
@sanzhang-ph4pr 4 ай бұрын
为什么中间产物是图片的压缩版本,是考虑到内存大小的原因吗?
@wuyanchu
@wuyanchu Жыл бұрын
thx and god bless.. regards from hong kong ^_^
@PeiyangNi
@PeiyangNi Жыл бұрын
15:55 这里在生成Latent Representation的时候用到了Encoder,然后再向Latent Representation中加入噪声得到Generation Model的训练资料。那这个Encoder是在Generation Model训练的过程中一起训练的吗?
@jiashupan9181
@jiashupan9181 11 ай бұрын
我也有这个问题。我目前的猜想是我们只用图片训练了一个autoencoder,然后用autoencoder里的encoder生成训练generation model的latent representation。在生成图片时,我们用autoencoder里的decoder再把生成的latent representation返回pixel space。
@Richard-k5x4j
@Richard-k5x4j 19 күн бұрын
李老师真是台湾的mvp
@llyy7386
@llyy7386 Жыл бұрын
感谢老师的解说。很容易懂
@aiden3596
@aiden3596 Жыл бұрын
老师请教一下,15:25的encoder是不是autoencoder里的那个encoder?按照我的理解,decoder所期望的input应该是原本autoencoder里encoder的output,那么在训练的时候,我应该拿那个encoder来获得图片的latent representation,从而使得generation model能够得到decoder所期望的input。不知道这种理解是否正确?
@j-jd8yf
@j-jd8yf 5 ай бұрын
True
@wenquanchang4903
@wenquanchang4903 Жыл бұрын
installed, everything works, thanks!
@FirminShao
@FirminShao Жыл бұрын
讲的很清楚👍
@蘇柏廷
@蘇柏廷 Жыл бұрын
有機會聽到老師說明LORA嗎?哈哈
@En-pe3sh
@En-pe3sh 10 ай бұрын
老師不好意思請教您一個問題,假設我訓練模型時某筆訓練資是雜訊n、文字敘述是" a cat in the snow"。那如果我在inference的時候,剛好也sample出雜訊n,但文字敘述是"a person in the snow",請問這樣模型的輸出會不會就是我們想要的" a person in the sow" ?
@zhangbo0037
@zhangbo0037 6 ай бұрын
@j-jd8yf
@j-jd8yf 5 ай бұрын
18:20 gaussian distribution出来的竟然是模糊的图片,解释依然令人费解,我觉得是因为加了文字的原因,而不是因为decoder。换而言之,一开始gaussian的第一张图绝对是杂乱无序的,只有当第二次输入加入文字后,才会显现出轮廓,即便没有decoder,我想应该也会这样。
@shanggangli369
@shanggangli369 Жыл бұрын
超级好
@peterlin963
@peterlin963 Жыл бұрын
讲错了一个东西,Midjourney在生成过程中,要把有噪声的latent转成x0再给decoder,这样就有模糊的过程图。不是把带噪声的latent直接给decoder,这样子出来的会全是噪声
@hwj8640
@hwj8640 Жыл бұрын
請問x0是什麼
@peterlin963
@peterlin963 Жыл бұрын
@@hwj8640 去读ddpm的paper。diffusion模型可以有不同的formulation,可以predict epsilon噪声,x0原图,或mu。这些都有公式可以转换。现在的模型一般predict epsilon,然后 ddim step 转成 mu。但要过decoder看过程图,就必须每一步转成x0再过decoder。
@hwj8640
@hwj8640 Жыл бұрын
@@peterlin963 好,多謝了
@aaronyang6917
@aaronyang6917 Жыл бұрын
原来如此,多谢
@yoshiyuki1732ify
@yoshiyuki1732ify Жыл бұрын
我想问一下decoder是分开训练的么?按照老师说的,这个decoder的训练似乎不需要考虑从输入的文字到输出的图片。感觉上是对输出做了一个变换,然后前面Encoder貌似用的pretrained model,对输入做一个变换。这样其实主要训练的就是中间的generator?
@張功逸
@張功逸 Жыл бұрын
想請問17:05中的 Noise Predictor,是如何同時餵進三種參數(text input, noise input, and step)的?有相關論文可以提供嗎?
@femtogary3723
@femtogary3723 Жыл бұрын
请教老师,a cat in the snow, 当text encoder时候,是每一个token生成对应向量,那么5个token有5个向量,10个token十个向量.Denoise module需要处理连续的不确定长度的向量,有点像rnn,lstm, 还是说a cat in the snow这句话直接encode成一个向量。有点像SentenceTransformer, 把整个句子的意思转变成一个向量。
@run963741
@run963741 Жыл бұрын
Stable Diffusion 所使用的 Text Encoder 是 CLIP ViT-L/14,這模型輸入句子最大長度為 77,在輸入時就會把 Text Padding (Truncate)為 77 再通過 CLIP ViT-L/14,輸出矩陣維度就是 77x768 (768 為 hidden_size),所以 Stable diffustion 的 Text encoder 會統一將句子弄成 77x768 矩陣。當然最新的 Stable Diffusion 一定會想辦法突破 77 長度的限制,例如拿其他 Text encoder 來做...
@fgh680
@fgh680 Жыл бұрын
Please share the transcript of your lecture.
@victornanka
@victornanka Жыл бұрын
学习了
@miku3920
@miku3920 Жыл бұрын
感覺生文字也能用這個套路
@Aru-z4q
@Aru-z4q Жыл бұрын
請問哪邊可以進一步了解encoder ,不太清楚用途和原理
@jason77nhri
@jason77nhri Жыл бұрын
請問stereo mix就是立體混音嗎? 那開啟google文件聽寫,錄音檔播放之後,桌機電腦需要另外接並開啟喇叭和麥克風嗎?
@garfieldlavi
@garfieldlavi Жыл бұрын
老師請問一下,像stable diffusion下載的safetensor, ckpt, LoRa都對應到diffusion model嗎?然後VAE對應到decoder model嗎?
@atlrytusername
@atlrytusername Жыл бұрын
老师怎么不更新了?
@ruanjiayang
@ruanjiayang Жыл бұрын
2年没关注图像生成领域,怎么GAN已经没人在玩了吗?
@ethaneaston6443
@ethaneaston6443 Жыл бұрын
那中间产物直接是小图不是更方便吗?为何还会有选择中间产物是latent representation的呢?
@yoshiyuki1732ify
@yoshiyuki1732ify Жыл бұрын
小图难以满足香农定理,随机向量一般保留的高频信息比较多。
@itchainx4375
@itchainx4375 Жыл бұрын
@@yoshiyuki1732ify这个解释哪一篇论文里有提到吗
@yoshiyuki1732ify
@yoshiyuki1732ify Жыл бұрын
这个Decoder感觉训练是在整个loop之外的?有些迷惑。
@waltermossis2694
@waltermossis2694 Жыл бұрын
听的懵逼,还没有更基础一点的教程
@洗金瓶-l8k
@洗金瓶-l8k Жыл бұрын
【生成式AI】淺談圖像生成模型 Diffusion Model 原理
13:54
УДИВИЛ ВСЕХ СВОИМ УХОДОМ!😳 #shorts
00:49
HARD_MMA
Рет қаралды 1,7 МЛН
【生成式AI】窮人如何低資源復刻自己的 ChatGPT
22:49
Why Does Diffusion Work Better than Auto-Regression?
20:18
Algorithmic Simplicity
Рет қаралды 379 М.
AI時代,你跟上了嗎?|李宏毅|人文講堂|完整版 20231209
24:01
Cross Attention | Method Explanation | Math Explained
13:06
【生成式AI】Diffusion Model 原理剖析 (1/4) (optional)
13:56
三体问题究竟是什么?为什么说科学的尽头是神学?
23:24
李永乐老师
Рет қаралды 1,4 МЛН