老師不好意思請教您一個問題,假設我訓練模型時某筆訓練資是雜訊n、文字敘述是" a cat in the snow"。那如果我在inference的時候,剛好也sample出雜訊n,但文字敘述是"a person in the snow",請問這樣模型的輸出會不會就是我們想要的" a person in the sow" ?
想請問17:05中的 Noise Predictor,是如何同時餵進三種參數(text input, noise input, and step)的?有相關論文可以提供嗎?
@femtogary3723 Жыл бұрын
请教老师,a cat in the snow, 当text encoder时候,是每一个token生成对应向量,那么5个token有5个向量,10个token十个向量.Denoise module需要处理连续的不确定长度的向量,有点像rnn,lstm, 还是说a cat in the snow这句话直接encode成一个向量。有点像SentenceTransformer, 把整个句子的意思转变成一个向量。
@run963741 Жыл бұрын
Stable Diffusion 所使用的 Text Encoder 是 CLIP ViT-L/14,這模型輸入句子最大長度為 77,在輸入時就會把 Text Padding (Truncate)為 77 再通過 CLIP ViT-L/14,輸出矩陣維度就是 77x768 (768 為 hidden_size),所以 Stable diffustion 的 Text encoder 會統一將句子弄成 77x768 矩陣。當然最新的 Stable Diffusion 一定會想辦法突破 77 長度的限制,例如拿其他 Text encoder 來做...