【驚きました!】LoRA徹底検証!STEP数や画像枚数、Dim、Alpha等による学習の違い【stable diffusion】

  Рет қаралды 32,965

AI is in wonderland

AI is in wonderland

Күн бұрын

Пікірлер: 79
@ニコニコヤニス
@ニコニコヤニス 6 ай бұрын
datasetに画像を取り込ませて、ロードを押してもタグが出ません。どうすればいいのでしょうか?
@AI_is_in_wonderland
@AI_is_in_wonderland 6 ай бұрын
kzbin.info/www/bejne/mqCuk4qwo9pmf7c こちらの動画でも最新のものを紹介しています。画像だけでタグがない場合は、イントロゲーターの選択ができていないか、セッティングで、if emptyかoverwriteを選択していない場合に起こると思います
@Yoshifull-sc5rh
@Yoshifull-sc5rh 8 ай бұрын
いちいち解説が丁寧。こだわりを感じます。
@AI_is_in_wonderland
@AI_is_in_wonderland 7 ай бұрын
コメントありがとうございます。色々とこだわってみました。今でもLoRAは作っています
@田中たヶし
@田中たヶし Жыл бұрын
画像の読み込みがうまくいかない場合 dataset-tag-editor-standaloneフォルダ内の requirements.txtファイルの最後に(torchvisionの下に)fastapi==0.95.2と書き加えてから、install.batを再度起動すると直るそうです
@AI_is_in_wonderland
@AI_is_in_wonderland Жыл бұрын
有益な情報ありがとうございました!とてもうれしいです。 コミュニティーの方で皆様にアナウンスしておきます
@やきそばうさ
@やきそばうさ Жыл бұрын
助かりました、いつまでたっても画面の読み込みが終わらず、コマンドプロンプトをみたらエラーはいていたので、ここをみてfastapi==0.95.2を追加したら読み込むようになりました
@edamame_0001
@edamame_0001 10 ай бұрын
助かりました!!よく見たらエラーになってたので。
@ロニ-k2t
@ロニ-k2t Жыл бұрын
毎回参考になり勉強させていただいてます。分かりやすい動画有難うございます。
@AI_is_in_wonderland
@AI_is_in_wonderland Жыл бұрын
コメントありがとうございます!
@necotarou1972
@necotarou1972 Жыл бұрын
いつも勉強になる動画ありがとうございます。 自分もLora生成に挑戦してみたいと思いました。
@AI_is_in_wonderland
@AI_is_in_wonderland Жыл бұрын
コメントありがとうございます。 LoRA生成挑戦してみてください! 面白いですよ
@まっつ-z8f
@まっつ-z8f Жыл бұрын
タグを消そうとすると動かなくなります。
@AI_is_in_wonderland
@AI_is_in_wonderland Жыл бұрын
そうなのですね💦 こちらでは順調に動いています。
@meijitenno
@meijitenno Жыл бұрын
検証動画ありがとうございます。 自分もLora作りをしていますが、パラメータが多すぎてどこをどういじったらよいか悩んでいました。この動画である程度手順が分かった気がします。
@AI_is_in_wonderland
@AI_is_in_wonderland Жыл бұрын
コメントありがとうございます。参考になってよかったです
@zbf85297b
@zbf85297b 4 ай бұрын
おおお、滅茶苦茶凄い考察。。。。
@黒猫黒猫-e9l
@黒猫黒猫-e9l 4 ай бұрын
データセットディレクトリーにパスコピーして貼り付けし、ロード押したんですが、右上にコネクションerrorアウトと表示されてフォルダ内が読み込み出来ません。解決方法ありましたら教えて頂きたいです!!
@RikuMk2
@RikuMk2 Жыл бұрын
素晴らしい動画でした
@AI_is_in_wonderland
@AI_is_in_wonderland Жыл бұрын
ありがとうございます。
@jmaster1335
@jmaster1335 7 ай бұрын
最近挑戦してるものです。 loraをこの通りにやってますが、どうしても データセット 内の データセットディレクトリに背景なし756×756のpng画像を読み込ませようとしても、画像が×で生成できません。いろんな画像で挑戦してるんですが、ダメでした。対策ありませんか?
@AI_is_in_wonderland
@AI_is_in_wonderland 7 ай бұрын
背景なしはエラーになると思いますので、背景白の画像にして下さい
@jmaster1335
@jmaster1335 7 ай бұрын
@@AI_is_in_wonderland 返信ありがとうございます。 やってみます
@pizzapizza8784
@pizzapizza8784 Жыл бұрын
わかりやすい解説ありがとうございます。 キャラLoRAでキャラに複数の衣装トリガーワードで切り替える学習を試行錯誤しています。 できればその解説もやっていただければ幸いです。
@AI_is_in_wonderland
@AI_is_in_wonderland Жыл бұрын
コメントありがとうございます。例えば、黒ドレスモードののヨルフォージャーと、赤ワンピセーターのヨルフォージャーみたいな感じのやつですね!何か良いキャラはあるでしょうか?今度やってみたいと思います!
@きんちゃん-o5x
@きんちゃん-o5x Жыл бұрын
タグエディターで、キャラ4枚ほどだけなのですが、時間が結構かかるのですが、正常なのでしょうか?4000秒以上かかっても、終わらないのですが?
@AI_is_in_wonderland
@AI_is_in_wonderland Жыл бұрын
最初だけモデルのダウンロードが入るので時間がかかりますが、コマンドプロンプトではどうなっているのでしょう?タグ付けだけなら1分もかからないと思いますが
@きんちゃん-o5x
@きんちゃん-o5x Жыл бұрын
皆さんのコメントで解決しましたありがとうございます@@AI_is_in_wonderland
@katoriyamada
@katoriyamada Жыл бұрын
この動画も見逃していましたが(チャンネル登録はしてるのですが通知なしだと見逃してしまいますね。通知ありに変更しました)、概要欄のリンクから辿ってみてみましたが素晴らしい内容です! やっぱり実地検証された画像例を見るとわかりやすさと説得力が違いますね。自分もalphaはdimの半分が良いという話を聞いていて、それを自分でも試してみたら良い結果だったのでずっとそれを使っていましたが、画風を学習させたい時と、服装だけを学習させたい時では、数値を変えた方がいいと思っていたので、そのとっかかりがつかめた気がします。
@AI_is_in_wonderland
@AI_is_in_wonderland Жыл бұрын
コメントありがとうございます。私も動画を作りながら学んでいます。全体を覚えたいときはdim大き目alpha弱め、キャラならalphaはdimの半分が効率的かと思っています。
@_8275
@_8275 Жыл бұрын
LoRAを大量に作成して比較するのは難しいので、非常に参考になりました。 他の要素だと、透明正則化画像を入れる効果や、LoRAとLycoris等の差が分からず悩んでいるので、機会があればこの辺りも取り上げていただけると有難いです。
@AI_is_in_wonderland
@AI_is_in_wonderland Жыл бұрын
コメントありがとうございます Lycorisは実は作ったことがないのですが、ぜひトライしたいと思います!
@ichigo_STR_153
@ichigo_STR_153 Жыл бұрын
タグの作業が面倒であまりLora作っていなかったのですが、こんな便利なツールがあったんですね。
@AI_is_in_wonderland
@AI_is_in_wonderland Жыл бұрын
dataset-tag-editor使いやすかったですよ~
@m.mishima9485
@m.mishima9485 Жыл бұрын
サマードレスと関連付けなければ、衣装も含めてfitsとして学習されるということでしょうか? 必要のない情報は画像からそぎ落とす(背景など)のが効率化に繋がるということですが、衣装を学習させない場合は生首にした方がいいのでしょうか? 逆に、衣装も含めて学習させる場合は、バストアップ画像などは素材から省き、全身像の画像のみで行うべきなのでしょうか? とあるコスプレ衣装があるのですが、キャラではなく衣装のLoraを作る場合、首無しマネキンで撮影すれば良いのか、人間が着用している写真にすべきなのか、画像加工の際にアニメ調への変換まで行うべきなのか、わからないことが多過ぎて手を出せずにいます。
@AI_is_in_wonderland
@AI_is_in_wonderland Жыл бұрын
コメントありがとうございます。そのあたりはトライアンドエラーですが、人物の色々な角度と拡大率の画像があった方が良いと思います。純粋に顔だけほしい時はの顔関連以外の特徴はキャプションに残して学習させます。 今回は人物全体を学習させたので、画像生成の時に服装のプロンプトを入れなければ、学習元の服装になる可能性が高いです (キャラの場合は服装も含めて画像生成したい場合が多いかと思います) 動画ではLoRAの柔軟性を見るためにあえて服を変えています。 何よりもやってみることが大事です
@nasugan359
@nasugan359 Жыл бұрын
756…自分は768x768ベースですが何かの余裕をもっての縮小なんですかね
@AI_is_in_wonderland
@AI_is_in_wonderland Жыл бұрын
ギャー!間違えてました!768です🤣 512x1.5です
@田中太郎-k2v6x
@田中太郎-k2v6x Жыл бұрын
素晴らしい動画ですね! LoRA初学者ですがSTEP数って1000-6000ぐらいがちょうど良い感じなんですかね? 多ければ良いという感じではなさそうですね、大体の目安ってどのぐらいなのでしょう?
@AI_is_in_wonderland
@AI_is_in_wonderland Жыл бұрын
コメントありがとうございます!経験的にはキャラであれば2000-3000あたりだと思います 多すぎると過学習になって、画像が汚くなったり、キャラが固定しすぎたりします その他の設定により変わってきますが 特殊なLoRAを使う場合は10000を超えることもあります
@田中太郎-k2v6x
@田中太郎-k2v6x Жыл бұрын
@@AI_is_in_wonderland ご返信ありがとうございます!キャラであれば2000-3000あたりなのですね!参考になります!ありがとうございます!!
@Kiriko-k9o
@Kiriko-k9o Жыл бұрын
lora作成初心者なので非常に参考になりました。ありがとうございます。 lora学習時のckptはなにをつかわれていますでしょうか?デフォルトのsd15でしょうか?
@AI_is_in_wonderland
@AI_is_in_wonderland Жыл бұрын
コメントありがとうございます。アニメ系はanyloraを使っていますよ。リアルはデフォルトです
@Kiriko-k9o
@Kiriko-k9o Жыл бұрын
@@AI_is_in_wonderland ご丁寧にありがとうございます!
@由中人言
@由中人言 Жыл бұрын
2キャラ以上を登場させる方法が知りたいです。 2girl,○○○,□□□,〈lora:○○○:0.8〉,〈lora:□□□:0.8〉 で出力すると女の子の格好等が混ざるのです。共通のタグのせいで混ざってるとは思うのですが対処が出来ないです。
@AI_is_in_wonderland
@AI_is_in_wonderland Жыл бұрын
コメントありがとうございます。regional prompterという拡張機能が有力候補ですが、実はかなり難しいです この動画を参考にしてください kzbin.info/www/bejne/bWXQiHebat2pkNk
@DenEl-d1r
@DenEl-d1r Жыл бұрын
長文になってしまいました、申し訳ありません。 分かりやすい比較検証ありがとうございます。 自分ではここまで細かく、特にdimとalphaについて比べてなかったので、とても勉強になりました。 alpha1のままだと逆に学習不足なるのですね。 Dimとalphaの比率は8:1や4:1、2:1の方もいれば、alpha1固定で、dimや学習率、ステップ数などを調整されている方もいるみたいで、やはり奥が深いですね 自分は最近、キャラの顔とキャラのデフォルトの服のトリガーワードを分けて学習しています。 それで1つのローラでキャラのデフォルト服も学習しつつ、服の脱ぎ気や着せ替えの柔軟性も上がりました。 しかし、キャラの顔とキャラのデフォルト服の両方のトリガーワードを両方プロンプトに書くと、顔だけのトリガーワードの時よりも過学習ぎみのイラスト出力になります(トリガーワードを複数用意する分、同じような教師画像が増えているためと思われます)。ROLAのウェイトを下げると学習不足ぎみの感じになってしまってます。 顔とデフォルトの服を学習したROLA、顔だけ学習したROLAと使い分けるのが楽なのですが、トリガーワードを複数設定しつついい感じの学習ができないかと試行錯誤中です(教師画像の枚数や質、トリガーワードごとのリピートやエポック、総ステップ数など)。 将来的に、複数の決まった服や衣装があるキャラを、1つのローラでトリガーワードを分けながら上手く出力できるROLA作成したいので… こちらの動画を見て、alphaとdimも色々試してみようと思いました。ありがとうございます!
@AI_is_in_wonderland
@AI_is_in_wonderland Жыл бұрын
コメントありがとうございます。 そうなんですよ。dimを増やしたときに画像が学習できてなくて何か間違えたかと思ったぐらいです。今回検証できていなかったこととして、プロンプトを変えたときの影響や、キャプションの中の何を残して何を取り除けばよいかなどまだまだ検証の余地はたくさんありそうですね。学習率なんかも影響しそうですね。私ももっと検証していきたいです。
@word4you
@word4you Жыл бұрын
(alpha /dim)のお話、凄く勉強になりました。 さすがに此処まで辿り着いている方々のコメントも深いですね(^^) で、自分の苦肉💦のloraテクです。 Controlnetを使っても上手に描けないポーズってありますよね。 例えば、腹ばいに寝て本を読んでるポーズ とか悲惨なのが多い(@_@) そんな時、僕は「ポーズ専用lora」を作ります。 たまたま上手く描けた「寝そべり読書」の絵を数枚+顔中心の絵を十数枚で学習します。 "lie on stomach"などのトリガーワードも学習させます。 描けるポーズが限られますが(^^;) 上手く描ける確率が上がるような気がします。 で、質問させていただけたら幸いですm(__)m kohyaでlora学習中のコマンドプロンプトに 例:「1epochのバッチ数:350」などと表示されますが、 この意味って何でしょう? 「:350」などの数値は何処で指定するんでしょ? それとも自動設定されるのかしら?
@AI_is_in_wonderland
@AI_is_in_wonderland Жыл бұрын
ありがとうございます おそらく画像枚数×繰り返し回数(フォルダにつけた数字)を返していると思いますよ ポーズローラも挑戦してみます! アイデアありがとうございます
@joumasafumi2
@joumasafumi2 Жыл бұрын
タグは、学習したいものを削除して、 学習させる必要のないものを残す。
@AI_is_in_wonderland
@AI_is_in_wonderland Жыл бұрын
どれを残すかが難しいですね
@nanoyui615
@nanoyui615 Жыл бұрын
どこかの記事で「学習率×(alpha /dim)」とありました。 過学習を防ぐバッファの役割かと。 私はフォトリアル系しか作成してませんが、64/128を選んでます。 dimを増やすと情報量は増えますが、それに合わせてLoraファイルサイズが大きくなりますね。 結果に遜色ないなら低dimで十分なのかもです。
@AI_is_in_wonderland
@AI_is_in_wonderland Жыл бұрын
コメントありがとうございます。この動画を通して色々コメント頂いている中でalpha/dim=0.5が良いとの意見がありますね。 STEP数にも依存しますが、今回のアニメ系でのSTEP1000では64/128はやや過学習気味でした。リアル系もやりたいのですが、題材的にbanされる可能性があるのでやりにくいですね。
@joumasafumi2
@joumasafumi2 Жыл бұрын
画像20枚でSTEP2000がベストですね。
@AI_is_in_wonderland
@AI_is_in_wonderland Жыл бұрын
作りたいLoRAのタイプやdimやalphaでも変わってくるかもしれません
@tyusRRs
@tyusRRs Жыл бұрын
いつも拝聴させて頂いております。 五条悟ですが男性キャラも女性っぽく出来るので使えるのではないかとw 目隠しなど顔に異物をいれるのは難易度高いもので・・・
@AI_is_in_wonderland
@AI_is_in_wonderland Жыл бұрын
コメントありがとうございます。五条悟の女性版はちょっと・・・ だた実はLoRAはいくつか試しています。学習が浅いと目隠しと髪の毛の間におでこを画いてくるので変な顔になりますwww
@みづは-d8r
@みづは-d8r Жыл бұрын
サムネ無職転生じゃん!最近ハマってる!
@AI_is_in_wonderland
@AI_is_in_wonderland Жыл бұрын
面白いですよね😄
@lll55lllgj
@lll55lllgj Жыл бұрын
すみません!質問して模様ですか? Loadを押しても画像を読み込んでくれません。すべてjpgで連番にしてあるんですが、指定のフォルダ場所があるんでしょうか?
@lll55lllgj
@lll55lllgj Жыл бұрын
解決しました!すみません!いつも素晴らしい動画ありがとうございます。
@ddddmania
@ddddmania Жыл бұрын
比較時の生成プロンプトの詳細が無いのでわかりませんが、生成プロンプトにサングラスが入っていたなら、その影響で通常サングラスになっているような気がします。か、潜在画像の時点で「目の周りに黒、じゃ、サングラスか」となっている気がします。サングラスをremovewardに入れず、画像生成時に、サングラスを入れたらどうなるのかも見たいです。(サングラスがちゃでフィッツ型の割合が多くなるのかな?っと)
@AI_is_in_wonderland
@AI_is_in_wonderland Жыл бұрын
コメントありがとうございます。今回のプロンプトにはサングラスを入れていません 1girl, fitts, sundress, masterpiece, best qualityのみです おっしゃるようにAIは目の周りの黒→サングラス→一般的な形のサングラス生成になっていたようですね キャプションに何かを残すことを比較しても面白そうですね
@zundamoon_nanoda
@zundamoon_nanoda Жыл бұрын
要は dimを増やすほど stepも増やさないと  デカい器に対して 水が足りない ってことになるわけか aは 水の注ぎ具合 ってわけだ。 確かどこぞで公開されたプリセットもdim64 a16だったな・・・
@AI_is_in_wonderland
@AI_is_in_wonderland Жыл бұрын
コメントありがとうございます。mononchi9790さんのコメントですっきり説明されていました。 私も詳しく知らなかったのですが、コメントトップに固定していますので一度見てください。
@AI_Art_JAPAN
@AI_Art_JAPAN Жыл бұрын
フィッツせんぱーい🎉
@AI_is_in_wonderland
@AI_is_in_wonderland Жыл бұрын
お久しぶりです!😄
@tacossalsa7471
@tacossalsa7471 Жыл бұрын
時間と背景処理を丁寧にする手間さえ惜しまなければ、TSもやり放題やなw
@AI_is_in_wonderland
@AI_is_in_wonderland Жыл бұрын
コメントありがとうございます。TSって何の略ですか?
@tacossalsa7471
@tacossalsa7471 Жыл бұрын
@@AI_is_in_wonderland TSとはトランスセクシャル(性転換)の略称です。 それを転生や呪い、魔法などファンタジー的な手段で行う作品をTSF、トランスセクシャル・ファンタジー(又はフィクション)と呼びます。
@AI_is_in_wonderland
@AI_is_in_wonderland Жыл бұрын
そうなんですね!ネットで調べたら(性転換)と出てきて?だったのですが、フィッツ先輩が男になったり女になったりしていることだったのですね。TSFというジャンルがあるのですね!
@gonbenanashi-ph9zo
@gonbenanashi-ph9zo 4 ай бұрын
元のwikiは転載や外部への紹介禁止って書いてありますが…?AIイラストアンチに攻撃されてwiki閉鎖になったら投稿者みたいな人のせいですよ
Update on the Regional Prompter
19:47
AI is in wonderland
Рет қаралды 20 М.
[改訂]LoRAの作り方(2024年6月版) Stable Diffusion
25:47
ダルトワ★TV
Рет қаралды 40 М.
Каха и дочка
00:28
К-Media
Рет қаралды 3,4 МЛН
1% vs 100% #beatbox #tiktok
01:10
BeatboxJCOP
Рет қаралды 67 МЛН
小丑女COCO的审判。#天使 #小丑 #超人不会飞
00:53
超人不会飞
Рет қаралды 16 МЛН
最強の顔認識機能、FaceIDをstable diffusionで使う
17:48
AI is in wonderland
Рет қаралды 24 М.
Японский язык с нуля, 1 урок. Комплексный онлайн курс.
33:42
How To Speak Fluently In English About Almost Anything
1:49:55
EnglishAnyone
Рет қаралды 3,4 МЛН
Intro to LoRA Models: What, Where, and How with Stable Diffusion
21:01
Laura Carnevali
Рет қаралды 218 М.
ULTIMATE FREE LORA Training In Stable Diffusion! Less Than 7GB VRAM!
21:14