【驚きました！】LoRA徹底検証！STEP数や画像枚数、Dim、Alpha等による学習の違い【stable diffusion】

Рет қаралды 32,965

AI is in wonderland

Күн бұрын

Пікірлер: 79

@ニコニコヤニス 6 ай бұрын

datasetに画像を取り込ませて、ロードを押してもタグが出ません。どうすればいいのでしょうか？

@AI_is_in_wonderland 6 ай бұрын

kzbin.info/www/bejne/mqCuk4qwo9pmf7c こちらの動画でも最新のものを紹介しています。画像だけでタグがない場合は、イントロゲーターの選択ができていないか、セッティングで、if emptyかoverwriteを選択していない場合に起こると思います

@Yoshifull-sc5rh 8 ай бұрын

いちいち解説が丁寧。こだわりを感じます。

@AI_is_in_wonderland 7 ай бұрын

コメントありがとうございます。色々とこだわってみました。今でもLoRAは作っています

@田中たヶし Жыл бұрын

画像の読み込みがうまくいかない場合 dataset-tag-editor-standaloneフォルダ内の requirements.txtファイルの最後に(torchvisionの下に)fastapi==0.95.2と書き加えてから、install.batを再度起動すると直るそうです

@AI_is_in_wonderland Жыл бұрын

有益な情報ありがとうございました！とてもうれしいです。コミュニティーの方で皆様にアナウンスしておきます

@やきそばうさ Жыл бұрын

助かりました、いつまでたっても画面の読み込みが終わらず、コマンドプロンプトをみたらエラーはいていたので、ここをみてfastapi==0.95.2を追加したら読み込むようになりました

@edamame_0001 10 ай бұрын

助かりました！！よく見たらエラーになってたので。

@ロニ-k2t Жыл бұрын

毎回参考になり勉強させていただいてます。分かりやすい動画有難うございます。

@AI_is_in_wonderland Жыл бұрын

コメントありがとうございます！

@necotarou1972 Жыл бұрын

いつも勉強になる動画ありがとうございます。自分もLora生成に挑戦してみたいと思いました。

@AI_is_in_wonderland Жыл бұрын

コメントありがとうございます。 LoRA生成挑戦してみてください！面白いですよ

@まっつ-z8f Жыл бұрын

タグを消そうとすると動かなくなります。

@AI_is_in_wonderland Жыл бұрын

そうなのですね💦 こちらでは順調に動いています。

@meijitenno Жыл бұрын

検証動画ありがとうございます。自分もLora作りをしていますが、パラメータが多すぎてどこをどういじったらよいか悩んでいました。この動画である程度手順が分かった気がします。

@AI_is_in_wonderland Жыл бұрын

コメントありがとうございます。参考になってよかったです

@zbf85297b 4 ай бұрын

おおお、滅茶苦茶凄い考察。。。。

@黒猫黒猫-e9l 4 ай бұрын

データセットディレクトリーにパスコピーして貼り付けし、ロード押したんですが、右上にコネクションerrorアウトと表示されてフォルダ内が読み込み出来ません。解決方法ありましたら教えて頂きたいです！！

@RikuMk2 Жыл бұрын

素晴らしい動画でした

@AI_is_in_wonderland Жыл бұрын

ありがとうございます。

@jmaster1335 7 ай бұрын

最近挑戦してるものです。 loraをこの通りにやってますが、どうしてもデータセット内のデータセットディレクトリに背景なし756×756のpng画像を読み込ませようとしても、画像が×で生成できません。いろんな画像で挑戦してるんですが、ダメでした。対策ありませんか？

@AI_is_in_wonderland 7 ай бұрын

背景なしはエラーになると思いますので、背景白の画像にして下さい

@jmaster1335 7 ай бұрын

@@AI_is_in_wonderland 返信ありがとうございます。やってみます

@pizzapizza8784 Жыл бұрын

わかりやすい解説ありがとうございます。キャラLoRAでキャラに複数の衣装トリガーワードで切り替える学習を試行錯誤しています。できればその解説もやっていただければ幸いです。

@AI_is_in_wonderland Жыл бұрын

コメントありがとうございます。例えば、黒ドレスモードののヨルフォージャーと、赤ワンピセーターのヨルフォージャーみたいな感じのやつですね！何か良いキャラはあるでしょうか？今度やってみたいと思います！

@きんちゃん-o5x Жыл бұрын

タグエディターで、キャラ4枚ほどだけなのですが、時間が結構かかるのですが、正常なのでしょうか？４０００秒以上かかっても、終わらないのですが？

@AI_is_in_wonderland Жыл бұрын

最初だけモデルのダウンロードが入るので時間がかかりますが、コマンドプロンプトではどうなっているのでしょう？タグ付けだけなら1分もかからないと思いますが

@きんちゃん-o5x Жыл бұрын

皆さんのコメントで解決しましたありがとうございます@@AI_is_in_wonderland

@katoriyamada Жыл бұрын

この動画も見逃していましたが(チャンネル登録はしてるのですが通知なしだと見逃してしまいますね。通知ありに変更しました)、概要欄のリンクから辿ってみてみましたが素晴らしい内容です！やっぱり実地検証された画像例を見るとわかりやすさと説得力が違いますね。自分もalphaはdimの半分が良いという話を聞いていて、それを自分でも試してみたら良い結果だったのでずっとそれを使っていましたが、画風を学習させたい時と、服装だけを学習させたい時では､数値を変えた方がいいと思っていたので、そのとっかかりがつかめた気がします。

@AI_is_in_wonderland Жыл бұрын

コメントありがとうございます。私も動画を作りながら学んでいます。全体を覚えたいときはdim大き目alpha弱め、キャラならalphaはdimの半分が効率的かと思っています。

@_8275 Жыл бұрын

LoRAを大量に作成して比較するのは難しいので、非常に参考になりました。他の要素だと、透明正則化画像を入れる効果や、LoRAとLycoris等の差が分からず悩んでいるので、機会があればこの辺りも取り上げていただけると有難いです。

@AI_is_in_wonderland Жыл бұрын

コメントありがとうございます Lycorisは実は作ったことがないのですが、ぜひトライしたいと思います！

@ichigo_STR_153 Жыл бұрын

タグの作業が面倒であまりLora作っていなかったのですが、こんな便利なツールがあったんですね。

@AI_is_in_wonderland Жыл бұрын

dataset-tag-editor使いやすかったですよ～

@m.mishima9485 Жыл бұрын

サマードレスと関連付けなければ、衣装も含めてfitsとして学習されるということでしょうか？必要のない情報は画像からそぎ落とす（背景など）のが効率化に繋がるということですが、衣装を学習させない場合は生首にした方がいいのでしょうか？逆に、衣装も含めて学習させる場合は、バストアップ画像などは素材から省き、全身像の画像のみで行うべきなのでしょうか？とあるコスプレ衣装があるのですが、キャラではなく衣装のLoraを作る場合、首無しマネキンで撮影すれば良いのか、人間が着用している写真にすべきなのか、画像加工の際にアニメ調への変換まで行うべきなのか、わからないことが多過ぎて手を出せずにいます。

@AI_is_in_wonderland Жыл бұрын

コメントありがとうございます。そのあたりはトライアンドエラーですが、人物の色々な角度と拡大率の画像があった方が良いと思います。純粋に顔だけほしい時はの顔関連以外の特徴はキャプションに残して学習させます。今回は人物全体を学習させたので、画像生成の時に服装のプロンプトを入れなければ、学習元の服装になる可能性が高いです（キャラの場合は服装も含めて画像生成したい場合が多いかと思います）動画ではLoRAの柔軟性を見るためにあえて服を変えています。何よりもやってみることが大事です

@nasugan359 Жыл бұрын

756…自分は768ｘ768ベースですが何かの余裕をもっての縮小なんですかね

@AI_is_in_wonderland Жыл бұрын

ギャー！間違えてました！768です🤣 512x1.5です

@田中太郎-k2v6x Жыл бұрын

素晴らしい動画ですね！ LoRA初学者ですがSTEP数って１０００－６０００ぐらいがちょうど良い感じなんですかね？多ければ良いという感じではなさそうですね、大体の目安ってどのぐらいなのでしょう？

@AI_is_in_wonderland Жыл бұрын

コメントありがとうございます！経験的にはキャラであれば2000-3000あたりだと思います多すぎると過学習になって、画像が汚くなったり、キャラが固定しすぎたりしますその他の設定により変わってきますが特殊なLoRAを使う場合は10000を超えることもあります

@田中太郎-k2v6x Жыл бұрын

@@AI_is_in_wonderland ご返信ありがとうございます！キャラであれば2000-3000あたりなのですね！参考になります！ありがとうございます！！

@Kiriko-k9o Жыл бұрын

lora作成初心者なので非常に参考になりました。ありがとうございます。 lora学習時のckptはなにをつかわれていますでしょうか？デフォルトのsd15でしょうか？

@AI_is_in_wonderland Жыл бұрын

コメントありがとうございます。アニメ系はanyloraを使っていますよ。リアルはデフォルトです

@Kiriko-k9o Жыл бұрын

@@AI_is_in_wonderland ご丁寧にありがとうございます！

@由中人言 Жыл бұрын

2キャラ以上を登場させる方法が知りたいです。 2girl,○○○,□□□,〈lora:○○○:0.8〉,〈lora:□□□:0.8〉で出力すると女の子の格好等が混ざるのです。共通のタグのせいで混ざってるとは思うのですが対処が出来ないです。

@AI_is_in_wonderland Жыл бұрын

コメントありがとうございます。regional prompterという拡張機能が有力候補ですが、実はかなり難しいですこの動画を参考にしてください kzbin.info/www/bejne/bWXQiHebat2pkNk

@DenEl-d1r Жыл бұрын

長文になってしまいました、申し訳ありません。分かりやすい比較検証ありがとうございます。自分ではここまで細かく、特にdimとalphaについて比べてなかったので、とても勉強になりました。 alpha1のままだと逆に学習不足なるのですね。 Dimとalphaの比率は8:1や4:1、2:1の方もいれば、alpha1固定で、dimや学習率、ステップ数などを調整されている方もいるみたいで、やはり奥が深いですね自分は最近、キャラの顔とキャラのデフォルトの服のトリガーワードを分けて学習しています。それで1つのローラでキャラのデフォルト服も学習しつつ、服の脱ぎ気や着せ替えの柔軟性も上がりました。しかし、キャラの顔とキャラのデフォルト服の両方のトリガーワードを両方プロンプトに書くと、顔だけのトリガーワードの時よりも過学習ぎみのイラスト出力になります(トリガーワードを複数用意する分、同じような教師画像が増えているためと思われます)。ROLAのウェイトを下げると学習不足ぎみの感じになってしまってます。顔とデフォルトの服を学習したROLA、顔だけ学習したROLAと使い分けるのが楽なのですが、トリガーワードを複数設定しつついい感じの学習ができないかと試行錯誤中です(教師画像の枚数や質、トリガーワードごとのリピートやエポック、総ステップ数など)。将来的に、複数の決まった服や衣装があるキャラを、1つのローラでトリガーワードを分けながら上手く出力できるROLA作成したいので… こちらの動画を見て、alphaとdimも色々試してみようと思いました。ありがとうございます！

@AI_is_in_wonderland Жыл бұрын

コメントありがとうございます。そうなんですよ。dimを増やしたときに画像が学習できてなくて何か間違えたかと思ったぐらいです。今回検証できていなかったこととして、プロンプトを変えたときの影響や、キャプションの中の何を残して何を取り除けばよいかなどまだまだ検証の余地はたくさんありそうですね。学習率なんかも影響しそうですね。私ももっと検証していきたいです。

@word4you Жыл бұрын

（alpha /dim）のお話、凄く勉強になりました。さすがに此処まで辿り着いている方々のコメントも深いですね(^^) で、自分の苦肉💦のloraテクです。 Controlnetを使っても上手に描けないポーズってありますよね。例えば、腹ばいに寝て本を読んでるポーズ　とか悲惨なのが多い(@_@) そんな時、僕は「ポーズ専用lora」を作ります。たまたま上手く描けた「寝そべり読書」の絵を数枚+顔中心の絵を十数枚で学習します。 "lie on stomach"などのトリガーワードも学習させます。描けるポーズが限られますが(^^;)　上手く描ける確率が上がるような気がします。で、質問させていただけたら幸いですm(__)m kohyaでlora学習中のコマンドプロンプトに例：「1epochのバッチ数:350」などと表示されますが、この意味って何でしょう？「:350」などの数値は何処で指定するんでしょ？それとも自動設定されるのかしら？

@AI_is_in_wonderland Жыл бұрын

ありがとうございますおそらく画像枚数×繰り返し回数（フォルダにつけた数字）を返していると思いますよポーズローラも挑戦してみます！アイデアありがとうございます

@joumasafumi2 Жыл бұрын

タグは、学習したいものを削除して、学習させる必要のないものを残す。

@AI_is_in_wonderland Жыл бұрын

どれを残すかが難しいですね

@nanoyui615 Жыл бұрын

どこかの記事で「学習率×（alpha /dim）」とありました。過学習を防ぐバッファの役割かと。私はフォトリアル系しか作成してませんが、64/128を選んでます。 dimを増やすと情報量は増えますが、それに合わせてLoraファイルサイズが大きくなりますね。結果に遜色ないなら低dimで十分なのかもです。

@AI_is_in_wonderland Жыл бұрын

コメントありがとうございます。この動画を通して色々コメント頂いている中でalpha/dim=0.5が良いとの意見がありますね。 STEP数にも依存しますが、今回のアニメ系でのSTEP1000では64/128はやや過学習気味でした。リアル系もやりたいのですが、題材的にbanされる可能性があるのでやりにくいですね。

@joumasafumi2 Жыл бұрын

画像20枚でSTEP2000がベストですね。

@AI_is_in_wonderland Жыл бұрын

作りたいLoRAのタイプやdimやalphaでも変わってくるかもしれません

@tyusRRs Жыл бұрын

いつも拝聴させて頂いております。五条悟ですが男性キャラも女性っぽく出来るので使えるのではないかとｗ目隠しなど顔に異物をいれるのは難易度高いもので・・・

@AI_is_in_wonderland Жыл бұрын

コメントありがとうございます。五条悟の女性版はちょっと・・・だた実はLoRAはいくつか試しています。学習が浅いと目隠しと髪の毛の間におでこを画いてくるので変な顔になりますwww

@みづは-d8r Жыл бұрын

サムネ無職転生じゃん！最近ハマってる！

@AI_is_in_wonderland Жыл бұрын

面白いですよね😄

@lll55lllgj Жыл бұрын

すみません！質問して模様ですか？ Loadを押しても画像を読み込んでくれません。すべてjpgで連番にしてあるんですが、指定のフォルダ場所があるんでしょうか？

@lll55lllgj Жыл бұрын

解決しました！すみません！いつも素晴らしい動画ありがとうございます。

@ddddmania Жыл бұрын

比較時の生成プロンプトの詳細が無いのでわかりませんが、生成プロンプトにサングラスが入っていたなら、その影響で通常サングラスになっているような気がします。か、潜在画像の時点で「目の周りに黒、じゃ、サングラスか」となっている気がします。サングラスをremovewardに入れず、画像生成時に、サングラスを入れたらどうなるのかも見たいです。(サングラスがちゃでフィッツ型の割合が多くなるのかな？っと)

@AI_is_in_wonderland Жыл бұрын

コメントありがとうございます。今回のプロンプトにはサングラスを入れていません 1girl, fitts, sundress, masterpiece, best qualityのみですおっしゃるようにAIは目の周りの黒→サングラス→一般的な形のサングラス生成になっていたようですねキャプションに何かを残すことを比較しても面白そうですね