【強化学習】eligibility trace - 前方から後方観測へ！【強化学習の基礎アルゴリズム】RL vol. 20-1

Рет қаралды 1,916

AIcia Solid Project

Күн бұрын

Пікірлер: 10

@ryozann Ай бұрын

33:55 気持ちいい瞬間😇 いつもありがとうございます。

@AIcia_Solid Ай бұрын

ご視聴コメントありがとうございます！ですよね〜〜〜🤤🤤🤤 最初見たときは、そんな都合いいことあるか！？と心が受け入れませんでしたが、体に染みてくると素敵だなーってなりますよね🤤

@gesonanko6356 Ай бұрын

めちゃくちゃわかりやすかったです！次回も楽しみにしてます！

@AIcia_Solid Ай бұрын

ご視聴コメントありがとうございます！ちょうど今日の20時に後編が公開です！ぜひ見に来てください🥳🥳🥳 kzbin.info/www/bejne/gpWvZIiojrh3gtksi=mYRCkk5cqjt_om1n

@吉田ちゃん-o5v Ай бұрын

Eligibility traceを初めて知りました！ありがとうございます。GAEの元ネタなんですね

@AIcia_Solid Ай бұрын

ご視聴コメントありがとうございます！ GAE とも確かに関係ありそうですね！深層強化学習でも eligibility trace は使ったりしますので、そのあたりでまた紹介させていただきます！🎉

@gesonanko6356 Ай бұрын

@@AIcia_Solid GAEの元ネタというか、GAEですねアドバンテージ関数はA(s,a)=Q(s,a)-V(s)と表されますが、Q(s,a)=r(s,a)+γV(s’)と表されるので、A(s,a)=r(s,a)+γV(s’)-V(s)=δとなり、TD誤差と一致します。方策勾配のベースラインの導入でアドバンテージ関数は出てきたので、少しお気持ちは違うかもしれませんが、価値観数V(s)の更新のために存在するTD-λが、方策の更新のためにも使われるというのは、理論的な美しさを感じますね。

@AIcia_Solid Ай бұрын

ほ、ほんとだ、、、！げそんさんありがとうございます！！！たしかに、アドバンテージ関数が TD 誤差で書けるのは知りませんでした🤯 確かに！！！勉強になりました、ありがとうございます！！！🥳

@Nezumi-g1u 27 күн бұрын

わかりやすい説明ありがとうございます。質問ですが、後方観測TDλは、価値関数に即時適用できるとのことですが、価値関数Vが方策依存のとき問題ないのでしょうか？

@AIcia_Solid 25 күн бұрын

ご視聴コメントありがとうございます！一般的には、価値関数は方策に依存します。ですが、そこはあまり問題になりません！動画の最初の板書に図があると思います。あの図のとおり、V の更新と方策 π の更新とデータ収集をぐるぐると繰り返す、Generalied Policy Iteration で学習すれば、V の精度がどんどん上がり、方策 π もどんどん良くなり、学習が進んでいきます。実際には、V の更新タイミングと π の更新タイミングは必ずしも一致しないので、その瞬間瞬間で不整合は生じると思われますが、結局学習はうまく進んでいくので、（基本的には）問題になりません。これで回答になっているでしょうか？なお疑問が残る場合、またぜひ質問してください！