【強化学習】eligibility trace - 前方から後方観測へ!【強化学習の基礎アルゴリズム】RL vol. 20-1

  Рет қаралды 1,916

AIcia Solid Project

AIcia Solid Project

Күн бұрын

Пікірлер: 10
@ryozann
@ryozann Ай бұрын
33:55 気持ちいい瞬間😇 いつもありがとうございます。
@AIcia_Solid
@AIcia_Solid Ай бұрын
ご視聴コメントありがとうございます! ですよね〜〜〜🤤🤤🤤 最初見たときは、そんな都合いいことあるか!? と心が受け入れませんでしたが、体に染みてくると素敵だなーってなりますよね🤤
@gesonanko6356
@gesonanko6356 Ай бұрын
めちゃくちゃわかりやすかったです!次回も楽しみにしてます!
@AIcia_Solid
@AIcia_Solid Ай бұрын
ご視聴コメントありがとうございます! ちょうど今日の20時に後編が公開です! ぜひ見に来てください🥳🥳🥳 kzbin.info/www/bejne/gpWvZIiojrh3gtksi=mYRCkk5cqjt_om1n
@吉田ちゃん-o5v
@吉田ちゃん-o5v Ай бұрын
Eligibility traceを初めて知りました!ありがとうございます。GAEの元ネタなんですね
@AIcia_Solid
@AIcia_Solid Ай бұрын
ご視聴コメントありがとうございます! GAE とも確かに関係ありそうですね! 深層強化学習でも eligibility trace は使ったりしますので、そのあたりでまた紹介させていただきます!🎉
@gesonanko6356
@gesonanko6356 Ай бұрын
@@AIcia_Solid GAEの元ネタというか、GAEですね アドバンテージ関数はA(s,a)=Q(s,a)-V(s)と表されますが、Q(s,a)=r(s,a)+γV(s’)と表されるので、A(s,a)=r(s,a)+γV(s’)-V(s)=δとなり、TD誤差と一致します。 方策勾配のベースラインの導入でアドバンテージ関数は出てきたので、少しお気持ちは違うかもしれませんが、価値観数V(s)の更新のために存在するTD-λが、方策の更新のためにも使われるというのは、理論的な美しさを感じますね。
@AIcia_Solid
@AIcia_Solid Ай бұрын
ほ、ほんとだ、、、! げそんさんありがとうございます!!! たしかに、アドバンテージ関数が TD 誤差で書けるのは知りませんでした🤯 確かに!!! 勉強になりました、ありがとうございます!!!🥳
@Nezumi-g1u
@Nezumi-g1u 27 күн бұрын
わかりやすい説明ありがとうございます。質問ですが、後方観測TDλは、価値関数に即時適用できるとのことですが、価値関数Vが方策依存のとき問題ないのでしょうか?
@AIcia_Solid
@AIcia_Solid 25 күн бұрын
ご視聴コメントありがとうございます! 一般的には、価値関数は方策に依存します。ですが、そこはあまり問題になりません! 動画の最初の板書に図があると思います。 あの図のとおり、V の更新と方策 π の更新とデータ収集をぐるぐると繰り返す、Generalied Policy Iteration で学習すれば、V の精度がどんどん上がり、方策 π もどんどん良くなり、学習が進んでいきます。 実際には、V の更新タイミングと π の更新タイミングは必ずしも一致しないので、その瞬間瞬間で不整合は生じると思われますが、 結局学習はうまく進んでいくので、(基本的には)問題になりません。 これで回答になっているでしょうか? なお疑問が残る場合、またぜひ質問してください!
Quilt Challenge, No Skills, Just Luck#Funnyfamily #Partygames #Funny
00:32
Family Games Media
Рет қаралды 55 МЛН
Леон киллер и Оля Полякова 😹
00:42
Канал Смеха
Рет қаралды 4,7 МЛН
How I Won The GMTK Game Jam
25:09
JimmyGameDev
Рет қаралды 226 М.
Deep Learning入門:ニューラルネットワーク設計の基礎
18:38
Neural Network Console
Рет қаралды 175 М.
2020年、Deep Learningをはじめましょう!
18:57
Neural Network Console
Рет қаралды 77 М.
Band 9 Level IELTS Quiz: Can You Beat Both Students?
13:59
IELTS Advantage
Рет қаралды 259 М.
英語のなまりを正確に見抜くAIでアメリカ育ちの英語を判定したら衝撃の結果に…
27:59
Deep Learning入門:ニューラルネットワーク学習の仕組み
13:02
Neural Network Console
Рет қаралды 113 М.
How a Super Smash Bros. Fighter is Designed
27:05
Game Maker's Toolkit
Рет қаралды 167 М.