KZ
bin
Негізгі бет
Қазірдің өзінде танымал
Тікелей эфир
Ұнаған бейнелер
Қайтадан қараңыз
Жазылымдар
Кіру
Тіркелу
Ең жақсы KZbin
Фильм және анимация
Автокөліктер мен көлік құралдары
Музыка
Үй жануарлары мен аңдар
Спорт
Ойындар
Комедия
Ойын-сауық
Тәжірибелік нұсқаулар және стиль
Ғылым және технология
【強化学習】eligibility trace 後半 - 数式徹底解説!【強化学習の基礎アルゴリズム】RL vol. 20-2 #188 #VRアカデミア #ReinforcementLearning
36:33
【強化学習】後方観測TD(λ) と eligibility trace【強化学習の基礎アルゴリズム】RL vol. 19 #187 #VRアカデミア #ReinforcementLearning
28:26
乔的审判,精灵应该上天堂还是下地狱?#shorts #Fairy#fairytales
00:58
Quilt Challenge, No Skills, Just Luck#Funnyfamily #Partygames #Funny
00:32
СКАНДАЛЬНЫЙ бой Али, когда в ринге ему противостояли сразу ДВОЕ #shorts
01:12
Леон киллер и Оля Полякова 😹
00:42
【強化学習】eligibility trace - 前方から後方観測へ!【強化学習の基礎アルゴリズム】RL vol. 20-1
Рет қаралды 1,916
Facebook
Twitter
Жүктеу
1
Жазылу 58 М.
AIcia Solid Project
Күн бұрын
Пікірлер: 10
@ryozann
Ай бұрын
33:55 気持ちいい瞬間😇 いつもありがとうございます。
@AIcia_Solid
Ай бұрын
ご視聴コメントありがとうございます! ですよね〜〜〜🤤🤤🤤 最初見たときは、そんな都合いいことあるか!? と心が受け入れませんでしたが、体に染みてくると素敵だなーってなりますよね🤤
@gesonanko6356
Ай бұрын
めちゃくちゃわかりやすかったです!次回も楽しみにしてます!
@AIcia_Solid
Ай бұрын
ご視聴コメントありがとうございます! ちょうど今日の20時に後編が公開です! ぜひ見に来てください🥳🥳🥳 kzbin.info/www/bejne/gpWvZIiojrh3gtksi=mYRCkk5cqjt_om1n
@吉田ちゃん-o5v
Ай бұрын
Eligibility traceを初めて知りました!ありがとうございます。GAEの元ネタなんですね
@AIcia_Solid
Ай бұрын
ご視聴コメントありがとうございます! GAE とも確かに関係ありそうですね! 深層強化学習でも eligibility trace は使ったりしますので、そのあたりでまた紹介させていただきます!🎉
@gesonanko6356
Ай бұрын
@@AIcia_Solid GAEの元ネタというか、GAEですね アドバンテージ関数はA(s,a)=Q(s,a)-V(s)と表されますが、Q(s,a)=r(s,a)+γV(s’)と表されるので、A(s,a)=r(s,a)+γV(s’)-V(s)=δとなり、TD誤差と一致します。 方策勾配のベースラインの導入でアドバンテージ関数は出てきたので、少しお気持ちは違うかもしれませんが、価値観数V(s)の更新のために存在するTD-λが、方策の更新のためにも使われるというのは、理論的な美しさを感じますね。
@AIcia_Solid
Ай бұрын
ほ、ほんとだ、、、! げそんさんありがとうございます!!! たしかに、アドバンテージ関数が TD 誤差で書けるのは知りませんでした🤯 確かに!!! 勉強になりました、ありがとうございます!!!🥳
@Nezumi-g1u
27 күн бұрын
わかりやすい説明ありがとうございます。質問ですが、後方観測TDλは、価値関数に即時適用できるとのことですが、価値関数Vが方策依存のとき問題ないのでしょうか?
@AIcia_Solid
25 күн бұрын
ご視聴コメントありがとうございます! 一般的には、価値関数は方策に依存します。ですが、そこはあまり問題になりません! 動画の最初の板書に図があると思います。 あの図のとおり、V の更新と方策 π の更新とデータ収集をぐるぐると繰り返す、Generalied Policy Iteration で学習すれば、V の精度がどんどん上がり、方策 π もどんどん良くなり、学習が進んでいきます。 実際には、V の更新タイミングと π の更新タイミングは必ずしも一致しないので、その瞬間瞬間で不整合は生じると思われますが、 結局学習はうまく進んでいくので、(基本的には)問題になりません。 これで回答になっているでしょうか? なお疑問が残る場合、またぜひ質問してください!
36:33
【強化学習】eligibility trace 後半 - 数式徹底解説!【強化学習の基礎アルゴリズム】RL vol. 20-2 #188 #VRアカデミア #ReinforcementLearning
AIcia Solid Project
Рет қаралды 1 М.
28:26
【強化学習】後方観測TD(λ) と eligibility trace【強化学習の基礎アルゴリズム】RL vol. 19 #187 #VRアカデミア #ReinforcementLearning
AIcia Solid Project
Рет қаралды 1,6 М.
00:58
乔的审判,精灵应该上天堂还是下地狱?#shorts #Fairy#fairytales
精灵少女
Рет қаралды 9 МЛН
00:32
Quilt Challenge, No Skills, Just Luck#Funnyfamily #Partygames #Funny
Family Games Media
Рет қаралды 55 МЛН
01:12
СКАНДАЛЬНЫЙ бой Али, когда в ринге ему противостояли сразу ДВОЕ #shorts
BalcevMMA_BOXING
Рет қаралды 1,2 МЛН
00:42
Леон киллер и Оля Полякова 😹
Канал Смеха
Рет қаралды 4,7 МЛН
13:43
[Reinforcement learning] Eligibility trace RTA for busy people [Basic algorithms for reinforcemen...
AIcia Solid Project
Рет қаралды 1 М.
16:18
[Reinforcement Learning] Introduction to Deep Reinforcement Learning - Let's take a look at the b...
AIcia Solid Project
Рет қаралды 1,9 М.
27:56
[Singular Value Decomposition 11] Decomposition and Calculation of Relations 2 - Extract componen...
AIcia Solid Project
Рет қаралды 706
25:09
How I Won The GMTK Game Jam
JimmyGameDev
Рет қаралды 226 М.
18:38
Deep Learning入門:ニューラルネットワーク設計の基礎
Neural Network Console
Рет қаралды 175 М.
18:57
2020年、Deep Learningをはじめましょう!
Neural Network Console
Рет қаралды 77 М.
13:59
Band 9 Level IELTS Quiz: Can You Beat Both Students?
IELTS Advantage
Рет қаралды 259 М.
27:59
英語のなまりを正確に見抜くAIでアメリカ育ちの英語を判定したら衝撃の結果に…
Kevin's English Room / 掛山ケビ志郎
Рет қаралды 886 М.
13:02
Deep Learning入門:ニューラルネットワーク学習の仕組み
Neural Network Console
Рет қаралды 113 М.
27:05
How a Super Smash Bros. Fighter is Designed
Game Maker's Toolkit
Рет қаралды 167 М.
00:58
乔的审判,精灵应该上天堂还是下地狱?#shorts #Fairy#fairytales
精灵少女
Рет қаралды 9 МЛН