【強化学習】ベルマン期待方程式 - 2手先を読んで価値を算出【強化学習の基礎方程式】RL vol. 9

Рет қаралды 7,681

AIcia Solid Project

Күн бұрын

Пікірлер: 32

@sukesam 4 ай бұрын

ベルマン方程式のイメージができるようになりました！ありがとうございます！

@AIcia_Solid 4 ай бұрын

ご視聴コメントありがとうございます！　お役に立てて光栄です！そして！　ご支援もいただきましてありがとうございます！とても嬉しいです🎉 頂いたご支援を力にして、さらに動画生成を進めてまいりたいと思いますので、ぜひ今後も応援よろしくおねがいします！🥳

@ラディッシュ-g8z 8 ай бұрын

最後の導出した 26:55 状態価値関数のr抜けてます！！

@AIcia_Solid 8 ай бұрын

ご視聴コメントありがとうございます！おっしゃるとおりです、失礼しました！！！！！🙇‍♀️ 他にもいくつかミスが概要欄にあるので、必要に応じてご確認くださいませ🙇‍♀️🙇‍♀️🙇‍♀️

@rstts5934 Жыл бұрын

とても分かりやすかったです。E資格の勉強でつまづいている分野だったので解説をしていただいて助かりました。

@AIcia_Solid Жыл бұрын

ご視聴コメントありがとうございます！お役に立てたなら何よりです！😊 E資格応援しています！💛 良ければ是非他の動画もご活用くださいませ🎉

@nakamurat5288 Жыл бұрын

めちゃくちゃわかりやすい😊説明きいてしっくりきました。

@AIcia_Solid Жыл бұрын

ご視聴コメントありがとうございます！それは良かった！ぜひこの理解をご活用くださいませ🤩

@applepi314root Жыл бұрын

33:28 ここ一人で右手上げながら「そうとは限らないですよね！！？(ﾆﾔﾘ)」って思ったら次説明されててちゃんと自分も理解している事が実感できて嬉しさたまりませんでした。相変わらずわかり易すぎます。

@AIcia_Solid Жыл бұрын

おおー！😎 流石ですね😎😎😎 同志に伝わって嬉しい限りです😎 褒めていただいてとても嬉しいです！今後もわかりやすい解説をお送りするつもりですので、ぜひ続きも楽しみにしていてください！🎉

@sw-oy6eu 11 ай бұрын

割引率の概念といい、保険数理のファクラーの再帰式と結び付けられないか考えてる

@AIcia_Solid 11 ай бұрын

ファクラーの再起式というものがあるのですね、知りませんでした！保険数理は詳しくないのでわかりませんが、なにか関連があると面白いですね！🤩

@hitt1te 2 ай бұрын

Vがtに依存するような気がしてもやもやしていたのでそこの解説があってうれしいです。 (３冊読んだけど書いてなかった) 関連して質問なのですが、時刻 t を状態 s の中に入れてしまうという解決策を思いついたのですがどうですか？要はMDPが時間変化しているのに定常として記述しているのが問題なので。

@AIcia_Solid 2 ай бұрын

ご視聴コメントありがとうございます！多分、こちらの本には書いてあるかと思います！私もこの本で知りましたので！ amzn.to/4ea4ddG その解法もありだと思います！とはいえ、完全に分離してしまうと、学習効率は下がったりするかもしれません🤔 そのあたりは、タスクに合わせて工夫するポイントかな？と想像します！

@hitt1te 2 ай бұрын

ありがとうございます！その本も読んだつもりではあったんですが一冊目でよくわからなくて挫折しました…もう一度読み直してみます！

@AIcia_Solid 2 ай бұрын

最初にあの本は挫折しますよね／(^o^)＼気が向いた時に読んでいただければよいかと思います！序盤の何処かに書いてあった気がします！

@mk-zx4cw 7 ай бұрын

26:12

@青野俊夫-y7q 11 ай бұрын

いつもながら、とても分かり易く、助かりました。最後のまとめの上から2つ目のQπの式、P(r|s,a)の後ろにrが抜けていませんでしょうか？

@AIcia_Solid 11 ай бұрын

ご視聴コメントありがとうございます！はい、そのとおり、抜けています、すみません、、、🙇‍♀️ 一応、概要欄に他の誤植も含めて書いてあります。もし他の方におすすめする機会があれば、誤植に注意していただくようお伝えいただけますと助かります。よろしくお願いします🙇‍♀️

@青野俊夫-y7q 11 ай бұрын

@@AIcia_Solid 失礼しました。概要欄、見るようにします。方策反復法の回、見終わりました。GPIの回で提示されたスキームは、その時は難しく感じましたが、この回でその意味するところが、見えてきたようで、今後も楽しみにしています。また、Bellman法的式を収束するまで繰り返す方法も、Q学習やsarsaへの伏線になっているのかな？などとワクワクしています。

@AIcia_Solid 11 ай бұрын

気になったときは見ていただけると素早く疑問が解消することがあるかも知れません。もしそこでも分からなければ、今回のようにオオシエいただけるととても嬉しいです！🎉 方策反復もご覧いただきありがとうございます！！！貴重な乾燥ありがとうございます！！！！！確かに、具体例無しで抽象的なスキームを紹介するのは負荷が高かったかも知れないなと気づきになりました。ありがとうございます！まさに、方策反復法はいろんな分析モデルの伏線になっています。 Q や SARSA もじきに搭乗しますので、是非お楽しみに！

@niruru9560 Жыл бұрын

ベルマン方程式を調べたら、サイトによっていろいろな形で記載されていて、どれも変形すれば同じになるのだろうか？

@AIcia_Solid Жыл бұрын

ベルマン最適方程式は、ベルマン期待方程式とは別なので、これは別です！他にも、強化学習ではなく、より一般の動的計画法に対するベルマン方程式もあるので、もしかしたらそちらを見ているのかも？と思います！「強化学習ベルマン方程式」で調べてみてください！

@tarokoizumi3355 Жыл бұрын

いつも勉強になっています！分析モデルの本も繰り返し読んでいるのですが、動画で見ると新たな気付きがあって、本で読んだ断片的な知識が繋がる気がします。イントロの行動価値関数の第2項、割引忘れてますね？

@AIcia_Solid Жыл бұрын

ご視聴コメントありがとうございます！そして、書籍も合わせて楽しんでいただきとても嬉しいです！😊 まさに、書籍には書籍に書きやすいことを多く書いてありまして、動画では動画でやりやすいことを多く紹介する予定です！（GPI で紹介した図なんかは、紙面の都合で書籍には入らなかったので、、、🥲）ぜひ両方合わせて楽しんでいただけると幸いです！🎉 ======== そして！ご指摘ありがとうございます！！！いちばん大事なものを忘れていました、、、ありがとうございます、概要欄で訂正入れます！🙇‍♀️ お教えいただきありがとうございます！お陰さまで、訂正をいれることで、動画の質を高めることができます、ありがとうございます！！！🎉🎉🎉

@AIcia_Solid Жыл бұрын

概要欄に誤り訂正を入れておきました。ありがとうございました！！！🙇‍♀️

@tarokoizumi3355 Жыл бұрын

次の動画も楽しみにしています！

@AIcia_Solid Жыл бұрын

ありがとうございます！次はミスしないようにがんばります！🔥

@drimania882 11 ай бұрын

いつも分かりやすく、為になる動画をありがとうございます！！１点質問させてください。本当に正しいかどうかわからない所とおっしゃっていた等式が成り立つということが、決定過程が「マルコフ」である、ということであるとの理解で正しいでしょうか？（状態価値関数や行動価値関数にマルコフ性がある問題設定の事をマルコフ決定過程と呼んでいるのでしょうか？）

@AIcia_Solid 11 ай бұрын

ご視聴コメントありがとうございます！🎉 35:45 頃でしょうか？であれば、ここは、マルコフ性もさることながら、通常の強化学習の設定であれば、時間制限がない（または、紹介していないですが、terminal state がある）ことのほうが本質的かと思います。マルコフ決定過程は、この動画シリーズでは以下の動画で定義していますが、マルコフ性があるものです！ kzbin.info/www/bejne/iGmmqoF7bbuanZYsi=ug8Bt_9RCxJCpmGM もし、ご質問に答えられきれていないものがあれば是非追加できいてください！