【強化学習】n-step TD 法 - 一番使われる基礎的手法だよ【強化学習の基礎アルゴリズム】RL vol. 17

Рет қаралды 3,304

Күн бұрын

Пікірлер: 7

@poco_cpp 5 ай бұрын

n-stepが不安定になる理由ですが、メインの理由は分散ではなく分布シフトが原因ですね。なので分布シフトが発生しないオンポリシーな手法（SARSA等）だとnを大きくしても安定して学習できます。逆にオフポリシーが含まれる手法の場合は分布シフトが発生するのでnを少しでも大きくするとすぐ不安定になったりします。 (retrace関係の論文に詳しく書かれています)

@poco_cpp 5 ай бұрын

これは私の勝手な想像ですが、以下のような歴史がある気がします。・古典強化学習ではn-stepの不安定さが分散だと思われていた・深層強化学習が発達（ここで古典強化学習から10年以上は時代が進んでいる）・オフライン強化学習という分野が出てきて学習の不安定さが本格的に研究されだした　→分布シフトについても研究が進む・n-stepの不安定さが分布シフトに基づくものだとして解決策が編みだされたなのでかなり最近出てきた考え方だと思っています。

@AIcia_Solid 5 ай бұрын

なるほど！そうなんですね！ありがとうございます！！！！！最近の研究は全然知りませんでした、、🙇‍♀️ たしかに、SARSA は安定するけど Q はシフトがあって不安定というのは、とても良く分かります。なんの Q を推定してるのか、よくわからないですものね、、、。ありがとうございます！後々のシリーズで補足入れようと思います。私もとても勉強になりました。ありがとうございました！！！！！

@miniyosshi 5 ай бұрын

このシリーズ溜めててやっとここまでたどり着きました。QとSARSAの良しあしはサンプル効率など説明があったと思いますが、Vを使うTDとQを使うQやSARSAの良しあし（あるいは使い分け）みたいな部分はどうなんでしょうか～？

@AIcia_Solid 5 ай бұрын

ご視聴コメントありがとうございます！例外はありますが、基本的には Q か使われる印象です。ただ、将棋 AI や囲碁 AI など、行動の後の状態が確定している場合は、Q ではなく V が使われています。そのような違いと認識していますが、実践経験はほぼないので、現場では違う使い分けもあるかもしれません。実際にやるときは分野の慣習を参考にすると良いと思います！