KZ
bin
Негізгі бет
Қазірдің өзінде танымал
Тікелей эфир
Ұнаған бейнелер
Қайтадан қараңыз
Жазылымдар
Кіру
Тіркелу
Ең жақсы KZbin
Фильм және анимация
Автокөліктер мен көлік құралдары
Музыка
Үй жануарлары мен аңдар
Спорт
Ойындар
Комедия
Ойын-сауық
Тәжірибелік нұсқаулар және стиль
Ғылым және технология
【強化学習】TD(λ) - 短期と長期の目線の合せ技。【強化学習の基礎アルゴリズム】RL vol. 18 #185 #VRアカデミア #ReinforcementLearning
18:16
【強化学習】TD法 - 期待と不安が交じるベルマン作用素のデータ近似【強化学習の基礎アルゴリズム】RL vol. 13 #174 #VRアカデミア #ReinforcementLearning
37:39
ЧТО ОПАСНЕЕ? ОТВЕТЫ ВАС ШОКИРУЮТ... (1% ОТВЕЧАЮТ ПРАВИЛЬНО) #Shorts #Глент
00:38
To Brawl AND BEYOND!
00:51
Cool Items!🥰 New Gadgets, Smart Appliances, Kitchen Tools Utensils, Home Cleaning, Beauty #shorts
00:40
伪装成一棵树整蛊妹妹,结果妹妹当场怀疑人生竟要揍我?【两只马儿-恶搞姐妹】
00:57
【強化学習】n-step TD 法 - 一番使われる基礎的手法だよ【強化学習の基礎アルゴリズム】RL vol. 17
Рет қаралды 3,304
Facebook
Twitter
Жүктеу
1
Жазылу 58 М.
AIcia Solid Project
Күн бұрын
Пікірлер: 7
@poco_cpp
5 ай бұрын
n-stepが不安定になる理由ですが、メインの理由は分散ではなく分布シフトが原因ですね。 なので分布シフトが発生しないオンポリシーな手法(SARSA等)だとnを大きくしても安定して学習できます。 逆にオフポリシーが含まれる手法の場合は分布シフトが発生するのでnを少しでも大きくするとすぐ不安定になったりします。 (retrace関係の論文に詳しく書かれています)
@poco_cpp
5 ай бұрын
これは私の勝手な想像ですが、以下のような歴史がある気がします。 ・古典強化学習ではn-stepの不安定さが分散だと思われていた ・深層強化学習が発達(ここで古典強化学習から10年以上は時代が進んでいる) ・オフライン強化学習という分野が出てきて学習の不安定さが本格的に研究されだした →分布シフトについても研究が進む ・n-stepの不安定さが分布シフトに基づくものだとして解決策が編みだされた なのでかなり最近出てきた考え方だと思っています。
@AIcia_Solid
5 ай бұрын
なるほど!そうなんですね! ありがとうございます!!!!! 最近の研究は全然知りませんでした、、🙇♀️ たしかに、SARSA は安定するけど Q はシフトがあって不安定というのは、とても良く分かります。 なんの Q を推定してるのか、よくわからないですものね、、、。 ありがとうございます! 後々のシリーズで補足入れようと思います。 私もとても勉強になりました。 ありがとうございました!!!!!
@miniyosshi
5 ай бұрын
このシリーズ溜めててやっとここまでたどり着きました。QとSARSAの良しあしはサンプル効率など説明があったと思いますが、Vを使うTDとQを使うQやSARSAの良しあし(あるいは使い分け)みたいな部分はどうなんでしょうか~?
@AIcia_Solid
5 ай бұрын
ご視聴コメントありがとうございます! 例外はありますが、基本的には Q か使われる印象です。 ただ、将棋 AI や囲碁 AI など、行動の後の状態が確定している場合は、Q ではなく V が使われています。 そのような違いと認識していますが、実践経験はほぼないので、現場では違う使い分けもあるかもしれません。 実際にやるときは分野の慣習を参考にすると良いと思います!
18:16
【強化学習】TD(λ) - 短期と長期の目線の合せ技。【強化学習の基礎アルゴリズム】RL vol. 18 #185 #VRアカデミア #ReinforcementLearning
AIcia Solid Project
Рет қаралды 1,8 М.
37:39
【強化学習】TD法 - 期待と不安が交じるベルマン作用素のデータ近似【強化学習の基礎アルゴリズム】RL vol. 13 #174 #VRアカデミア #ReinforcementLearning
AIcia Solid Project
Рет қаралды 4,6 М.
00:38
ЧТО ОПАСНЕЕ? ОТВЕТЫ ВАС ШОКИРУЮТ... (1% ОТВЕЧАЮТ ПРАВИЛЬНО) #Shorts #Глент
ГЛЕНТ
Рет қаралды 2,4 МЛН
00:51
To Brawl AND BEYOND!
Brawl Stars
Рет қаралды 17 МЛН
00:40
Cool Items!🥰 New Gadgets, Smart Appliances, Kitchen Tools Utensils, Home Cleaning, Beauty #shorts
Cool Items Official
Рет қаралды 75 МЛН
00:57
伪装成一棵树整蛊妹妹,结果妹妹当场怀疑人生竟要揍我?【两只马儿-恶搞姐妹】
两只马儿—恶搞姐妹
Рет қаралды 44 МЛН
32:46
[Reinforcement Learning] Policy Gradient - Why? An overview that answers your questions! [Policy ...
AIcia Solid Project
Рет қаралды 1,3 М.
52:50
中高生と社会人のための東大AI教育とは?AI時代で学歴は消えるか【豊島晋作のテレ東経済ニュースアカデミー】
テレ東BIZ
Рет қаралды 601 М.
37:04
渡辺明名人の【作戦術】
戸辺チャンネル
Рет қаралды 649 М.
16:18
[Reinforcement Learning] Introduction to Deep Reinforcement Learning - Let's take a look at the b...
AIcia Solid Project
Рет қаралды 2,4 М.
57:45
Visualizing transformers and attention | Talk for TNG Big Tech Day '24
Grant Sanderson
Рет қаралды 395 М.
13:43
[Reinforcement learning] Eligibility trace RTA for busy people [Basic algorithms for reinforcemen...
AIcia Solid Project
Рет қаралды 1 М.
18:38
Deep Learning入門:ニューラルネットワーク設計の基礎
Neural Network Console
Рет қаралды 175 М.
30:12
渡辺明名人の将棋講座【現代トップ棋士の研究とは】
戸辺チャンネル
Рет қаралды 803 М.
26:10
Attention in transformers, step-by-step | DL6
3Blue1Brown
Рет қаралды 2,1 МЛН
9:40
【強化学習】強化学習は行動選択の科学である【広大な分野だけどコアはこれ!】RL vol. 1 #151 #VRアカデミア #ReinforcementLearning
AIcia Solid Project
Рет қаралды 19 М.
00:38
ЧТО ОПАСНЕЕ? ОТВЕТЫ ВАС ШОКИРУЮТ... (1% ОТВЕЧАЮТ ПРАВИЛЬНО) #Shorts #Глент
ГЛЕНТ
Рет қаралды 2,4 МЛН