Рет қаралды 522
강화학습에서 보상은 에이전트가 주어진 상황에서 최적의 행동을 선택할 수 있게 해주는 신호로서 작용된다. 한편 에이전트의 탐사 활동은 보상을 최대화하기 위한 정보를 얻기 위해서 수행된다. 충분한 정보가 수집되지 않은 상황에서는 최적의 행동 정책을 배울 수 없기 때문에 탐사 활동은 매우 중요하다. 다만 보상이 희소한 상황에서 단순히 에이전트가 임의로 행동하여 탐사하는 방식으로는 최적의 행동 정책을 배우기 어렵다. 따라서 이런 상황을 보완할 수 있는 정교한 탐사 방법이 연구되고 있다. 이번 세미나에서는 강화학습의 다양한 탐사 방법론에 대해서 알아보고자 한다.
참고자료 :[1] Ladosz, Pawel, et al. "Exploration in deep reinforcement learning: A survey." Information Fusion 85 (2022): 1-22.[2] Pathak, Deepak, et al. "Curiosity-driven exploration by self-supervised prediction." International conference on machine learning. PMLR, 2017.[3] Burda, Yuri, et al. "Large-Scale Study of Curiosity-Driven Learning." International Conference on Learning Representations. 2018.[4] Pathak, Deepak, Dhiraj Gandhi, and Abhinav Gupta. "Self-supervised exploration via disagreement." International conference on machine learning. PMLR, 2019.[5] Burda, Yuri, et al. "Exploration by random network distillation." International Conference on Learning Representations. 2018.