老师您好,关于累积回报[discounted return]的定义,视频中0:36处,我发现了两个不同的版本,不是很理解,希望您能解惑: 第一种定义的相关书籍: ① 您的slide中 ② 《动手学强化学习》 ISBN:9787115584519 ③ 《深度强化学习:基础、研究与应用》 ISBN:978-7-121-41188-5 均将G_t定义为从R_t 开始 第二种定义的相关书籍: ① 《强化学习》 ISBN:978-7-302-53829-5 ② 《Easy RL 强化学习教程》 ISBN:9787115584700 ③ 《深入浅出强化学习:原理入门》 ISBN:978-7-121-32918-0 ④ 《Reinforcement Learning, second edition》 ISBN:9780262039246 (对于G_t使用的是约等符号) 均将G_t定义为从R_{t+1} 开始 因为是定义类,且角标不同,所以不太明白