value network的离散action的输入(4:18)降维和不降维有区别么?比如action 上下右 用001 010 100表示和00 01 10 表示会影响后续训练和精度么?
@shiyujiao20372 жыл бұрын
感觉应该在4/5后加一节DDPG的课
@anthonysu714 жыл бұрын
另外不好意思再follow-up一下, 上述问题中N如果是不确定的,应该用什么样的technique来处理比较好。我的方法是用类似zero-padding的方法将个体的总数补齐,最后输出的action中再ignore对应的padding上去的个体,是不是有更好的处理的方法。Thanks in advance!!!
in lecture 3, at 15:15, he said it's difficult to do integral on NN to calculate the expectation, my understanding is that the complication is due to integral not differentiation.
@davidwang25334 жыл бұрын
请问老师,在Summary of Algorithm的第四步,为什么用的是 随机的选择了tilde a_t+1 对应的q_t+1值? 在之前TD算法视频里,我记的选取的是最大的q_t+1值。是不是说在实际算法里,这步也具有一定的随机性?