还是理解不了计算value的公式,希望写下,1的基础上下一步获得价值怎么计算?第一步都是零,计算也无所谓哪个项目,对错也不知道。
李坏_品职助教 · 2023年04月22日
嗨,从没放弃的小努力你好:
初始的Q table所有状态下都是0,但是在小老鼠第一次向右走了之后,Q table需要进行更新。
根据Q值的计算公式:
所以对于小老鼠向右走了一步之后,新的Q值应该是:Q_new(start, →) = Q_old(start, →) + α * [R + γ*V(S') - Q_old(start, →)],
这里:
Q_old就是初始状态下的Q值(初始的Q table的所有Q值都是0),
α是学习效率,默认为0.1或0.05(何老师的板书默认为0.1),
R是向右走一步带来的短期奖励1,
γ是折现因子0.9(何老师直接定为0.9),
V(S')是初始Q table里面最大的Q值,也就是0.
所以Q_new(start, →) = Q_old(start, →) + α * [R + γ*V(S') - Q_old(start, →)]
= 0+0.1 * [1 + 0.9*0 - 0] = 0.1.
----------------------------------------------就算太阳没有迎着我们而来,我们正在朝着它而去,加油!