ML

ML 不是根据agent的action 给了reward 正/负么，为什么不是supervised和 instantaneous feedback ？

添加评论

已采纳答案

星星_品职助教 · 2020年01月05日

同学你好，

提问需要详细点哈，不然我不知道这是哪一块的~ 这个应该是reinforcement learning那段对吧。

supervised与否主要看有没有labeled data和target variable，根据原版书上的解释，对于RL来说，并没有labeled data。

反馈速度那个可以类比一下计算器或者excel，如果输入特别复杂的公式的话，反应速度也会延迟。RL计算的难度要比这些大得多，例如阿尔法狗下棋就是RL的应用，所以反馈速度会很慢，做不到立刻反馈。

终于把今天的问题都回完了，加油~

我要回答关注问题