开发者:上海品职教育科技有限公司 隐私政策详情

应用版本:4.2.11(IOS)|3.2.5(安卓)APP下载

我叫仙人涨 · 2020年01月05日

ML

​ML 不是根据agent的action 给了reward 正/负么,为什么不是supervised和 instantaneous feedback ?
1 个答案
已采纳答案

星星_品职助教 · 2020年01月05日

同学你好,

提问需要详细点哈,不然我不知道这是哪一块的~ 这个应该是reinforcement learning那段对吧。

supervised与否主要看有没有labeled data和target variable,根据原版书上的解释,对于RL来说,并没有labeled data。

反馈速度那个可以类比一下计算器或者excel,如果输入特别复杂的公式的话,反应速度也会延迟。RL计算的难度要比这些大得多,例如阿尔法狗下棋就是RL的应用,所以反馈速度会很慢,做不到立刻反馈。

终于把今天的问题都回完了,加油~


  • 1

    回答
  • 0

    关注
  • 289

    浏览
相关问题