variance error和bias error都是针对out-of-sample error的定义,那不是应该都是针对validation set的吗,这样的话应该是variance error+bias error=validation error。bias error可以理解为模型的有偏无偏,可以近似为training set的error,但我不是很理解为什么可以把validation set的error看做variance error。
卢天悦 · 2022年06月01日
variance error和bias error都是针对out-of-sample error的定义,那不是应该都是针对validation set的吗,这样的话应该是variance error+bias error=validation error。bias error可以理解为模型的有偏无偏,可以近似为training set的error,但我不是很理解为什么可以把validation set的error看做variance error。
袁园_品职助教 · 2022年06月05日
嗨,爱思考的PZer你好:
模型拟合的误差有两种,当模型过于简单,没有充分学习到训练集(training set)里的数据规律时,会导致偏差(bias)误差,偏差误差和模型的欠拟合相关。
但当模型过于复杂时,模型会“记忆”住训练集(training set)中的所有数据的规律,包括训练集中的噪声项,在这种情况下,模型可能在训练集里表现的很好,但是误差在验证数据(validation set)里显著高于训练集,会导致方差(variance)误差,所以这个variance 误差是在验证集中出现的,方差误差和模型的过度拟合相关。两种误差无法被同时消除,但可以做权衡(trade-off),使得模型总体误差最小,达到一个好的拟合(good fit)。
----------------------------------------------就算太阳没有迎着我们而来,我们正在朝着它而去,加油!
卢天悦 · 2022年06月05日
好的,谢谢!
星星_品职助教 · 2022年06月01日
同学你好,
这两个error有自己的适用范围。
bias error针对的是training data,不适用于validation data。
variance error针对本身就是validation data。这就是variance error的定义。
卢天悦 · 2022年06月04日
因为我记得在讲课时,对in-sample的定义是training set,对out-of-sample的定义是validation set和test set,那bias error,variance error以及base error不都应该是validation set的组成部分吗