这张图片里的左边trainingset的红色的线是从上到下都不变吗,不是应该根据点来画线吗,为什么training里面的三张图的线都没变。还有个问题想先问一下,为什么拟合这些点的线不能是那种弯曲的通过所有点的线,我们不是一般都是在trainingset做这种误差几乎等于零的线,然后再通过validationset来修改吗
星星_品职助教 · 2021年03月04日
同学你好,
左侧图的三条线应该是根据点来画线。
这个图想说明的是随着training data sample的n上升,training data的error会逐渐上升/training accuracy rate下降。所以对于线只是一个简单展示,不是精确画线。把握住这个图想告诉我们的核心就可以。
-------------
做模型的目的是要(从历史数据中总结规律)去预测未来。重点要有预测能力。
所以training data中的线不能是拟合了每个点的曲线,这就会导致overfitting的问题。即这个training set里的数据只能在这个数据集里本身做到拟合,但如果放到validation/test set中,会发现error巨大,毫无预测作用。
所以正确的流程是在避免overfitting的前提下,(经过反复调试后)在training set中找到一个尽可能好的模型,这个模型在validation set里的error也不大,这样可以更好的预测未来。