你好,我记得在multilinear regression的时候老师有讲到,哪怕是一些coefficient 不significant但是在算prediction的时候也要用,因为他们影响了其他variable的coefficient estimate。但是在logistic regression的经典例题里面,答案是先判断variable是否significant,然后只用significant的variable代入公式。请问为什么这里有这样的差别呢?
品职助教_七七 · 2024年06月24日
嗨,从没放弃的小努力你好:
用估计出来的回归方程去预测Y值的时候,原则为不需要考虑系数的显著性。即使系数不显著,也不能将其手动删除。
也就是估计出来的方程是什么(题干给出的是什么方程),就直接用这个方程去做预测,不要人为的去修改它。
这是因为即便是某个系数不显著,这一项也对最后的Y值有一定的贡献度,也影响到了其他的系数。如果把这项直接删了,相当于把这部分贡献度也删了,Y就不准确了。
在实践中,遇到系数不显著的情况,处理方式是(做一些调整后)重新去估计一个新的方程,而不是删除原方程的某几项。
目前只有一个例外。在教材课后题M4 Q13(题库PZ202208220100000507)中,由于此时在题目里明确说明此时只考虑significant variables。所以这个时候才需要手动剔除系数估计量不显著的情况。
----------------------------------------------就算太阳没有迎着我们而来,我们正在朝着它而去,加油!