请问老师,,在Heteroskedastic 中, 什么情况下 SE 会被高估,什么情况会被低谷?
在Autocorrelation中,SE是会被低估吗?positive 和 negative 对SE 有影响吗?
为什么在 multicollinearity 中, SE是被高估呢?
星星_品职助教 · 2021年03月13日
同学你好,这三个问题放在一个回复里太长太乱了,分了三次回复,按照回复1,2,3的顺序依次看就可以了。
回复1:Heteroskedasticity
结论是:(条件)异方差会导致系数估计量(如b1 cap)的standard error不准确,导致的是t统计量被高估或者低估
异方差的定义为残差项的方差随着X的变化而变化。而残差项的方差/标准差变化和系数估计量的SE变化是同步的。
所以如下图,假设残差项随着X增加而波动加剧,即残差项的方差随着X上升而变大。
在①部分,此时残差项的方差小,可得系数估计量的SE(即公式中的Sb1 cap)也小。根据t统计量的计算公式可得,此时t统计量被高估;
同理,在②部分,残差项的方差大,即系数估计量的SE也大。此时t统计量被低估。
------
以上的分析逻辑都不用掌握,这个地方只会考察结论。但一般只会考察到:
The standard errors are usually unreliable estimates
The F-test and T-test are unreliable
至于具体是如何unreliable的考的很少。
星星_品职助教 · 2021年03月13日
回复2:serial correlation
结论是:
①positive serial correlation会导致系数估计量的SE减小,导致t统计量被高估;
②negative serial correlation会导致系数估计量的SE增大,导致t统计量被低估
当positive serial correlation时,本期残差为正,可以得知下一期残差也为正,所以残差的波动偏小。类似异方差的分析,此时对应系数估计量的(分母)SE也偏小,导致t统计量被高估。
同理,negative serial correlation时,本期残差为正,下一期残差就会大幅跳动到负值,残差的波动大,所以系数估计量的SE也大,t统计量被低估。
同样,分析逻辑也不用掌握,掌握以上①②两个结论即可。
星星_品职助教 · 2021年03月13日
回复3:Multicollinearity
这里的逻辑反过来,是t统计量被低估,导致系数估计量的SE被高估(inflated)
--------
以Y=b0+b1X1+b2X2+ε为例,多重共线性指的是X1和X2之间存在强相关关系(所以应该去掉其中的一个)。
如果对X1,和X2分别做t检验,会发现计算出来的t统计量都很小(低估)。
这是因为X1和X2相关性很强,所以X1就可以被X2代替。所以检验b1时,发现X1这个变量没有存在的意义,t统计量算出来会非常小 & 检验结果无法拒绝原假设(相当于b1=0,即X1(或b1X1)可以不存在)。
同理,检验b2时也会发现X2这个变量没有存在的必要,b2对应的t统计量也非常小
-----------
此处需要掌握的结论是多重共线性会导致小t(统计量),大F(统计量),大R-squared。
其中t统计量偏小就可以反向得到分母SE被高估(Inflated standard error)