开发者:上海品职教育科技有限公司 隐私政策详情

应用版本:4.2.11(IOS)|3.2.5(安卓)APP下载

Bin · 2024年09月29日

每次切100个,为什么第二次还是900

jacknife我记得怎么是每次砍固定size的data(比如100),那第一次就是900,求平均;再砍100,剩800,再求平均。假设样本中共有1000个data,我是要砍1000次吗?

 00:45 (2X) 




2 个答案
已采纳答案

袁园_品职助教 · 2024年09月30日

嗨,从没放弃的小努力你好:


假设我们有一个包含 1000 个样本 的数据集,以下是 Jackknife 的具体操作步骤:

1. 第一次剔除:

  • 我们从数据集中 剔除第 1 个样本点
  • 只使用剩下的 999 个样本点 来计算统计量(例如均值、方差等)。
  • 被剔除的第 1 个样本点 不参与这次计算,其余的 999 个样本点参与计算。

此时,样本点集变为: {X2,X3,X4,...,X1000}

2. 第二次剔除:

  • 接下来,我们将 剔除第 2 个样本点,这次计算时,剩下的样本为 第 1 个样本点 以及其他从第 3 个到第 1000 个的样本点。
  • 也就是说,剔除第 2 个样本后,样本点集为: {X1,X3,X4,...,X1000}
  • 在这次计算中,第 2 个样本点不参与计算,而第 1 个样本点又“回到”了数据集中。

所以并不是说剔除了样本,后面就再也不参加抽样了哦


假设我们有一个包含 1000 个样本 的数据集,Bootstrap 的目标是通过有放回的抽样来生成多个样本,从而估计参数的分布。

1. 第一次抽样:

  • 从原始 1000 个样本中随机抽取 1000 个样本,这个抽取是有放回的,因此一些样本点可能被多次抽中,而另一些样本点可能一次都没有被抽到。
  • 例如,假设从这次抽样中,我们抽到了以下样本(每个数字代表一个样本点的编号):
  • {X2,X15,X15,X450,X679,X15,...,X900}
  • 在这个示例中,第 15 个样本点被抽到了 3 次,第 2 个样本点和第 450、679、900 等样本点被抽到了一次,而其他样本点可能没有被抽中。
  • 然后,使用这 1000 个样本点 计算统计量(如均值、方差等)。虽然样本点可能重复,但样本量依然是 1000。

2. 第二次抽样:

  • 再次从原始的 1000 个样本点中随机抽取 1000 个样本,这个过程同样是有放回的。
  • 假设这次的抽样结果为:
  • {X1,X2,X2,X99,X999,X2,...,X800}
  • 在这个示例中,第 2 个样本点又被抽到了 3 次,第 1、99、999 等样本点被抽到了一次,而其他样本点可能没有被抽中。
  • 这次抽取的 1000 个样本点 可能与第一次的不同,甚至某些样本点可能在这两次抽样中都没有被抽到。同样,计算这次抽样后的统计量。



----------------------------------------------
就算太阳没有迎着我们而来,我们正在朝着它而去,加油!

袁园_品职助教 · 2024年10月05日

嗨,爱思考的PZer你好:


你理解的放回和重复抽样定义里面的放回是有点偏差,定义里面的放回,有的样本点抽完了再放回去,所以Bootstrap每次可能出现样本点重复的情况,但jackknife每次的样本点不会重新出现的情况

----------------------------------------------
就算太阳没有迎着我们而来,我们正在朝着它而去,加油!

  • 2

    回答
  • 0

    关注
  • 87

    浏览
相关问题