Skip to content Skip to footer

为什么样本方差要用 n - 1而不是 n 才是无偏估计?

为什么样本方差要用 $ n - 1 $ 而不是 $ n $ 才是无偏估计?

方差与标准差 - 国家统计局

也就是说,你想知道:

为什么样本方差 $ S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2 $ 是总体方差 $ \sigma^2 $ 的无偏估计?

下面详细证明这一点。

🧮 一、定义与符号

设总体服从分布 $ X $,其均值为 $ \mu $,方差为 $ \sigma^2 $。

我们从总体中随机抽取一个容量为 $ n $ 的样本:

\[X_1, X_2, \dots, X_n

\]

样本均值为:

\[\bar{X} = \frac{1}{n} \sum_{i=1}^n X_i

\]

样本方差有两个版本:

有偏方差(用 $ n $ 作分母):

\[S^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2

\]

无偏方差(用 $ n - 1 $ 作分母):

\[S^2 = \frac{1}{n - 1} \sum_{i=1}^n (X_i - \bar{X})^2

\]

我们要证明的是:无偏方差的期望等于总体方差,即:

\[E\left( \frac{1}{n - 1} \sum_{i=1}^n (X_i - \bar{X})^2 \right) = \sigma^2

\]

🧮 二、证明过程

我们从样本方差的表达式出发:

\[\sum_{i=1}^n (X_i - \bar{X})^2

\]

展开平方项:

\[= \sum_{i=1}^n (X_i^2 - 2X_i \bar{X} + \bar{X}^2)

= \sum_{i=1}^n X_i^2 - 2\bar{X} \sum_{i=1}^n X_i + n \bar{X}^2

\]

注意到 $ \sum_{i=1}^n X_i = n \bar{X} $,代入得:

\[= \sum_{i=1}^n X_i^2 - 2\bar{X}(n \bar{X}) + n \bar{X}^2

= \sum_{i=1}^n X_i^2 - n \bar{X}^2

\]

所以:

\[\sum_{i=1}^n (X_i - \bar{X})^2 = \sum_{i=1}^n X_i^2 - n \bar{X}^2

\]

接下来求期望:

\[E\left( \sum_{i=1}^n (X_i - \bar{X})^2 \right)

= E\left( \sum_{i=1}^n X_i^2 - n \bar{X}^2 \right)

= \sum_{i=1}^n E(X_i^2) - n E(\bar{X}^2)

\]

由于 $ X_1, X_2, \dots, X_n $ 独立同分布,且 $ E(X_i) = \mu $ ,$ \text{Var}(X_i) = \sigma^2 $,所以:

$ E(X_i^2) = \text{Var}(X_i) + [E(X_i)]^2 = \sigma^2 + \mu^2 $

$ \bar{X} = \frac{1}{n} \sum_{i=1}^n X_i $,所以 $ E(\bar{X}) = \mu $ ,$ \text{Var}(\bar{X}) = \frac{\sigma^2}{n} $

因此:

\[E(\bar{X}^2) = \text{Var}(\bar{X}) + [E(\bar{X})]^2 = \frac{\sigma^2}{n} + \mu^2

\]

代入上式:

\[E\left( \sum_{i=1}^n (X_i - \bar{X})^2 \right)

= n(\sigma^2 + \mu^2) - n\left( \frac{\sigma^2}{n} + \mu^2 \right)

= n\sigma^2 + n\mu^2 - \sigma^2 - n\mu^2

= (n - 1)\sigma^2

\]

所以:

\[E\left( \frac{1}{n - 1} \sum_{i=1}^n (X_i - \bar{X})^2 \right) = \sigma^2

\]

✅ 结论

这就证明了:

样本方差 $ S^2 = \frac{1}{n - 1} \sum_{i=1}^n (X_i - \bar{X})^2 $ 是总体方差 $ \sigma^2 $ 的无偏估计。

而如果用 $ n $ 作分母,则得到的是有偏估计,其期望为:

\[E\left( \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2 \right) = \frac{n - 1}{n} \sigma^2 < \sigma^2

\]

📌 总结

方差公式

是否无偏

为什么

\(\frac{1}{n}\sum(X_i-\bar{X})^2\)

❌ 有偏

低估了总体方差

\(\frac{1}{n-1}\sum(X_i-\bar{X})^2\)

✅ 无偏

修正了自由度,使得期望等于总体方差

其它:一些证明(可以忽略)

1 为什么$$ \text{Var}(\bar{X}) = \frac{\sigma^2}{n} $$

这个表示样本均值的方差。

✅ 为什么:

\[\text{Var}(\bar{X}) = \frac{\sigma^2}{n}

\]

📌 解释:

假设我们从一个总体中抽取一个大小为 $ n $ 的独立随机样本:

\[X_1, X_2, \dots, X_n

\]

每个 $ X_i $ 都来自同一个总体,具有相同的均值 $ \mu $ 和方差 $ \sigma^2 $。

样本均值为:

\[\bar{X} = \frac{1}{n} \sum_{i=1}^n X_i

\]

那么它的方差为:

\[\text{Var}(\bar{X}) = \text{Var}\left( \frac{1}{n} \sum_{i=1}^n X_i \right)

\]

利用方差的性质:

常数因子可以提出:$ \text{Var}(aX) = a^2 \text{Var}(X) $

独立变量的方差可加:$ \text{Var}(X_1 + X_2 + \cdots + X_n) = \text{Var}(X_1) + \text{Var}(X_2) + \cdots + \text{Var}(X_n) $

所以:

\[\text{Var}(\bar{X}) = \frac{1}{n^2} \sum_{i=1}^n \text{Var}(X_i)

= \frac{1}{n^2} \cdot n \sigma^2

= \frac{\sigma^2}{n}

\]

🧠 直观理解:

样本均值 $ \bar{X} $ 是所有样本点的平均值。

平均值会比单个观测值更稳定,所以它的方差会更小。

方差缩小的比例是 $ \frac{1}{n} $,因为平均了 $ n $ 个独立的观测。

📌 小结

公式

含义

\(\text{Var}(\bar{X}) = \frac{\sigma^2}{n}\)

样本均值的方差是总体方差除以样本容量 $ n $