为什么样本方差要用 $ n - 1 $ 而不是 $ n $ 才是无偏估计?
方差与标准差 - 国家统计局
也就是说,你想知道:
为什么样本方差 $ S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2 $ 是总体方差 $ \sigma^2 $ 的无偏估计?
下面详细证明这一点。
🧮 一、定义与符号
设总体服从分布 $ X $,其均值为 $ \mu $,方差为 $ \sigma^2 $。
我们从总体中随机抽取一个容量为 $ n $ 的样本:
\[X_1, X_2, \dots, X_n
\]
样本均值为:
\[\bar{X} = \frac{1}{n} \sum_{i=1}^n X_i
\]
样本方差有两个版本:
有偏方差(用 $ n $ 作分母):
\[S^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2
\]
无偏方差(用 $ n - 1 $ 作分母):
\[S^2 = \frac{1}{n - 1} \sum_{i=1}^n (X_i - \bar{X})^2
\]
我们要证明的是:无偏方差的期望等于总体方差,即:
\[E\left( \frac{1}{n - 1} \sum_{i=1}^n (X_i - \bar{X})^2 \right) = \sigma^2
\]
🧮 二、证明过程
我们从样本方差的表达式出发:
\[\sum_{i=1}^n (X_i - \bar{X})^2
\]
展开平方项:
\[= \sum_{i=1}^n (X_i^2 - 2X_i \bar{X} + \bar{X}^2)
= \sum_{i=1}^n X_i^2 - 2\bar{X} \sum_{i=1}^n X_i + n \bar{X}^2
\]
注意到 $ \sum_{i=1}^n X_i = n \bar{X} $,代入得:
\[= \sum_{i=1}^n X_i^2 - 2\bar{X}(n \bar{X}) + n \bar{X}^2
= \sum_{i=1}^n X_i^2 - n \bar{X}^2
\]
所以:
\[\sum_{i=1}^n (X_i - \bar{X})^2 = \sum_{i=1}^n X_i^2 - n \bar{X}^2
\]
接下来求期望:
\[E\left( \sum_{i=1}^n (X_i - \bar{X})^2 \right)
= E\left( \sum_{i=1}^n X_i^2 - n \bar{X}^2 \right)
= \sum_{i=1}^n E(X_i^2) - n E(\bar{X}^2)
\]
由于 $ X_1, X_2, \dots, X_n $ 独立同分布,且 $ E(X_i) = \mu $ ,$ \text{Var}(X_i) = \sigma^2 $,所以:
$ E(X_i^2) = \text{Var}(X_i) + [E(X_i)]^2 = \sigma^2 + \mu^2 $
$ \bar{X} = \frac{1}{n} \sum_{i=1}^n X_i $,所以 $ E(\bar{X}) = \mu $ ,$ \text{Var}(\bar{X}) = \frac{\sigma^2}{n} $
因此:
\[E(\bar{X}^2) = \text{Var}(\bar{X}) + [E(\bar{X})]^2 = \frac{\sigma^2}{n} + \mu^2
\]
代入上式:
\[E\left( \sum_{i=1}^n (X_i - \bar{X})^2 \right)
= n(\sigma^2 + \mu^2) - n\left( \frac{\sigma^2}{n} + \mu^2 \right)
= n\sigma^2 + n\mu^2 - \sigma^2 - n\mu^2
= (n - 1)\sigma^2
\]
所以:
\[E\left( \frac{1}{n - 1} \sum_{i=1}^n (X_i - \bar{X})^2 \right) = \sigma^2
\]
✅ 结论
这就证明了:
样本方差 $ S^2 = \frac{1}{n - 1} \sum_{i=1}^n (X_i - \bar{X})^2 $ 是总体方差 $ \sigma^2 $ 的无偏估计。
而如果用 $ n $ 作分母,则得到的是有偏估计,其期望为:
\[E\left( \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X})^2 \right) = \frac{n - 1}{n} \sigma^2 < \sigma^2
\]
📌 总结
方差公式
是否无偏
为什么
\(\frac{1}{n}\sum(X_i-\bar{X})^2\)
❌ 有偏
低估了总体方差
\(\frac{1}{n-1}\sum(X_i-\bar{X})^2\)
✅ 无偏
修正了自由度,使得期望等于总体方差
其它:一些证明(可以忽略)
1 为什么$$ \text{Var}(\bar{X}) = \frac{\sigma^2}{n} $$
这个表示样本均值的方差。
✅ 为什么:
\[\text{Var}(\bar{X}) = \frac{\sigma^2}{n}
\]
📌 解释:
假设我们从一个总体中抽取一个大小为 $ n $ 的独立随机样本:
\[X_1, X_2, \dots, X_n
\]
每个 $ X_i $ 都来自同一个总体,具有相同的均值 $ \mu $ 和方差 $ \sigma^2 $。
样本均值为:
\[\bar{X} = \frac{1}{n} \sum_{i=1}^n X_i
\]
那么它的方差为:
\[\text{Var}(\bar{X}) = \text{Var}\left( \frac{1}{n} \sum_{i=1}^n X_i \right)
\]
利用方差的性质:
常数因子可以提出:$ \text{Var}(aX) = a^2 \text{Var}(X) $
独立变量的方差可加:$ \text{Var}(X_1 + X_2 + \cdots + X_n) = \text{Var}(X_1) + \text{Var}(X_2) + \cdots + \text{Var}(X_n) $
所以:
\[\text{Var}(\bar{X}) = \frac{1}{n^2} \sum_{i=1}^n \text{Var}(X_i)
= \frac{1}{n^2} \cdot n \sigma^2
= \frac{\sigma^2}{n}
\]
🧠 直观理解:
样本均值 $ \bar{X} $ 是所有样本点的平均值。
平均值会比单个观测值更稳定,所以它的方差会更小。
方差缩小的比例是 $ \frac{1}{n} $,因为平均了 $ n $ 个独立的观测。
📌 小结
公式
含义
\(\text{Var}(\bar{X}) = \frac{\sigma^2}{n}\)
样本均值的方差是总体方差除以样本容量 $ n $