Lecture 15 — Interval Estimation (第15讲——区间估计)


1. Core Concepts (核心概念)

What is Interval Estimation?(什么是区间估计)

  • Provides a range for a population parameter.
  • 为总体参数提供一个区间范围。

Why Interval Estimation?(为什么需要区间估计)

  • Point estimates ignore sampling variability.
  • 点估计无法反映抽样波动。
  • Intervals quantify uncertainty.
  • 区间能量化不确定性。

Confidence Interval Structure(置信区间结构)

  • Point estimate ± margin of error
  • 点估计 ± 误差范围

2. Point Estimate vs Interval Estimate (点估计 vs 区间估计)

Point Estimate (点估计)

  • Single best guess of parameter.
  • 对总体参数的单个最佳估计。
  • No uncertainty measure.
  • 不提供不确定性。

Interval Estimate (区间估计)

  • Provides a range likely to contain μ.
  • 提供一个可能包含 μ 的区间。
  • Includes confidence level.
  • 包含置信水平。

Key Insight(关键理解)

  • Intervals communicate precision.
  • 区间揭示估计的精确度与可靠性

3. Confidence Level (置信水平)

Meaning (含义)

  • (1−α) proportion of constructed intervals contain μ in repeated sampling.
  • 重复抽样下,有 (1−α) 的区间会包含 μ。

Not Meaning (不正确的解释)

  • NOT probability μ falls in this specific interval.
  • 不是“μ 有 95% 的概率在这个区间里”。

Examples (示例)

  • 90% → Z = 1.645
  • 95% → Z = 1.96
  • 99% → Z = 2.576

Higher Confidence → Wider Interval(置信度越高 → 区间越宽)

  • Must widen interval to be more “confident”.
  • 想要更高置信度必须牺牲精确度。

4. Margin of Error (误差范围 E)

Formula (公式)

Meaning (含义)

  • Captures sampling variability of sample mean.
  • 描述样本均值的抽样误差。

Influencing Factors (影响因素)

Z-value (Z 值)

  • Higher Z → larger E
  • Z 越大 → E 越大

Standard deviation σ(总体标准差)

  • Higher σ → more variability → larger E
  • σ 越大 → 抽样波动越大 → E 越大

Sample size n(样本量)

  • Larger n → smaller SE → smaller E
  • 样本越大 → 标准误越小 → E 越小

5. Sampling Distribution of x̄ (样本均值的抽样分布)

Shape (形状)

  • Normal if population normal, or n ≥ 30.
  • 若总体正态或 n≥30,则样本均值近似正态。

Mean & Spread(均值与分散)

  • Mean = μ
  • 均值等于总体均值 μ
  • SE = σ / √n
  • 标准误为 σ / √n

Confidence Region(置信区域)

  • Middle (1−α) contains likely means.
  • 中间 (1−α) 区域包含大部分可能的均值。

Tail Areas α/2(两侧尾部 α/2)

  • Represent rare sample outcomes.
  • 表示不太可能出现的样本均值。

6. CI for μ when σ is Known (σ 已知时的均值置信区间)

Formula (公式)

Conditions (适用条件)

  • Population standard deviation known(σ 已知)
  • Population normal OR n ≥ 30
  • 总体正态或样本量足够大

Steps (步骤)

1. Compute SE(计算标准误)

2. Find Z-value(查 Z 值)

  • Based on confidence level
  • 根据置信水平查表

3. Compute E(算误差范围)

4. Build CI(构造区间)


7. Table of Z-values (Z 值表)

Confidence Level → Z value(置信水平 → Z 值)

70%

  • Z ≈ 1.04
  • 区间最窄

80%

  • Z ≈ 1.28

90%

  • Z ≈ 1.645

95%

  • Z ≈ 1.96
  • 最常用

99%

  • Z ≈ 2.576
  • 区间明显变宽

8. Interpretation of CI (置信区间的解释)

Correct Interpretation(正确理解)

  • 95% of intervals constructed this way contain μ.
  • 95% 的区间会在长期包含 μ。

Incorrect Interpretation(错误理解)

  • “μ has 95% chance to be in this range.”(错误)
  • 不是 μ 落在区间里的概率。

Two Key Insights(两个关键点)

CI is about the method(关于方法)

  • Not about μ moving.
  • μ 不会动,区间是随机的。

CI width reflects uncertainty(区间越宽 → 不确定性越大)

  • 宽区间代表更谨慎,但精确度低。

9. Fully Worked Example (完整示例题)

Given (已知)

  • n = 36
  • σ = 4,500
  • Confidence = 95% (Z = 1.96)

Step 1 — Compute SE(计算标准误)

Step 2 — Compute E(计算误差范围)

Step 3 — Construct CI(构造置信区间)

  • = (39,630, 42,570)

Interpretation(解释)

  • 95% CI suggests true μ is likely between 39,630 and 42,570.
  • 我们有 95% 信心 μ 落在 39,630 与 42,570 之间。

10. Summary of Key Takeaways (核心总结)

CI = Estimate ± Error(置信区间 = 估计值 ± 误差)

  • 区间估计比点估计更能表达不确定性。

Higher CL → Wider CI(置信度高 → 区间宽)

  • 必须牺牲精确度换取更高信心。

σ Known → Use Z(σ 已知 → 使用 Z 分布)

  • σ Unknown → use t-distribution(下一讲内容)

CI Interpretation = Method Reliability(CI 的本质是方法可靠性)

  • 不是 μ 的概率。