Lecture 14 — Sampling and Sampling Distributions(第14讲——抽样与抽样分布)
1. Sampling Concepts(抽样基本概念)
Sampling(抽样)
- Selecting a subset of a population to estimate population characteristics.
- 从总体中选取样本以估计总体特征。
Sampling Distribution(抽样分布)
- Describes variation of a sample statistic (e.g., xˉ, p^) across samples.
- 描述样本统计量(如 xˉ、p^)在不同样本间的变化。
2. Finite and Infinite Populations(有限与无限总体)
Finite Population(有限总体)
- A population with a fixed number of elements (e.g., 900 applicants).
- 由固定数量成员构成的总体(如900名申请者)。
Infinite Population(无限总体)
- A process generating endless observations (e.g., incoming calls).
- 持续产生观测数据的过程(如呼叫中心来电)。
Random Sampling(随机抽样)
- Each element has an equal chance of selection; ensures unbiasedness.
- 每个个体被选中的概率相同,确保样本无偏。
3. Point Estimation(点估计)
Definition(定义)
- A single value from a sample used to estimate a population parameter.
- 用样本值来估计总体参数的单一数值。
Statistic vs Parameter(统计量与参数)
- xˉ estimates μ; p^ estimates p.
- 样本均值估计总体均值,样本比例估计总体比例。
Unbiasedness & Efficiency(无偏与有效性)
- Expected value equals true parameter; smallest variance preferred.
- 期望值等于总体真值,方差最小时估计更优。
4. Standard Error and Sampling Distribution of xˉ(样本均值的标准误差与分布)
Definition of Standard Error(标准误差定义)
- σxˉ = standard deviation of the sampling distribution of xˉ.
- 样本均值抽样分布的标准差。
- Infinite population: σxˉ=nσ
- Finite population: σxˉ=N−1N−n×nσ
Interpretation(解释)
- Smaller σxˉ means less variability and higher precision.
- 标准误差越小,变异越低,估计越精确。
5. Finite Population Correction Factor(有限总体修正系数)
Definition(定义)
- Adjusts σxˉ when sampling without replacement.
- 当无放回抽样时,用以修正标准误差。
- N−1N−n = finite population correction (FPC).
- 有限总体修正系数公式。
Application(应用)
- Apply when n/N>0.05.
- 当抽样比例大于5%时应使用。
6. Central Limit Theorem (CLT)(中心极限定理)
Concept(概念)
- As n increases, the sampling distribution of xˉ approximates normal.
- 随样本量增大,样本均值分布趋近正态。
Rules(规则)
- If population is normal → xˉ is normal for any n.
- 若总体正态,则任意样本量均成立。
- If non-normal → xˉ ≈ normal when n≥30.
- 若总体非正态,n≥30 时近似正态。
- If highly skewed → n≥50.
- 若高度偏态,样本量需至少50。
Importance(重要性)
- Foundation for inference, estimation, and hypothesis testing.
- 是统计推断与假设检验的理论基础。
7. Example: St Andrew’s College (SAT Distribution)(案例:圣安德鲁学院 SAT 分布)
Scenario(情境)
- μ=1090, σ=80, n=30.
- 样本均值 E(xˉ)=1090, 标准误差 σxˉ=14.6。
Objective(目标)
- Find P(∣xˉ−μ∣≤10).
- 求样本均值距总体均值±10的概率。
Calculation(计算)
- z=10/14.6=0.685
- P(−0.685<z<0.685)=0.7533−0.2467=0.5066
Interpretation(解释)
- Probability ≈ 0.5066 → about 50.7% of samples fall within ±10 of μ.
- 约50.7%的样本均值落在总体均值±10范围内。
8. Effect of Sample Size(样本量的影响)
Comparison (n=30 vs. n=100)(样本量比较)
- n=30: σxˉ=14.6 → P=0.5066
- n=100: σxˉ=8 → P=0.7887
Interpretation(解释)
- Larger n → smaller σxˉ → higher probability xˉ near μ.
- 样本量增大 → 标准误差减小 → 样本均值更接近总体均值。
Visual Insight(图形理解)
- Narrower curve for n=100 indicates less variability.
- 样本量100的分布曲线更窄,表示变异性更低。
9. Relationship Between Sample Size and Sampling Distribution(样本量与抽样分布的关系)
Key Relationship(核心关系)
- Larger samples reduce standard error and variability of xˉ.
- 较大样本降低标准误差与样本均值的变异性。
Mathematical Summary(数学总结)
- σxˉ∝n1
- 样本均值的标准误差与样本量平方根成反比。
Practical Implication(实践意义)
- Balance accuracy and cost when determining n.
- 研究中应权衡精度与成本,合理确定样本量。
10. Key Takeaways(核心要点总结)
1️⃣ Sampling Distribution of xˉ(样本均值分布)
- Describes variability among sample means.
- 反映样本均值的波动规律。
2️⃣ Standard Error(标准误差)
- σxˉ=nσ or adjusted with FPC.
- 可通过有限总体修正进行调整。
3️⃣ Central Limit Theorem(中心极限定理)
- Ensures xˉ approximates normal for large n.
- 保证大样本下样本均值近似正态。
4️⃣ Sample Size Effect(样本量效应)
- Increasing n reduces variability and increases reliability.
- 样本量越大,结果越稳定、置信度越高。