Q1 — Two-Sample z-Test for Mean Difference(已知σ₁、σ₂的两样本均值差z检验)
Question (EN): A researcher wants to compare the average weekly online shopping time (in hours) between male and female college students. From previous large-scale studies, it is reasonable to assume that the population standard deviations are known and stable:
- Population standard deviation for males: hours
- Population standard deviation for females: hours
The researcher takes independent random samples and obtains:
- Sample of males: , sample mean hours
- Sample of females: , sample mean hours
At the significance level, test whether there is a significant difference in the population mean weekly online shopping time between male and female students.
- State the null and alternative hypotheses.
- Compute the test statistic .
- State the critical value(s) for a two-tailed test and make a decision.
- Interpret the result in context.
📖 点击查看翻译(中文题目)
研究者想比较男生与女生大学生每周网上购物时间(小时)的平均值。根据以往大规模研究,可以认为总体标准差已知且稳定:
- 男生总体标准差: 小时
- 女生总体标准差: 小时
研究者各抽取一份相互独立的随机样本,得到:
- 男生样本:,样本均值 小时
- 女生样本:,样本均值 小时
在显著性水平 下,检验男生与女生在总体平均每周网上购物时间上是否存在显著差异。
- 写出原假设和备择假设;
- 计算检验统计量 ;
- 写出双尾检验的临界值并给出决策;
- 在题目情境下解释结论。
📖 点击查看答案(Answer)
1. Hypotheses 假设: Let = population mean weekly online shopping time for males, = population mean weekly online shopping time for females.
- Null hypothesis(原假设):
- Alternative hypothesis(备择假设,双尾):
2. Test statistic 检验统计量:
Known:
Standard error of the difference:
= \sqrt{\frac{4.0^2}{40} + \frac{5.0^2}{35}} \approx 1.06$$ Test statistic: $$z = \frac{(\bar{x}_1 - \bar{x}_2) - 0}{SE} = \frac{52.3 - 49.8}{1.06} \approx 2.37$$ --- **3. Critical values & decision 临界值与决策:** For a two-tailed test at $\alpha = 0.05$: $$z_{\alpha/2} = z_{0.025} \approx \pm 1.96$$ Observed $z \approx 2.37$ Since $2.37 > 1.96$, the test statistic falls in the **rejection region**. **Decision:** Reject $H_0$.(拒绝原假设) --- **4. Interpretation 结论解释:** At the 5% significance level, there is **statistically significant evidence** that the **population mean weekly online shopping time** for male and female college students is **different**. 在 5% 显著性水平下,有充分统计证据表明:男生与女生在总体平均每周网上购物时间上存在**显著差异**。
📝 点击查看解析(Step-by-Step Explanation 解析)
Step 1 — Why a two-sample z-test? 为什么用两样本 z 检验?
- 题目已给出: 和 为已知总体标准差;
- 关注的是两个总体均值之差 ;
- 样本来自独立样本(男生一组、女生一组)。 满足“已知总体方差的两样本均值差检验”的经典条件,因此使用两样本 z 检验。
Step 2 — Set up hypotheses 构建假设
研究问题是“男生和女生的平均网上购物时间是否不同”,因此:
- (男生与女生的总体平均时间无差异)
- (有差异,双尾)
这是典型的均值差双尾检验。
Step 3 — Compute standard error 计算标准误
当总体方差已知时,均值差的标准误为: 代入数据:
= \sqrt{\frac{16}{40} + \frac{25}{35}} \approx \sqrt{0.40 + 0.71} \approx \sqrt{1.11} \approx 1.06$$ --- **Step 4 — Compute z-statistic 计算 z 值** 均值差的检验统计量: $$z = \frac{(\bar{x}_1 - \bar{x}_2) - 0}{SE}$$ 差值: $$\bar{x}_1 - \bar{x}_2 = 52.3 - 49.8 = 2.5$$ 所以: $$z = \frac{2.5}{1.06} \approx 2.37$$ **直观理解:** 样本均值差是 2.5 小时,这个差距大约是“2.37 个标准误”那么大,已经不算小。 --- **Step 5 — Critical value & decision 临界值与决策** 对于双尾检验、$\alpha = 0.05$: $$z_{\alpha/2} = \pm 1.96$$ 比较: * 观测到的 $z \approx 2.37$ * 阈值为 $1.96$ 因为 $2.37 > 1.96$,落在“拒绝域”中,所以: * **拒绝 $H_0$** * 说明“均值完全相等”这个说法不太合理。 若计算 $p$ 值,也会发现 $p \approx 0.018 < 0.05$,同样支持拒绝 $H_0$。 --- **Step 6 — Interpretation in context 情境化解释** 统计结论必须回到题目场景: * 我们有证据认为:男生与女生在总体平均每周网上购物时间上**存在显著差异**; * 从样本均值看,男生样本均值为 52.3 小时,女生为 49.8 小时,男生略高。 但要注意: * “显著差异”只表示这种差异**不是随机抽样波动造成的可能性很小**; * 并不等于说差异“非常大”或“在实际管理中一定很重要”,实际意义还要结合情境判断。 --- **总结(Summary):** 因为 0 不在“均值差”的合理范围(对应的置信区间)内,而且 $z \approx 2.37 > 1.96$,所以在 $\alpha = 0.05$ 水平下认为男生和女生的总体平均网上购物时间存在显著差异。
Q1 — Two-Sample z-Test for Study Time Difference(已知σ₁、σ₂的两样本均值差z检验)
Question (EN): A business school wants to know whether a mobile learning app helps students spend more time studying Business Statistics per day. Past records suggest that the population standard deviations of daily study time (in hours) are stable and known:
- Population standard deviation for app users: hours
- Population standard deviation for non-users: hours
The school collects independent random samples:
- App users (Group 1): , sample mean hours
- Non-users (Group 2): , sample mean hours
At the significance level, test whether there is a significant difference in the population mean daily study time between app users and non-users.
- State the null and alternative hypotheses.
- Compute the test statistic .
- State the critical value(s) for a two-tailed test and make a decision.
- Interpret the result in context.
📖 点击查看翻译(中文题目)
一所商学院想了解手机学习 App 是否会影响学生每天学习《商业统计》的时间。以往记录表明,每日学习时间(单位:小时)的总体标准差已知且比较稳定:
- 使用 App 学生(第1组)总体标准差: 小时
- 未使用 App 学生(第2组)总体标准差: 小时
学校分别抽取两组相互独立的随机样本:
- 使用 App 的学生(第1组):,样本均值 小时
- 未使用 App 的学生(第2组):,样本均值 小时
在显著性水平 下,检验 App 用户与非用户在总体平均每日学习时间上是否存在显著差异。
- 写出原假设和备择假设;
- 计算检验统计量 ;
- 写出双尾检验的临界值并给出决策;
- 在题目情境下解释结论。
📖 点击查看答案(Answer)
1. Hypotheses 假设:
设 为使用 App 学生的总体平均每日学习时间, 为未使用 App 学生的总体平均每日学习时间。
- Null hypothesis(原假设):
- Alternative hypothesis(备择假设,双尾):
2. Test statistic 检验统计量:
已知:
标准误:
= \sqrt{\frac{1.8^2}{50} + \frac{2.0^2}{60}} \approx 0.36$$ 检验统计量: $$z = \frac{(\bar{x}_1 - \bar{x}_2) - 0}{SE} = \frac{3.9 - 3.1}{0.36} \approx \frac{0.8}{0.36} \approx 2.21$$ --- **3. Critical values & decision 临界值与决策:** 双尾检验,$\alpha = 0.05$: $$z_{\alpha/2} = z_{0.025} \approx \pm 1.96$$ 观测到的 $z \approx 2.21$。 因为 $2.21 > 1.96$,$z$ 落在**拒绝域**中。 **Decision 决策:** Reject $H_0$,拒绝原假设。 --- **4. Interpretation 结论解释:** 在 5% 显著性水平下,有**统计上显著的证据**表明:使用 App 的学生与未使用 App 的学生在**总体平均每日商业统计学习时间**上存在**显著差异**。 从样本均值看,App 用户的平均学习时间更长($3.9$ 小时 vs. $3.1$ 小时),说明使用学习 App 可能与更高的学习投入时间相关。
📝 点击查看解析(Step-by-Step Explanation 解析)
Step 1 — Why a two-sample z-test? 为什么用两样本 z 检验?
- 题目给出两个总体的标准差 为已知;
- 研究对象是两个总体均值之差 (App 用户 vs. 非用户);
- 两组样本来自不同学生群体,互相独立。 满足“已知总体标准差的两样本均值差检验”的条件,因此使用两样本 z 检验。
Step 2 — Set up hypotheses 构建假设
研究问题是“App 用户与非用户的平均学习时间是否不同”,因此选择双尾检验:
- (两组总体平均学习时间相同)
- (两组总体平均学习时间存在差异)
这是典型的“是否有差异”的均值差问题。
Step 3 — Compute standard error 计算标准误
已知总体标准差时,均值差的标准误公式为:
代入数据:
= \sqrt{\frac{3.24}{50} + \frac{4}{60}} \approx \sqrt{0.0648 + 0.0667} \approx \sqrt{0.1315} \approx 0.36$$ 标准误越小,说明样本均值差的估计越精确。 --- **Step 4 — Compute z-statistic 计算 z 值** 首先计算均值差: $$\bar{x}_1 - \bar{x}_2 = 3.9 - 3.1 = 0.8$$ 然后标准化: $$z = \frac{0.8}{0.36} \approx 2.21$$ **直观理解:** 样本均值差大约是“2.21 个标准误”,在标准正态分布下属于偏离 0 比较明显的情况。 --- **Step 5 — Critical value & decision 临界值与决策** 对于双尾检验、$\alpha = 0.05$: $$z_{\alpha/2} = z_{0.025} \approx \pm 1.96$$ 比较: * 观测到的 $z \approx 2.21$ * 临界值的绝对值为 $1.96$ 因为 $|z| = 2.21 > 1.96$,检验统计量落在**拒绝域**,所以: * **Reject $H_0$,拒绝原假设**; * 认为“两个总体均值完全相等”的说法不再合理。 如果用 p 值法,也会得到 $p < 0.05$ 的结论,同样拒绝 $H_0$。 --- **Step 6 — Interpretation in context 情境化解释** 回到题目背景: * 在 5% 的显著性水平下,我们有统计证据认为:使用 App 的学生与未使用 App 的学生在总体平均每日学习时间上存在**显著差异**; * 样本结果显示 App 用户平均学习时间更长(3.9 小时 vs. 3.1 小时),暗示学习 App 可能有助于增加学习投入; * 但“显著差异”只是统计意义上的结果,实际是否具有教育或管理上的重要性,还需结合课程难度、学生负担等进一步讨论。 --- **总结(Summary):** 因为 $z \approx 2.21$ 超过双尾检验的临界值 $1.96$,等价地说 0 不在“均值差”的合理范围内(对应的置信区间),所以在 $\alpha = 0.05$ 水平下判断 App 用户与非用户的总体平均每日学习时间存在显著差异。
Q1 — Confidence Interval for Mean Difference(两总体均值差的置信区间)
Question (EN): An instructor wants to compare the average Business Statistics exam scores between two classes that used different teaching methods.
- Class 1 (Method A): traditional lecture
- Class 2 (Method B): flipped classroom
From past semesters, it is reasonable to treat the population standard deviations as known:
- Population standard deviation for Class 1: points
- Population standard deviation for Class 2: points
This semester, the instructor collects independent random samples and obtains:
- Class 1 (Method A): , sample mean points
- Class 2 (Method B): , sample mean points
Assume exam scores are approximately normal or sample sizes are large enough.
At the significance level, construct a 95% confidence interval for the difference in population mean exam scores (Method A minus Method B), and determine whether lies inside the interval.
- Compute the standard error of ;
- Construct the 95% confidence interval for ;
- Check whether 0 is inside the interval and briefly interpret the result.
📖 点击查看翻译(中文题目)
一位教师想比较两种商业统计教学方法下学生的平均考试成绩是否存在差异:
- 班级 1(方法 A):传统面授讲授
- 班级 2(方法 B):翻转课堂
根据往届数据,可以认为两班考试成绩的总体标准差已知且稳定:
- 班级 1(方法 A)的总体标准差: 分
- 班级 2(方法 B)的总体标准差: 分
本学期,教师分别从两班抽取相互独立的随机样本,得到:
- 班级 1(方法 A):,样本均值 分
- 班级 2(方法 B):,样本均值 分
假设考试成绩近似正态,或样本量足够大。
在显著性水平 下,构造方法 A 与方法 B 的总体平均考试成绩差异 (方法 A 减去方法 B)的 95% 置信区间,并判断 0 是否落在该区间内。
要求:
- 计算样本均值差 的标准误 ;
- 构造 的 95% 置信区间;
- 判断 0 是否在区间内,并简要解释结论。
📖 点击查看答案(Answer)
1. Standard error 标准误:
已知:
两样本均值差的标准误:
所以, 分。
2. 95% confidence interval 95% 置信区间:
点估计(样本均值差):
对于 95% 置信区间,, 临界值 。
置信区间公式:
计算误差限:
因此 95% 置信区间为:
即:
3. Does 0 lie in the interval? 0 是否在区间内?
- 置信区间为 ,完全大于 0;
- 因此 0 不在区间内。
Interpretation 结论解释:
- 在 95% 置信水平下,我们认为“(两种教学方法的总体平均成绩完全相同)”不太可能;
- 区间整体为正,表示: 即传统面授方法 A 的总体平均成绩 显著高于 翻转课堂方法 B。
换句话说,在本样本和假设条件下,有统计上的证据支持:方法 A 的平均考试分数高于方法 B。
📝 点击查看解析(Step-by-Step Explanation 解析)
Step 1 — Identify the parameter & estimator 明确参数与估计量
- 目标参数: 其中 为方法 A 的总体平均考试成绩, 为方法 B 的总体平均考试成绩。
- 点估计量: 表示方法 A 样本的平均成绩比方法 B 高 7 分。
Step 2 — Choose the correct formula 选择正确公式
题目给出:
- 两个总体标准差 已知;
- 样本来自两个独立班级(独立样本);
- 关注的是“两个总体均值之差”。
所以使用“已知总体标准差的两样本均值差置信区间”:
Step 3 — Compute the standard error 计算标准误
将给定数值代入:
解释: 表示:在重复抽样的意义下,样本均值差的典型波动范围约为 2.62 分。
Step 4 — Build the 95% CI 构造 95% 置信区间
95% 置信水平 → ,
区间:
所以:
结论:
Step 5 — Use CI to judge significance 用置信区间判断显著性
- 如果 落在区间内: → 数据“与两总体均值相等”是 相容的 → 不足以认为有显著差异;
- 如果 不在区间内: → 数据与“均值相等”不太相容 → 有证据认为存在显著差异。
在本题中,区间 完全大于 0,所以:
- 方法 A 的总体平均成绩显著 高于 方法 B;
- 若换成假设检验语言,相当于在 的双尾检验下,拒绝:
Step 6 — Interpretation in context 情境化解释
在教学场景中,可以这样表述:
- 我们有 95% 的把握认为,方法 A 的总体平均考试成绩比方法 B 高约 1.9 到 12.1 分;
- 这种差异不仅在统计上显著,而且从分数差来看,在某些课程评价体系中可能具有实际意义(需要结合总分、及格线等进一步讨论)。
总结(Summary):
- 通过两样本均值差的置信区间,我们同时完成了估计(给出差异范围)和检验(判断是否包含 0);
- 本题结论:在 95% 置信水平下,传统面授方法 A 的平均考试成绩显著高于翻转课堂方法 B。
Q2 — Two-Sample z-Test for Mean Difference(已知σ₁、σ₂的两样本均值差z检验)
Question (EN): A university administrator wants to compare the average weekly online study time (in hours) on their learning platform between domestic and international Business students. From long-term records, it is reasonable to assume that the population standard deviations are known and stable:
- Population standard deviation for domestic students: hours
- Population standard deviation for international students: hours
This semester, the administrator takes independent random samples and obtains:
- Domestic students (Group 1): , sample mean hours
- International students (Group 2): , sample mean hours
Assume weekly online study time is approximately normal or the sample sizes are large enough.
At the significance level, test whether there is a significant difference in the population mean weekly online study time between domestic and international Business students.
- State the null and alternative hypotheses.
- Compute the test statistic .
- State the critical value(s) for a two-tailed test and make a decision (reject / fail to reject ).
- Interpret the result in context.
📖 点击查看翻译(中文题目)
一位大学管理员希望比较本校商科专业中,本国学生与国际学生在学校线上学习平台上的每周平均学习时间(小时)是否存在差异。 根据长期数据记录,可以认为总体标准差已知且稳定:
- 本国学生(第 1 组)的总体标准差: 小时
- 国际学生(第 2 组)的总体标准差: 小时
本学期,从两个群体中分别抽取相互独立的随机样本,得到:
- 本国学生(第 1 组):,样本均值 小时
- 国际学生(第 2 组):,样本均值 小时
假设每周线上学习时间近似服从正态分布,或样本量足够大。
在显著性水平 下,检验本国学生与国际学生在总体平均每周线上学习时间上是否存在显著差异。
要求:
- 写出原假设与备择假设;
- 计算检验统计量 ;
- 写出双尾检验的临界值并给出是否拒绝 的决策;
- 在题目情境下,用文字解释统计结论。
📖 点击查看答案(Answer)
1. Hypotheses 假设:
定义:
- :本国商科学生的总体平均每周线上学习时间;
- :国际商科学生的总体平均每周线上学习时间。
研究问题是“是否存在差异(any difference)”,因此使用双尾检验:
Null hypothesis(原假设): (本国学生与国际学生的总体平均每周线上学习时间没有差异)
Alternative hypothesis(备择假设,双尾): (两者的总体平均时间存在差异)
2. Test statistic 检验统计量 :
已知:
首先计算标准误:
= \sqrt{\frac{6.0^2}{50} + \frac{5.0^2}{60}} = \sqrt{\frac{36}{50} + \frac{25}{60}}$$ $$SE \approx \sqrt{0.72 + 0.42} = \sqrt{1.14} \approx 1.07$$ (更精确约为 $SE \approx 1.07$) 样本均值差: $$\bar{x}_1 - \bar{x}_2 = 42.0 - 39.0 = 3.0$$ z 统计量: $$z = \frac{(\bar{x}_1 - \bar{x}_2) - 0}{SE} = \frac{3.0}{1.07} \approx 2.81$$ --- **3. Critical values & decision 临界值与决策:** 双尾检验,显著性水平 $\alpha = 0.05$: $$z_{\alpha/2} = z_{0.025} \approx \pm 1.96$$ 决策规则(Decision rule): * 若 $|z| > 1.96$,则**拒绝 $H_0$**; * 若 $|z| \le 1.96$,则**不拒绝 $H_0$**。 本题中: $$|z| \approx 2.81 > 1.96$$ 因此,$z$ 落在**拒绝域**中。 **Decision 决策:** Reject $H_0$(拒绝原假设)。 --- **4. Interpretation 结论解释:** * 在 $\alpha = 0.05$ 的显著性水平下,有**统计上显著的证据**表明: 本国商科学生与国际商科学生在**总体平均每周线上学习时间**上存在**显著差异**; * 从样本均值来看: $$\bar{x}_1 = 42.0 \ \text{小时} > \bar{x}_2 = 39.0 \ \text{小时}$$ 表明本国学生的样本平均学习时间略高于国际学生。 用自然语言可以说: > 在 5% 显著性水平下,我们认为本国商科学生与国际商科学生的平均每周线上学习时间并不相同,本国学生的平均学习时间更长。 注意: * “显著差异”是**统计意义**上的结论,说明这种差异不太可能仅由随机抽样误差造成; * 是否在**教育或管理上具有实质意义**,还需要结合课程安排、学时要求等实际背景进一步讨论。
📝 点击查看解析(Step-by-Step Explanation 解析)
Step 1 — Why a two-sample z-test? 为什么用两样本 z 检验?
题目关键信息:
- 比较的是两个群体的总体均值:本国学生 vs 国际学生;
- 关注参数是均值差 ;
- 给出了两总体标准差:,且假定已知且稳定;
- 两个样本来自不同学生群体,可以视为相互独立的样本。
满足“已知 σ 的两样本均值差 z 检验”的条件,因此选用:
- Procedure:two-sample z-test for with known 。
Step 2 — Set up hypotheses 构建假设
研究问题是:“本国学生与国际学生的平均每周线上学习时间是否不同?” 关键词:any difference → 双尾检验。
设:
- :本国学生的总体平均每周线上学习时间;
- :国际学生的总体平均每周线上学习时间。
则:
原假设(无差异):
备择假设(有差异,双尾):
Step 3 — Compute the standard error 计算标准误
已知总体标准差时,两样本均值差的标准误为:
代入数值:
= \sqrt{\frac{36}{50} + \frac{25}{60}} = \sqrt{0.72 + 0.42} = \sqrt{1.14} \approx 1.07$$ 解释:$SE \approx 1.07$ 表示,在重复抽样意义下,样本均值差(本国减国际)的“典型随机波动”大约是 1 小时左右。 --- **Step 4 — Compute the z statistic 计算 z 值** 样本均值差: $$\bar{x}_1 - \bar{x}_2 = 42.0 - 39.0 = 3.0$$ 检验统计量: $$z = \frac{(\bar{x}_1 - \bar{x}_2) - 0}{SE} = \frac{3.0}{1.07} \approx 2.81$$ 直观理解: * 差了 3 小时; * 相比于随机波动的“标准单位”1.07,差距是大约 $2.81$ 个标准误,已经属于比较“极端”的结果。 --- **Step 5 — Critical value and decision 临界值与决策** 双尾检验、$\alpha = 0.05$: $$z_{\alpha/2} = z_{0.025} \approx \pm 1.96$$ 决策规则: * 若 $|z| > 1.96$,拒绝 $H_0$; * 若 $|z| \le 1.96$,不拒绝 $H_0$。 这里: $$|z| \approx 2.81 > 1.96$$ 所以: * **拒绝 $H_0$**; * 认为“两个总体均值完全相同”的假设不再合理。 若从 p 值角度看,$|z| \approx 2.81$ 对应的双尾 p 值约为 $0.005$ 左右,小于 $0.05$,同样支持拒绝 $H_0$。 --- **Step 6 — Interpretation in context 情境化解释** 统计结论要回到实际问题: * 在 5% 的显著性水平下,有充分统计证据表明: 本国学生与国际学生在总体平均每周线上学习时间上**存在显著差异**; * 从样本结果看,本国学生平均学习时间为 $42.0$ 小时,国际学生为 $39.0$ 小时,本国学生的平均线上学习时间更长。 需要注意: * “显著差异”是指在“只靠随机抽样误差”的解释下,这样的差距出现的概率很小; * 是否需要在教学资源配置、平台推广或学习支持上做出管理决策,还需要结合**实际差距的大小(3 小时)、学习目标、课程负担**等因素综合判断。 --- **总结(Summary):** * 这是一个标准的“已知总体标准差的两样本 z 检验”题; * 通过计算 $z \approx 2.81$ 并与临界值 $\pm 1.96$ 比较,我们在 $\alpha = 0.05$ 下拒绝 $H_0$; * 结论:本国与国际商科学生的总体平均每周线上学习时间在统计上存在显著差异,本国学生的平均线上学习时间更长。
Q3 — One-Sided vs Two-Sided Tests(单尾检验与双尾检验的选择)
Question (EN): A researcher is comparing the average final exam scores in Business Statistics between Class A and Class B at a university. Let
- population mean score of Class A
- population mean score of Class B
Suppose the population standard deviations are known, and a two-sample z-test for is appropriate. For each of the following research questions, decide:
- Whether the test should be left-tailed, right-tailed, or two-tailed;
- Write the correct null and alternative hypotheses in terms of ;
- Express the rejection rule using the z-statistic and the critical value(s) at significance level .
Scenarios:
(a) “Is the average score of Class A higher than that of Class B?” (b) “Is the average score of Class A lower than that of Class B?” (c) “Is there any difference in average scores between Class A and Class B?”
You only need to use a general (e.g., write or ). Do not plug in numbers.
📖 点击查看翻译(中文题目)
一位研究者正在比较某大学两门《商业统计》课程——A 班和 B 班——的期末考试平均成绩。设:
- A 班的总体平均分
- B 班的总体平均分
假设总体标准差已知,且适合使用两样本均值差的 z 检验(two-sample z-test for )。 对于下面每一个研究问题,请你判断:
- 应该使用左尾检验、右尾检验还是双尾检验;
- 写出对应的原假设 和备择假设 ,用 表示;
- 在显著性水平 下,用 z 统计量和临界值写出拒绝规则(rejection rule)。
研究情境:
(a) “A 班的期末平均分是否高于 B 班?” (b) “A 班的期末平均分是否低于 B 班?” (c) “A 班和 B 班的期末平均分之间是否存在差异?”
要求:使用一般形式的 (如 ),不用代入具体数值。
📖 点击查看答案(Answer)
Let Class A mean, Class B mean. 设 为 A 班总体平均分, 为 B 班总体平均分。
(a) “Is Class A higher than Class B?”(A 班是否更高?)
Tail type 检验类型:
- Right-tailed test(右尾检验)
Hypotheses 假设:
- Null hypothesis 原假设: (A 班平均分不高于 B 班:相同或更低)
- Alternative hypothesis 备择假设: (A 班平均分高于 B 班)
Rejection rule 拒绝规则(右尾):
- Let be the test statistic for ;
- At significance level :
(b) “Is Class A lower than Class B?”(A 班是否更低?)
Tail type 检验类型:
- Left-tailed test(左尾检验)
Hypotheses 假设:
- Null hypothesis 原假设: (A 班平均分不低于 B 班:相同或更高)
- Alternative hypothesis 备择假设: (A 班平均分低于 B 班)
Rejection rule 拒绝规则(左尾):
- Let be the test statistic: (也可写成 ,其中 为左尾的负临界值)
(c) “Any difference between Class A and Class B?”(是否存在差异?)
Tail type 检验类型:
- Two-tailed test(双尾检验)
Hypotheses 假设:
- Null hypothesis 原假设: (A 班与 B 班的总体平均分没有差异)
- Alternative hypothesis 备择假设: (A 班与 B 班的总体平均分存在差异,可能更高也可能更低)
Rejection rule 拒绝规则(双尾):
- At significance level : 或者写成:若 或 ,则拒绝 。
Summary 小结:
- “higher than”(更高)→ 右尾,;
- “lower than”(更低)→ 左尾,;
- “any difference / different from”(是否有差异)→ 双尾,。
📝 点击查看解析(Step-by-Step Explanation 解析)
核心思路:先看“问题的方向性”,再选检验形式。
1️⃣ 从文字中抓“方向词”
- “higher than / greater than / larger than” → 只关心“是否更大” → 右尾检验;
- “lower than / smaller than” → 只关心“是否更小” → 左尾检验;
- “any difference / different / not equal” → 只要“不一样就算” → 双尾检验。
对应到三小问:
- (a) “higher than” → 右尾;
- (b) “lower than” → 左尾;
- (c) “any difference” → 双尾。
2️⃣ 如何写 和
一般原则:
通常表示“没有方向优势/没有差异”:
- 对“higher”问题: 说“不高于”;
- 对“lower”问题: 说“不低于”;
- 对“difference”问题: 说“相等”。
则直接反映问题本身要检验的方向:
- “higher” → ;
- “lower” → ;
- “any difference” → 。
所以:
- (a) 高不高 → 用 “> 0”; 就是“≤ 0”;
- (b) 低不低 → 用 “< 0”; 就是 “≥ 0”;
- (c) 有无差异 → 用 “≠ 0”; 就是 “= 0”。
3️⃣ 临界值与拒绝规则的记忆方法
统一思路:看图记规则(标准正态分布的左右尾或双尾)。
右尾检验(只看右边):
- 拒绝域在右尾:;
- 画图时,右侧面积为 。
左尾检验(只看左边):
- 拒绝域在左尾:;
- 左侧面积为 。
双尾检验(两边都看):
- 拒绝域在两侧: 或 ;
- 左右两边各放 。
记忆小技巧:
- “右尾检验 → 看右边 → ”;
- “左尾检验 → 看左边 → ”;
- “双尾检验 → 看两边 → ”。
4️⃣ 这类题在考试中的常见套路
老师常见的出题方式:
先给你一段英文描述:
- “test if A is better than B”
- “test if there is a difference”
让你:
- 选 one-tailed or two-tailed;
- 写出 和 ;
- 写出拒绝规则(不一定要算具体临界值)。
所以,读题时第一步一定是抓关键词:
- better / higher / larger / longer → 右尾;
- worse / lower / smaller / shorter → 左尾;
- different / any difference / not equal → 双尾。
总结(Summary):
本题不是算数题,是**“读题 → 识别方向 → 写假设”的模板题**;
掌握这一题型,会帮助你在所有“均值差检验”的题目中快速判断:
- 这是左尾?右尾?还是双尾?
- 和 应该怎么写才和题目自然语言对应。
Q4 — Choosing the Correct Test Procedure(判断使用两样本 z 检验还是 t 检验)
Question (EN): A researcher is studying Business Statistics exam scores under different teaching conditions. For each of the following scenarios, decide:
- Should the researcher use a two-sample z-test, a two-sample t-test, or neither (because the data are not two independent samples)?
- Can the two samples be treated as independent? Why or why not?
Assume exam scores are approximately normal unless stated otherwise.
Scenario (a) — Known , independent sections Two large lecture sections (Section 1 and Section 2) are taught by different instructors. From university records, the population standard deviations of exam scores for both sections are known and stable:
- Section 1: population standard deviation
- Section 2: population standard deviation
This semester, the researcher randomly selects:
- Section 1: students, sample mean
- Section 2: students, sample mean
Question:
- Which procedure is appropriate to compare the mean exam scores of the two sections?
- Are the samples independent?
Scenario (b) — Unknown , small samples, independent classes Two small Business Statistics classes (Class A and Class B) are taught with different textbooks.
- For both classes, the population standard deviations are unknown; only sample standard deviations and are available.
- Sample sizes: (Class A), (Class B).
- Students in Class A and Class B are different people with no overlap.
Question:
- Which procedure is appropriate to compare the mean exam scores: two-sample z-test or two-sample t-test?
- Are the samples independent?
Scenario (c) — Same students, before & after a workshop One group of Business Statistics students take a midterm exam, then attend an intensive revision workshop, and later take a final exam.
- The researcher wants to compare each student’s final exam score with the midterm score to see if the workshop improves performance.
- For each student, we have two scores: “before” (midterm) and “after” (final).
Question:
- Is this a situation for a two-sample z-test or two-sample t-test for ? Or is it neither?
- Are the two sets of scores independent?
📖 点击查看翻译(中文题目)
一位研究者正在研究不同教学条件下的**《商业统计》考试成绩**。对于下面每一种情境,请判断:
- 应该使用两样本 z 检验、两样本 t 检验,还是都不适用(因为数据不是两个独立样本);
- 两个样本能否视为相互独立?为什么?
若未特别说明,假设考试成绩近似正态。
情境 (a) —— 已知总体标准差,不同大班(Known , independent sections) 两个大课班级(Section 1 和 Section 2)由不同老师授课。 根据学校长期记录,这两门课的期末考试成绩总体标准差已知且稳定:
- Section 1:总体标准差
- Section 2:总体标准差
本学期,研究者随机抽样:
- Section 1: 名学生,样本均值
- Section 2: 名学生,样本均值
问题:
- 若要比较两个班级的平均考试成绩,应使用哪种检验方法?
- 这两个样本是否可以认为是独立样本?
情境 (b) —— 未知总体标准差,小样本,不同班(Unknown , small samples, independent classes) 两个小班(A 班和 B 班)使用不同教材教学《商业统计》。
- 对两个班而言,总体标准差未知,只有样本标准差 和 ;
- 样本量:(A 班),(B 班);
- A 班和 B 班的学生完全不同,没有重叠。
问题:
- 若要比较两个班的平均考试成绩,应使用两样本 z 检验还是两样本 t 检验?
- 两个样本是否独立?
情境 (c) —— 同一批学生,前后测(Same students, before & after) 一组 名学生先参加一次期中考试,之后参加一次集中的复习工作坊(revision workshop),再参加期末考试。
- 研究者希望比较每位学生的期末成绩与期中成绩,判断工作坊是否提高成绩;
- 对每个学生,都有两次考试分数:“before”(期中) 和 “after”(期末)。
问题:
- 这种数据结构适合用 的两样本 z 检验或两样本 t 检验吗?还是都不适用?
- 这两组成绩(期中 vs 期末)是否可以认为是独立样本?
📖 点击查看答案(Answer)
Scenario (a) — Known , independent sections
Procedure 方法:
- Use a two-sample z-test for the difference of means .
- 使用“已知总体标准差的两样本均值差 z 检验”。
Independence 独立性:
- Section 1 and Section 2 are different sets of students; no student appears in both sections.
- 视为两个独立样本是合理的。
Scenario (b) — Unknown , small samples
Procedure 方法:
- Population standard deviations are unknown; only sample standard deviations are available.
- Sample sizes are small ().
- Appropriate method: two-sample t-test for the difference of means .
- 应使用“两样本 t 检验”比较均值,而不是 z 检验。
Independence 独立性:
- Class A and Class B have different students with no overlap.
- The samples can be treated as independent.
- 两个班的学生不同 → 两个样本是独立样本。
Scenario (c) — Same students, before & after
Procedure 方法:
- The same students are measured twice (midterm and final).
- The two sets of scores are paired (每个学生有一对分数:期中 vs 期末)。
- This is not a situation for a “two-sample independent z- or t-test for ”.
- Instead, it is a paired-samples (matched pairs) situation; the usual method is a paired t-test on the differences.
- 因此,本题不适合用“独立样本的两样本 z/t 检验”,而应使用“配对 t 检验”(对每个学生的“期末 − 期中”差值做单样本 t 检验)。
Independence 独立性:
- Midterm and final scores for the same student are not independent; they are linked by the student.
- So the two sets of data are not independent samples.
- 由于“期中分数”和“期末分数”来自同一批学生,属于配对数据,不能当成独立样本。
📝 点击查看解析(Step-by-Step Explanation 解析)
1️⃣ 先看三个核心判断维度
对于“均值差”题目,选择 z 检验还是 t 检验,通常看三件事:
是否比较两个总体均值?
- 是 → 考虑两样本均值差检验;
- 否 → 可能是单样本、比例、回归等别的检验。
两个样本是否独立?
- 独立样本 → 两样本独立检验(two-sample test);
- 同一对象前后测 / 成对数据 → 配对检验(paired test),而不是“独立两样本”。
总体标准差是否已知?样本量大小?
- 已知 → 两样本 z 检验;
- 未知 、只有 → 一般用 t 检验(尤其是小样本)。
2️⃣ 情境 (a):典型“两样本 z 检验”模板
- 已知:,且是长期稳定的记录;
- 两个班的学生不同 → 独立样本;
- 要比较的是 (两个班的平均成绩)。
所以,完全符合:
“已知总体标准差的两样本均值差 z 检验”
这类就是我们课上反复练的 ABC 电池寿命、TOEFL 成绩那一类题。
3️⃣ 情境 (b):未知 σ + 小样本 → 两样本 t 检验
关键点:
- 总体标准差未知,只知道样本标准差 ;
- 样本量比较小(18 和 16),不能直接依赖 CLT 用 z;
- 两个班的学生不同 → 独立样本;
- 目标仍然是比较均值差 。
因此:
- 此时不能用“已知 σ 的 z 检验”,而要用“两样本 t 检验”;
- 就是课本里“unknown with two independent samples”那一节的内容。
4️⃣ 情境 (c):配对数据 ≠ 两个独立样本
这里很容易踩坑:
- 形式上看,确实有两组“分数”:期中 vs 期末;
- 但每一个期中分数都和同一个学生的期末分数配对,不是独立抽来的两个样本。
所以:
不满足“两个独立样本”的前提;
若硬用两样本 z 或 t,会忽略配对结构的信息,降低检验的有效性;
正确思路:
- 对每个学生算“差值”:
- 再对 做单样本 t 检验(检验均值是否为 0);
- 这就是所谓的 paired t-test(配对 t 检验)。
5️⃣ 小结(考试记忆版)
- 已知 σ,独立两组人,比较均值差 → 两样本 z 检验;
- 未知 σ,只有样本 s,独立两组人,比较均值差 → 两样本 t 检验;
- 同一批人前后测 / 一对一匹配的数据 → 配对 t 检验,不是“独立两样本检验”。
如果考试题说:
“σ is known and the two samples are independent”
几乎可以秒选:two-sample z-test for 。 如果说:
“σ is unknown, only from small samples”
几乎就是:two-sample t-test。
Q5 — Formulating Hypotheses for Two-Sample Mean Tests(两样本均值检验的假设写法)
Question (EN): For each of the following situations, you want to compare two population means using a two-sample test for .
Let and be the population means defined in each scenario. For each scenario, do the following:
- Specify whether the test is left-tailed, right-tailed, or two-tailed.
- Clearly define and .
- Write the null hypothesis and the alternative hypothesis in terms of .
You do not need to calculate any test statistic.
(a) Product lifetime(产品寿命) A company develops a new battery Model A and wants to test if it lasts longer (has a higher average lifetime in hours) than the existing Model B.
- population mean lifetime of Model A
- population mean lifetime of Model B
Formulate and .
(b) Exam scores(考试成绩差异) An instructor wants to know whether there is any difference in the average Business Statistics final exam scores between Section 1 and Section 2.
- population mean exam score of Section 1
- population mean exam score of Section 2
Formulate and .
(c) Customer satisfaction(顾客满意度是否较低) A manager is concerned that the average customer satisfaction score (on a 1–10 scale) at Store X may be lower than at Store Y.
- population mean satisfaction score at Store X
- population mean satisfaction score at Store Y
Formulate and .
📖 点击查看翻译(中文题目)
对于下面每一种情境,你都要比较两个总体均值,准备使用两样本均值差检验(two-sample test for )。
设每个情境中都定义好 和 。 对每个情境,请你完成:
- 判断检验应该是左尾、右尾还是双尾;
- 明确写出 、 各代表什么总体均值;
- 用 的形式写出原假设 和备择假设 。
不需要计算任何检验统计量。
(a) 产品寿命(Product lifetime) 一家公司开发了新的电池 型号 A,想检验它的平均寿命(小时)是否比原有型号 B 更长。
- 型号 A 电池的总体平均寿命
- 型号 B 电池的总体平均寿命
写出 和 。
(b) 考试成绩差异(Exam scores) 一位老师想知道,第 1 班(Section 1)和第 2 班(Section 2)在《商业统计》期末考试的平均成绩是否存在任何差异。
- 第 1 班的总体平均期末成绩
- 第 2 班的总体平均期末成绩
写出 和 。
(c) 顾客满意度是否较低(Customer satisfaction) 一位经理担心 X 门店的顾客满意度(1–10 分)可能低于 Y 门店。
- X 门店的总体平均满意度评分
- Y 门店的总体平均满意度评分
写出 和 。
📖 点击查看答案(Answer)
(a) Product lifetime(产品寿命)
Direction 方向: “Model A lasts longer than Model B” → 只关心 A 是否更大 → right-tailed test(右尾检验)。
Parameters 参数定义:
- mean lifetime of Model A
- mean lifetime of Model B
Hypotheses 假设:
- Null hypothesis 原假设(“不比它好”/“至少不更长”):
- Alternative hypothesis 备择假设(“更长”):
(b) Exam scores(考试成绩差异)
Direction 方向: “any difference in average scores” → 任意方向都算差异 → two-tailed test(双尾检验)。
Parameters 参数定义:
- mean exam score of Section 1
- mean exam score of Section 2
Hypotheses 假设:
- Null hypothesis 原假设(“没有差异”):
- Alternative hypothesis 备择假设(“存在差异”):
(c) Customer satisfaction(顾客满意度是否较低)
Direction 方向: “Store X may be lower than Store Y” → 只关心 X 是否更低 → left-tailed test(左尾检验)。
Parameters 参数定义:
- mean satisfaction score at Store X
- mean satisfaction score at Store Y
Hypotheses 假设:
- Null hypothesis 原假设(“并不更低”/“至少不差”):
- Alternative hypothesis 备择假设(“更低”):
简表总结:
Scenario Key phrase (关键词) Tail 尾部 (a) “lasts longer” 更长 右尾 (b) “any difference” 差异 双尾 (c) “may be lower” 更低 左尾
📝 点击查看解析(Step-by-Step Explanation 解析)
思路:先看“语言方向”,再写 和 。
1️⃣ 三种典型表达与三种检验
- “A is higher than B / lasts longer / greater” → 只在意 A 是否更大 → 右尾检验 →
- “A is lower than B / smaller / worse” → 只在意 A 是否更小 → 左尾检验 →
- “any difference / different / not equal” → 只要不一样就算 → 双尾检验 →
对应到本题:
- (a) “lasts longer” → 高不高 → 右尾;
- (b) “any difference” → 有无差异 → 双尾;
- (c) “may be lower” → 低不低 → 左尾。
2️⃣ 为什么 要“反方向”?
经验法则:
备择假设 直接对应研究问题想证明的方向;
原假设 一般是“没有优势 / 没有差异 / 不更好”的那一边:
- 想证“更高” → ,于是 就写成“不高于”:;
- 想证“更低” → ,于是 就写成“不低于”:;
- 想证“有差异” → ,于是 就写成“相等”:。
这样,如果数据足够“偏向”你想要的方向,就会拒绝 ,转而支持 。
3️⃣ 考试时的快速判断小技巧
看到题目里的英文关键词,可以心里默念:
- “higher / longer / greater / more” → 右尾 → ;
- “lower / smaller / less” → 左尾 → ;
- “any difference / different / not equal” → 双尾 → 。
再把 写成“与 相反的情况”即可。
总结(Summary): 本题专门练习“从文字句子 → 正确写出 和 ”。 这一步是所有假设检验题的基础,写对之后,后面算 或 、画拒绝域、判断 p 值才有意义。
好~我把那两行公式改成标准的行内 LaTeX 形式,再把整道 Q6 重新整理给你👇
Q6 — Interpreting p-value and Significance Level(p 值与显著性水平的比较与结论)
Question (EN): A researcher performs a two-sample z-test for the difference in mean Business Statistics scores between two teaching methods. The test statistic is:
For a two-tailed test, the computer output reports:
- p-value = 0.036
Answer the following questions:
- At significance level , should the researcher reject or fail to reject ? Why?
- At significance level , should the researcher reject or fail to reject ? Why?
- In general, if p-value , what does that mean about the strength of evidence against ?
- In general, if p-value , can we reject ? How should we interpret this situation?
📖 点击查看翻译(中文题目)
一位研究者进行了一次两样本 z 检验,比较两种不同教学方法下《商业统计》考试的平均成绩差异。检验统计量为:
对于双尾检验,电脑输出结果为:
- p-value = 0.036
回答下列问题:
- 在显著性水平 下,研究者应当拒绝还是不拒绝 ?说明原因。
- 在显著性水平 下,研究者应当拒绝还是不拒绝 ?说明原因。
- 一般来说,当 p-value 时,这对反对原假设 的证据强弱说明了什么?
- 一般来说,当 p-value 时,我们能否拒绝 ?应该如何解释这种情况?
📖 点击查看答案(Answer)
1. Decision at (在 时):
已知:p-value = 0.036,。 比较:
因为 p 值 小于 显著性水平:
- 在 5% 的显著性水平下,我们拒绝 ;
- 认为两种教学方法的总体平均成绩存在统计上显著的差异。
2. Decision at (在 时):
现在:p-value = 0.036,。 比较:
因为 p 值 大于 显著性水平:
- 在 1% 的显著性水平下,没有足够证据拒绝 ;
- 所以在 下,我们应当不拒绝 。
换句话说:如果你要求证据“强到只允许 1% 的误判风险”,目前的结果还不够强。
3. When p-value (p 值小于 α 时):
一般来说,如果:
则表示:
- 在假设 为真时,出现现在这样“至少这么极端”结果的概率小于 α,比较罕见;
- 数据对原假设 提供了较强的反对证据。
因此:
- 我们通常的结论是:Reject (拒绝原假设);
- 认为结果在显著性水平 下是statistically significant(统计显著)。
4. When p-value (p 值大于 α 时):
如果:
则说明:
- 在 为真时,观测到当前这样的样本结果并不罕见;
- 数据对 的反对证据不够强。
决策:
我们不拒绝 (fail to reject );
但这并不等于“证明 为真”,而是:
在给定样本和显著性水平下,证据不足以推翻原假设。
换成一句话:
- p-value < α → 拒绝 ,证据足够强;
- p-value > α → 不拒绝 ,证据不够强(但不是证明 一定正确)。
📝 点击查看解析(Step-by-Step Explanation 解析)
Step 1 — p-value 的直观意义
p 值是在“原假设 为真”的前提下,
得到当前这样“至少同样极端”的样本结果的概率。
所以:
- p 值越小 → 这样的结果在 为真时越“不可能” → 对 的反对证据越强;
- p 值越大 → 这样的结果在 为真时很常见 → 没什么理由怀疑 。
Step 2 — 为什么同一个 p 值,对不同 α 会有不同结论?
本题 p-value = 0.036:
若 :
- 接受“只要这件事发生的概率 ≤ 5% 就可以认为足够罕见”;
- 0.036 小于 0.05 → 视为“足够罕见” → 拒绝 。
若 :
- 要求“发生概率 ≤ 1% 才算罕见”;
- 0.036 大于 0.01 → 还称不上“极罕见” → 不拒绝 。
也就是说,α 是你自己定的“严格程度”:
- α 越小,你越保守,越难拒绝 。
Step 3 — “不拒绝 ” 的正确解读
- 不拒绝 只表示:“在当前样本和 α 下,证据不够强”;
- 绝不是:“已经证明 完全正确”。
可以类比法庭:
- “证据不足以定罪” ≠ “证明被告 100% 清白”;
- 统计上同理,“fail to reject ” ≠ “prove is true”。
Step 4 — 考试可以直接背的两句模板
若 p-value < α:
We reject and conclude that the result is statistically significant at the level. 我们拒绝原假设,认为在显著性水平 α 下结果具有统计显著性。
若 p-value > α:
We fail to reject ; there is not enough evidence to support at the level. 我们不拒绝原假设,在显著性水平 α 下没有足够证据支持备择假设。
这两句话基本可以 1:1 套到所有 p 值判断题里。
好的,我把那几处 LaTeX 全部改成正常行内/行间形式,再把整道 Q7 重新排好给你👇
Q7 — Interpreting a Confidence Interval for Mean Difference(均值差置信区间的解释)
Question (EN): A study compares the average daily time spent on a learning app (in minutes) between Business students (Group 1) and Non-Business students (Group 2).
Using a two-sample z procedure with known population standard deviations, the researcher obtains the following 95% confidence interval for the difference in population means (Business − Non-Business):
- 95% CI for μ₁ − μ₂ = (−2.3, 5.7)
Answer the following questions:
-
Interpret this confidence interval in plain English: what does it say about the possible values of μ₁ − μ₂?
-
At the α = 0.05 significance level for a two-tailed test of
- H₀: μ₁ − μ₂ = 0 vs. H₁: μ₁ − μ₂ ≠ 0, should we conclude that there is a significant difference between the two population means? Explain using the interval.
-
Based on this interval, is there clear evidence that Business students spend more time on the app than Non-Business students? Why or why not?
📖 点击查看翻译(中文题目)
一项研究比较商科学生(第 1 组)与非商科学生(第 2 组)在某学习 App 上的每天平均使用时间(分钟)。 在已知总体标准差的前提下,研究者使用两样本 z 方法,得到总体均值差 μ₁ − μ₂(商科 − 非商科)的 95% 置信区间:
- 95% 置信区间:μ₁ − μ₂ = (−2.3, 5.7)
回答下列问题:
用通俗英文解释这个置信区间:它对 μ₁ − μ₂ 的可能取值说明了什么?
在显著性水平 α = 0.05、双尾检验
- H₀: μ₁ − μ₂ = 0,H₁: μ₁ − μ₂ ≠ 0 的情形下,能否认为两总体均值存在显著差异?请结合置信区间解释。
根据该区间,是否有明确证据表明商科学生的平均使用时间更长?为什么?
📖 点击查看答案(Answer)
1. Interval interpretation 区间解释:
95% CI for μ₁ − μ₂ = (−2.3, 5.7) 意味着: 在重复抽样的框架下,我们有大约 95% 的把握认为,商科学生与非商科学生在 App 上的总体平均每天使用时间之差(商科 − 非商科)在 −2.3 分钟到 5.7 分钟之间。
换句话说:
- 真实的差值 μ₁ − μ₂ 可能略为负(商科学生用得更少),
- 也可能为正(商科学生用得更多),
- 但“合理范围”大致在 −2.3 到 5.7 分钟之间。
2. Significant difference at α = 0.05? 是否存在显著差异?
我们要检验:
- H₀: μ₁ − μ₂ = 0(两组总体平均使用时间相同)
- H₁: μ₁ − μ₂ ≠ 0(两组总体平均使用时间不同,双尾)
利用置信区间判断的原则是:
- 如果 0 不在 95% CI 中 → 在 α = 0.05 下拒绝 H₀;
- 如果 0 在 95% CI 中 → 在 α = 0.05 下不拒绝 H₀。
在本题中,区间是 (−2.3, 5.7),显然:
- 0 落在 (−2.3, 5.7) 之内。
因此:
- 我们在 α = 0.05 的双尾检验下,不能拒绝 H₀;
- 也就是说,没有足够证据表明两组总体平均使用时间存在统计上显著的差异。
3. Do Business students clearly spend more time? 商科学生是否明显用得更多?
要得出“商科学生用得更多”的结论,需要:
- μ₁ − μ₂ > 0,
- 且整个置信区间都在 0 的右边(例如 (1.0, 6.0) 这种“全为正”的区间)。
但现在的区间 (−2.3, 5.7):
- 包含负值(表示有可能是商科学生用得更少),
- 也包含正值(有可能是商科学生用得更多),
- 还包含 0(有可能差别很小甚至没有差别)。
所以:
- 没有清晰证据表明商科学生一定用得更多;
- 我们只能说:在 95% 置信水平下,数据不足以说明两组在平均使用时间上有显著差异。
一句英文总结:
Because the 95% confidence interval for μ₁ − μ₂ includes 0 and contains both negative and positive values, we cannot conclude that Business students spend more time on the app than Non-Business students.
中文总结:
由于 μ₁ − μ₂ 的 95% 置信区间跨过 0,我们既不能认为商科学生显著用得更多,也不能认为非商科学生显著用得更多;当前样本并未显示出明显的均值差异。
📝 点击查看解析(Step-by-Step Explanation 解析)
Step 1 — 看区间位置:全正 / 全负 / 跨 0
- 全正(例如 (1, 6))→ μ₁ − μ₂ 明显大于 0 → 第 1 组均值显著更大;
- 全负(例如 (−7, −2))→ μ₁ − μ₂ 明显小于 0 → 第 1 组均值显著更小;
- 跨 0(例如 (−2.3, 5.7))→ 既有正也有负 → 谁更大不确定。
本题属于第三种情况。
Step 2 — 用 CI 与假设检验做对应
对 H₀: μ₁ − μ₂ = 0 进行 α = 0.05 的双尾检验时:
- 95% CI 不包含 0 → 拒绝 H₀;
- 95% CI 包含 0 → 不拒绝 H₀。
这里 0 在 (−2.3, 5.7) 内 → 不拒绝 H₀ → 无显著差异。
Step 3 — 模板句记忆
英文:
Because 0 lies inside the 95% confidence interval for μ₁ − μ₂, we fail to reject H₀ at the 5% significance level and conclude that there is no statistically significant difference between the two population means.
中文:
由于 0 落在 μ₁ − μ₂ 的 95% 置信区间内,在 5% 显著性水平下我们不拒绝原假设,认为两总体平均值之间没有统计上显著的差异。
这句话几乎可以直接套到所有“给你 CI,问你是否存在显著差异”的题目上。
Q8 — Business Interpretation of a Two-Sample z-Test(两样本 z 检验的商业含义解释)
Question (EN): A company sells two versions of an online learning app:
- Version A: with gamification features (badges, points, leaderboards)
- Version B: basic version without gamification
The company wants to know whether Version A keeps users engaged longer per week than Version B.
From previous large-scale data, assume population standard deviations are known:
- Population standard deviation of weekly usage time for Version A: hours
- Population standard deviation of weekly usage time for Version B: hours
This month, the company takes independent random samples of active users:
- Version A: , sample mean hours/week
- Version B: , sample mean hours/week
At significance level , they test
- (Version A has a higher mean weekly usage time)
After computing, they obtain a test statistic of
Use this information to answer:
- At , what is the critical value for this right-tailed test, and do we reject or fail to reject ?
- Briefly state the statistical conclusion (in one English sentence).
- Write a business/management conclusion in plain English, explaining what this result suggests about whether the company should promote Version A as “more engaging”. Mention both the benefit and at least one caution/limitation.
📖 点击查看翻译(中文题目)
一家公司销售两种版本的在线学习 App:
- 版本 A:带有游戏化功能(徽章、积分、排行榜);
- 版本 B:不含游戏化功能的基础版。
公司想知道:版本 A 是否能让用户每周停留时间更长。
根据以往大规模数据,可以认为总体标准差已知:
- 版本 A 每周使用时长的总体标准差: 小时
- 版本 B 每周使用时长的总体标准差: 小时
本月,公司从活跃用户中抽取相互独立的随机样本:
- 版本 A:,样本均值 小时/周
- 版本 B:,样本均值 小时/周
在显著性水平 下,公司检验:
- (两版本的总体平均使用时长相同)
- (版本 A 的总体平均使用时长更长,右尾检验)
计算得到的检验统计量为:
请根据以上信息回答:
- 在 的右尾检验中,临界值是多少?应该拒绝还是不拒绝 ?
- 用一句英文给出统计结论。
- 用通俗英文写出一个商业/管理结论:这个结果对公司是否可以把版本 A 宣传为 “更有粘性、更能留住用户” 有何启示?同时指出一个好处和至少一个注意点/局限性。
📖 点击查看答案(Answer)
1. Critical value and decision 临界值与决策
这是一个显著性水平 的右尾检验。
对标准正态分布,右尾 5% 的临界值约为:
决策规则:
- 如果 ,则拒绝 ;
- 如果 ,则不拒绝 。
现在观测到的统计量:
- ,显然:
因此:
- 我们在 水平下 拒绝 ,支持 。
- 统计上有足够证据认为:。
2. Statistical conclusion(统计结论)
A clear English sentence:
At the 5% significance level, we reject the null hypothesis and conclude that the population mean weekly usage time for Version A is significantly higher than that for Version B.
中文对应:
在 5% 的显著性水平下,我们拒绝原假设,认为版本 A 的总体平均每周使用时长显著高于版本 B。
3. Business/management conclusion(商业/管理结论)
Possible good answer in English:
The statistical result suggests that users of the gamified Version A, on average, spend more time on the app each week than users of the basic Version B. From a business perspective, this provides evidence that gamification features may increase user engagement and could justify investing more in promoting Version A or rolling out similar features to more users. However, the company should also be cautious: this is only one study with sampled users, it does not measure long-term retention or revenue, and other factors (such as marketing campaigns or user type differences) might partly explain the higher usage time.
中文要点:
结果说明:版本 A 用户平均每周使用时间更长,有统计支持;
商业好处:可把游戏化功能作为“提升粘性”的卖点,考虑加大推广或将功能扩展到更多用户;
需要注意的局限:
- 只是一次抽样研究,不一定代表未来所有时间;
- 只看“使用时长”,没看留存、付费等更终极的指标;
- 可能还有其他混杂因素(营销力度不同、用户群体本身不同)影响结果。
一个简短中英总结句:
- EN: The test supports the claim that Version A is more engaging, but the company should treat this as evidence, not proof, and should confirm it with more data and business metrics.
- CN: 检验结果支持“版本 A 更有粘性”这一说法,但这只是证据而不是绝对证明,公司仍需结合更多数据和商业指标做进一步验证。
📝 点击查看解析(Step-by-Step Explanation 解析)
Step 1 — 识别检验类型
- 比较两个版本的平均使用时长 → 参数是 ;
- 已知 ,样本独立 → 标准的两样本 z 检验;
- 研究问题是“Version A 是否更好(更长)” → 右尾检验。
Step 2 — 从 z 到决策
- 右尾检验、 → 临界值约 1.645;
- 若 ,则落在“右侧 5% 的拒绝域” → 拒绝 。
- 题中给出 ,明显超过 1.645 → 拒绝 。
同时也可以用 p 值思路理解:
- 的右尾 p 值约为 0.009(小于 0.05);
- p-value < α → 拒绝 。
Step 3 — 把统计结论翻译成商业语言
考试/作业中经常会要求“用商业语言写结论”,套路是:
先用一句“统计结论”:
- “… we reject the null hypothesis and conclude that the mean usage time for Version A is significantly higher …”
再用 2–3 句解释对企业的含义:
- 这说明 A 版用户更粘;
- 可以考虑优先推广 A 版、加强游戏化设计;
- 但也要注意样本、时间、其他指标等局限。
你可以记一个固定结构:
(1) The test result is statistically significant at the α level, so we (reject / fail to reject) H₀. (2) This suggests that [business interpretation of μ₁ and μ₂]. (3) However, this conclusion is based on sample data and does not account for [limitations such as time period, other factors, or different user groups].
用这三个句型就可以把“数学 → 商业结论”的题目稳定拿分了。
Q9 — Designing a Two-Sample z-Test for Mean Difference(设计两样本均值差 z 检验)
Question (EN): You are a data analyst for a coffee chain. The company wants to compare the average customer satisfaction score (1–10 scale) between Branch A and Branch B.
From past large-scale surveys, it is reasonable to treat the population standard deviations as known and stable:
- Population standard deviation at Branch A:
- Population standard deviation at Branch B:
This month, the company collects independent random samples:
- Branch A: , sample mean satisfaction
- Branch B: , sample mean satisfaction
The manager’s research question is:
“Is the average satisfaction at Branch A higher than at Branch B?”
At significance level :
- Clearly define the parameters and .
- State which statistical procedure is appropriate (two-sample z-test or two-sample t-test?) and why.
- Write the null hypothesis and the alternative hypothesis in terms of .
- State whether this is a left-tailed, right-tailed, or two-tailed test.
📖 点击查看翻译(中文题目)
你是一家连锁咖啡店的数据分析师。公司想比较A 门店和B 门店的顾客平均满意度评分(1–10 分量表)。
根据以往大规模调查,可以认为两家门店的总体标准差已知且稳定:
- A 门店总体标准差:
- B 门店总体标准差:
本月,公司从两家门店分别抽取相互独立的随机样本:
- A 门店:,样本平均满意度
- B 门店:,样本平均满意度
经理关心的问题是:
“A 门店的平均满意度是否高于 B 门店?”
在显著性水平 下:
- 明确定义参数 和 分别代表什么。
- 指出应该使用哪一种统计方法(两样本 z 检验还是两样本 t 检验?)并说明理由。
- 用 的形式写出原假设 和备择假设 。
- 判断这是左尾、右尾还是双尾检验。
📖 点击查看答案(Answer)
1. Parameters 参数定义
- : the population mean satisfaction score for customers at Branch A. :A 门店顾客的总体平均满意度评分。
- : the population mean satisfaction score for customers at Branch B. :B 门店顾客的总体平均满意度评分。
2. Appropriate procedure 合适的检验方法
Conditions:
- We compare two population means and .
- The samples from Branch A and Branch B are independent (different customers).
- The population standard deviations and are known from past data.
Therefore, the appropriate method is a two-sample z-test for the difference of means:
- 使用“已知总体标准差的两样本均值差 z 检验”来比较 。
3. Hypotheses 假设
Research question: “Is Branch A higher than Branch B?” → we test whether is greater than .
Null hypothesis(原假设,表示“并不更高”): A 门店的平均满意度不高于 B 门店(相同或更低)。
Alternative hypothesis(备择假设,表示“更高”): A 门店的平均满意度高于 B 门店。
4. Tail of the test 检验的尾部类型
- Because we only care whether Branch A is higher than Branch B (not “different in any direction”), this is a right-tailed test.
- 由于只关心“A 是否更高”,这是一个右尾检验。
简要总结:
Procedure: Two-sample z-test for with known .
Hypotheses:
Tail: Right-tailed test.
这样就完成了“根据情境设计一个两样本 z 检验”的三步: 1)定义参数;2)选对方法;3)写对假设和尾部方向。
📝 点击查看解析(Step-by-Step Explanation 解析)
Step 1 — 先看“比较什么” → 决定是两样本均值差
题目比较的是“两个门店的平均满意度” → 明确是比较两个总体均值;
所以参数自然设置为:
- A 门店的总体平均评分;
- B 门店的总体平均评分。
Step 2 — 判断用 z 还是 t
两个关键问题:
样本是否独立?
- A 门店和 B 门店的顾客不同 → 独立样本。
总体标准差是否已知?
- 题目说可以把 和 看作已知且稳定。
满足“已知 + 两个独立样本 + 比较均值差”的条件 → 两样本 z 检验是正确选择。
如果题目改成:
- “总体标准差未知,只知道样本标准差 ,而且样本量不大”, 那就会变成“两样本 t 检验”的题型。
Step 3 — 从文字判断尾部方向
问题是:
“Is the average satisfaction at Branch A higher than at Branch B?”
关键字:higher than → 只关心 A 是否更高 → 右尾检验。
这时的写法套路:
- 备择假设直接写成: 对应“更高”。
- 原假设写成“反方向 + 包含等号”,即: 表示“不高于”(相等或更低)。
考试时,记住这张小“对照表”非常有用:
- “higher than / greater than / longer than” → 右尾 → ;
- “lower than / smaller than” → 左尾 → ;
- “any difference / different” → 双尾 → 。
Step 4 — 把整题总结为一个“设计模板”
今后遇到类似“设计统计检验”的题,可以按以下模板作答:
Define parameters:
- population mean of group 1;
- population mean of group 2.
Choose procedure:
- If known and samples independent → two-sample z-test for ;
- If unknown → two-sample t-test (independent) or paired t-test (配对)。
Write hypotheses and tail type based on the wording (“higher”, “lower”, “any difference”).
把这个套路背熟,你就能很快把文字情境翻译成“正确的统计检验设计”。
Q10 — Using a Confidence Interval to Make a Test Decision(用置信区间判断检验结论)
Question (EN): A researcher compares the average weekly study time (in hours) between online course students (Group 1) and traditional classroom students (Group 2).
Using a two-sample procedure with known population standard deviations, she obtains the following 95% confidence interval for the difference in population means (online − traditional):
- 95% CI for is .
Consider the two-tailed hypothesis test
- .
Answer the following:
- At significance level , should we reject or fail to reject using only this confidence interval? Explain clearly.
- What does your decision say about whether there is a statistically significant difference in mean weekly study time between online and traditional students?
- Suppose instead we used a 90% confidence interval for . Would that interval be wider or narrower than the 95% interval above? For a two-tailed test at , would it become easier or harder to reject ? Briefly explain.
📖 点击查看翻译(中文题目)
一位研究者比较线上课程学生(第 1 组)与传统课堂学生(第 2 组)每周的平均学习时间(小时)。 在已知总体标准差的前提下,她用两样本 方法,得到总体均值差 (线上 − 传统)的 95% 置信区间:
- 95% 置信区间:
考虑如下双尾检验:
回答:
- 在显著性水平 下,只利用这个置信区间,我们应该拒绝还是不拒绝 ?请解释。
- 你的结论对“线上与传统学生的平均每周学习时间是否存在统计显著差异”说明了什么?
- 如果改用 90% 置信区间来估计 ,该区间会比上面的 95% 区间更宽还是更窄?对于显著性水平 的双尾检验,是更容易还是更难拒绝 ?简要说明理由。
📖 点击查看答案(Answer)
1. Decision at using the 95% CI
The 95% confidence interval for is .
For a two-tailed test at :
- If is not in the 95% CI → reject ;
- If is in the 95% CI → fail to reject .
Here is inside the interval: [ 0 \in (-1.5,\ 0.8). ] So we fail to reject at the 5% significance level.
2. Is there a statistically significant difference?
Because we fail to reject at :
- There is no statistically significant evidence of a difference in the population mean weekly study time between online and traditional students.
- The value (no difference) is compatible with the data, since it lies inside the 95% CI.
中文:在 5% 显著性水平下,样本数据没有显示线上与传统学生的平均每周学习时间存在显著差异。
3. Effect of using a 90% CI and
- A 90% confidence interval is narrower than a 95% confidence interval (更窄), because we accept less confidence.
- For a two-tailed test at , the decision rule is equivalent to checking whether 0 is inside the 90% CI.
- Since the 90% CI is narrower, there is a greater chance that 0 will fall outside it compared with the 95% CI.
Therefore:
- At (using a 90% CI), it becomes easier to reject than at (using a 95% CI).
- Intuitively, a larger means a less strict standard for declaring statistical significance.
总结:
- 90% CI 比 95% CI 更窄;
- 对应的 检验比 更容易拒绝 。
📝 点击查看解析(Step-by-Step Explanation 解析)
Step 1 — CI 与双尾检验的对应关系
对于 [ H_0:\ \mu_1 - \mu_2 = 0,\quad H_1:\ \mu_1 - \mu_2 \neq 0, ] 在显著性水平 下:
- 使用 置信区间检查 0 是否在区间内 ⇔ 使用临界值法或 p 值法做双尾假设检验。
所以这里的 95% CI 正好对应 。
Step 2 — 为什么 0 在区间内就“不拒绝 ”?
95% CI 的含义:在重复抽样的长期频率意义下,有 95% 的样本会给出包含真实参数的区间。 若 0 落在这个区间中:
- 说明“”(无差异)这一值,与当前样本数据并不矛盾;
- 因此不能说 0 “几乎不可能”,也就没有充足证据去否定 。
Step 3 — 置信水平、区间宽度与拒绝 的关系
- 降低置信水平(95% → 90%) → 区间变更窄;
- 区间更窄 → 更容易把某些值(包括 0)排除在外;
- 对应地, 从 0.05 变 0.10(更大) → 检验标准更宽松 → 更容易拒绝 。
记忆口号:
- 高置信度(低 α) → 区间宽 → 更难拒绝 ;
- 低置信度(高 α) → 区间窄 → 更容易拒绝 。
用这个逻辑,你就能快速判断“不同置信水平 / 不同 α”对检验结论的影响。
Q11 — Comparing p-value Method and Critical-Value Method(p 值法 vs 临界值法)
Question (EN): A company compares the average processing time of online orders (in minutes) between Warehouse 1 (Group 1) and Warehouse 2 (Group 2).
Assume population standard deviations are known and the two samples are independent. A two-sample -test for the difference in means is conducted with:
-
Test statistic:
-
Significance level:
-
Two-tailed test for
Answer:
-
Critical-value method:
- Find the critical values for this two-tailed test at .
- Based on , decide whether to reject or fail to reject .
-
p-value method:
- Approximate the p-value for in a two-tailed test.
- Compare it with and make a decision.
-
Verify that the two methods lead to the same conclusion.
-
Briefly interpret the result in context: is there evidence that the mean processing times of the two warehouses are different?
📖 点击查看翻译(中文题目)
一家公司比较仓库 1(第 1 组)与仓库 2(第 2 组)的网上订单平均处理时间(分钟)。 假设两个总体的标准差已知,且样本相互独立。对均值差进行两样本 检验,得到:
检验统计量:
显著性水平:
双尾检验:
回答:
临界值法:
- 求在 的双尾检验下的临界值;
- 根据 判断应当拒绝还是不拒绝 。
p 值法:
- 近似求出 对应的双尾 p 值;
- 将 p 值与 比较并做出决策。
验证这两种方法是否得到相同结论。
在情境中解释:是否有证据表明两个仓库的平均处理时间存在差异?
📖 点击查看答案(Answer)
1. Critical-value method 临界值法
For a two-tailed test with :
Each tail has .
Critical values are:
Rejection rule:
- Reject if or .
Observed statistic:
- → lies in the rejection region.
Decision:
- Reject by the critical-value method.
2. p-value method p 值法
For :
One-tail area
So the two-tailed p-value is
- p-value .
Compare with :
- p-value
Decision:
- Reject by the p-value method.
3. Same conclusion 两种方法结论一致
- Critical-value method: reject (since is beyond 1.96).
- p-value method: reject (since p-value ).
Both methods give the same conclusion: reject the null hypothesis at the 5% significance level.
4. Interpretation in context 情境解释
At the 5% significance level:
There is statistically significant evidence that the mean order processing time in Warehouse 1 is different from that in Warehouse 2.
中文:
在 5% 显著性水平下,我们拒绝“两个仓库平均处理时间相同”的原假设,认为两个仓库的平均处理时间存在统计上显著的差异。
📝 点击查看解析(Step-by-Step Explanation 解析)
临界值法:先确定“门槛”(±1.96),再看统计量是否跨过门槛。
p 值法:先算出当前 有多“极端”(p 值),再和允许的错误概率 比较:
- p 值小于 → 认为结果“够极端” → 拒绝 。
本题中两种方法都说明:当前 在 5% 标准下足够极端 → 拒绝 。 这题的核心是体会:p 值法和临界值法只是表达方式不同,结论应当一致。
Q12 — Effect of Sample Size on Standard Error and Confidence Interval(样本量对标准误与置信区间的影响)
Question (EN): A researcher compares the average delivery time (in minutes) between Service A and Service B. Assume that population standard deviations are known and equal:
- minutes.
She considers two different study designs:
-
Design 1 (small samples):
- customers from Service A
- customers from Service B
-
Design 2 (large samples):
- customers from Service A
- customers from Service B
-
In both designs, the sample means are such that the estimated difference is the same:
- minutes.
-
She will construct a 95% confidence interval for in each design.
Answer:
-
Compute the standard error of for Design 1 and Design 2:
- for
- for
-
Which design gives a wider 95% confidence interval for ? Why?
-
In which design is it easier to find a statistically significant difference between and (at the same )? Explain using the standard errors.
📖 点击查看翻译(中文题目)
一位研究者比较快递服务 A 与 快递服务 B 的平均送达时间(分钟)。假设两个总体标准差已知且相同:
- 分钟。
她设计了两种不同的研究方案:
方案 1(小样本):
- 服务 A:
- 服务 B:
方案 2(大样本):
- 服务 A:
- 服务 B:
在两个方案中,得到的样本均值满足同样的差值:
- 分钟。
她都要构造95% 置信区间来估计 。
回答:
分别计算两种方案中样本均值差的标准误:
- 方案 1: 时的 ;
- 方案 2: 时的 。
哪个方案得到的 95% 置信区间会更宽?为什么?
在相同显著性水平下,在哪个方案中更容易发现 与 之间有统计显著差异?结合标准误解释。
📖 点击查看答案(Answer)
1. Standard errors 标准误计算
For independent samples with known standard deviations: [ SE = \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}. ]
Design 1: , [ SE_1 = \sqrt{\frac{10^2}{25} + \frac{10^2}{25}} = \sqrt{\frac{100}{25} + \frac{100}{25}} = \sqrt{4 + 4} = \sqrt{8} \approx 2.83. ]
Design 2: [ SE_2 = \sqrt{\frac{10^2}{100} + \frac{10^2}{100}} = \sqrt{\frac{100}{100} + \frac{100}{100}} = \sqrt{1 + 1} = \sqrt{2} \approx 1.41. ]
2. Which CI is wider? 哪个区间更宽?
The 95% confidence interval has the form: [ (\bar{x}*1 - \bar{x}2) \pm z{0.025} \times SE, ] where is the same in both designs.
- Design 1 uses
- Design 2 uses
Since , the margin of error is larger in Design 1, so the 95% CI in Design 1 is wider.
中文:小样本方案的标准误更大 → 误差范围更大 → 置信区间更宽。
3. In which design is it easier to find significance? 哪个方案更容易显著?
The test statistic for the difference in means is [ z = \frac{(\bar{x}_1 - \bar{x}_2) - 0}{SE}. ]
Here, 分钟在两方案中相同。
- Design 1: [ z_1 = \frac{5}{SE_1} \approx \frac{5}{2.83} \approx 1.77. ]
- Design 2: [ z_2 = \frac{5}{SE_2} \approx \frac{5}{1.41} \approx 3.55. ]
At the same and same critical values:
- A larger (in absolute value) is more likely to fall into the rejection region.
- Since , Design 2 (larger samples) makes it easier to detect a statistically significant difference.
直观总结:
- 样本量越大 → 标准误越小 → CI 越窄 → 差值同样为 5 分钟时, 值越大 → 更容易显著。
📝 点击查看解析(Step-by-Step Explanation 解析)
- 本题核心:通过具体数字体会“n ↑ → SE ↓ → 区间变窄 → 检验更有力”。
- 当差值固定时,,所以 越小, 越大,更容易超过临界值。
- 这就是为什么在现实研究中,增加样本量是提高检验能力(power)的最基本方式之一。
Q13 — Checking Assumptions for a Two-Sample z-Test(两样本 z 检验的条件判断)
Question (EN): For each scenario below, decide whether the conditions for using a two-sample z-test for the difference of means are reasonably satisfied. If not, briefly state what problem exists and which alternative procedure would be more appropriate.
Recall that a two-sample z-test for typically requires:
- Two independent samples from the populations
- Population standard deviations and are known (or have very reliable prior estimates)
- Sample sizes are large enough or populations are approximately normal.
Scenario (a): Paired before–after scores A university measures the exam scores of the same 40 students before and after taking a new online practice course. The analyst knows that the population standard deviation of scores is about 12 points from past records and considers using a two-sample z-test comparing the “before” group and the “after” group.
Scenario (b): Small samples with unknown σ A company compares customer waiting times between two new service desks. They collect:
- Desk 1: customers
- Desk 2: customers The population standard deviations are unknown; only sample standard deviations and are available. Waiting time distributions are roughly symmetric but not clearly normal.
Scenario (c): Large independent samples, σ known from history An airline compares the average check-in duration between Airport X and Airport Y. From several years of detailed records, they have stable estimates for the population standard deviations. They now take:
- passengers from Airport X
- passengers from Airport Y The samples are independent.
For each scenario (a), (b), and (c):
- Can we reasonably use a two-sample z-test for ? (Yes/No)
- If No, state the main issue and suggest a more suitable procedure.
📖 点击查看翻译(中文题目)
对下面每个情境,判断是否适合使用两样本均值差的 z 检验。如果不适合,说明主要问题,并指出一个更合适的检验方法。
回顾:两样本均值差 z 检验通常需要:
- 两个样本来自两个总体,且相互独立;
- 总体标准差 已知(或有非常可靠的先验估计);
- 样本量足够大,或总体近似正态。
情境 (a):配对前后测试 某大学对同一批 40 名学生在参加一门线上练习课前后的考试成绩进行比较。分析者知道历史成绩的总体标准差大约为 12 分,打算把 “前” 与 “后” 当作两组,用两样本 z 检验比较均值。
情境 (b):小样本且总体标准差未知 某公司比较两个新服务窗口的顾客等待时间。数据为:
- 窗口 1:
- 窗口 2: 总体标准差未知,只有样本标准差 。等待时间分布大致对称,但是否正态不太清楚。
情境 (c):大样本、独立、σ 由历史稳定估计 一家航空公司比较 X 机场与 Y 机场的平均值机办理时间。 由于多年数据积累,已获得较为稳定的总体标准差估计。现在抽取:
- X 机场: 名旅客
- Y 机场: 名旅客 两个样本相互独立。
对每个情境 (a)、(b)、(c):
- 是否可以合理地使用“两样本均值差 z 检验”?(是/否)
- 如果回答“否”,指出主要问题并给出一个更合适的检验方法。
📖 点击查看答案(Answer)
Scenario (a): Paired before–after scores(配对前后成绩)
Use two-sample z-test?
- No.
Issue and better procedure:
- Issue: The two “samples” (before and after) are not independent; they are paired measurements on the same students. Independence assumption for a two-sample test is violated.
- Better procedure: Treat the data as paired and analyze the differences for each student. Use a paired t-test (or, if population σ of differences were truly known and normal, a one-sample z-test on the differences).
Scenario (b): Small samples, σ unknown(小样本且 σ 未知)
Use two-sample z-test?
- No.
Issue and better procedure:
Issues:
- Population standard deviations are unknown, only are available.
- Sample sizes are small (, ), so we cannot safely use the normal approximation with unknown σ.
Better procedure: Use a two-sample t-test for means (independent samples), possibly assuming equal or unequal variances depending on additional checks (pooled t-test or Welch t-test).
Scenario (c): Large independent samples, σ known(大样本、独立、σ 已知)
Use two-sample z-test?
- Yes.
Reason:
- Two samples (Airport X and Y) are independent.
- Population standard deviations are available from large historical databases, so treating them as known is reasonable.
- Sample sizes are large (, ), which further justifies normal-based methods.
So a two-sample z-test for is appropriate here.
Summary table 总结表:
Scenario Independent? σ known? n size z-test? Better choice (a) ❌ Paired Roughly 40 No Paired t-test on differences (b) ✅ Yes ❌ No Small No Two-sample t-test (independent) (c) ✅ Yes ✅ Yes Large Yes Two-sample z-test for μ₁ − μ₂
📝 点击查看解析(Step-by-Step Explanation 解析)
这道题的目的,是让你在做题前先问自己三个问题:
两个样本独立吗?
- 同一批人前后两次测量 → 配对 → 不能用“两样本独立检验”。
总体标准差 σ 是否真的可以当作已知?
- 若只是样本标准差 ,尤其在小样本时 → 应使用 t 分布。
样本量是否足够大?
- 大样本 + σ 已知(或有极大量历史数据支持) → 用 z;
- 小样本 + σ 未知 → 用 t。
记一个小口诀帮助判断:
配对 → paired t 独立 + σ 未知 → two-sample t 独立 + σ 已知(或极大量历史资料)→ two-sample z
以后做题时,只要先过这一层筛选,就不容易把 z 检验、t 检验、配对检验用混了。