Q1 — Setting Hypotheses for Delivery Time(设定送达时间的假设)
Question (EN): An e-commerce company promises that its average delivery time is no more than 3 days. A researcher wants to test whether customers are actually waiting longer than promised.
- Define the null hypothesis and alternative hypothesis using the population mean delivery time .
- State whether this is a one-tailed or two-tailed test, and which tail.
- In this context, describe in words what a Type I error and a Type II error would mean.
📖 点击查看翻译
题目(中文): 某电商平台承诺平均送达时间不超过 3 天。研究者想检验顾客实际上是否等待更久。
- 以总体平均送达时间 表示,写出原假设 与备择假设 。
- 判断这是单尾检验还是双尾检验,并说明是哪一侧尾部。
- 在该场景下,用文字解释第一类错误与第二类错误分别意味着什么。
📖 点击查看答案
Hypotheses:
This is a one-tailed, upper-tail test (we only care if is larger than ).
Error meanings:
- Type I error: Reject and conclude customers wait more than days when in fact .
- Type II error: Fail to reject and conclude the promise is met when in fact .
结论: 本题是右尾单尾检验,,,第一类错误是“误判为超时”,第二类错误是“明明超时却没发现”。
📝 点击查看解析
思路 / 解析:
- 研究问题是“是否更久”,方向是“变大”,所以备择假设取 ,原假设取相反并含等号:。
- 只关心右侧尾部,所以是右尾单尾检验。
- 第一类错误对应“真 被拒绝”,第二类错误对应“假 没被拒绝”,套入具体情境即可。
Q2 — Upper-Tail z-Test for Assembly Time(装配时间的右尾 检验)
Question (EN): A factory sets a goal that the average assembly time per unit should be 12 minutes or less. The population standard deviation is known to be minutes. A sample of units has a mean assembly time of minutes.
Using , test whether the goal has not been achieved (i.e., the mean exceeds 12 minutes). Assume normality.
- State and .
- Compute the -value.
- Using the critical-value approach (upper-tail), decide whether to reject with .
- Interpret the decision in context.
📖 点击查看翻译
题目(中文): 某工厂设定目标:平均装配时间不超过 12 分钟。总体标准差已知为 分钟。抽取 件产品样本,样本平均装配时间为 分钟。 在显著性水平 下,检验该目标是否没有达到(即平均时间是否超过 12 分钟)。假设装配时间近似正态分布。
- 写出 与 。
- 计算 值。
- 使用**临界值法(右尾检验)**判断是否拒绝 (取 )。
- 在情境中解释你的结论。
📖 点击查看答案
- ;。
- Upper-tail critical value: . Since ,reject .
- The sample provides strong evidence that the true mean assembly time exceeds 12 minutes, so the goal has not been achieved.
结论: 拒绝 ,认为平均装配时间大于 12 分钟,工厂未达到原定目标。
📝 点击查看解析
思路 / 解析:
- 管理目标“”放在 ,怀疑“偏慢”放在 。
- 已知 用 检验:。
- 将 与右尾临界值 比较:若 落在拒绝域,则拒绝 。
Q3 — Left-Tail p-Value Test for Defect Rate(次品率的左尾 值检验)
Question (EN): A quality manager claims that a new process reduces the defect rate below the historical level of . Let be the true defect rate (proportion). A sample of items from the new process shows a sample defect rate of with known standard deviation approximately .
Using , perform a left-tailed -test using the p-value approach.
- State and .
- Compute the -value.
- Find the p-value (left-tail).
- Decide whether to reject and state your conclusion.
📖 点击查看翻译
题目(中文): 质管经理声称,新工艺可以把次品率降到历史水平 以下。设 为真实次品率(比例)。从新工艺中抽取 件产品,样本次品率为 ,已知标准差约为 。 在显著性水平 下,使用 值法 做左尾 检验:
- 写出 与 。
- 计算 值。
- 求出左尾检验的 值。
- 判断是否拒绝 并给出结论。
📖 点击查看答案
- ;。
- Left-tail p-value: (极小,约为 )。
- 因为 ,我们拒绝 ,认为新工艺显著降低了次品率,真实次品率低于 。
结论: 值几乎为 0,远小于 0.10,说明反对 的证据极强,新工艺在降低次品率方面显著优于旧工艺。
📝 点击查看解析
思路 / 解析:
- “降低到 以下” → , 取相反且含等号。
- 比例在大样本下近似正态,因此仍可用 统计量。
- 由于 非常负,对应的左尾 值几乎为 0,自然远小于 。
Q4 — Two-Tailed Test with z and p(双尾 检验与 值)
Question (EN): A bank monitors the average waiting time at a branch. Historically, the mean waiting time is minutes with known minutes. After a layout change, a sample of customers yields a mean waiting time of minutes.
At , test whether the average waiting time has changed. Use both the critical-value approach and the p-value approach for a two-tailed test.
📖 点击查看翻译
题目(中文): 某银行网点监控顾客平均等候时间。历史平均等候时间为 分钟,已知 分钟。调整网点布局后,抽取 位顾客,样本平均等候时间为 分钟。 在显著性水平 下,检验平均等候时间是否发生变化。对于双尾检验,分别使用临界值法和 值法。
📖 点击查看答案
Hypotheses: ;。
Test statistic:
Critical-value approach:
- For (two-tailed), 。
- 因为 ,拒绝 。
p-value approach:
- Single-tail probability: 。
- Two-tailed p-value: 。
- 同样得到结论:拒绝 。
Interpretation: There is significant evidence that the mean waiting time has changed; the new mean minutes is lower than minutes.
结论: 无论用临界值法还是 值法,都得到 且 ,应拒绝 ,说明平均等候时间发生了显著变化并且缩短了。
📝 点击查看解析
思路 / 解析:
- “是否发生变化”→ 双尾检验:。
- 临界值法看 是否超过 ; 值法看 是否小于 。
- 两种方法只是同一逻辑的不同表达,结论应当一致。
Q5 — Interpreting Type I and II Errors(理解第一类与第二类错误)
Question (EN): A university tests a new teaching method for an introductory statistics course. Let be the true mean exam score with the new method, and the traditional method has a historical mean of . The university tests
with .
Describe in words:
- What is a Type I error in this context?
- What is a Type II error?
- Which error is directly controlled by , and what does mean here?
📖 点击查看翻译
题目(中文): 某大学为统计学入门课测试一种新的教学方法。设新方法下真实平均成绩为 ,传统方法的历史均值为 。学校进行检验:
显著性水平为 。 说明:
- 在该情境下什么是第一类错误?
- 什么是第二类错误?
- 哪一种错误由 直接控制? 在此表示什么含义?
📖 点击查看答案
- Type I error: Conclude that the new method improves scores (reject ) when in fact and the new method is not better.
- Type II error: Conclude that the new method is not better (fail to reject ) when in fact and the new method really improves scores.
- The significance level controls . Here means: if is actually true, the university accepts a chance of wrongly concluding that the new method is better.
结论: 第一类错误是“把无效方法当成有效”,第二类错误是“把有效方法当成无效”,而 把第一类错误的概率限定在约 。
📝 点击查看解析
思路 / 解析:
- 记忆:Type I = “错杀好人”(真 被拒绝),Type II = “放走坏人”(假 没被拒)。
- 显著性水平 是我们事先选定的 Type I error 的最大容忍概率。
Q6 — Confidence Interval vs Hypothesis Test(置信区间与假设检验)
Question (EN): For a certain production line, the target mean processing time is minutes. The population standard deviation is known to be minutes. A random sample of items gives a sample mean of minutes.
- Construct a confidence interval for the true mean .
- Using this interval, test vs at .
- Explain whether your conclusion matches what you would get from a two-tailed -test.
📖 点击查看翻译
题目(中文): 某生产线的目标平均加工时间为 分钟。已知总体标准差 分钟。从生产线上随机抽取 件产品,样本平均加工时间为 分钟。
- 构造真实平均加工时间 的 置信区间。
- 利用该区间,在 下检验 对 。
- 说明这个结论是否与双尾 检验一致。
📖 点击查看答案
- For a CI with known , use 代入数据:
- 检查 是否在区间 内。因为 不在区间内,所以在 下拒绝 ,认为 与 显著不同(略大)。
- Two-tailed -test: 比较 与 ,同样得到 ,因此也拒绝 。两种方法给出的结论一致。
结论: 置信区间为 ,不包含 ,与双尾 检验的拒绝结论完全一致。
📝 点击查看解析
思路 / 解析:
- 已知 且样本较大,用正态置信区间公式。
- 若 中的 不在置信区间内,则在对应显著性水平下应拒绝 。
- 区间端点是通过同一个 推导出来的,所以与相同 的双尾 检验必然一致。
Q7 — Choosing One- or Two-Tailed Test(选择单尾或双尾检验)
Question (EN): For each situation below, decide whether you should use a one-tailed or two-tailed hypothesis test, and write appropriate and using the population mean .
- A marketing team claims a new advertisement increases the average daily sales above the current level of $50,000.
- A regulator wants to know if the average pollutant level of a factory is different from the legal limit of 30 ppm (parts per million), in either direction.
📖 点击查看翻译
题目(中文): 对下面每种情境,判断应使用单尾检验还是双尾检验,并用总体均值 写出 与 。
- 市场部门声称,新广告能将平均日销售额提高到当前 50,000 美元以上。
- 监管机构要判断某工厂平均污染物浓度是否与法定限值 30 ppm 不同(不论高低)。
📖 点击查看答案
Marketing claim (increase):
- One-tailed, upper-tail.
Regulator (difference):
- Two-tailed.
结论: 有明确“变大/变小”方向 → 单尾;只问“是否不同” → 双尾。
📝 点击查看解析
思路 / 解析:
- 单尾检验的特点是研究问题有明确方向,例如“更高”“更低”。
- 双尾检验只关心“是否有差异”,不预设方向。
- 写假设时, 总是包含等号, 则与研究问题方向一致。
Q8 — Rejection Region and Observed z(拒绝域与观测 值)
Question (EN): Suppose you perform a two-tailed -test at significance level with
-
Find the critical values and .
-
For each observed test statistic, state whether you reject or fail to reject :
- (a)
- (b)
- (c)
📖 点击查看翻译
题目(中文): 在显著性水平 下进行双尾 检验:
求出临界值 与 。
对以下每个观测 值,判断是拒绝 还是不拒绝 :
- (a)
- (b)
- (c)
📖 点击查看答案
对于双尾检验,,因此 拒绝域为 或 。
决策:
- (a) → 不拒绝 。
- (b) → 拒绝 。
- (c) → 拒绝 。
结论: 在 的双尾检验中,只有 (b)、(c) 的 超过 1.64 落入拒绝域,需要拒绝 。
📝 点击查看解析
思路 / 解析:
- 双尾检验统一用“看 是否大于 ”。
- 当显著性水平为 0.10 时,。
- 逐个比较 与 1.64 即可判断是否落入拒绝域。
Q9 — Comparing Two p-Values(比较两个 值)
Question (EN): Two different studies test the same null hypothesis against the same alternative using independent samples. Both use significance level .
- Study A reports p-value .
- Study B reports p-value .
- For each study, state whether is rejected at .
- Which study provides stronger evidence against ? Explain.
- If a journal only accepts results with p-value below , would either study qualify?
📖 点击查看翻译
题目(中文): 两个独立研究都在检验同一原假设 与备择 ,显著性水平均为 。
研究 A 报告 ;
研究 B 报告 。
- 在 下,各自是否拒绝 ?
- 哪个研究对 的反对证据更强?说明理由。
- 若某期刊只接受 的研究结果,这两项研究是否有资格?
📖 点击查看答案
决策:
- Study A: → 拒绝 。
- Study B: → 不拒绝 。
较小的 值意味着对 更强的反对证据,因此 Study A()比 Study B()证据更强。
若期刊要求 ,则 和 都不满足,因此两项研究都不符合。
结论: 在 下,只有研究 A 拒绝 ,且 A 的证据更强;若门槛改为 ,两项研究都不达标。
📝 点击查看解析
思路 / 解析:
- 决策规则:若 则拒绝 ,否则不拒绝。
- 值本身可以比较大小,越小越不支持 。
- 当评价标准改变(例如要求 )时,需重新与该阈值比较。
Q10 — Integrated Hypothesis Test Scenario(综合检验与置信区间)
Question (EN): A call center claims its average call handling time is 6 minutes or less. Historical data suggest the population standard deviation is minutes. A supervisor takes a random sample of calls and finds a sample mean of minutes. Assume call times are approximately normal.
Using significance level :
- Set up and to test whether the center is failing to meet its claim.
- Compute the test statistic .
- Using the p-value approach, decide whether to reject .
- Construct the corresponding confidence interval for and check whether lies inside it.
- Explain how the CI result supports your test decision.
📖 点击查看翻译
题目(中文): 某呼叫中心声称其平均通话处理时间不超过 6 分钟。历史数据表明总体标准差约为 分钟。主管随机抽取 个来电,样本平均处理时间为 分钟。假设通话时间近似正态分布。 在显著性水平 下:
- 建立 与 ,检验该中心是否没有达到其承诺。
- 计算检验统计量 。
- 使用 值法 判断是否拒绝 。
- 构造 的 置信区间,检查 是否落在区间内。
- 说明置信区间的结果如何支持你的检验结论。
📖 点击查看答案
Claim “” in ,test if mean is greater:
Upper-tail p-value: 因为 ,拒绝 ,认为真实平均处理时间大于 6 分钟,呼叫中心未达标。
CI 对应 、: 由于 不在区间 内,因此在 置信水平下 不合理。
The CI is entirely above , so all plausible values of at the level are greater than . This matches the test decision that the true mean exceeds minutes.
结论: ,拒绝 ; 置信区间 也完全在 6 以上,两种方法都表明中心未能实现“平均不超过 6 分钟”的承诺。
📝 点击查看解析
思路 / 解析:
- 声称“”→ ,怀疑其“超过 6”→ ,右尾检验。
- 用 公式算出统计量,再从标准正态表或函数求右尾 值。
- 构造与 配对的 置信区间,若假设值不在区间内,则与拒绝 的结论一致。