Slide 1 — MGS 2150 Business Statistics

第1页——MGS 2150 商业统计学

Knowledge Points (知识点)

  1. Business Statistics (商业统计学):在商业和经济中应用统计学方法。
  2. Purpose (目的):帮助收集、分析、展示和解释数据。

Business Statistics (商业统计学)

  • Explanation (解释):
    Business statistics is the application of statistical tools in business and economics.
    商业统计学是在商业与经济中应用统计工具的一门学科。

  • Example (例子):
    A company uses statistics to analyze sales trends and forecast demand.
    一家公司利用统计方法分析销售趋势并预测需求。

  • Extension (拓展):
    Business statistics supports decision-making, risk management, and strategy formulation.
    商业统计学帮助企业做决策、管理风险和制定战略。

Summary (总结)

本页主要介绍课程名称和背景,强调统计学在商业和经济中的应用价值。


Slide 2 — Lecture 3 Overview

第2页——第3讲概览

Knowledge Points (知识点)

  1. Chapter 1 (第1章):商业与经济中的应用。
  2. Key Topics (关键主题):数据与数据源、描述统计、推断统计、Excel 应用。

Overview (概览)

  • Explanation (解释):
    The lecture covers both descriptive and inferential statistics, and practical Excel skills.
    本讲既涵盖描述统计与推断统计,也涉及 Excel 的实用技能。

  • Example (例子):
    Using Excel to calculate averages or test hypotheses in business cases.
    使用 Excel 计算均值或在商业案例中进行假设检验。

  • Extension (拓展):
    Provides a foundation for analyzing real-world business data effectively.
    为高效分析真实商业数据奠定基础。

Summary (总结)

本页是目录,指出本讲将围绕数据、统计类型和 Excel 工具展开。


Slide 3 — Definition of Statistics

第3页——统计学的定义

Knowledge Points (知识点)

  1. Statistics (统计学):收集、分析、展示和解释数据的艺术与科学。
  2. Process (过程):创建数据集、编辑公式与函数、收集与展示结果。

Statistics (统计学)

  • Explanation (解释):
    Statistics is both an art and science of handling data.
    统计学既是一门科学,也是一种关于数据处理的艺术。

  • Example (例子):
    A researcher collects survey responses, uses formulas to analyze them, and presents charts.
    研究人员收集问卷结果,用公式分析,并展示成图表。

  • Extension (拓展):
    The statistical process is iterative and applies across sciences, business, and policy.
    统计过程是循环迭代的,广泛应用于科学、商业和政策。

Summary (总结)

本页定义统计学,并说明其操作流程:数据集创建、公式处理和结果展示。


Slide 4 — Descriptive Statistics

第4页——描述统计

Knowledge Points (知识点)

  1. Descriptive Statistics (描述统计):用表格、图形或数值形式总结数据。
  2. Data Example (数据示例):关于睡眠、GPA、性别与午睡的调查表。
  3. Visualization (可视化):柱状图、饼图、均值对比。

Descriptive Statistics (描述统计)

  • Explanation (解释):
    Descriptive statistics summarize data sets into understandable formats.
    描述统计通过表格、图形或数值把数据总结为易懂的形式。

  • Example (例子):
    GPA differences shown between male and female students.
    男生和女生 GPA 的差异通过图表展示。

  • Extension (拓展):
    Descriptive statistics help identify patterns, but do not test hypotheses.
    描述统计有助于发现规律,但不能用于假设检验。

Summary (总结)

本页通过 GPA 与性别的案例展示了描述统计的应用。


Slide 5 — Inferential Statistics

第5页——推断统计

Knowledge Points (知识点)

  1. Inferential Statistics (推断统计):利用样本数据推测总体。
  2. Population (总体):研究对象的全体。
  3. Sample (样本):总体的一个子集。

Inferential Statistics (推断统计)

  • Explanation (解释):
    Inferential statistics allow generalizations from a sample to a population.
    推断统计通过样本对总体进行推测。

  • Example (例子):
    Using a student sample to estimate average GPA of the entire university.
    用学生样本估计整个大学的平均 GPA。

  • Extension (拓展):
    Inferential methods include hypothesis testing, confidence intervals, and regression.
    推断方法包括假设检验、置信区间和回归分析。

Summary (总结)

本页强调了推断统计的核心思想:由样本推测总体。


Slide 6 — Excel for Data Analysis

第6页——Excel 数据分析

Knowledge Points (知识点)

  1. Excel Functions (Excel 函数):平均数、众数、中位数、极差等。
  2. Data Processing (数据处理):创建数据集、编辑公式与函数、得到结果。

Excel for Statistics (Excel 统计应用)

  • Explanation (解释):
    Excel provides built-in functions for basic statistical analysis.
    Excel 内置函数可进行基础统计分析。

  • Example (例子):
    =AVERAGE(A2:A71) calculates the mean of values in a dataset.
    =AVERAGE(A2:A71) 计算数据集的平均值。

  • Extension (拓展):
    Excel also supports advanced tools like regression, correlation, and distributions.
    Excel 还支持高级工具,如回归、相关性和分布分析。

Summary (总结)

本页展示了如何用 Excel 进行基础数据分析。


Slide 7 — Statistical Functions in Excel

第7页——Excel 中的统计函数

Knowledge Points (知识点)

  1. Correlation and Covariance (相关与协方差)。
  2. Regression Functions (回归函数)。
  3. Distribution Functions (分布函数)。

Statistical Functions (统计函数)

  • Explanation (解释):
    Excel provides functions for correlation, regression, and probability distributions.
    Excel 提供相关、回归和概率分布的函数。

  • Example (例子):
    Correlation functions measure how two variables move together.
    相关函数衡量两个变量如何同时变化。

  • Extension (拓展):
    These tools are essential for advanced business analytics and predictive modeling.
    这些工具是高级商业分析和预测建模的重要基础。

Summary (总结)

本页强调 Excel 在统计分析中的进阶功能:相关、回归和分布。


Slide 8 — Elements, Variables, and Observations

第8页——元素、变量与观测值

Knowledge Points (知识点)

  1. Elements (元素):收集数据的对象。
  2. Variables (变量):元素的某种特征。
  3. Observations (观测值):针对某个元素的一组测量结果。
  4. Data Set (数据集):n 个元素对应 n 个观测值,总数据量 = 元素数 × 变量数。

Elements, Variables, and Observations (元素、变量与观测值)

  • Explanation (解释):
    Elements are entities studied; variables describe characteristics; observations are collected measurements.
    元素是被研究的对象,变量是元素的特征,观测值是为每个元素收集到的测量结果。

  • Example (例子):
    Students are elements; GPA and gender are variables; each student’s record is an observation.
    学生是元素,GPA 和性别是变量,每个学生的记录就是一个观测值。

  • Extension (拓展):
    Large datasets (big data) may contain millions of elements and variables, requiring advanced software.
    大型数据集(大数据)可能包含上百万个元素和变量,需要高级软件处理。

Summary (总结)

本页强调了统计学的三个基本构件:元素、变量和观测值。


Slide 9 — Scales of Measurement

第9页——测量尺度

Knowledge Points (知识点)

  1. Nominal Scale (名义尺度):仅作分类或标签。
  2. Ordinal Scale (顺序尺度):具有排序意义。
  3. Interval Scale (区间尺度):有固定间距,但无绝对零点。
  4. Ratio Scale (比率尺度):有绝对零点,能进行比率比较。

Nominal (名义尺度)

  • Explanation (解释):
    Nominal data are labels or names to classify elements.
    名义数据是用于分类的标签或名称。

  • Example (例子):
    WTO status: “member” vs. “observer”, or coded as 1 and 2.
    WTO 身份:“成员” vs. “观察员”,也可以用 1 和 2 编码。

  • Extension (拓展):
    Nominal data are common in surveys (e.g., gender, nationality).
    名义数据常见于调查(如性别、国籍)。

Ordinal (顺序尺度)

  • Explanation (解释):
    Ordinal data can be ranked, though differences between ranks may not be equal.
    顺序数据可以排序,但等级间差距未必相等。

  • Example (例子):
    Credit ratings (AAA to F) or student class rank.
    信用评级(AAA 到 F)或学生年级排名。

  • Extension (拓展):
    Useful in satisfaction surveys (e.g., very satisfied → dissatisfied).
    常见于满意度调查(如“非常满意”到“不满意”)。

Interval (区间尺度)

  • Explanation (解释):
    Interval data have equal units of measurement, but no true zero.
    区间数据有固定间隔,但没有绝对零点。

  • Example (例子):
    SAT scores (e.g., 1985 vs. 1880 → difference = 105).
    SAT 分数(如 1985 vs. 1880 → 差值 = 105)。

  • Extension (拓展):
    Temperature in Celsius is interval (0℃ ≠ no temperature).
    摄氏温度是区间尺度(0℃ 并非“没有温度”)。

Ratio (比率尺度)

  • Explanation (解释):
    Ratio data have equal units and an absolute zero, allowing ratio comparisons.
    比率数据有固定间隔和绝对零点,可做比率比较。

  • Example (例子):
    Kevin has 72 credits, Melissa has 36 credits → Kevin has twice as many.
    Kevin 有 72 学分,Melissa 有 36 学分 → Kevin 的学分是 Melissa 的两倍。

  • Extension (拓展):
    Common in finance (e.g., income, assets, production output).
    在金融中常见(如收入、资产、产量)。

Summary (总结)

本页介绍了四种测量尺度:名义、顺序、区间、比率。


Slide 10 — Categorical vs. Quantitative Data

第10页——类别数据与数量数据

Knowledge Points (知识点)

  1. Categorical Data (类别数据):用标签或名称表示,通常为定性数据。
  2. Quantitative Data (数量数据):表示“多少”或“多大”,可以是离散或连续。
  3. 统计分析方法的选择取决于数据类型。

Categorical Data (类别数据)

  • Explanation (解释):
    Categorical data identify attributes and often use nominal or ordinal scales.
    类别数据表示属性,常用名义或顺序尺度。

  • Example (例子):
    Gender (male/female), product type (A/B/C).
    性别(男/女)、产品类别(A/B/C)。

  • Extension (拓展):
    Statistical analysis is limited; mainly uses frequency tables or charts.
    统计分析有限,主要依赖频数表或图形。

Quantitative Data (数量数据)

  • Explanation (解释):
    Quantitative data measure “how many” (discrete) or “how much” (continuous).
    数量数据衡量“多少”(离散)或“多大”(连续)。

  • Example (例子):
    Number of students (discrete); weight of students (continuous).
    学生人数(离散型);学生体重(连续型)。

  • Extension (拓展):
    Quantitative data allow arithmetic operations and advanced analysis.
    数量数据可用于算术运算和更复杂的分析。

Summary (总结)

本页区分了类别数据和数量数据,指出分析方法不同。


Slide 11 — Cross-Sectional vs. Time Series Data

第11页——横截面数据与时间序列数据

Knowledge Points (知识点)

  1. Cross-sectional Data (横截面数据):同一时间点收集。
  2. Time Series Data (时间序列数据):在多个时间点收集。
  3. 时间序列分析用于趋势判断与预测。

Cross-sectional Data (横截面数据)

  • Explanation (解释):
    Data collected at the same point in time across multiple subjects.
    在同一时间点对多个对象收集的数据。

  • Example (例子):
    GDP, status, and credit rating of 60 WTO nations in one year.
    60 个 WTO 国家某一年的人均 GDP、身份和信用评级。

  • Extension (拓展):
    Useful for comparing differences across entities.
    有助于比较不同实体间的差异。

Time Series Data (时间序列数据)

  • Explanation (解释):
    Data collected over time to study changes and trends.
    在多个时间段收集的数据,用于研究变化与趋势。

  • Example (例子):
    U.S. gasoline price from 2012 to 2018.
    美国 2012–2018 年汽油价格。

  • Extension (拓展):
    Graphs of time series help analyze past, identify trends, and forecast future values.
    时间序列图表有助于分析过去、识别趋势和预测未来。

Summary (总结)

本页介绍了横截面数据与时间序列数据的区别及用途。


Slide 12 — Data Sources: Observational vs. Experimental

第12页——数据来源:观察性研究与实验性研究

Knowledge Points (知识点)

  1. Observational Study (观察性研究):不干预,只收集数据。
  2. Experimental Study (实验性研究):控制变量,研究其对结果的影响。

Observational Study (观察性研究)

  • Explanation (解释):
    Observational studies collect data without manipulating variables.
    观察性研究在不操纵变量的情况下收集数据。

  • Example (例子):
    Researchers record Walmart customers’ shopping time, gender, and spending.
    研究人员记录沃尔玛顾客的购物时间、性别和消费金额。

  • Extension (拓展):
    Observational studies are common in surveys and market research.
    观察性研究常见于调查与市场研究。

Experimental Study (实验性研究)

  • Explanation (解释):
    Experimental studies control variables to see their effect on outcomes.
    实验性研究通过控制变量来观察其对结果的影响。

  • Example (例子):
    1954 Salk polio vaccine trial with nearly 2 million children.
    1954 年脊髓灰质炎疫苗实验,涉及近 200 万儿童。

  • Extension (拓展):
    Experimental studies allow causal inference but are costlier.
    实验性研究能推断因果关系,但成本较高。

Summary (总结)

本页对比了观察性研究与实验性研究的特点和实例。


Slide 13 — Data Acquisition Considerations

第13页——数据获取的注意事项

Knowledge Points (知识点)

  1. Time Requirement (时间需求):信息收集可能耗时。
  2. Cost of Acquisition (获取成本):有时需要支付费用。
  3. Data Errors (数据错误):不可靠的数据可能误导分析。

Data Acquisition (数据获取)

  • Explanation (解释):
    Collecting data involves trade-offs between time, cost, and accuracy.
    数据获取需在时间、成本和准确性之间权衡。

  • Example (例子):
    Outdated data may be useless for current business decisions.
    过时数据对当前决策可能毫无价值。

  • Extension (拓展):
    Organizations use technology (e.g., APIs, automated systems) to reduce time and error.
    机构常用技术(如 API 和自动化系统)来减少时间与错误。

Summary (总结)

本页强调了获取数据时需要考虑时间、成本和错误风险。


Slide 14 — Descriptive Statistics

第14页——描述统计

Knowledge Points (知识点)

  1. Descriptive Statistics (描述统计):用表格、图形或数值总结数据。
  2. 应用于报纸、杂志、公司报告等。

Descriptive Statistics (描述统计)

  • Explanation (解释):
    Descriptive statistics present data in simple, understandable formats.
    描述统计以简洁易懂的形式呈现数据。

  • Example (例子):
    A company report shows annual sales in charts and tables.
    公司报告用图表展示年度销售额。

  • Extension (拓展):
    Descriptive statistics help in communication, not in hypothesis testing.
    描述统计便于信息沟通,但不用于假设检验。

Summary (总结)

本页说明了描述统计的常见形式和用途。


Slide 15 — Numerical Descriptive Statistics

第15页——数值型描述统计

Knowledge Points (知识点)

  1. Mean (均值):集中趋势的指标。
  2. 常用指标:均值、中位数、众数。

Numerical Descriptive Statistics (数值型描述统计)

  • Explanation (解释):
    The mean summarizes the central location of a dataset.
    均值反映数据的集中位置。

  • Example (例子):
    Hudson’s mean cost of parts = 79(50 次维修费用之和 ÷ 50)。

  • Extension (拓展):
    Numerical measures also include variance, standard deviation, and range.
    数值指标还包括方差、标准差和极差。

Summary (总结)

本页展示了数值型描述统计的核心概念:均值。


Slide 16 — Statistical Inference

第16页——统计推断

Knowledge Points (知识点)

  1. Population (总体):所有研究对象。
  2. Sample (样本):总体的子集。
  3. Statistical Inference (统计推断):用样本估计总体。
  4. Census (普查) vs. Sample Survey (抽样调查)。

Statistical Inference (统计推断)

  • Explanation (解释):
    Statistical inference uses sample data to make population-level conclusions.
    统计推断用样本数据来推测总体特征。

  • Example (例子):
    A survey of 500 students to estimate GPA distribution of the whole university.
    抽样调查 500 名学生来推测全校 GPA 分布。

  • Extension (拓展):
    Common methods include hypothesis testing, confidence intervals, regression.
    常见方法有假设检验、置信区间和回归分析。

Summary (总结)

本页强调了统计推断的定义与普查和抽样的区别。


Slide 17 — Analytics

第17页——分析方法

Knowledge Points (知识点)

  1. Descriptive Analysis (描述性分析):总结过去发生的事情。
  2. Predictive Analysis (预测性分析):基于模型预测未来。
  3. Prescriptive Analysis (规范性分析):推荐最佳决策方案。

Analytics (分析)

  • Explanation (解释):
    Analytics transforms data into insights for decision-making.
    分析通过数据转化为洞见以支持决策。

  • Example (例子):
    Predictive analysis forecasts customer demand based on past sales.
    预测性分析根据过去销售预测未来需求。

  • Extension (拓展):
    Prescriptive analysis is widely used in supply chain optimization.
    规范性分析广泛用于供应链优化。

Summary (总结)

本页介绍了三类分析:描述性、预测性和规范性。


Slide 18 — Big Data and Data Warehousing

第18页——大数据与数据仓储

Knowledge Points (知识点)

  1. Big Data (大数据):规模庞大、复杂的数据集。
  2. Data Warehousing (数据仓储):数据的存储与维护。

Big Data and Data Warehousing (大数据与数据仓储)

  • Explanation (解释):
    Big data comes from large-scale transactions and interactions; warehousing manages them.
    大数据来自大量交易与交互;数据仓储负责管理与维护。

  • Example (例子):
    Walmart: 20–30 million transactions/day; Visa: 6,800 transactions/sec.
    沃尔玛:每天 2000–3000 万笔交易;Visa:每秒 6800 笔交易。

  • Extension (拓展):
    Cloud computing enables scalable data warehousing.
    云计算使数据仓储具有可扩展性。

Summary (总结)

本页介绍了大数据的来源与数据仓储的重要性。


Slide 19 — Data Mining

第19页——数据挖掘

Knowledge Points (知识点)

  1. Data Mining (数据挖掘):将数据转化为有用信息。
  2. 应用:零售、金融、通信等行业。

Data Mining (数据挖掘)

  • Explanation (解释):
    Data mining extracts hidden patterns using statistics, math, and computer science.
    数据挖掘利用统计学、数学和计算机科学的方法发现隐藏模式。

  • Example (例子):
    Identifying customers likely to buy related products or receive discounts.
    识别可能购买相关产品或需要优惠的顾客。

  • Extension (拓展):
    Modern data mining often integrates AI and machine learning.
    现代数据挖掘常结合人工智能与机器学习。

Summary (总结)

本页强调了数据挖掘的概念与应用。


Slide 20 — Data Mining Requirements & Model Reliability

第20页——数据挖掘的要求与模型可靠性

Knowledge Points (知识点)

  1. Requirements (要求):多元回归、逻辑回归、相关分析 + AI 技术。
  2. Reliability (可靠性):避免过拟合,需验证模型。

Data Mining Requirements (数据挖掘要求)

  • Explanation (解释):
    Effective mining requires statistical methods and advanced computing.
    有效的数据挖掘需要统计方法与计算技术。

  • Example (例子):
    Logistic regression used in customer churn prediction.
    逻辑回归用于预测客户流失。

  • Extension (拓展):
    Requires significant investment in time and resources.
    需要大量时间和资源投入。

Model Reliability (模型可靠性)

  • Explanation (解释):
    A model fitting one sample well may fail on another dataset.
    在一个样本上表现良好的模型,可能在另一数据集上失效。

  • Example (例子):
    Splitting data into training set (model building) and test set (validation).
    将数据分为训练集(建模)和测试集(验证)。

  • Extension (拓展):
    Overfitting leads to misleading conclusions; careful interpretation is required.
    过拟合会导致误导性结论,需要谨慎解释与测试。

Summary (总结)

本页指出数据挖掘的技术需求与模型可靠性的挑战。