Slide 2 — What is Data?

第2页——什么是数据?

Knowledge Points (知识点)

  1. Data (数据):基于事实的信息,例如数字、图形、表格。
  2. Data must be collected, analyzed, summarized, and interpreted.
    数据需要被收集、分析、汇总和解释。

Data (数据)

  • Explanation (解释):
    Data is fact-based information, e.g. numbers, figures, tables, to be collected, analyzed, summarized for presentation and interpretation.
    数据是基于事实的信息,例如数字、图表和表格,用于收集、分析、汇总和解释。

  • Example (例子):
    Sales numbers in January, customer ages in a survey.
    例如:一月份的销售额、调查中顾客的年龄。

  • Extension (拓展):
    Data helps businesses and governments make decisions rather than relying on intuition.
    数据帮助企业和政府进行决策,而不是依赖直觉。

Summary (总结)

本页介绍了数据的定义和基本特征:

  • 数据是基于事实的信息
  • 需要经过收集、分析和解释
  • 是决策制定的基础

Slide 3 — Elements, Variables, Observations

第3页——元素、变量和观测

Knowledge Points (知识点)

  1. Elements (元素):收集数据的对象或实体。
  2. Variables (变量):元素的特征或属性。
  3. Observations (观测值):每个元素在各个变量上的测量值。

Elements (元素)

  • Explanation (解释):
    Elements are objects/entities on which data are collected.
    元素是收集数据的对象或实体。

  • Example (例子):
    A student, a product, a country.
    例如:一个学生、一件产品、一个国家。

  • Extension (拓展):
    Clear definition of elements is essential for reliable data collection.
    明确元素的定义对于可靠的数据收集至关重要。

Variables (变量)

  • Explanation (解释):
    A variable is a characteristic, feature, or aspect of elements.
    变量是元素的某一特征或属性。

  • Example (例子):
    Age, income, gender.
    例如:年龄、收入、性别。

  • Extension (拓展):
    Variables determine the dimensions of analysis.
    变量决定了分析的维度。

Observations (观测值)

  • Explanation (解释):
    An observation is the set of measurements for each variable on an element.
    观测值是一个元素在各个变量上的测量结果。

  • Example (例子):
    Student A: gender = female, age = 20, GPA = 3.5.
    学生A:性别=女,年龄=20,GPA=3.5。

  • Extension (拓展):
    Observations are usually presented in rows, and variables in columns.
    观测值通常以行表示,变量以列表示。

Summary (总结)

本页介绍了数据结构的三个基本组成:

  • 元素是数据收集的对象
  • 变量是元素的特征
  • 观测值是每个元素的测量结果

Slide 4 — Scales of Measurement

第4页——测量尺度

Knowledge Points (知识点)

  1. Nominal (名义尺度):分类,没有顺序。
  2. Ordinal (顺序尺度):有顺序,但间隔不相等。
  3. Interval (区间尺度):有顺序,间隔相等,但无绝对零点。
  4. Ratio (比率尺度):有顺序,间隔相等,有绝对零点。

Nominal (名义尺度)

  • Explanation (解释):
    Classification without order.
    分类,不涉及顺序。

  • Example (例子):
    Gender: male/female.
    性别:男/女。

  • Extension (拓展):
    Only useful for counting and grouping.
    只能用于计数和分组。

Ordinal (顺序尺度)

  • Explanation (解释):
    Ordered but intervals are not equal.
    有顺序,但间隔不一定相等。

  • Example (例子):
    Customer satisfaction: 1 = very bad, 5 = very good.
    顾客满意度:1=很差,5=很好。

  • Extension (拓展):
    Can be used for ranking analysis.
    可用于排序分析。

Interval (区间尺度)

  • Explanation (解释):
    Ordered, equal intervals, but no true zero.
    有顺序,间隔相等,但没有绝对零点。

  • Example (例子):
    Temperature in Celsius.
    摄氏温度。

  • Extension (拓展):
    Differences can be calculated, but ratios are meaningless.
    可以计算差值,但比例无意义。

Ratio (比率尺度)

  • Explanation (解释):
    Ordered, equal intervals, with a true zero.
    有顺序,间隔相等,有绝对零点。

  • Example (例子):
    Income, distance, weight.
    收入、距离、重量 、==年龄==

  • Extension (拓展):
    Supports all arithmetic operations.
    可以进行所有算术运算。

Summary (总结)

本页介绍了四种测量尺度:

  • 名义:分类
  • 顺序:有等级
  • 区间:有间隔但无零点
  • 比率:有间隔且有零点

Slide 5 — Categorical vs. Quantitative Data

第5页——分类数据与数量数据

Knowledge Points (知识点)

  1. Categorical Data (分类数据):基于类别或分组。
  2. Quantitative Data (数量数据):基于数值和度量。

Categorical Data (分类数据)

  • Explanation (解释):
    Categorical data classify elements into groups or categories.
    分类数据将元素划分为不同的组或类别。

  • Example (例子):
    Gender (male/female), Opinion (agree/disagree).
    性别(男/女)、意见(同意/不同意)。

  • Extension (拓展):
    Often visualized by bar charts or pie charts.
    常用条形图或饼图表示。

Quantitative Data (数量数据)

  • Explanation (解释):
    Quantitative data consist of numeric values with measurable meaning.
    数量数据由有度量意义的数值组成。

  • Example (例子):
    Age, distance, income.
    年龄、距离、收入。

  • Extension (拓展):
    Often visualized by histograms or line charts.
    常用直方图或折线图表示。

Summary (总结)

本页介绍了两类数据:

  • 分类数据:非数值型,基于类别
  • 数量数据:数值型,基于度量

Slide 6 — Cross-sectional vs. Time Series Data

第6页——横截面数据与时间序列数据

Knowledge Points (知识点)

  1. Cross-sectional Data (横截面数据):同一时间点的数据。
  2. Time Series Data (时间序列数据):多个时间段的数据。

Cross-sectional Data (横截面数据)

  • Explanation (解释):
    Data collected at the same point in time.
    在同一时间点收集的数据。

  • Example (例子):
    Students’ GPA in Spring 2025.
    2025年春季学期学生的GPA。

  • Extension (拓展):
    Describes the situation at a single moment.
    描述某一时刻的状态。

Time Series Data (时间序列数据)

  • Explanation (解释):
    Data collected over multiple time periods.
    在多个时间段收集的数据。

  • Example (例子):
    Monthly sales over 5 years.
    5年内的月度销售额。

  • Extension (拓展):
    Useful for analyzing trends, seasonality, and forecasting.
    用于分析趋势、季节性和预测。

Summary (总结)

本页介绍了两类数据收集方式:

  • 横截面数据:静态快照
  • 时间序列数据:动态趋势

Slide 7 — Data Sources

第7页——数据来源

Knowledge Points (知识点)

  1. Existing Sources (已有数据):内部或外部获得的数据。
  2. Statistical Studies (统计研究):通过实验或调查收集的数据。

Existing Sources (已有数据)

  • Explanation (解释):
    Data from internal (self-owned) or external (purchased/downloaded) sources.
    来自内部(自有)或外部(购买/下载)的数据。

  • Example (例子):
    Company sales records, government databases.
    公司销售记录、政府数据库。

  • Extension (拓展):
    Low cost but may not be fully suitable for research.
    成本低,但可能不完全适合研究。

Statistical Studies (统计研究)

  • Explanation (解释):
    Data obtained from designed experiments or observational studies.
    通过实验设计或观察研究获得的数据。

  • Example (例子):
    Market survey, clinical trial.
    市场调查、临床实验。

  • Extension (拓展):
    High cost but closely aligned with research objectives.
    成本高,但与研究目标高度契合。

Summary (总结)

本页介绍了数据来源的两大渠道:

  • 已有数据:内部或外部已有资源
  • 统计研究:通过实验或调查收集