Lecture 2 — Data Types

第2讲 —— 数据类型


Data (数据)

  • Split into two main types:
    分为两大类:
    1. Categorical (分类型)
    2. Quantitative (数量型)

Categorical Data (分类型数据)

  • Definition (定义):
    Labels or categories; numbers (if any) act only as codes, not true amounts.
    标签或类别;即使是数字,也只是编码,而不是数量。

  • Subtypes (子类):

    • Numeric-looking (数字外观): looks like numbers but are actually labels.
      数字外观: 看似数字,本质是标签。
    • Non-numeric (非数字): clearly not numbers (e.g., words, colors).
      非数字: 明显不是数字(如文字、颜色)。

Nominal (名义尺度)

  • No order, no arithmetic.
  • 无顺序、不能算术。
  • Examples: blood type, jersey number, ZIP code, hair color.
  • 例子:血型、球衣号、邮编、头发颜色。

Ordinal (顺序尺度)

  • Ordered categories, unequal gaps.
  • 有顺序,间距不等。
  • Arithmetic like averages is risky.
  • 平均值等算术不可靠。
  • Examples: education level, T-shirt size, Likert scale.
  • 例子:学历、衣服尺码、问卷1–5满意度。

Quantitative Data (数量型数据)

  • Definition (定义):
    Real numbers where arithmetic operations make sense.
    真正的数值,算术运算有意义。

  • Subtypes (子类):

    • Interval (区间)
    • Ratio (比率)

Interval (区间尺度)

  • Equal intervals, but no true zero.
  • 等距,但没有真正零点。
  • Ratios don’t make sense.
  • 比值没有意义。
  • Examples: temperature °C/°F, years, IQ.
  • 例子:摄氏/华氏温度、年份、智商。

Ratio (比率尺度)

  • Equal intervals, with a true zero.
  • 等距,有真正零点。
  • All arithmetic (including ratios) valid.
  • 所有算术(包括倍数)都有意义。
  • Examples: height, weight, age, income, distance.
  • 例子:身高、体重、年龄、收入、距离。

Quick Rules (快速判别)

  • Labels → Categorical (Nominal/Ordinal)

  • 标签 → 分类型(名义/顺序)

  • Amounts → Quantitative (Interval/Ratio)

  • 数量 → 数量型(区间/比率)

  • Key test: Is there a true zero? Does doubling make sense?

  • 关键判断:是否有真正零点?加倍是否有意义?


Common Tricky Cases (常见易错案例)

  • Year of birth → Interval (出生年份 → 区间)
  • Likert 1–5 → Ordinal (1–5量表 → 顺序)
  • Student ID / ZIP → Nominal (学号/邮编 → 名义)
  • Temperature °C/°F → Interval (温度°C/°F → 区间)
  • Temperature Kelvin → Ratio (温度K → 比率)

Suitable Analyses & Charts (适用分析与图表)

  • Nominal: mode, proportions; bar chart, pie chart

  • 名义:众数、比例;条形图、饼图

  • Ordinal: median, percentiles; ordered bar chart, non-parametric tests

  • 顺序:中位数、分位数;有序柱状图、非参数检验

  • Interval/Ratio: mean, SD, correlation, regression; histogram, line chart, scatterplot

  • 区间/比率:均值、标准差、相关、回归;直方图、折线图、散点图


Practice (练习)

  1. Blood type → Nominal (血型 → 名义)
  2. Satisfaction 1–5 → Ordinal (满意度1–5 → 顺序)
  3. Temperature °C → Interval (温度°C → 区间)
  4. Income → Ratio (收入 → 比率)
  5. Jersey number → Nominal (球衣号 → 名义)
  6. Age → Ratio (年龄 → 比率)
  7. Year of birth → Interval (出生年份 → 区间)
  8. T-shirt size → Ordinal (衣码 → 顺序)

Non-numeric类型中,Nominal(名义型)和Ordinal(顺序型)

都是常见的分类数据类型。下面是每种类型的具体例子:

1. Nominal(名义型)

Nominal数据是没有顺序或等级之分的分类数据。它们仅用于区分不同的类别。

例子

  • 性别:男,女
  • 血型:A型,B型,AB型,O型
  • 颜色:红色,蓝色,绿色
  • 国家:中国,美国,法国

2. Ordinal(顺序型)

Ordinal数据是有顺序的,但没有明确的数值间隔。数据项之间有一定的排列顺序,但不表示具体的数值差异。

例子

  • 教育水平:小学,初中,高中,本科,硕士,博士
  • 客户满意度:非常不满意,不满意,一般,满意,非常满意
  • 比赛名次:第一名,第二名,第三名

Nominal数据中,类别之间没有自然的顺序,而Ordinal数据则有明确的顺序关系。


Numeric类型中,数据可以分为两类:nterval(区间型)和Ratio(比率型)

它们都涉及数值数据,但具有不同的性质。

1. Interval(区间型)

Interval数据是有固定间隔的数值数据,数据项之间的差距是有意义的。然而,区间型数据没有绝对零点,即零点不代表“无”。

例子

  • 温度:例如摄氏度(°C)或华氏度(°F)。0°C并不意味着“没有温度”,只是一个测量的参考点。
  • 年份:例如公元2000年,2010年,2020年。零年并不意味着“没有时间”,只是一个特定的参照点。

2. Ratio(比率型)

Ratio数据与Interval数据相似,但具有绝对零点。这意味着零点代表“无”或“缺失”,并且可以进行除法运算。

例子

  • 身高:例如180厘米、160厘米。0厘米代表没有身高。
  • 体重:例如70公斤、50公斤。0公斤表示没有重量。
  • 收入:例如10000元、5000元。0元表示没有收入。
  • 时间:例如用秒钟、分钟计量的时间。0秒代表没有时间。

区别:

  • Interval 数据有固定的间隔,但没有真实的零点。无法进行比例运算(如“10°C是20°C的两倍”是无意义的)。
  • Ratio 数据不仅有固定的间隔,而且有真实的零点,可以进行比例运算(如“20公斤是10公斤的两倍”是有意义的)。

这两种类型的Numeric数据都可以进行加减运算,而Ratio数据还可以进行乘除运算。