
Lecture 2 — Data Types
第2讲 —— 数据类型
Data (数据)
- Split into two main types:
分为两大类:- Categorical (分类型)
- Quantitative (数量型)
Categorical Data (分类型数据)
-
Definition (定义):
Labels or categories; numbers (if any) act only as codes, not true amounts.
标签或类别;即使是数字,也只是编码,而不是数量。 -
Subtypes (子类):
- Numeric-looking (数字外观): looks like numbers but are actually labels.
数字外观: 看似数字,本质是标签。 - Non-numeric (非数字): clearly not numbers (e.g., words, colors).
非数字: 明显不是数字(如文字、颜色)。
- Numeric-looking (数字外观): looks like numbers but are actually labels.
Nominal (名义尺度)
- No order, no arithmetic.
- 无顺序、不能算术。
- Examples: blood type, jersey number, ZIP code, hair color.
- 例子:血型、球衣号、邮编、头发颜色。
Ordinal (顺序尺度)
- Ordered categories, unequal gaps.
- 有顺序,间距不等。
- Arithmetic like averages is risky.
- 平均值等算术不可靠。
- Examples: education level, T-shirt size, Likert scale.
- 例子:学历、衣服尺码、问卷1–5满意度。
Quantitative Data (数量型数据)
-
Definition (定义):
Real numbers where arithmetic operations make sense.
真正的数值,算术运算有意义。 -
Subtypes (子类):
- Interval (区间)
- Ratio (比率)
Interval (区间尺度)
- Equal intervals, but no true zero.
- 等距,但没有真正零点。
- Ratios don’t make sense.
- 比值没有意义。
- Examples: temperature °C/°F, years, IQ.
- 例子:摄氏/华氏温度、年份、智商。
Ratio (比率尺度)
- Equal intervals, with a true zero.
- 等距,有真正零点。
- All arithmetic (including ratios) valid.
- 所有算术(包括倍数)都有意义。
- Examples: height, weight, age, income, distance.
- 例子:身高、体重、年龄、收入、距离。
Quick Rules (快速判别)
-
Labels → Categorical (Nominal/Ordinal)
-
标签 → 分类型(名义/顺序)
-
Amounts → Quantitative (Interval/Ratio)
-
数量 → 数量型(区间/比率)
-
Key test: Is there a true zero? Does doubling make sense?
-
关键判断:是否有真正零点?加倍是否有意义?
Common Tricky Cases (常见易错案例)
- Year of birth → Interval (出生年份 → 区间)
- Likert 1–5 → Ordinal (1–5量表 → 顺序)
- Student ID / ZIP → Nominal (学号/邮编 → 名义)
- Temperature °C/°F → Interval (温度°C/°F → 区间)
- Temperature Kelvin → Ratio (温度K → 比率)
Suitable Analyses & Charts (适用分析与图表)
-
Nominal: mode, proportions; bar chart, pie chart
-
名义:众数、比例;条形图、饼图
-
Ordinal: median, percentiles; ordered bar chart, non-parametric tests
-
顺序:中位数、分位数;有序柱状图、非参数检验
-
Interval/Ratio: mean, SD, correlation, regression; histogram, line chart, scatterplot
-
区间/比率:均值、标准差、相关、回归;直方图、折线图、散点图
Practice (练习)
- Blood type → Nominal (血型 → 名义)
- Satisfaction 1–5 → Ordinal (满意度1–5 → 顺序)
- Temperature °C → Interval (温度°C → 区间)
- Income → Ratio (收入 → 比率)
- Jersey number → Nominal (球衣号 → 名义)
- Age → Ratio (年龄 → 比率)
- Year of birth → Interval (出生年份 → 区间)
- T-shirt size → Ordinal (衣码 → 顺序)
在Non-numeric类型中,Nominal(名义型)和Ordinal(顺序型)
都是常见的分类数据类型。下面是每种类型的具体例子:
1. Nominal(名义型)
Nominal数据是没有顺序或等级之分的分类数据。它们仅用于区分不同的类别。
例子:
- 性别:男,女
- 血型:A型,B型,AB型,O型
- 颜色:红色,蓝色,绿色
- 国家:中国,美国,法国
2. Ordinal(顺序型)
Ordinal数据是有顺序的,但没有明确的数值间隔。数据项之间有一定的排列顺序,但不表示具体的数值差异。
例子:
- 教育水平:小学,初中,高中,本科,硕士,博士
- 客户满意度:非常不满意,不满意,一般,满意,非常满意
- 比赛名次:第一名,第二名,第三名
在Nominal数据中,类别之间没有自然的顺序,而Ordinal数据则有明确的顺序关系。
在Numeric类型中,数据可以分为两类:nterval(区间型)和Ratio(比率型)
它们都涉及数值数据,但具有不同的性质。
1. Interval(区间型)
Interval数据是有固定间隔的数值数据,数据项之间的差距是有意义的。然而,区间型数据没有绝对零点,即零点不代表“无”。
例子:
- 温度:例如摄氏度(°C)或华氏度(°F)。0°C并不意味着“没有温度”,只是一个测量的参考点。
- 年份:例如公元2000年,2010年,2020年。零年并不意味着“没有时间”,只是一个特定的参照点。
2. Ratio(比率型)
Ratio数据与Interval数据相似,但具有绝对零点。这意味着零点代表“无”或“缺失”,并且可以进行除法运算。
例子:
- 身高:例如180厘米、160厘米。0厘米代表没有身高。
- 体重:例如70公斤、50公斤。0公斤表示没有重量。
- 收入:例如10000元、5000元。0元表示没有收入。
- 时间:例如用秒钟、分钟计量的时间。0秒代表没有时间。
区别:
- Interval 数据有固定的间隔,但没有真实的零点。无法进行比例运算(如“10°C是20°C的两倍”是无意义的)。
- Ratio 数据不仅有固定的间隔,而且有真实的零点,可以进行比例运算(如“20公斤是10公斤的两倍”是有意义的)。
这两种类型的Numeric数据都可以进行加减运算,而Ratio数据还可以进行乘除运算。