第10章: 计量经济学基础

经济学提出因果主张——最低工资影响就业，教育提高收入，制度决定增长。检验这些主张需要数据和区分因果关系与相关关系的方法。计量经济学就是这种方法。

本章不是统计学课程。我们假设读者熟悉基本的概率论和回归分析。我们关注的是实证经济学的核心问题：识别——找到可信的外生变异来源，使我们能够估计因果效应。本章的每种工具（OLS、工具变量、双重差分、回归断点）都是解决识别问题的策略。

前置知识：第2章和第5章（示例的经济学背景）。数学前置知识：线性代数、概率论与统计学。

10.1 识别问题

考虑这个问题：多受一年教育是否会增加收入？我们观察到受教育程度更高的人收入更高。但这是因为：

两者都与观察到的相关性一致。识别问题在于我们无法直接比较同一个人接受教育和未接受教育的情况——反事实是不可观测的。

其中 $Y_i$ 是结果（收入），$X_i$ 是处理（受教育年限），$\beta$ 是我们感兴趣的因果参数，$\varepsilon_i$ 捕捉影响 $Y_i$ 的所有其他因素：能力、家庭背景、动机、运气、健康以及数千个其他因素。

当 $X_i$ 与 $\varepsilon_i$ 相关时，即"处理"不是随机分配的，识别问题就会出现。在统计学中，这被称为内生性。在经济学中，这是常态而非例外：人们选择自己的教育（而这种选择与能力相关），国家选择自己的政策（而这种选择与其经济条件相关），企业选择自己的价格（而这种选择与需求条件相关）。

在随机实验中，处理 $X_i$ 由抛硬币决定；它在构造上独立于 $\varepsilon_i$。但经济学家很少有机会对重大问题进行随机化。本章的方法（OLS、IV、DiD、RD）是在观测数据中寻找近似随机化的"自然实验"的策略。

10.2 普通最小二乘法（OLS）

高斯-马尔科夫假设。 OLS 成为最佳线性无偏估计量的条件集：(1) 线性性，(2) 随机抽样，(3) 无完全多重共线性，(4) 零条件均值（$E[\varepsilon|X] = 0$），(5) 同方差性（$Var(\varepsilon|X) = \sigma^2$）。

在高斯-马尔科夫假设下，OLS具有良好的性质：

线性性：真实模型在参数上是线性的
随机抽样：观测值是独立抽取的
无完全多重共线性：没有回归变量是其他变量的精确线性函数
零条件均值：$E[\varepsilon|X] = 0$——误差与回归变量之间没有系统性关系
同方差性：$Var(\varepsilon|X) = \sigma^2$——误差方差是常数

零条件均值。 假设 $E[\varepsilon|X] = 0$：误差项与回归变量之间没有系统性关系。这是 OLS 无偏性的关键假设。当它失败时（由于遗漏变量、联立性或测量误差），OLS 是有偏的。

BLUE（最优线性无偏估计量）。 在高斯-马尔科夫假设下，OLS在所有线性无偏估计量中方差最小。"最优"= 最小方差；"线性"= $Y$ 的线性函数；"无偏"= $E[\hat{\beta}] = \beta$。

在这些假设下，OLS是BLUE——最优线性无偏估计量。"最优"意味着在所有线性无偏估计量中方差最低。"无偏"意味着 $E[\hat{\beta}] = \beta$。

关键假设是第4条：$E[\varepsilon|X] = 0$。当此假设失败时——由于遗漏变量、联立性或 $X$ 的测量误差——OLS是有偏的。估计值 $\hat{\beta}$ 即使在无限数据下也不会收敛到真实的 $\beta$。这不是小样本问题——它是一个根本性的设计缺陷，更多的数据无法修复。

图 10.1 — OLS 回归探索器

一个带有OLS回归线的散点图。拖动滑块在不同的垂直位置添加异常值，并观察回归线的倾斜。观察单个高杠杆点如何显著改变斜率、$R^2$ 和系数。

异常值Y位置：无

无异常值中等极端 (Y=25)

OLS: β̂ = 0.00 | 截距 = 0.00 | R² = 0.00

图 10.1. 带有可调异常值的OLS回归。异常值位于 $X=14$（高杠杆点）。拖动滑块至"无异常值"以上以引入异常值，并观察回归线的倾斜。悬停查看数值。

遗漏变量偏差

偏差等于遗漏变量的效应（$\beta_2$）乘以遗漏变量与纳入回归变量之间的关联。

	$Cov(X, Z) > 0$	$Cov(X, Z) < 0$
$\beta_2 > 0$	向上偏差（高估 $\beta_1$）	向下偏差
$\beta_2 < 0$	向下偏差	向上偏差

图 10.2 — 遗漏变量偏差

两个面板显示相同的数据。左：包含混杂因素（能力）的真实关系，以点的颜色表示。右：忽略能力的朴素OLS回归。拖动滑块改变混杂强度，观察偏差的增长。

混杂强度 ($\rho$)：0.60

无混杂 (0) 中等 (0.5) 强 (0.95)

真实 β₁ = 0.50 | 朴素OLS β̂ = 0.00 | 偏差 = 0.00

左：包含混杂因素（能力）的真实模型，以颜色显示。颜色越深 = 能力越高。

右：忽略能力的朴素OLS回归。有偏的回归线（红色虚线）比真实因果效应（蓝色）更陡。

10.3 工具变量（IV）

当OLS因 $X$ 内生（$Cov(X, \varepsilon) \neq 0$）而有偏时，工具变量可以拯救估计。

这分离出由工具变量驱动的 $X$ 的部分——即外生部分。拟合值 $\hat{X}_i$ 代表 $X$ 中的"干净"变异。

IV估计值是简约形式（$Z$ 对 $Y$ 的效应）与第一阶段（$Z$ 对 $X$ 的效应）的比率。直觉：$Z$ 仅通过 $X$ 影响 $Y$（排除性限制），因此除以第一阶段可以分离出 $X$ 对 $Y$ 的因果效应。

IV估计的是什么。在异质性处理效应下，IV识别的是局部平均处理效应（LATE）：行为受工具变量改变的亚群体（"依从者"）的因果效应。

The settler-mortality instrument (Acemoglu, Johnson & Robinson 2001) is the canonical exclusion-restriction debate — its substance, and the institutions-vs-geography development question it bears on, live in Chapter 18 (Institutional Economics).

弱工具变量

如果 $Z$ 与 $X$ 的相关性很弱，第一阶段就很弱，IV估计就不可靠（偏向OLS，置信区间很宽）。经验法则：第一阶段F统计量 > 10。

例 10.2 — 出生季度（Angrist & Krueger 1991）

出生季度被用作受教育年限的工具变量。义务教育法意味着年初出生的学生可以以略少的受教育年限辍学。出生季度可以合理地认为：(a) 与受教育年限相关（相关性），且 (b) 与收入没有直接关系（排除性）。教育回报率的IV估计约为每年7-8%。

10.4 双重差分（DiD）

第一次差分消除了时间不变的组特征。第二次差分消除了共同的时间趋势。

关键假设：平行趋势。在没有处理的情况下，处理组和对照组会遵循相同的趋势。这在处理后时期不可检验，但可在处理前时期进行评估。

图 10.3 — 双重差分

两条时间序列显示处理组和对照组。处理发生在 $t = 5$。拖动滑块改变处理效应大小，观察DiD估计的更新。可以看到处理前的平行趋势。

处理效应 ($\tau$)：3.0

负向 (−5) 零大 (+10)

DID估计量: τ̂ = 3.00

图 10.3.双重差分设计。虚线显示反事实——即在没有处理的情况下，处理组会发生什么（与对照组平行）。最终实际结果与反事实结果之间的差距即为处理效应。

10.5 回归断点（RD）

关键假设：连续性。影响 $Y$ 的所有因素（除处理外）在截断点处连续变化，在阈值附近没有排序或操纵。

图 10.4 — 回归断点

一个以运行变量（考试成绩）为横轴的散点图。超过截断点的学生接受处理（奖学金）。两侧的多项式拟合揭示了截断点处的跳跃。调整截断点位置和带宽，观察估计处理效应的变化。

断点位置：50

低 (30) 中 (50) 高 (70)

带宽：25

窄 (5) 中 (25) 宽 (40)

RD估计量: τ̂ = 0.00 | 断点 = 50 | 带宽 = 25

图 10.4.回归断点。垂直虚线标记截断点。截断点左侧的点未接受处理（灰色）；右侧接受处理（绿色）。截断点处的跳跃即为处理效应估计。调整带宽以聚焦于截断点附近的观测值。

10.6 随机对照试验（RCTs）

随机对照试验是内部效度的"金标准"，因为随机化在构造上保证了 $E[\varepsilon|X] = 0$。Banerjee、Duflo和Kremer因其减轻全球贫困的实验方法获得了2019年诺贝尔奖。

The randomized-evaluation movement in development economics — the applied home of these methods — is the subject of Chapter 20 §20.6 (The RCT Revolution).

随机对照试验的局限性

例 10.5 — 部分依从的随机对照试验

一个职业培训项目随机将500人分配到处理组，500人分配到对照组。仅有60%被分配到处理组的人实际参加了项目（依从率 = 0.6）。

结果：平均收入：处理组 = \$15,000，对照组 = \$13,000。

ITT： $\hat{\tau}_{ITT} = 25{,}000 - 23{,}000 = \\$1{,}000$。这是被提供项目的效应。

TOT： $\hat{\tau}_{TOT} = 2{,}000 / 0.6 = \\$1{,}333$。这估计了实际参加项目的效应（针对依从者）。TOT更大，因为ITT被未依从者稀释了。

检验力检查：每组 $n = 500$，$\sigma = \\$1{,}000$，真实效应为 $\\$1{,}000$，检验力 $\approx 0.80$。该研究有足够的检验力来检测ITT。

图 10.5 — RCT 检验力计算器

统计检验力是检测到真实处理效应的概率。使用滑块探索效应大小、样本量和方差如何影响检验力。检验力曲线实时更新，80%检验力下的最小可检测效应（MDE）会被标出。

真实效应量 ($\delta$)：0.50

小 (0.05) 中 (0.50) 大 (1.50)

每组样本量 ($n$)：100

10 250 500

标准差 ($\sigma$)：1.00

低 (0.5) 中 (1.0) 高 (3.0)

检验效力: 0.00 | 80%检验力下的MDE: 0.00

图 10.5.检验力曲线：检测效应的概率作为效应大小的函数。红色虚线标记80%的检验力。绿色菱形标记当前参数组合。MDE是在给定样本量和方差下，80%检验力可检测的最小效应。

10.7 标准误与推断

标准误（SE）是对角元素的平方根。95%置信区间约为 $\hat{\beta} \pm 1.96 \cdot SE(\hat{\beta})$。

统计显著性：如果 $|t| = |\hat{\beta}/SE(\hat{\beta})| > 1.96$，我们在5%水平上拒绝 $H_0: \beta = 0$。

经济显著性与统计显著性：一个系数可以在统计上显著但在经济上微不足道。反之，一个不精确的估计可以在经济上很大但在统计上不显著。好的实证研究会讨论两者。

有效推断的威胁

一条实用规则：在现代应用经济学中，始终使用稳健标准误或聚类标准误。

10.8 效度威胁

策略	关键假设	威胁	诊断方法
OLS	无遗漏变量（$E[\varepsilon\|X]=0$）	混杂	理论 + 敏感性分析
IV	排除性限制	$Z$ 对 $Y$ 的直接效应	无法直接检验；从理论上论证
IV	相关性	弱工具变量	第一阶段 F > 10
DiD	平行趋势	差异性处理前趋势	绘制处理前趋势图
RD	截断点处无操纵	围绕阈值的排序	McCrary密度检验
RCT	无流失、无溢出	差异性退出；污染	平衡检验、流失分析

主线案例：凯拉尼共和国

一位经济学家想要估计凯拉尼新教育政策（1-6年级免费教科书）对考试成绩的影响。该政策于2024年在东部省份实施，但未在西部省份实施。

设计：双重差分。

	政策前（2023年）	政策后（2025年）	变化
东部（处理组）	55	63	+8
西部（对照组）	52	56	+4
DiD估计值			+4

DiD估计值为4分。在控制了共同的上升趋势后，免费教科书使考试成绩提高了4分。

威胁：(1) 平行趋势：东部省份是否已经在更快地改善？(2) 溢出效应：边境附近的家庭是否将孩子送到东部学校？(3) 组成变化：免费教科书是否改变了入学率？

一种补充方法：在省界处使用回归断点，比较边界两侧的村庄。

结论

识别问题——区分因果关系与相关关系——是实证经济学的核心挑战。
OLS估计线性关系，但当解释变量与误差项相关时会产生偏差。遗漏变量偏差具有可预测的方向。
工具变量利用与 $X$ 相关但不直接与 $Y$ 相关的变量来分离外生变异。排除性限制至关重要且不可检验。
双重差分在平行趋势假设下，比较处理组和对照组随时间的变化。
回归断点利用运行变量的截断值创建局部准实验。
随机对照试验通过设计解决识别问题，但面临外部效度的局限性。
每种策略都有假设和威胁。良好的实证研究应清晰陈述其识别策略并讨论潜在的违反情况。

关键公式

标签	方程	描述
方程 10.1	$Y_i = \alpha + \beta X_i + \varepsilon_i$	结构方程
方程 10.2	$\hat{\beta}_{OLS} = (X'X)^{-1}X'Y$	OLS估计量
方程 10.3	$E[\hat{\alpha}_1] = \beta_1 + \beta_2 \cdot Cov(X,Z)/Var(X)$	遗漏变量偏差公式
Eq. 10.4	$\hat{\beta}_{IV} = (Z'X)^{-1}Z'Y$	IV estimator (matrix)
方程 10.5	$\hat{\beta}_{IV} = Cov(Z,Y)/Cov(Z,X)$	IV估计量（简单形式）
方程 10.6	$\hat{\tau}_{DiD}$ = (处理组变化) − (对照组变化)	DiD估计量
方程 10.7	$Y_{it} = \alpha + \beta_1 Treat + \beta_2 Post + \tau(Treat \times Post) + \varepsilon$	DiD回归
方程 10.8	$\hat{\tau}_{RD} = \lim_{x \downarrow c} E[Y\|X=x] - \lim_{x \uparrow c} E[Y\|X=x]$	RD估计量
方程 10.9	$\hat{\tau}_{RCT} = \bar{Y}_{treat} - \bar{Y}_{control}$	RCT估计量
方程 10.10	$Var(\hat{\beta}) = \sigma^2(X'X)^{-1}$	OLS方差

练习题

基础练习

假设你使用OLS将工资对受教育年限回归，估计的系数为0.10（每多受一年教育与10%更高的工资相关）。列出两个可能使该估计产生偏差的遗漏变量，并预测每个的偏差方向。
一项IV研究使用"到最近大学的距离"作为受教育年限的工具变量。(a) 论证相关性。(b) 排除性限制是什么，什么可能违反它？
在A市颁布苏打税前后，与B市进行比较。税前，A市的苏打消费量为每人100罐，B市为90罐。税后，A市为80罐，B市为85罐。计算DiD估计值。这里的平行趋势假设是什么？
一个奖学金项目录取GPA ≥ 3.5的学生。你有GPA从3.0到4.0的学生数据。(a) 描述RD设计。(b) 什么是运行变量？(c) 关于学生在截断点附近的行为，必须满足什么假设？

应用练习

政府随机化职业培训项目的参与权。被提供项目的人中有60%实际参加。意向治疗估计为收入增加100美元。处理效应估计是多少？你需要什么假设？这与IV有什么关系？
一位经济学家声称民主促进经济增长，引用了跨国相关性。用本章的框架批评这一主张。你会提出什么具体的识别策略？
一项DiD研究估计环境法规的效应。处理前趋势显示处理组的污染已经在比对照组更快地下降。这如何违反平行趋势？DiD估计的偏差方向是什么？

挑战题

通过最小化 $S(\beta) = (Y - X\beta)'(Y - X\beta)$ 推导OLS估计量 $\hat{\beta} = (X'X)^{-1}X'Y$。证明一阶条件给出正规方程 $X'X\hat{\beta} = X'Y$。
用代数方法证明，当工具变量 $Z$ 为二值时，IV估计量简化为Wald估计量：$\hat{\beta}_{IV} = (\bar{Y}_1 - \bar{Y}_0)/(\bar{X}_1 - \bar{X}_0)$。
讨论经济学中的"可信性革命"（Angrist and Pischke, 2010）。结构计量经济学与基于设计的实证研究之间发生了什么变化？各自的优势和局限性是什么？

第10章计量经济学基础

引言