经济学提出因果主张——最低工资影响就业,教育提高收入,制度决定增长。检验这些主张需要数据和区分因果关系与相关关系的方法。计量经济学就是这种方法。
本章不是统计学课程。我们假设读者熟悉基本的概率论和回归分析。我们关注的是实证经济学的核心问题:识别——找到可信的外生变异来源,使我们能够估计因果效应。本章的每种工具(OLS、工具变量、双重差分、回归断点)都是解决识别问题的策略。
前置知识:第2章和第5章(示例的经济学背景)。数学前置知识:线性代数、概率论与统计学。
考虑这个问题:多受一年教育是否会增加收入?我们观察到受教育程度更高的人收入更高。但这是因为:
两者都与观察到的相关性一致。识别问题在于我们无法直接比较同一个人接受教育和未接受教育的情况——反事实是不可观测的。
基本方程:
其中 $Y_i$ 是结果(收入),$X_i$ 是处理(受教育年限),$\beta$ 是我们感兴趣的因果参数,$\varepsilon_i$ 捕捉影响 $Y_i$ 的所有其他因素:能力、家庭背景、动机、运气、健康以及数千个其他因素。
当 $X_i$ 与 $\varepsilon_i$ 相关时,即"处理"不是随机分配的,识别问题就会出现。在统计学中,这被称为内生性。在经济学中,这是常态而非例外:人们选择自己的教育(而这种选择与能力相关),国家选择自己的政策(而这种选择与其经济条件相关),企业选择自己的价格(而这种选择与需求条件相关)。
在随机实验中,处理 $X_i$ 由抛硬币决定;它在构造上独立于 $\varepsilon_i$。但经济学家很少有机会对重大问题进行随机化。本章的方法(OLS、IV、DiD、RD)是在观测数据中寻找近似随机化的"自然实验"的策略。
对于多元模型 $Y = X\beta + \varepsilon$(矩阵表示法):
在高斯-马尔科夫假设下,OLS具有良好的性质:
在这些假设下,OLS是BLUE——最优线性无偏估计量。"最优"意味着在所有线性无偏估计量中方差最低。"无偏"意味着 $E[\hat{\beta}] = \beta$。
关键假设是第4条:$E[\varepsilon|X] = 0$。当此假设失败时——由于遗漏变量、联立性或 $X$ 的测量误差——OLS是有偏的。估计值 $\hat{\beta}$ 即使在无限数据下也不会收敛到真实的 $\beta$。这不是小样本问题——它是一个根本性的设计缺陷,更多的数据无法修复。
一个带有OLS回归线的散点图。拖动滑块在不同的垂直位置添加异常值,并观察回归线的倾斜。观察单个高杠杆点如何显著改变斜率、$R^2$ 和系数。
图 10.1. 带有可调异常值的OLS回归。异常值位于 $X=14$(高杠杆点)。拖动滑块至"无异常值"以上以引入异常值,并观察回归线的倾斜。悬停查看数值。
假设真实模型为 $Y = \beta_0 + \beta_1 X + \beta_2 Z + u$,但我们遗漏 $Z$ 并运行 $Y = \alpha_0 + \alpha_1 X + e$。那么:
偏差等于遗漏变量的效应($\beta_2$)乘以遗漏变量与纳入回归变量之间的关联。
偏差方向:
| $Cov(X, Z) > 0$ | $Cov(X, Z) < 0$ | |
|---|---|---|
| $\beta_2 > 0$ | 向上偏差(高估 $\beta_1$) | 向下偏差 |
| $\beta_2 < 0$ | 向下偏差 | 向上偏差 |
假设能力($Z$)与教育($X$)和收入($Y$)均正相关。那么 $\beta_2 > 0$(能力提高收入)且 $Cov(X,Z) > 0$(能力更强的人接受更多教育)。OLS对教育回报率的估计向上偏——它将部分能力效应归因于教育。
两个面板显示相同的数据。左:包含混杂因素(能力)的真实关系,以点的颜色表示。右:忽略能力的朴素OLS回归。拖动滑块改变混杂强度,观察偏差的增长。
左:包含混杂因素(能力)的真实模型,以颜色显示。颜色越深 = 能力越高。
右:忽略能力的朴素OLS回归。有偏的回归线(红色虚线)比真实因果效应(蓝色)更陡。
当OLS因 $X$ 内生($Cov(X, \varepsilon) \neq 0$)而有偏时,工具变量可以拯救估计。
两阶段最小二乘法(2SLS):
第一阶段:将 $X$ 对 $Z$(及任何控制变量)进行回归:
这分离出由工具变量驱动的 $X$ 的部分——即外生部分。拟合值 $\hat{X}_i$ 代表 $X$ 中的"干净"变异。
第二阶段:将 $Y$ 对 $\hat{X}$ 进行回归。矩阵形式:
在一个工具变量和一个内生回归变量的简单情况下:
IV估计值是简约形式($Z$ 对 $Y$ 的效应)与第一阶段($Z$ 对 $X$ 的效应)的比率。直觉:$Z$ 仅通过 $X$ 影响 $Y$(排除性限制),因此除以第一阶段可以分离出 $X$ 对 $Y$ 的因果效应。
IV估计的是什么。在异质性处理效应下,IV识别的是局部平均处理效应(LATE):行为受工具变量改变的亚群体("依从者")的因果效应。
如果 $Z$ 与 $X$ 的相关性很弱,第一阶段就很弱,IV估计就不可靠(偏向OLS,置信区间很宽)。经验法则:第一阶段F统计量 > 10。
出生季度被用作受教育年限的工具变量。义务教育法意味着年初出生的学生可以以略少的受教育年限辍学。出生季度可以合理地认为:(a) 与受教育年限相关(相关性),且 (b) 与收入没有直接关系(排除性)。教育回报率的IV估计约为每年7-8%。
该有向无环图展示了工具变量设计的因果结构。在两种视图之间切换,观察工具变量Z如何打断混杂路径。
图 10.2.工具变量设计的DAG图。Z是工具变量,X是内生回归变量,Y是结果变量,U是未观测的混杂因素。IV策略仅使用由Z驱动的X的变异,绕过通过U的混杂路径。
第一次差分消除了时间不变的组特征。第二次差分消除了共同的时间趋势。
关键假设:平行趋势。在没有处理的情况下,处理组和对照组会遵循相同的趋势。这在处理后时期不可检验,但可在处理前时期进行评估。
新泽西州于1992年4月将最低工资从4.25美元提高到5.05美元;宾夕法尼亚州未调整。就业效应的DiD估计为正值(+2.7全职当量工人),与简单竞争模型的预测相矛盾。这项研究引发了实证劳动经济学的革命。
回归公式:
两条时间序列显示处理组和对照组。处理发生在 $t = 5$。拖动滑块改变处理效应大小,观察DiD估计的更新。可以看到处理前的平行趋势。
图 10.3.双重差分设计。虚线显示反事实——即在没有处理的情况下,处理组会发生什么(与对照组平行)。最终实际结果与反事实结果之间的差距即为处理效应。
你现在拥有双重差分、工具变量和因果识别的工具。这就是最低工资之争由证据而非理论得到解决的地方。
Card和Krueger(1994)把你刚学的方法——双重差分——应用到一个自然实验中。1992年新泽西将最低工资从 \$4.25 提高到 \$5.05,而邻近的宾夕法尼亚没有。通过在提价前后对边界两侧的快餐店做调查,他们构造了一个干净的DiD估计:处理组(NJ)对控制组(PA),差分掉共同趋势。结果震惊了学界:新泽西快餐店的就业没有下降。如果说有什么变化,那是略有上升。竞争模型的预测——具约束力的价格下限会减少需求量——在其最直接的实证检验中失败了。后来使用县边界设计(Dube、Lester & Reich,2010)的研究证实了这一模式:在跨州相邻的县之间比较,一侧提高最低工资而另一侧没有,对于适度上调,就业效应小到可以忽略。
Neumark和Wascher发起了最持久的挑战。他们使用劳工统计局的工资单数据而非Card和Krueger的电话调查,发现新泽西的就业确实下降了——他们认为原始结果是嘈杂调查数据的假象。除了数据质量之外,这一批评在结构上也有力量:DiD捕捉的是短期效应,但企业会在多个维度上随时间调整。即使人头不动,工时也会被削减(Jardim等,2022,关于西雅图 \$15 最低工资的研究)。福利缩水。自动化加速——自助点餐机和排班软件不是巧合。而且边界设计的研究可能系统性低估效应,因为它比较的正是由于跨边界交换工人而经济上相似的地区,污染了控制组。元分析是真正混杂的:你给哪些研究赋更大权重、如何赋权,决定了你发现的是小的负效应还是无效应。
该领域的回应展示了经济学家所谓的"可信性革命"——从估计结构模型转向设计识别策略。Card和Krueger不仅挑战了一个预测;他们改变了实证经济学的做法。问题从"模型预测什么?"转向"我们能找到一个隔离因果效应的可信研究设计吗?"Cengiz、Dube、Lindner和Zipperer(2019)至今给出了最全面的答案,分析了138次州级最低工资变化,使用聚束估计量。他们观察整个工资分布:薪酬略低于新最低工资的工作消失了,薪酬等于或略高于它的工作出现了,而且——关键地——受影响区间的总就业几乎未变。工作没有消失;它们沿工资阶梯上移了。这恰恰是第6章的买方垄断模型所预测的,也恰恰是竞争模型所说不应发生的。
教科书预测——最低工资导致失业——作为一般性的经验主张是错误的。在大多数可信研究中,适度的最低工资上调(直至当地中位工资的大约50–60%)产生可忽略的就业效应。这与低工资劳动市场上的买方垄断势力相一致:当雇主拥有工资设定权时,适度的最低工资把他们推向竞争结果,而非远离它。但"适度"是关键词。竞争模型不是错的——它是不完整的。把最低工资相对于当地条件提得足够高(超过中位数的60%,正如在低工资地区联邦 \$15 所代表的),标准预测就重新成立。更深的教训是方法论上的:一个看起来几十年密不透风的理论预测,被推翻不是靠更好的理论,而是靠更好的识别。模型在逻辑上是正确的;它的经验相关性才是问题所在。
这个大问题在这一水平上基本得到了解决:适度的最低工资不会导致显著失业,这与买方垄断相一致。剩下的前沿是校准,而非方向。在出现去就业之前你能走多高?答案因地区、部门和时间跨度而异——自动化维度(自助机、AI排班、自助结账)可能使长期效应比短期DiD估计所捕捉的更大。辩论从"它是否导致失业?"转向"这个劳动市场上的正确数字是多少?"——这是政策设计问题,而非经济理论问题。你在本章学到的工具——DiD、IV、识别策略——正是那个校准问题被回答的方式。
一代人中最成功的工资运动将一个数字变成了一场运动。但\$15在旧金山和密西西比州农村意味着截然不同的事情。「多少」的经济学与「在哪里」不可分割。
入门即使适度的最低工资增长不会导致失业,它真的能减少贫困吗?最低工资是一个粗糙的工具——许多最低工资工人并不在贫困家庭中(想想有富裕父母的青少年)。劳动所得税抵免(EITC)更精确地针对低收入家庭。我们是在为错误的政策争论吗?
中级关键假设:连续性。影响 $Y$ 的所有因素(除处理外)在截断点处连续变化,在阈值附近没有排序或操纵。
考试成绩超过80分的学生获得奖学金。得分79和81的学生能力相似,但一个获得奖学金而另一个没有。80分阈值处结果(如大学完成率)的不连续性可以估计奖学金的因果效应。
一个以运行变量(考试成绩)为横轴的散点图。超过截断点的学生接受处理(奖学金)。两侧的多项式拟合揭示了截断点处的跳跃。调整截断点位置和带宽,观察估计处理效应的变化。
图 10.4.回归断点。垂直虚线标记截断点。截断点左侧的点未接受处理(灰色);右侧接受处理(绿色)。截断点处的跳跃即为处理效应估计。调整带宽以聚焦于截断点附近的观测值。
随机对照试验是内部效度的"金标准",因为随机化在构造上保证了 $E[\varepsilon|X] = 0$。Banerjee、Duflo和Kremer因其减轻全球贫困的实验方法获得了2019年诺贝尔奖。
一个职业培训项目随机将500人分配到处理组,500人分配到对照组。仅有60%被分配到处理组的人实际参加了项目(依从率 = 0.6)。
结果:平均收入:处理组 = \$15,000,对照组 = \$13,000。
ITT: $\hat{\tau}_{ITT} = 25{,}000 - 23{,}000 = \\$1{,}000$。这是被提供项目的效应。
TOT: $\hat{\tau}_{TOT} = 2{,}000 / 0.6 = \\$1{,}333$。这估计了实际参加项目的效应(针对依从者)。TOT更大,因为ITT被未依从者稀释了。
检验力检查:每组 $n = 500$,$\sigma = \\$1{,}000$,真实效应为 $\\$1{,}000$,检验力 $\approx 0.80$。该研究有足够的检验力来检测ITT。
统计检验力是检测到真实处理效应的概率。使用滑块探索效应大小、样本量和方差如何影响检验力。检验力曲线实时更新,80%检验力下的最小可检测效应(MDE)会被标出。
图 10.5.检验力曲线:检测效应的概率作为效应大小的函数。红色虚线标记80%的检验力。绿色菱形标记当前参数组合。MDE是在给定样本量和方差下,80%检验力可检测的最小效应。
没有不确定性度量的点估计几乎毫无用处。
标准误(SE)是对角元素的平方根。95%置信区间约为 $\hat{\beta} \pm 1.96 \cdot SE(\hat{\beta})$。
统计显著性:如果 $|t| = |\hat{\beta}/SE(\hat{\beta})| > 1.96$,我们在5%水平上拒绝 $H_0: \beta = 0$。
经济显著性与统计显著性:一个系数可以在统计上显著但在经济上微不足道。反之,一个不精确的估计可以在经济上很大但在统计上不显著。好的实证研究会讨论两者。
一条实用规则:在现代应用经济学中,始终使用稳健标准误或聚类标准误。
每种实证策略都有可能失败的假设:
| 策略 | 关键假设 | 威胁 | 诊断方法 |
|---|---|---|---|
| OLS | 无遗漏变量($E[\varepsilon|X]=0$) | 混杂 | 理论 + 敏感性分析 |
| IV | 排除性限制 | $Z$ 对 $Y$ 的直接效应 | 无法直接检验;从理论上论证 |
| IV | 相关性 | 弱工具变量 | 第一阶段 F > 10 |
| DiD | 平行趋势 | 差异性处理前趋势 | 绘制处理前趋势图 |
| RD | 截断点处无操纵 | 围绕阈值的排序 | McCrary密度检验 |
| RCT | 无流失、无溢出 | 差异性退出;污染 | 平衡检验、流失分析 |
一位经济学家想要估计凯拉尼新教育政策(1-6年级免费教科书)对考试成绩的影响。该政策于2024年在东部省份实施,但未在西部省份实施。
设计:双重差分。
| 政策前(2023年) | 政策后(2025年) | 变化 | |
|---|---|---|---|
| 东部(处理组) | 55 | 63 | +8 |
| 西部(对照组) | 52 | 56 | +4 |
| DiD估计值 | +4 |
DiD估计值为4分。在控制了共同的上升趋势后,免费教科书使考试成绩提高了4分。
威胁:(1) 平行趋势:东部省份是否已经在更快地改善?(2) 溢出效应:边境附近的家庭是否将孩子送到东部学校?(3) 组成变化:免费教科书是否改变了入学率?
一种补充方法:在省界处使用回归断点,比较边界两侧的村庄。
| 标签 | 方程 | 描述 |
|---|---|---|
| 方程 10.1 | $Y_i = \alpha + \beta X_i + \varepsilon_i$ | 结构方程 |
| 方程 10.2 | $\hat{\beta}_{OLS} = (X'X)^{-1}X'Y$ | OLS估计量 |
| 方程 10.3 | $E[\hat{\alpha}_1] = \beta_1 + \beta_2 \cdot Cov(X,Z)/Var(X)$ | 遗漏变量偏差公式 |
| 方程 10.5 | $\hat{\beta}_{IV} = Cov(Z,Y)/Cov(Z,X)$ | IV估计量(简单形式) |
| 方程 10.6 | $\hat{\tau}_{DiD}$ = (处理组变化) − (对照组变化) | DiD估计量 |
| 方程 10.7 | $Y_{it} = \alpha + \beta_1 Treat + \beta_2 Post + \tau(Treat \times Post) + \varepsilon$ | DiD回归 |
| 方程 10.8 | $\hat{\tau}_{RD} = \lim_{x \downarrow c} E[Y|X=x] - \lim_{x \uparrow c} E[Y|X=x]$ | RD估计量 |
| 方程 10.9 | $\hat{\tau}_{RCT} = \bar{Y}_{treat} - \bar{Y}_{control}$ | RCT估计量 |
| 方程 10.10 | $Var(\hat{\beta}) = \sigma^2(X'X)^{-1}$ | OLS方差 |