经济学提出因果主张——最低工资影响就业,教育提高收入,制度决定增长。检验这些主张需要数据和区分因果关系与相关关系的方法。计量经济学就是这种方法。
本章不是统计学课程。我们假设读者熟悉基本的概率论和回归分析。相反,我们关注实证经济学的核心问题:识别——找到可信的外生变异来源,使我们能够估计因果效应。本章的每种工具——OLS、工具变量、双重差分、回归断点——都是解决识别问题的策略。
前置知识:第2章和第5章(示例的经济学背景)。数学前置知识:线性代数、概率论与统计学。
考虑这个问题:多受一年教育是否会增加收入?我们观察到受教育程度更高的人收入更高。但这是因为:
两者都与观察到的相关性一致。识别问题在于我们无法直接比较同一个人接受教育和未接受教育的情况——反事实是不可观测的。
基本方程:
其中 $Y_i$ 是结果(收入),$X_i$ 是处理(受教育年限),$\beta$ 是我们感兴趣的因果参数,$\varepsilon_i$ 捕捉影响 $Y_i$ 的所有其他因素——能力、家庭背景、动机、运气、健康以及数千个其他因素。
当 $X_i$ 与 $\varepsilon_i$ 相关时——即"处理"不是随机分配的——识别问题就会出现。在统计学中,这被称为内生性。在经济学中,这是常态而非例外:人们选择自己的教育(而这种选择与能力相关),国家选择自己的政策(而这种选择与其经济条件相关),企业选择自己的价格(而这种选择与需求条件相关)。
在随机实验中,处理 $X_i$ 由抛硬币决定——它在构造上独立于 $\varepsilon_i$。但经济学家很少有机会对重大问题进行随机化。本章的方法——OLS、IV、DiD、RD——是在观测数据中寻找近似随机化的"自然实验"的策略。
对于多元模型 $Y = X\beta + \varepsilon$(矩阵表示法):
在高斯-马尔科夫假设下,OLS具有良好的性质:
在这些假设下,OLS是BLUE——最优线性无偏估计量。"最优"意味着在所有线性无偏估计量中方差最低。"无偏"意味着 $E[\hat{\beta}] = \beta$。
关键假设是第4条:$E[\varepsilon|X] = 0$。当此假设失败时——由于遗漏变量、联立性或 $X$ 的测量误差——OLS是有偏的。估计值 $\hat{\beta}$ 即使在无限数据下也不会收敛到真实的 $\beta$。这不是小样本问题——它是一个根本性的设计缺陷,更多的数据无法修复。
一个带有OLS回归线的散点图。拖动滑块在不同的垂直位置添加异常值,并观察回归线的倾斜。观察单个高杠杆点如何显著改变斜率、$R^2$ 和系数。
图 10.1. 带有可调异常值的OLS回归。异常值位于 $X=14$(高杠杆点)。拖动滑块至"无异常值"以上以引入异常值,并观察回归线的倾斜。悬停查看数值。
假设真实模型为 $Y = \beta_0 + \beta_1 X + \beta_2 Z + u$,但我们遗漏 $Z$ 并运行 $Y = \alpha_0 + \alpha_1 X + e$。那么:
偏差等于遗漏变量的效应($\beta_2$)乘以遗漏变量与纳入回归变量之间的关联。
偏差方向:
| $Cov(X, Z) > 0$ | $Cov(X, Z) < 0$ | |
|---|---|---|
| $\beta_2 > 0$ | 向上偏差(高估 $\beta_1$) | 向下偏差 |
| $\beta_2 < 0$ | 向下偏差 | 向上偏差 |
假设能力($Z$)与教育($X$)和收入($Y$)均正相关。那么 $\beta_2 > 0$(能力提高收入)且 $Cov(X,Z) > 0$(能力更强的人接受更多教育)。OLS对教育回报率的估计向上偏——它将部分能力效应归因于教育。
两个面板显示相同的数据。左:包含混杂因素(能力)的真实关系,以点的颜色表示。右:忽略能力的朴素OLS回归。拖动滑块改变混杂强度,观察偏差的增长。
左:包含混杂因素(能力)的真实模型,以颜色显示。颜色越深 = 能力越高。
右:忽略能力的朴素OLS回归。有偏的回归线(红色虚线)比真实因果效应(蓝色)更陡。
当OLS因 $X$ 内生($Cov(X, \varepsilon) \neq 0$)而有偏时,工具变量可以拯救估计。
两阶段最小二乘法(2SLS):
第一阶段:将 $X$ 对 $Z$(及任何控制变量)进行回归:
这分离出由工具变量驱动的 $X$ 的部分——外生部分。拟合值 $\hat{X}_i$ 代表 $X$ 中的"干净"变异。
第二阶段:将 $Y$ 对 $\hat{X}$ 进行回归。矩阵形式:
在一个工具变量和一个内生回归变量的简单情况下:
IV估计值是简约形式($Z$ 对 $Y$ 的效应)与第一阶段($Z$ 对 $X$ 的效应)的比率。直觉:$Z$ 仅通过 $X$ 影响 $Y$(排除性限制),因此除以第一阶段可以分离出 $X$ 对 $Y$ 的因果效应。
IV估计的是什么。在异质性处理效应下,IV识别的是局部平均处理效应(LATE)——即行为受工具变量改变的亚群体("依从者")的因果效应。
如果 $Z$ 与 $X$ 的相关性很弱,第一阶段就很弱,IV估计就不可靠(偏向OLS,置信区间很宽)。经验法则:第一阶段F统计量 > 10。
出生季度被用作受教育年限的工具变量。义务教育法意味着年初出生的学生可以以略少的受教育年限辍学。出生季度可以合理地认为:(a) 与受教育年限相关(相关性),且 (b) 与收入没有直接关系(排除性)。教育回报率的IV估计约为每年7-8%。
该有向无环图展示了工具变量设计的因果结构。在两种视图之间切换,观察工具变量Z如何打断混杂路径。
图 10.2.工具变量设计的DAG图。Z是工具变量,X是内生回归变量,Y是结果变量,U是未观测的混杂因素。IV策略仅使用由Z驱动的X的变异,绕过通过U的混杂路径。
第一次差分消除了时间不变的组特征。第二次差分消除了共同的时间趋势。
关键假设:平行趋势。在没有处理的情况下,处理组和对照组会遵循相同的趋势。这在处理后时期不可检验,但可在处理前时期进行评估。
新泽西州于1992年4月将最低工资从4.25美元提高到5.05美元;宾夕法尼亚州未调整。就业效应的DiD估计为正值(+2.7全职当量工人),与简单竞争模型的预测相矛盾。这项研究引发了实证劳动经济学的革命。
回归公式:
两条时间序列显示处理组和对照组。处理发生在 $t = 5$。拖动滑块改变处理效应大小,观察DiD估计的更新。可以看到处理前的平行趋势。
图 10.3.双重差分设计。虚线显示反事实——即在没有处理的情况下,处理组会发生什么(与对照组平行)。最终实际结果与反事实结果之间的差距即为处理效应。
You now have difference-in-differences, instrumental variables, and the tools of causal identification. This is where the minimum wage debate gets resolved — not by theory, but by evidence.
Card and Krueger (1994) applied the method you just learned — difference-in-differences — to a natural experiment. When New Jersey raised its minimum wage from \$4.25 to \$5.05 in 1992, neighboring Pennsylvania didn't. By surveying fast-food restaurants on both sides of the border before and after the increase, they constructed a clean DiD estimate: the treatment group (NJ) versus the control group (PA), differencing out common trends. The result stunned the profession: employment in New Jersey fast-food restaurants didn't fall. If anything, it rose slightly. The competitive model's prediction — that a binding price floor reduces quantity demanded — failed its most direct empirical test. Subsequent studies using county-border designs (Dube, Lester & Reich, 2010) confirmed the pattern: comparing adjacent counties across state lines where one side raised its minimum wage and the other didn't, employment effects were small to negligible for moderate increases.
Neumark and Wascher mounted the most sustained challenge. Using payroll data from the Bureau of Labor Statistics instead of Card and Krueger's telephone surveys, they found employment did decline in New Jersey — the original result, they argued, was an artifact of noisy survey data. Beyond data quality, the critique has structural force: DiD captures short-run effects, but firms adjust on multiple margins over time. Hours get cut even when headcount doesn't (Jardim et al., 2022, on Seattle's \$15 minimum). Benefits erode. Automation accelerates — self-order kiosks and scheduling software aren't coincidental. And the border-design studies may systematically understate effects by comparing areas that are economically similar precisely because they trade workers across the border, contaminating the control group. The meta-analysis is genuinely mixed: which studies you weight, and how, determines whether you find small negative effects or no effects.
The field's response illustrates what economists call the "credibility revolution" — the shift from estimating structural models to designing identification strategies. Card and Krueger didn't just challenge a prediction; they changed how empirical economics is done. The question moved from "what does the model predict?" to "can we find a credible research design that isolates the causal effect?" Cengiz, Dube, Lindner, and Zipperer (2019) produced the most comprehensive answer to date, analyzing 138 state-level minimum wage changes using a bunching estimator. They looked at the entire wage distribution: jobs paying just below the new minimum disappeared, jobs paying at or just above it appeared, and — crucially — total employment in the affected range barely changed. The jobs didn't vanish; they moved up the wage ladder. This is exactly what the monopsony model from Chapter 6 predicts and exactly what the competitive model says shouldn't happen.
The textbook prediction — that minimum wages cause unemployment — is wrong as a general empirical claim. Moderate minimum wage increases, up to roughly 50–60% of the local median wage, produce minimal detectable employment effects in most credible studies. This is consistent with monopsony power in low-wage labor markets: when employers have wage-setting power, a moderate minimum wage pushes them toward the competitive outcome rather than away from it. But "moderate" is the operative word. The competitive model isn't wrong — it's incomplete. Push the minimum wage high enough relative to local conditions (above 60% of the median, as a federal \$15 would in low-wage regions), and the standard prediction reasserts itself. The deeper lesson is methodological: a theoretical prediction that seemed airtight for decades was overturned not by better theory but by better identification. The model was logically correct; its empirical relevance was the question all along.
This Big Question is essentially resolved at this level: moderate minimum wages don't cause significant unemployment, consistent with monopsony. The remaining frontier is calibration, not direction. How high can you go before disemployment appears? The answer varies by region, sector, and time horizon — and the automation margin (kiosks, AI scheduling, self-checkout) may make long-run effects larger than short-run DiD estimates capture. The debate has shifted from "does it cause unemployment?" to "what's the right number for this labor market?" — which is a policy design question, not an economic theory question. The tools you learned in this chapter — DiD, IV, identification strategy — are exactly how that calibration question gets answered.
The Fight for \$15 made a number into a movement. But \$15 in San Francisco is very different from \$15 in rural Mississippi. The evidence says moderate increases work — is \$15 moderate?
入门If the minimum wage isn't about employment anymore, it's about adequacy. How do economists measure what "enough" means — and who decides?
中级关键假设:连续性。影响 $Y$ 的所有因素(除处理外)在截断点处连续变化——在阈值附近没有排序或操纵。
考试成绩超过80分的学生获得奖学金。得分79和81的学生能力相似,但一个获得奖学金而另一个没有。80分阈值处结果(如大学完成率)的不连续性可以估计奖学金的因果效应。
一个以运行变量(考试成绩)为横轴的散点图。超过截断点的学生接受处理(奖学金)。两侧的多项式拟合揭示了截断点处的跳跃。调整截断点位置和带宽,观察估计处理效应的变化。
图 10.4.回归断点。垂直虚线标记截断点。截断点左侧的点未接受处理(灰色);右侧接受处理(绿色)。截断点处的跳跃即为处理效应估计。调整带宽以聚焦于截断点附近的观测值。
随机对照试验是内部效度的"金标准",因为随机化在构造上保证了 $E[\varepsilon|X] = 0$。Banerjee、Duflo和Kremer因其减轻全球贫困的实验方法获得了2019年诺贝尔奖。
一个职业培训项目随机将500人分配到处理组,500人分配到对照组。仅有60%被分配到处理组的人实际参加了项目(依从率 = 0.6)。
结果:平均收入:处理组 = \$15,000,对照组 = \$13,000。
ITT: $\hat{\tau}_{ITT} = 25{,}000 - 23{,}000 = \\$1{,}000$。这是被提供项目的效应。
TOT: $\hat{\tau}_{TOT} = 2{,}000 / 0.6 = \\$1{,}333$。这估计了实际参加项目的效应(针对依从者)。TOT更大,因为ITT被未依从者稀释了。
检验力检查:每组 $n = 500$,$\sigma = \\$1{,}000$,真实效应为 $\\$1{,}000$,检验力 $\approx 0.80$。该研究有足够的检验力来检测ITT。
统计检验力是检测到真实处理效应的概率。使用滑块探索效应大小、样本量和方差如何影响检验力。检验力曲线实时更新,80%检验力下的最小可检测效应(MDE)会被标出。
图 10.5.检验力曲线:检测效应的概率作为效应大小的函数。红色虚线标记80%的检验力。绿色菱形标记当前参数组合。MDE是在给定样本量和方差下,80%检验力可检测的最小效应。
没有不确定性度量的点估计几乎毫无用处。
标准误(SE)是对角元素的平方根。95%置信区间约为 $\hat{\beta} \pm 1.96 \cdot SE(\hat{\beta})$。
统计显著性:如果 $|t| = |\hat{\beta}/SE(\hat{\beta})| > 1.96$,我们在5%水平上拒绝 $H_0: \beta = 0$。
经济显著性与统计显著性:一个系数可以在统计上显著但在经济上微不足道。反之,一个不精确的估计可以在经济上很大但在统计上不显著。好的实证研究会讨论两者。
一条实用规则:在现代应用经济学中,始终使用稳健标准误或聚类标准误。
每种实证策略都有可能失败的假设:
| 策略 | 关键假设 | 威胁 | 诊断方法 |
|---|---|---|---|
| OLS | 无遗漏变量($E[\varepsilon|X]=0$) | 混杂 | 理论 + 敏感性分析 |
| IV | 排除性限制 | $Z$ 对 $Y$ 的直接效应 | 无法直接检验;从理论上论证 |
| IV | 相关性 | 弱工具变量 | 第一阶段 F > 10 |
| DiD | 平行趋势 | 差异性处理前趋势 | 绘制处理前趋势图 |
| RD | 截断点处无操纵 | 围绕阈值的排序 | McCrary密度检验 |
| RCT | 无流失、无溢出 | 差异性退出;污染 | 平衡检验、流失分析 |
一位经济学家想要估计卡伊拉尼新教育政策(1-6年级免费教科书)对考试成绩的影响。该政策于2024年在东部省份实施,但未在西部省份实施。
设计:双重差分。
| 政策前(2023年) | 政策后(2025年) | 变化 | |
|---|---|---|---|
| 东部(处理组) | 55 | 63 | +8 |
| 西部(对照组) | 52 | 56 | +4 |
| DiD估计值 | +4 |
DiD估计值为4分。在控制了共同的上升趋势后,免费教科书使考试成绩提高了4分。
威胁:(1) 平行趋势:东部省份是否已经在更快地改善?(2) 溢出效应:边境附近的家庭是否将孩子送到东部学校?(3) 组成变化:免费教科书是否改变了入学率?
一种补充方法:在省界处使用回归断点,比较边界两侧的村庄。
| 标签 | 公式 | 描述 |
|---|---|---|
| 方程 10.1 | $Y_i = \alpha + \beta X_i + \varepsilon_i$ | 结构方程 |
| 方程 10.2 | $\hat{\beta}_{OLS} = (X'X)^{-1}X'Y$ | OLS估计量 |
| 方程 10.3 | $E[\hat{\alpha}_1] = \beta_1 + \beta_2 \cdot Cov(X,Z)/Var(X)$ | 遗漏变量偏差公式 |
| 方程 10.5 | $\hat{\beta}_{IV} = Cov(Z,Y)/Cov(Z,X)$ | IV估计量(简单形式) |
| 方程 10.6 | $\hat{\tau}_{DiD}$ = (处理组变化) − (对照组变化) | DiD估计量 |
| 方程 10.7 | $Y_{it} = \alpha + \beta_1 Treat + \beta_2 Post + \tau(Treat \times Post) + \varepsilon$ | DiD回归 |
| 方程 10.8 | $\hat{\tau}_{RD} = \lim_{x \downarrow c} E[Y|X=x] - \lim_{x \uparrow c} E[Y|X=x]$ | RD估计量 |
| 方程 10.9 | $\hat{\tau}_{RCT} = \bar{Y}_{treat} - \bar{Y}_{control}$ | RCT估计量 |
| 方程 10.10 | $Var(\hat{\beta}) = \sigma^2(X'X)^{-1}$ | OLS方差 |