Chapitre 10: Fondements de l'économétrie

L'économie avance des affirmations causales — le salaire minimum affecte l'emploi, l'éducation augmente les revenus, les institutions déterminent la croissance. Tester ces affirmations nécessite des données et une méthode pour distinguer la causalité de la corrélation. L'économétrie est cette méthode.

Ce chapitre n'est pas un cours de statistiques. Nous supposons une familiarité avec les probabilités de base et la régression. Nous nous concentrons plutôt sur le problème central de l'économie empirique : l'identification — trouver des sources crédibles de variation exogène permettant d'estimer les effets causaux. Chaque outil de ce chapitre — MCO, variables instrumentales, différence de différences, régression sur discontinuité — est une stratégie pour résoudre le problème d'identification.

Prérequis : Chapitres 2 et 5 (contexte économique des exemples). Prérequis mathématiques : algèbre linéaire, probabilités et statistiques.

10.1 Le problème d'identification

Considérons la question : une année d'éducation supplémentaire augmente-t-elle les revenus ? Nous observons que les personnes plus éduquées gagnent davantage. Mais est-ce parce que :

Les deux sont compatibles avec la corrélation observée. Le problème d'identification est que nous ne pouvons pas comparer directement la même personne avec et sans éducation — le contrefactuel est inobservé.

où $Y_i$ est le résultat (revenus), $X_i$ est le traitement (années d'éducation), $\beta$ est le paramètre causal d'intérêt, et $\varepsilon_i$ capture tout le reste affectant $Y_i$ — capacité, contexte familial, motivation, chance, santé et des milliers d'autres facteurs.

Le problème d'identification surgit lorsque $X_i$ est corrélé avec $\varepsilon_i$ — lorsque le « traitement » n'est pas assigné aléatoirement. En statistique, on appelle cela l'endogénéité. En économie, c'est la norme, pas l'exception : les individus choisissent leur éducation (et ce choix est corrélé avec la capacité), les pays choisissent leurs politiques (et ce choix est corrélé avec leurs conditions économiques), les entreprises choisissent leurs prix (et ce choix est corrélé avec les conditions de la demande).

Dans une expérience randomisée, le traitement $X_i$ est assigné par tirage au sort — il est indépendant de $\varepsilon_i$ par construction. Mais les économistes ont rarement le luxe de la randomisation pour les grandes questions. Les méthodes de ce chapitre — MCO, VI, DiD, RD — sont des stratégies pour trouver des « expériences naturelles » qui approximent la randomisation dans les données observationnelles.

10.2 Moindres carrés ordinaires (MCO)

Sous les hypothèses de Gauss-Markov, les MCO possèdent des propriétés souhaitables :

Sous ces hypothèses, les MCO sont BLUE — le meilleur estimateur linéaire sans biais. « Meilleur » signifie la variance la plus faible parmi tous les estimateurs linéaires sans biais. « Sans biais » signifie $E[\hat{\beta}] = \beta$.

L'hypothèse critique est la n° 4 : $E[\varepsilon|X] = 0$. Lorsqu'elle échoue — en raison de variables omises, de simultanéité ou d'erreur de mesure dans $X$ — les MCO sont biaisés. L'estimation $\hat{\beta}$ ne converge plus vers le vrai $\beta$ même avec des données infinies. Ce n'est pas un problème de petit échantillon — c'est un défaut de conception fondamental que davantage de données ne peuvent corriger.

Biais de variable omise

Supposons que le vrai modèle soit $Y = \beta_0 + \beta_1 X + \beta_2 Z + u$, mais nous omettons $Z$ et estimons $Y = \alpha_0 + \alpha_1 X + e$. Alors :

Le biais est égal à l'effet de la variable omise ($\beta_2$) multiplié par l'association entre la variable omise et le régresseur inclus.

10.3 Variables instrumentales (VI)

	$Cov(X, Z) > 0$	$Cov(X, Z) < 0$
$\beta_2 > 0$	Biais vers le haut (surestimation de $\beta_1$)	Biais vers le bas
$\beta_2 < 0$	Biais vers le bas	Biais vers le haut

Lorsque les MCO sont biaisés parce que $X$ est endogène ($Cov(X, \varepsilon) \neq 0$), une variable instrumentale peut sauver l'estimation.

Cela isole la partie de $X$ induite par l'instrument — la partie exogène. Les valeurs ajustées $\hat{X}_i$ représentent la variation « propre » de $X$.

L'estimation VI est le rapport de la forme réduite (effet de $Z$ sur $Y$) à la première étape (effet de $Z$ sur $X$). L'intuition : $Z$ n'affecte $Y$ qu'à travers $X$ (restriction d'exclusion), donc diviser par la première étape isole l'effet causal de $X$ sur $Y$.

Ce que la VI estime. Avec des effets de traitement hétérogènes, la VI identifie l'effet moyen local du traitement (LATE) — l'effet causal pour la sous-population dont le comportement est modifié par l'instrument (les « conformistes »).

Instruments faibles

Si $Z$ est faiblement corrélé avec $X$, la première étape est faible et l'estimation VI est peu fiable (biaisée vers les MCO, intervalles de confiance larges). Règle empirique : statistique F de la première étape > 10.

10.4 Différence de différences (DiD)

La première différence élimine les caractéristiques de groupe invariantes dans le temps. La seconde différence élimine les tendances temporelles communes.

Hypothèse clé : Tendances parallèles. En l'absence de traitement, les groupes de traitement et de contrôle auraient suivi la même tendance. Cela est non testable pour la période post-traitement mais évaluable pour la période pré-traitement.

Grande Question n°3

Le salaire minimum cause-t-il du chômage ?

You now have difference-in-differences, instrumental variables, and the tools of causal identification. This is where the minimum wage debate gets resolved — not by theory, but by evidence.

Ce que dit le modèle

Card and Krueger (1994) applied the method you just learned — difference-in-differences — to a natural experiment. When New Jersey raised its minimum wage from \$4.25 to \$5.05 in 1992, neighboring Pennsylvania didn't. By surveying fast-food restaurants on both sides of the border before and after the increase, they constructed a clean DiD estimate: the treatment group (NJ) versus the control group (PA), differencing out common trends. The result stunned the profession: employment in New Jersey fast-food restaurants didn't fall. If anything, it rose slightly. The competitive model's prediction — that a binding price floor reduces quantity demanded — failed its most direct empirical test. Subsequent studies using county-border designs (Dube, Lester & Reich, 2010) confirmed the pattern: comparing adjacent counties across state lines where one side raised its minimum wage and the other didn't, employment effects were small to negligible for moderate increases.

La contre-argumentation la plus forte

Neumark and Wascher mounted the most sustained challenge. Using payroll data from the Bureau of Labor Statistics instead of Card and Krueger's telephone surveys, they found employment did decline in New Jersey — the original result, they argued, was an artifact of noisy survey data. Beyond data quality, the critique has structural force: DiD captures short-run effects, but firms adjust on multiple margins over time. Hours get cut even when headcount doesn't (Jardim et al., 2022, on Seattle's \$15 minimum). Benefits erode. Automation accelerates — self-order kiosks and scheduling software aren't coincidental. And the border-design studies may systematically understate effects by comparing areas that are economically similar precisely because they trade workers across the border, contaminating the control group. The meta-analysis is genuinely mixed: which studies you weight, and how, determines whether you find small negative effects or no effects.

Comment le courant dominant a répondu

The field's response illustrates what economists call the "credibility revolution" — the shift from estimating structural models to designing identification strategies. Card and Krueger didn't just challenge a prediction; they changed how empirical economics is done. The question moved from "what does the model predict?" to "can we find a credible research design that isolates the causal effect?" Cengiz, Dube, Lindner, and Zipperer (2019) produced the most comprehensive answer to date, analyzing 138 state-level minimum wage changes using a bunching estimator. They looked at the entire wage distribution: jobs paying just below the new minimum disappeared, jobs paying at or just above it appeared, and — crucially — total employment in the affected range barely changed. The jobs didn't vanish; they moved up the wage ladder. This is exactly what the monopsony model from Chapter 6 predicts and exactly what the competitive model says shouldn't happen.

Le jugement (à ce niveau)

The textbook prediction — that minimum wages cause unemployment — is wrong as a general empirical claim. Moderate minimum wage increases, up to roughly 50–60% of the local median wage, produce minimal detectable employment effects in most credible studies. This is consistent with monopsony power in low-wage labor markets: when employers have wage-setting power, a moderate minimum wage pushes them toward the competitive outcome rather than away from it. But "moderate" is the operative word. The competitive model isn't wrong — it's incomplete. Push the minimum wage high enough relative to local conditions (above 60% of the median, as a federal \$15 would in low-wage regions), and the standard prediction reasserts itself. The deeper lesson is methodological: a theoretical prediction that seemed airtight for decades was overturned not by better theory but by better identification. The model was logically correct; its empirical relevance was the question all along.

Ce que vous ne pouvez pas encore résoudre

This Big Question is essentially resolved at this level: moderate minimum wages don't cause significant unemployment, consistent with monopsony. The remaining frontier is calibration, not direction. How high can you go before disemployment appears? The answer varies by region, sector, and time horizon — and the automation margin (kiosks, AI scheduling, self-checkout) may make long-run effects larger than short-run DiD estimates capture. The debate has shifted from "does it cause unemployment?" to "what's the right number for this labor market?" — which is a policy design question, not an economic theory question. The tools you learned in this chapter — DiD, IV, identification strategy — are exactly how that calibration question gets answered.

Prises de position liées

Prise de position

"A \$7.25 minimum wage is a starvation wage" — AOC on the House floor, 2019

The Fight for \$15 made a number into a movement. But \$15 in San Francisco is very different from \$15 in rural Mississippi. The evidence says moderate increases work — is \$15 moderate?

Introduction

Prise de position

What should a living wage be?

If the minimum wage isn't about employment anymore, it's about adequacy. How do economists measure what "enough" means — and who decides?

Intermédiaire

← Previous: Ch 6 — Monopsony and market power Stop 3 of 3 (Final)

10.5 Régression sur discontinuité (RD)

Hypothèse clé : Continuité. Tous les facteurs affectant $Y$ (autres que le traitement) varient continûment au seuil — pas de tri ni de manipulation autour du seuil.

10.6 Essais contrôlés randomisés (ECR)

Les ECR sont la « référence absolue » pour la validité interne car la randomisation garantit $E[\varepsilon|X] = 0$ par construction. Banerjee, Duflo et Kremer ont reçu le prix Nobel 2019 pour leur approche expérimentale de la réduction de la pauvreté mondiale.

Limites des ECR

10.7 Erreurs types et inférence

Les erreurs types (SE) sont les racines carrées des éléments diagonaux. Un intervalle de confiance à 95 % est approximativement $\hat{\beta} \pm 1.96 \cdot SE(\hat{\beta})$.

Significativité statistique : On rejette $H_0: \beta = 0$ au seuil de 5 % si $|t| = |\hat{\beta}/SE(\hat{\beta})| > 1.96$.

Significativité économique vs significativité statistique : Un coefficient peut être statistiquement significatif mais économiquement trivial. Inversement, une estimation imprécise peut être économiquement importante mais statistiquement non significative. Un bon travail empirique discute les deux.

Menaces à l'inférence valide

Une règle pratique : En économie appliquée moderne, utilisez toujours des erreurs types robustes ou clustérisées.

10.8 Menaces à la validité

Stratégie	Hypothèse clé	Menace	Diagnostic
OLS	Pas de variables omises ($E[\varepsilon\|X]=0$)	Confusion	Théorie + analyse de sensibilité
IV	Restriction d'exclusion	Effet direct de $Z$ sur $Y$	Non testable directement ; argumenter théoriquement
IV	Pertinence	Instruments faibles	F de la première étape > 10
DiD	Tendances parallèles	Tendances pré-traitement différentielles	Tracer les tendances pré-traitement
RD	Pas de manipulation au seuil	Tri autour du seuil	Test de densité de McCrary
RCT	Pas d'attrition, pas de débordement	Abandon différentiel ; contamination	Tests d'équilibre, analyse d'attrition

Fil d'exemple : La République de Kaelani

Un économiste souhaite estimer l'effet de la nouvelle politique éducative de Kaelani (manuels gratuits pour les classes 1 à 6) sur les résultats aux examens. La politique a été mise en œuvre dans les provinces orientales en 2024 mais pas dans les provinces occidentales.

Design : Différence de différences.

	Avant la politique (2023)	Après la politique (2025)	Variation
Est (traitement)	55	63	+8
Ouest (contrôle)	52	56	+4
Estimation DiD			+4

L'estimation DiD est de 4 points. Les manuels gratuits ont augmenté les résultats aux examens de 4 points, après contrôle de la tendance commune à la hausse.

Menaces : (1) Tendances parallèles : Les provinces orientales s'amélioraient-elles déjà plus vite ? (2) Effets de débordement : Les familles près de la frontière envoyaient-elles leurs enfants dans les écoles orientales ? (3) Changements de composition : Les manuels gratuits ont-ils modifié les inscriptions ?

Une approche complémentaire : la régression sur discontinuité à la frontière provinciale, comparant les villages juste de chaque côté.

Libellé	Équation	Description
Éq. 10.1	$Y_i = \alpha + \beta X_i + \varepsilon_i$	Équation structurelle
Éq. 10.2	$\hat{\beta}_{OLS} = (X'X)^{-1}X'Y$	Estimateur MCO
Éq. 10.3	$E[\hat{\alpha}_1] = \beta_1 + \beta_2 \cdot Cov(X,Z)/Var(X)$	Formule du biais de variable omise
Éq. 10.5	$\hat{\beta}_{IV} = Cov(Z,Y)/Cov(Z,X)$	Estimateur VI (simple)
Éq. 10.6	$\hat{\tau}_{DiD}$ = (changement traité) − (changement contrôle)	Estimateur DiD
Éq. 10.7	$Y_{it} = \alpha + \beta_1 Treat + \beta_2 Post + \tau(Treat \times Post) + \varepsilon$	Régression DiD
Éq. 10.8	$\hat{\tau}_{RD} = \lim_{x \downarrow c} E[Y\|X=x] - \lim_{x \uparrow c} E[Y\|X=x]$	Estimateur RD
Éq. 10.9	$\hat{\tau}_{RCT} = \bar{Y}_{treat} - \bar{Y}_{control}$	Estimateur ECR
Éq. 10.10	$Var(\hat{\beta}) = \sigma^2(X'X)^{-1}$	Variance MCO

Exercices

Pratique

Supposez que vous régressiez les salaires sur les années d'éducation par MCO et que vous estimiez un coefficient de 0,10 (chaque année d'éducation est associée à des salaires 10 % plus élevés). Citez deux variables omises qui pourraient biaiser cette estimation et prédisez la direction du biais pour chacune.
Une étude VI utilise la « distance au collège le plus proche » comme instrument pour les années de scolarité. (a) Argumentez pour la pertinence. (b) Quelle est la restriction d'exclusion, et qu'est-ce qui pourrait la violer ?
Deux villes sont comparées avant et après que la ville A ait instauré une taxe sur les sodas. Avant la taxe, la consommation de sodas dans la ville A était de 100 canettes/personne et de 90 dans la ville B. Après la taxe, la consommation est de 80 dans A et de 85 dans B. Calculez l'estimation DiD. Quelle est l'hypothèse de tendances parallèles ici ?
Un programme de bourses admet les étudiants ayant une MPC ≥ 3,5. Vous disposez de données sur les étudiants ayant une MPC entre 3,0 et 4,0. (a) Décrivez le design RD. (b) Quelle est la variable de sélection ? (c) Quelle hypothèse doit être vérifiée concernant le comportement des étudiants près du seuil ?

Application

Un gouvernement randomise l'accès à un programme de formation professionnelle. 60 % de ceux à qui le programme est proposé y participent effectivement. L'estimation de l'intention de traiter est une augmentation de 500 $ des revenus. Quelle est l'estimation de l'effet du traitement sur les traités ? Quelle hypothèse est nécessaire, et quel est le lien avec la VI ?
Un économiste affirme que la démocratie cause la croissance économique, citant des corrélations entre pays. Critiquez cette affirmation en utilisant le cadre de ce chapitre. Quelle stratégie d'identification spécifique proposeriez-vous ?
Une étude DiD estime l'effet d'une réglementation environnementale. Les tendances pré-traitement montrent que la pollution du groupe de traitement diminuait déjà plus vite que celle du groupe de contrôle. Comment cela viole-t-il les tendances parallèles ? Dans quelle direction l'estimation DiD est-elle biaisée ?

Défi

Dérivez l'estimateur MCO $\hat{\beta} = (X'X)^{-1}X'Y$ en minimisant $S(\beta) = (Y - X\beta)'(Y - X\beta)$. Montrez que la condition du premier ordre donne les équations normales $X'X\hat{\beta} = X'Y$.
Montrez algébriquement que lorsque l'instrument $Z$ est binaire, l'estimateur VI se réduit à l'estimateur de Wald : $\hat{\beta}_{IV} = (\bar{Y}_1 - \bar{Y}_0)/(\bar{X}_1 - \bar{X}_0)$.
Discutez la « révolution de la crédibilité » en économie (Angrist et Pischke, 2010). Qu'est-ce qui a changé entre l'économétrie structurelle et le travail empirique basé sur le design ? Quels sont les forces et les limites de chaque approche ?

Chapitre 10Fondements de l'économétrie