L'économie avance des affirmations causales — le salaire minimum affecte l'emploi, l'éducation augmente les revenus, les institutions déterminent la croissance. Tester ces affirmations nécessite des données et une méthode pour distinguer la causalité de la corrélation. L'économétrie est cette méthode.
Ce chapitre n'est pas un cours de statistiques. Nous supposons une familiarité avec les probabilités de base et la régression. Nous nous concentrons plutôt sur le problème central de l'économie empirique : l'identification — trouver des sources crédibles de variation exogène permettant d'estimer les effets causaux. Chaque outil de ce chapitre — MCO, variables instrumentales, différence de différences, régression sur discontinuité — est une stratégie pour résoudre le problème d'identification.
Prérequis : Chapitres 2 et 5 (contexte économique des exemples). Prérequis mathématiques : algèbre linéaire, probabilités et statistiques.
Considérons la question : une année d'éducation supplémentaire augmente-t-elle les revenus ? Nous observons que les personnes plus éduquées gagnent davantage. Mais est-ce parce que :
Les deux sont compatibles avec la corrélation observée. Le problème d'identification est que nous ne pouvons pas comparer directement la même personne avec et sans éducation — le contrefactuel est inobservé.
L'équation fondamentale :
où $Y_i$ est le résultat (revenus), $X_i$ est le traitement (années d'éducation), $\beta$ est le paramètre causal d'intérêt, et $\varepsilon_i$ capture tout le reste affectant $Y_i$ — capacité, contexte familial, motivation, chance, santé et des milliers d'autres facteurs.
Le problème d'identification surgit lorsque $X_i$ est corrélé avec $\varepsilon_i$ — lorsque le « traitement » n'est pas assigné aléatoirement. En statistique, on appelle cela l'endogénéité. En économie, c'est la norme, pas l'exception : les individus choisissent leur éducation (et ce choix est corrélé avec la capacité), les pays choisissent leurs politiques (et ce choix est corrélé avec leurs conditions économiques), les entreprises choisissent leurs prix (et ce choix est corrélé avec les conditions de la demande).
Dans une expérience randomisée, le traitement $X_i$ est assigné par tirage au sort — il est indépendant de $\varepsilon_i$ par construction. Mais les économistes ont rarement le luxe de la randomisation pour les grandes questions. Les méthodes de ce chapitre — MCO, VI, DiD, RD — sont des stratégies pour trouver des « expériences naturelles » qui approximent la randomisation dans les données observationnelles.
Pour le modèle multivarié $Y = X\beta + \varepsilon$ (notation matricielle) :
Sous les hypothèses de Gauss-Markov, les MCO possèdent des propriétés souhaitables :
Sous ces hypothèses, les MCO sont BLUE — le meilleur estimateur linéaire sans biais. « Meilleur » signifie la variance la plus faible parmi tous les estimateurs linéaires sans biais. « Sans biais » signifie $E[\hat{\beta}] = \beta$.
L'hypothèse critique est la n° 4 : $E[\varepsilon|X] = 0$. Lorsqu'elle échoue — en raison de variables omises, de simultanéité ou d'erreur de mesure dans $X$ — les MCO sont biaisés. L'estimation $\hat{\beta}$ ne converge plus vers le vrai $\beta$ même avec des données infinies. Ce n'est pas un problème de petit échantillon — c'est un défaut de conception fondamental que davantage de données ne peuvent corriger.
Un nuage de points avec une droite de régression MCO ajustée. Déplacez le curseur pour ajouter une valeur aberrante à différentes positions verticales et observez la droite de régression basculer. Observez comment un seul point à fort effet de levier peut modifier considérablement la pente, le $R^2$ et les coefficients.
Figure 10.1. Régression MCO avec une valeur aberrante ajustable. La valeur aberrante est placée à $X=14$ (fort effet de levier). Déplacez le curseur au-dessus de « Sans valeur aberrante » pour l'introduire et observer la ligne basculer. Survolez pour les valeurs.
Supposons que le vrai modèle soit $Y = \beta_0 + \beta_1 X + \beta_2 Z + u$, mais nous omettons $Z$ et estimons $Y = \alpha_0 + \alpha_1 X + e$. Alors :
Le biais est égal à l'effet de la variable omise ($\beta_2$) multiplié par l'association entre la variable omise et le régresseur inclus.
Signe du biais :
| $Cov(X, Z) > 0$ | $Cov(X, Z) < 0$ | |
|---|---|---|
| $\beta_2 > 0$ | Biais vers le haut (surestimation de $\beta_1$) | Biais vers le bas |
| $\beta_2 < 0$ | Biais vers le bas | Biais vers le haut |
Supposons que la capacité ($Z$) est positivement corrélée avec l'éducation ($X$) et les revenus ($Y$). Alors $\beta_2 > 0$ (la capacité augmente les revenus) et $Cov(X,Z) > 0$ (les personnes plus capables font plus d'études). L'estimation MCO du rendement de l'éducation est biaisée vers le haut — elle attribue une partie de l'effet de la capacité à l'éducation.
Deux panneaux montrent les mêmes données. Gauche : la vraie relation avec le facteur de confusion (capacité) indiqué par la couleur des points. Droite : la régression MCO naïve omettant la capacité. Déplacez le curseur pour modifier la force de la confusion et observer le biais croître.
Gauche : Modèle vrai avec le facteur de confusion (capacité) montré par la couleur. Plus foncé = capacité plus élevée.
Droite : MCO naïf ignorant la capacité. La droite biaisée (rouge pointillé) est plus pentue que l'effet causal réel (bleu).
Lorsque les MCO sont biaisés parce que $X$ est endogène ($Cov(X, \varepsilon) \neq 0$), une variable instrumentale peut sauver l'estimation.
Doubles moindres carrés (2SLS) :
Première étape : Régresser $X$ sur $Z$ (et toute variable de contrôle) :
Cela isole la partie de $X$ induite par l'instrument — la partie exogène. Les valeurs ajustées $\hat{X}_i$ représentent la variation « propre » de $X$.
Deuxième étape : Régresser $Y$ sur $\hat{X}$. En notation matricielle :
Dans le cas simple avec un instrument et un régresseur endogène :
L'estimation VI est le rapport de la forme réduite (effet de $Z$ sur $Y$) à la première étape (effet de $Z$ sur $X$). L'intuition : $Z$ n'affecte $Y$ qu'à travers $X$ (restriction d'exclusion), donc diviser par la première étape isole l'effet causal de $X$ sur $Y$.
Ce que la VI estime. Avec des effets de traitement hétérogènes, la VI identifie l'effet moyen local du traitement (LATE) — l'effet causal pour la sous-population dont le comportement est modifié par l'instrument (les « conformistes »).
Si $Z$ est faiblement corrélé avec $X$, la première étape est faible et l'estimation VI est peu fiable (biaisée vers les MCO, intervalles de confiance larges). Règle empirique : statistique F de la première étape > 10.
Le trimestre de naissance a été utilisé comme instrument pour les années de scolarité. Les lois sur la scolarité obligatoire signifient que les élèves nés plus tôt dans l'année peuvent abandonner avec légèrement moins d'éducation. Le trimestre de naissance est plausiblement : (a) corrélé avec la scolarité (pertinence), et (b) sans lien direct avec les revenus (exclusion). L'estimation VI du rendement de la scolarité était d'environ 7–8 % par an.
Ce graphe acyclique orienté montre la structure causale d'un design avec variable instrumentale. Basculez entre les vues pour voir comment un instrument Z brise le chemin de confusion.
Figure 10.2. DAG pour le design à variables instrumentales. Z est l'instrument, X est le régresseur endogène, Y est le résultat, et U est le facteur de confusion non observé. La stratégie VI n'utilise que la variation de X induite par Z, contournant le chemin de confusion passant par U.
La première différence élimine les caractéristiques de groupe invariantes dans le temps. La seconde différence élimine les tendances temporelles communes.
Hypothèse clé : Tendances parallèles. En l'absence de traitement, les groupes de traitement et de contrôle auraient suivi la même tendance. Cela est non testable pour la période post-traitement mais évaluable pour la période pré-traitement.
Le New Jersey a augmenté son salaire minimum de 4,25 $ à 5,05 $ en avril 1992 ; la Pennsylvanie non. L'estimation DiD de l'effet sur l'emploi était positive (+2,7 ETP), contredisant la prédiction du modèle concurrentiel simple. Cette étude a déclenché une révolution dans l'économie du travail empirique.
Formulation par régression :
Deux séries temporelles montrent un groupe de traitement et un groupe de contrôle. Le traitement intervient à $t = 5$. Déplacez le curseur pour modifier la taille de l'effet du traitement et voir comment l'estimation DiD se met à jour. Les tendances parallèles pré-traitement sont visibles.
Figure 10.3. Design de différence de différences. La ligne pointillée montre le contrefactuel — ce qui serait arrivé au groupe de traitement sans traitement (parallèle au contrôle). L'écart entre les résultats réels et contrefactuels à la fin est l'effet du traitement.
You now have difference-in-differences, instrumental variables, and the tools of causal identification. This is where the minimum wage debate gets resolved — not by theory, but by evidence.
Card and Krueger (1994) applied the method you just learned — difference-in-differences — to a natural experiment. When New Jersey raised its minimum wage from \$4.25 to \$5.05 in 1992, neighboring Pennsylvania didn't. By surveying fast-food restaurants on both sides of the border before and after the increase, they constructed a clean DiD estimate: the treatment group (NJ) versus the control group (PA), differencing out common trends. The result stunned the profession: employment in New Jersey fast-food restaurants didn't fall. If anything, it rose slightly. The competitive model's prediction — that a binding price floor reduces quantity demanded — failed its most direct empirical test. Subsequent studies using county-border designs (Dube, Lester & Reich, 2010) confirmed the pattern: comparing adjacent counties across state lines where one side raised its minimum wage and the other didn't, employment effects were small to negligible for moderate increases.
Neumark and Wascher mounted the most sustained challenge. Using payroll data from the Bureau of Labor Statistics instead of Card and Krueger's telephone surveys, they found employment did decline in New Jersey — the original result, they argued, was an artifact of noisy survey data. Beyond data quality, the critique has structural force: DiD captures short-run effects, but firms adjust on multiple margins over time. Hours get cut even when headcount doesn't (Jardim et al., 2022, on Seattle's \$15 minimum). Benefits erode. Automation accelerates — self-order kiosks and scheduling software aren't coincidental. And the border-design studies may systematically understate effects by comparing areas that are economically similar precisely because they trade workers across the border, contaminating the control group. The meta-analysis is genuinely mixed: which studies you weight, and how, determines whether you find small negative effects or no effects.
The field's response illustrates what economists call the "credibility revolution" — the shift from estimating structural models to designing identification strategies. Card and Krueger didn't just challenge a prediction; they changed how empirical economics is done. The question moved from "what does the model predict?" to "can we find a credible research design that isolates the causal effect?" Cengiz, Dube, Lindner, and Zipperer (2019) produced the most comprehensive answer to date, analyzing 138 state-level minimum wage changes using a bunching estimator. They looked at the entire wage distribution: jobs paying just below the new minimum disappeared, jobs paying at or just above it appeared, and — crucially — total employment in the affected range barely changed. The jobs didn't vanish; they moved up the wage ladder. This is exactly what the monopsony model from Chapter 6 predicts and exactly what the competitive model says shouldn't happen.
The textbook prediction — that minimum wages cause unemployment — is wrong as a general empirical claim. Moderate minimum wage increases, up to roughly 50–60% of the local median wage, produce minimal detectable employment effects in most credible studies. This is consistent with monopsony power in low-wage labor markets: when employers have wage-setting power, a moderate minimum wage pushes them toward the competitive outcome rather than away from it. But "moderate" is the operative word. The competitive model isn't wrong — it's incomplete. Push the minimum wage high enough relative to local conditions (above 60% of the median, as a federal \$15 would in low-wage regions), and the standard prediction reasserts itself. The deeper lesson is methodological: a theoretical prediction that seemed airtight for decades was overturned not by better theory but by better identification. The model was logically correct; its empirical relevance was the question all along.
This Big Question is essentially resolved at this level: moderate minimum wages don't cause significant unemployment, consistent with monopsony. The remaining frontier is calibration, not direction. How high can you go before disemployment appears? The answer varies by region, sector, and time horizon — and the automation margin (kiosks, AI scheduling, self-checkout) may make long-run effects larger than short-run DiD estimates capture. The debate has shifted from "does it cause unemployment?" to "what's the right number for this labor market?" — which is a policy design question, not an economic theory question. The tools you learned in this chapter — DiD, IV, identification strategy — are exactly how that calibration question gets answered.
The Fight for \$15 made a number into a movement. But \$15 in San Francisco is very different from \$15 in rural Mississippi. The evidence says moderate increases work — is \$15 moderate?
IntroductionIf the minimum wage isn't about employment anymore, it's about adequacy. How do economists measure what "enough" means — and who decides?
IntermédiaireHypothèse clé : Continuité. Tous les facteurs affectant $Y$ (autres que le traitement) varient continûment au seuil — pas de tri ni de manipulation autour du seuil.
Une bourse est attribuée aux étudiants ayant un score supérieur à 80 à un examen. Les étudiants ayant obtenu 79 et 81 ont des capacités similaires, mais l'un obtient la bourse et l'autre non. La discontinuité dans les résultats (par ex., taux d'obtention du diplôme) au seuil de 80 points estime l'effet causal de la bourse.
Un nuage de points avec une variable de sélection (score au test). Les étudiants au-dessus du seuil reçoivent le traitement (bourse). Des ajustements polynomiaux de chaque côté révèlent le saut au seuil. Ajustez la position du seuil et la fenêtre pour voir comment l'effet estimé du traitement change.
Figure 10.4. Régression sur discontinuité. La ligne pointillée verticale marque le seuil. Les points à gauche du seuil ne sont pas traités (gris) ; à droite sont traités (vert). Le saut au seuil est l'estimation de l'effet du traitement. Ajustez la fenêtre pour vous concentrer sur les observations proches du seuil.
Les ECR sont la « référence absolue » pour la validité interne car la randomisation garantit $E[\varepsilon|X] = 0$ par construction. Banerjee, Duflo et Kremer ont reçu le prix Nobel 2019 pour leur approche expérimentale de la réduction de la pauvreté mondiale.
Un programme de formation professionnelle assigne aléatoirement 500 individus au groupe de traitement et 500 au groupe de contrôle. Seuls 60 % des personnes assignées au traitement participent effectivement au programme (taux de conformité = 0,6).
Résultats : Revenus moyens : groupe de traitement = 25 000 $, groupe de contrôle = 23 000 $.
ITT : $\hat{\tau}_{ITT} = 25{,}000 - 23{,}000 = \\$1{,}000$. C'est l'effet d'être invité au programme.
TOT : $\hat{\tau}_{TOT} = 2{,}000 / 0.6 = \\$1{,}333$. Ceci estime l'effet de participer effectivement au programme (pour les conformistes). Le TOT est plus élevé car l'ITT est dilué par les non-conformistes.
Vérification de puissance : Avec $n = 500$ par groupe, $\sigma = \\$1{,}000$, et un effet réel de $\\$1{,}000$, la puissance $\approx 0.80$. L'étude est suffisamment puissante pour détecter l'ITT.
La puissance statistique est la probabilité de détecter un vrai effet de traitement. Utilisez les curseurs pour explorer comment la taille de l'effet, la taille de l'échantillon et la variance affectent la puissance. La courbe de puissance se met à jour en temps réel, et l'effet minimum détectable (MDE) à 80 % de puissance est mis en évidence.
Figure 10.5. Courbe de puissance : probabilité de détecter l'effet en fonction de la taille de l'effet. La ligne pointillée rouge marque 80 % de puissance. Le losange vert marque la combinaison de paramètres actuelle. Le MDE est le plus petit effet détectable à 80 % de puissance étant donné la taille de l'échantillon et la variance.
Une estimation ponctuelle sans mesure d'incertitude est quasiment inutile.
Les erreurs types (SE) sont les racines carrées des éléments diagonaux. Un intervalle de confiance à 95 % est approximativement $\hat{\beta} \pm 1.96 \cdot SE(\hat{\beta})$.
Significativité statistique : On rejette $H_0: \beta = 0$ au seuil de 5 % si $|t| = |\hat{\beta}/SE(\hat{\beta})| > 1.96$.
Significativité économique vs significativité statistique : Un coefficient peut être statistiquement significatif mais économiquement trivial. Inversement, une estimation imprécise peut être économiquement importante mais statistiquement non significative. Un bon travail empirique discute les deux.
Une règle pratique : En économie appliquée moderne, utilisez toujours des erreurs types robustes ou clustérisées.
Chaque stratégie empirique a des hypothèses qui peuvent échouer :
| Stratégie | Hypothèse clé | Menace | Diagnostic |
|---|---|---|---|
| OLS | Pas de variables omises ($E[\varepsilon|X]=0$) | Confusion | Théorie + analyse de sensibilité |
| IV | Restriction d'exclusion | Effet direct de $Z$ sur $Y$ | Non testable directement ; argumenter théoriquement |
| IV | Pertinence | Instruments faibles | F de la première étape > 10 |
| DiD | Tendances parallèles | Tendances pré-traitement différentielles | Tracer les tendances pré-traitement |
| RD | Pas de manipulation au seuil | Tri autour du seuil | Test de densité de McCrary |
| RCT | Pas d'attrition, pas de débordement | Abandon différentiel ; contamination | Tests d'équilibre, analyse d'attrition |
Un économiste souhaite estimer l'effet de la nouvelle politique éducative de Kaelani (manuels gratuits pour les classes 1 à 6) sur les résultats aux examens. La politique a été mise en œuvre dans les provinces orientales en 2024 mais pas dans les provinces occidentales.
Design : Différence de différences.
| Avant la politique (2023) | Après la politique (2025) | Variation | |
|---|---|---|---|
| Est (traitement) | 55 | 63 | +8 |
| Ouest (contrôle) | 52 | 56 | +4 |
| Estimation DiD | +4 |
L'estimation DiD est de 4 points. Les manuels gratuits ont augmenté les résultats aux examens de 4 points, après contrôle de la tendance commune à la hausse.
Menaces : (1) Tendances parallèles : Les provinces orientales s'amélioraient-elles déjà plus vite ? (2) Effets de débordement : Les familles près de la frontière envoyaient-elles leurs enfants dans les écoles orientales ? (3) Changements de composition : Les manuels gratuits ont-ils modifié les inscriptions ?
Une approche complémentaire : la régression sur discontinuité à la frontière provinciale, comparant les villages juste de chaque côté.
| Libellé | Équation | Description |
|---|---|---|
| Éq. 10.1 | $Y_i = \alpha + \beta X_i + \varepsilon_i$ | Équation structurelle |
| Éq. 10.2 | $\hat{\beta}_{OLS} = (X'X)^{-1}X'Y$ | Estimateur MCO |
| Éq. 10.3 | $E[\hat{\alpha}_1] = \beta_1 + \beta_2 \cdot Cov(X,Z)/Var(X)$ | Formule du biais de variable omise |
| Éq. 10.5 | $\hat{\beta}_{IV} = Cov(Z,Y)/Cov(Z,X)$ | Estimateur VI (simple) |
| Éq. 10.6 | $\hat{\tau}_{DiD}$ = (changement traité) − (changement contrôle) | Estimateur DiD |
| Éq. 10.7 | $Y_{it} = \alpha + \beta_1 Treat + \beta_2 Post + \tau(Treat \times Post) + \varepsilon$ | Régression DiD |
| Éq. 10.8 | $\hat{\tau}_{RD} = \lim_{x \downarrow c} E[Y|X=x] - \lim_{x \uparrow c} E[Y|X=x]$ | Estimateur RD |
| Éq. 10.9 | $\hat{\tau}_{RCT} = \bar{Y}_{treat} - \bar{Y}_{control}$ | Estimateur ECR |
| Éq. 10.10 | $Var(\hat{\beta}) = \sigma^2(X'X)^{-1}$ | Variance MCO |