L'économie avance des affirmations causales — le salaire minimum affecte l'emploi, l'éducation augmente les revenus, les institutions déterminent la croissance. Tester ces affirmations nécessite des données et une méthode pour distinguer la causalité de la corrélation. L'économétrie est cette méthode.
Ce chapitre n'est pas un cours de statistiques. Nous supposons une familiarité avec les probabilités de base et la régression. Nous nous concentrons plutôt sur le problème central de l'économie empirique : l'identification — trouver des sources crédibles de variation exogène permettant d'estimer les effets causaux. Chaque outil de ce chapitre — MCO, variables instrumentales, différence de différences, régression sur discontinuité — est une stratégie pour résoudre le problème d'identification.
Prérequis : Chapitres 2 et 5 (contexte économique des exemples). Prérequis mathématiques : algèbre linéaire, probabilités et statistiques.
Considérons la question : une année d'éducation supplémentaire augmente-t-elle les revenus ? Nous observons que les personnes plus éduquées gagnent davantage. Mais est-ce parce que :
Les deux sont compatibles avec la corrélation observée. Le problème d'identification est que nous ne pouvons pas comparer directement la même personne avec et sans éducation — le contrefactuel est inobservé.
L'équation fondamentale :
où $Y_i$ est le résultat (revenus), $X_i$ est le traitement (années d'éducation), $\beta$ est le paramètre causal d'intérêt, et $\varepsilon_i$ capture tout le reste affectant $Y_i$ — capacité, contexte familial, motivation, chance, santé et des milliers d'autres facteurs.
Le problème d'identification surgit lorsque $X_i$ est corrélé avec $\varepsilon_i$ — lorsque le « traitement » n'est pas assigné aléatoirement. En statistique, on appelle cela l'endogénéité. En économie, c'est la norme, pas l'exception : les individus choisissent leur éducation (et ce choix est corrélé avec la capacité), les pays choisissent leurs politiques (et ce choix est corrélé avec leurs conditions économiques), les entreprises choisissent leurs prix (et ce choix est corrélé avec les conditions de la demande).
Dans une expérience randomisée, le traitement $X_i$ est assigné par tirage au sort — il est indépendant de $\varepsilon_i$ par construction. Mais les économistes ont rarement le luxe de la randomisation pour les grandes questions. Les méthodes de ce chapitre — MCO, VI, DiD, RD — sont des stratégies pour trouver des « expériences naturelles » qui approximent la randomisation dans les données observationnelles.
Pour le modèle multivarié $Y = X\beta + \varepsilon$ (notation matricielle) :
Sous les hypothèses de Gauss-Markov, les MCO possèdent des propriétés souhaitables :
Sous ces hypothèses, les MCO sont BLUE — le meilleur estimateur linéaire sans biais. « Meilleur » signifie la variance la plus faible parmi tous les estimateurs linéaires sans biais. « Sans biais » signifie $E[\hat{\beta}] = \beta$.
L'hypothèse critique est la n° 4 : $E[\varepsilon|X] = 0$. Lorsqu'elle échoue — en raison de variables omises, de simultanéité ou d'erreur de mesure dans $X$ — les MCO sont biaisés. L'estimation $\hat{\beta}$ ne converge plus vers le vrai $\beta$ même avec des données infinies. Ce n'est pas un problème de petit échantillon — c'est un défaut de conception fondamental que davantage de données ne peuvent corriger.
Un nuage de points avec une droite de régression MCO ajustée. Déplacez le curseur pour ajouter une valeur aberrante à différentes positions verticales et observez la droite de régression basculer. Observez comment un seul point à fort effet de levier peut modifier considérablement la pente, le $R^2$ et les coefficients.
Figure 9.1. Régression MCO avec une valeur aberrante ajustable. La valeur aberrante est placée à $X=14$ (fort effet de levier). Déplacez le curseur au-dessus de « Sans valeur aberrante » pour l'introduire et observer la ligne basculer. Survolez pour les valeurs.
Supposons que le vrai modèle soit $Y = \beta_0 + \beta_1 X + \beta_2 Z + u$, mais nous omettons $Z$ et estimons $Y = \alpha_0 + \alpha_1 X + e$. Alors :
Le biais est égal à l'effet de la variable omise ($\beta_2$) multiplié par l'association entre la variable omise et le régresseur inclus.
Signe du biais :
| $Cov(X, Z) > 0$ | $Cov(X, Z) < 0$ | |
|---|---|---|
| $\beta_2 > 0$ | Biais vers le haut (surestimation de $\beta_1$) | Biais vers le bas |
| $\beta_2 < 0$ | Biais vers le bas | Biais vers le haut |
Supposons que la capacité ($Z$) est positivement corrélée avec l'éducation ($X$) et les revenus ($Y$). Alors $\beta_2 > 0$ (la capacité augmente les revenus) et $Cov(X,Z) > 0$ (les personnes plus capables font plus d'études). L'estimation MCO du rendement de l'éducation est biaisée vers le haut — elle attribue une partie de l'effet de la capacité à l'éducation.
Deux panneaux montrent les mêmes données. Gauche : la vraie relation avec le facteur de confusion (capacité) indiqué par la couleur des points. Droite : la régression MCO naïve omettant la capacité. Déplacez le curseur pour modifier la force de la confusion et observer le biais croître.
Gauche : Modèle vrai avec le facteur de confusion (capacité) montré par la couleur. Plus foncé = capacité plus élevée.
Droite : MCO naïf ignorant la capacité. La droite biaisée (rouge pointillé) est plus pentue que l'effet causal réel (bleu).
Lorsque les MCO sont biaisés parce que $X$ est endogène ($Cov(X, \varepsilon) \neq 0$), une variable instrumentale peut sauver l'estimation.
Doubles moindres carrés (2SLS) :
Première étape : Régresser $X$ sur $Z$ (et toute variable de contrôle) :
Cela isole la partie de $X$ induite par l'instrument — la partie exogène. Les valeurs ajustées $\hat{X}_i$ représentent la variation « propre » de $X$.
Deuxième étape : Régresser $Y$ sur $\hat{X}$. En notation matricielle :
Dans le cas simple avec un instrument et un régresseur endogène :
L'estimation VI est le rapport de la forme réduite (effet de $Z$ sur $Y$) à la première étape (effet de $Z$ sur $X$). L'intuition : $Z$ n'affecte $Y$ qu'à travers $X$ (restriction d'exclusion), donc diviser par la première étape isole l'effet causal de $X$ sur $Y$.
Ce que la VI estime. Avec des effets de traitement hétérogènes, la VI identifie l'effet moyen local du traitement (LATE) — l'effet causal pour la sous-population dont le comportement est modifié par l'instrument (les « conformistes »).
Si $Z$ est faiblement corrélé avec $X$, la première étape est faible et l'estimation VI est peu fiable (biaisée vers les MCO, intervalles de confiance larges). Règle empirique : statistique F de la première étape > 10.
Le trimestre de naissance a été utilisé comme instrument pour les années de scolarité. Les lois sur la scolarité obligatoire signifient que les élèves nés plus tôt dans l'année peuvent abandonner avec légèrement moins d'éducation. Le trimestre de naissance est plausiblement : (a) corrélé avec la scolarité (pertinence), et (b) sans lien direct avec les revenus (exclusion). L'estimation VI du rendement de la scolarité était d'environ 7–8 % par an.
Ce graphe acyclique orienté montre la structure causale d'un design avec variable instrumentale. Basculez entre les vues pour voir comment un instrument Z brise le chemin de confusion.
Figure 9.2. DAG pour le design à variables instrumentales. Z est l'instrument, X est le régresseur endogène, Y est le résultat, et U est le facteur de confusion non observé. La stratégie VI n'utilise que la variation de X induite par Z, contournant le chemin de confusion passant par U.
La première différence élimine les caractéristiques de groupe invariantes dans le temps. La seconde différence élimine les tendances temporelles communes.
Hypothèse clé : Tendances parallèles. En l'absence de traitement, les groupes de traitement et de contrôle auraient suivi la même tendance. Cela est non testable pour la période post-traitement mais évaluable pour la période pré-traitement.
Le New Jersey a augmenté son salaire minimum de 4,25 $ à 5,05 $ en avril 1992 ; la Pennsylvanie non. L'estimation DiD de l'effet sur l'emploi était positive (+2,7 ETP), contredisant la prédiction du modèle concurrentiel simple. Cette étude a déclenché une révolution dans l'économie du travail empirique.
Formulation par régression :
Deux séries temporelles montrent un groupe de traitement et un groupe de contrôle. Le traitement intervient à $t = 5$. Déplacez le curseur pour modifier la taille de l'effet du traitement et voir comment l'estimation DiD se met à jour. Les tendances parallèles pré-traitement sont visibles.
Figure 9.3. Design de différence de différences. La ligne pointillée montre le contrefactuel — ce qui serait arrivé au groupe de traitement sans traitement (parallèle au contrôle). L'écart entre les résultats réels et contrefactuels à la fin est l'effet du traitement.
Hypothèse clé : Continuité. Tous les facteurs affectant $Y$ (autres que le traitement) varient continûment au seuil — pas de tri ni de manipulation autour du seuil.
Une bourse est attribuée aux étudiants ayant un score supérieur à 80 à un examen. Les étudiants ayant obtenu 79 et 81 ont des capacités similaires, mais l'un obtient la bourse et l'autre non. La discontinuité dans les résultats (par ex., taux d'obtention du diplôme) au seuil de 80 points estime l'effet causal de la bourse.
Un nuage de points avec une variable de sélection (score au test). Les étudiants au-dessus du seuil reçoivent le traitement (bourse). Des ajustements polynomiaux de chaque côté révèlent le saut au seuil. Ajustez la position du seuil et la fenêtre pour voir comment l'effet estimé du traitement change.
Figure 9.4. Régression sur discontinuité. La ligne pointillée verticale marque le seuil. Les points à gauche du seuil ne sont pas traités (gris) ; à droite sont traités (vert). Le saut au seuil est l'estimation de l'effet du traitement. Ajustez la fenêtre pour vous concentrer sur les observations proches du seuil.
Les ECR sont la « référence absolue » pour la validité interne car la randomisation garantit $E[\varepsilon|X] = 0$ par construction. Banerjee, Duflo et Kremer ont reçu le prix Nobel 2019 pour leur approche expérimentale de la réduction de la pauvreté mondiale.
Un programme de formation professionnelle assigne aléatoirement 500 individus au groupe de traitement et 500 au groupe de contrôle. Seuls 60 % des personnes assignées au traitement participent effectivement au programme (taux de conformité = 0,6).
Résultats : Revenus moyens : groupe de traitement = 25 000 $, groupe de contrôle = 23 000 $.
ITT : $\hat{\tau}_{ITT} = 25{,}000 - 23{,}000 = \\$1{,}000$. C'est l'effet d'être invité au programme.
TOT : $\hat{\tau}_{TOT} = 2{,}000 / 0.6 = \\$1{,}333$. Ceci estime l'effet de participer effectivement au programme (pour les conformistes). Le TOT est plus élevé car l'ITT est dilué par les non-conformistes.
Vérification de puissance : Avec $n = 500$ par groupe, $\sigma = \\$1{,}000$, et un effet réel de $\\$1{,}000$, la puissance $\approx 0.80$. L'étude est suffisamment puissante pour détecter l'ITT.
La puissance statistique est la probabilité de détecter un vrai effet de traitement. Utilisez les curseurs pour explorer comment la taille de l'effet, la taille de l'échantillon et la variance affectent la puissance. La courbe de puissance se met à jour en temps réel, et l'effet minimum détectable (MDE) à 80 % de puissance est mis en évidence.
Figure 9.5. Courbe de puissance : probabilité de détecter l'effet en fonction de la taille de l'effet. La ligne pointillée rouge marque 80 % de puissance. Le losange vert marque la combinaison de paramètres actuelle. Le MDE est le plus petit effet détectable à 80 % de puissance étant donné la taille de l'échantillon et la variance.
Une estimation ponctuelle sans mesure d'incertitude est quasiment inutile.
Les erreurs types (SE) sont les racines carrées des éléments diagonaux. Un intervalle de confiance à 95 % est approximativement $\hat{\beta} \pm 1.96 \cdot SE(\hat{\beta})$.
Significativité statistique : On rejette $H_0: \beta = 0$ au seuil de 5 % si $|t| = |\hat{\beta}/SE(\hat{\beta})| > 1.96$.
Significativité économique vs significativité statistique : Un coefficient peut être statistiquement significatif mais économiquement trivial. Inversement, une estimation imprécise peut être économiquement importante mais statistiquement non significative. Un bon travail empirique discute les deux.
Une règle pratique : En économie appliquée moderne, utilisez toujours des erreurs types robustes ou clustérisées.
Chaque stratégie empirique a des hypothèses qui peuvent échouer :
| Stratégie | Hypothèse clé | Menace | Diagnostic |
|---|---|---|---|
| OLS | Pas de variables omises ($E[\varepsilon|X]=0$) | Confusion | Théorie + analyse de sensibilité |
| IV | Restriction d'exclusion | Effet direct de $Z$ sur $Y$ | Non testable directement ; argumenter théoriquement |
| IV | Pertinence | Instruments faibles | F de la première étape > 10 |
| DiD | Tendances parallèles | Tendances pré-traitement différentielles | Tracer les tendances pré-traitement |
| RD | Pas de manipulation au seuil | Tri autour du seuil | Test de densité de McCrary |
| RCT | Pas d'attrition, pas de débordement | Abandon différentiel ; contamination | Tests d'équilibre, analyse d'attrition |
Un économiste souhaite estimer l'effet de la nouvelle politique éducative de Kaelani (manuels gratuits pour les classes 1 à 6) sur les résultats aux examens. La politique a été mise en œuvre dans les provinces orientales en 2024 mais pas dans les provinces occidentales.
Design : Différence de différences.
| Avant la politique (2023) | Après la politique (2025) | Variation | |
|---|---|---|---|
| Est (traitement) | 55 | 63 | +8 |
| Ouest (contrôle) | 52 | 56 | +4 |
| Estimation DiD | +4 |
L'estimation DiD est de 4 points. Les manuels gratuits ont augmenté les résultats aux examens de 4 points, après contrôle de la tendance commune à la hausse.
Menaces : (1) Tendances parallèles : Les provinces orientales s'amélioraient-elles déjà plus vite ? (2) Effets de débordement : Les familles près de la frontière envoyaient-elles leurs enfants dans les écoles orientales ? (3) Changements de composition : Les manuels gratuits ont-ils modifié les inscriptions ?
Une approche complémentaire : la régression sur discontinuité à la frontière provinciale, comparant les villages juste de chaque côté.
| Libellé | Équation | Description |
|---|---|---|
| Éq. 9.1 | $Y_i = \alpha + \beta X_i + \varepsilon_i$ | Équation structurelle |
| Éq. 9.2 | $\hat{\beta}_{OLS} = (X'X)^{-1}X'Y$ | Estimateur MCO |
| Éq. 9.3 | $E[\hat{\alpha}_1] = \beta_1 + \beta_2 \cdot Cov(X,Z)/Var(X)$ | Formule du biais de variable omise |
| Éq. 9.5 | $\hat{\beta}_{IV} = Cov(Z,Y)/Cov(Z,X)$ | Estimateur VI (simple) |
| Éq. 9.6 | $\hat{\tau}_{DiD}$ = (changement traité) − (changement contrôle) | Estimateur DiD |
| Éq. 9.7 | $Y_{it} = \alpha + \beta_1 Treat + \beta_2 Post + \tau(Treat \times Post) + \varepsilon$ | Régression DiD |
| Éq. 9.8 | $\hat{\tau}_{RD} = \lim_{x \downarrow c} E[Y|X=x] - \lim_{x \uparrow c} E[Y|X=x]$ | Estimateur RD |
| Éq. 9.9 | $\hat{\tau}_{RCT} = \bar{Y}_{treat} - \bar{Y}_{control}$ | Estimateur ECR |
| Éq. 9.10 | $Var(\hat{\beta}) = \sigma^2(X'X)^{-1}$ | Variance MCO |