Chapitre 9: Fondements de l'économétrie

L'économie avance des affirmations causales — le salaire minimum affecte l'emploi, l'éducation augmente les revenus, les institutions déterminent la croissance. Tester ces affirmations nécessite des données et une méthode pour distinguer la causalité de la corrélation. L'économétrie est cette méthode.

Ce chapitre n'est pas un cours de statistiques. Nous supposons une familiarité avec les probabilités de base et la régression. Nous nous concentrons plutôt sur le problème central de l'économie empirique : l'identification — trouver des sources crédibles de variation exogène permettant d'estimer les effets causaux. Chaque outil de ce chapitre — MCO, variables instrumentales, différence de différences, régression sur discontinuité — est une stratégie pour résoudre le problème d'identification.

Prérequis : Chapitres 2 et 5 (contexte économique des exemples). Prérequis mathématiques : algèbre linéaire, probabilités et statistiques.

9.1 Le problème d'identification

Considérons la question : une année d'éducation supplémentaire augmente-t-elle les revenus ? Nous observons que les personnes plus éduquées gagnent davantage. Mais est-ce parce que :

Les deux sont compatibles avec la corrélation observée. Le problème d'identification est que nous ne pouvons pas comparer directement la même personne avec et sans éducation — le contrefactuel est inobservé.

où $Y_i$ est le résultat (revenus), $X_i$ est le traitement (années d'éducation), $\beta$ est le paramètre causal d'intérêt, et $\varepsilon_i$ capture tout le reste affectant $Y_i$ — capacité, contexte familial, motivation, chance, santé et des milliers d'autres facteurs.

Le problème d'identification surgit lorsque $X_i$ est corrélé avec $\varepsilon_i$ — lorsque le « traitement » n'est pas assigné aléatoirement. En statistique, on appelle cela l'endogénéité. En économie, c'est la norme, pas l'exception : les individus choisissent leur éducation (et ce choix est corrélé avec la capacité), les pays choisissent leurs politiques (et ce choix est corrélé avec leurs conditions économiques), les entreprises choisissent leurs prix (et ce choix est corrélé avec les conditions de la demande).

Dans une expérience randomisée, le traitement $X_i$ est assigné par tirage au sort — il est indépendant de $\varepsilon_i$ par construction. Mais les économistes ont rarement le luxe de la randomisation pour les grandes questions. Les méthodes de ce chapitre — MCO, VI, DiD, RD — sont des stratégies pour trouver des « expériences naturelles » qui approximent la randomisation dans les données observationnelles.

9.2 Moindres carrés ordinaires (MCO)

Sous les hypothèses de Gauss-Markov, les MCO possèdent des propriétés souhaitables :

Sous ces hypothèses, les MCO sont BLUE — le meilleur estimateur linéaire sans biais. « Meilleur » signifie la variance la plus faible parmi tous les estimateurs linéaires sans biais. « Sans biais » signifie $E[\hat{\beta}] = \beta$.

L'hypothèse critique est la n° 4 : $E[\varepsilon|X] = 0$. Lorsqu'elle échoue — en raison de variables omises, de simultanéité ou d'erreur de mesure dans $X$ — les MCO sont biaisés. L'estimation $\hat{\beta}$ ne converge plus vers le vrai $\beta$ même avec des données infinies. Ce n'est pas un problème de petit échantillon — c'est un défaut de conception fondamental que davantage de données ne peuvent corriger.

Figure 9.1 — Explorateur de régression MCO

Un nuage de points avec une droite de régression MCO ajustée. Déplacez le curseur pour ajouter une valeur aberrante à différentes positions verticales et observez la droite de régression basculer. Observez comment un seul point à fort effet de levier peut modifier considérablement la pente, le $R^2$ et les coefficients.

Position Y de la valeur aberrante : Aucune

Pas de valeur aberrante Modérée Extrême (Y=25)

OLS: β̂ = 0.00 | Intercept = 0.00 | R² = 0.00

Figure 9.1. Régression MCO avec une valeur aberrante ajustable. La valeur aberrante est placée à $X=14$ (fort effet de levier). Déplacez le curseur au-dessus de « Sans valeur aberrante » pour l'introduire et observer la ligne basculer. Survolez pour les valeurs.

Biais de variable omise

Supposons que le vrai modèle soit $Y = \beta_0 + \beta_1 X + \beta_2 Z + u$, mais nous omettons $Z$ et estimons $Y = \alpha_0 + \alpha_1 X + e$. Alors :

Le biais est égal à l'effet de la variable omise ($\beta_2$) multiplié par l'association entre la variable omise et le régresseur inclus.

	$Cov(X, Z) > 0$	$Cov(X, Z) < 0$
$\beta_2 > 0$	Biais vers le haut (surestimation de $\beta_1$)	Biais vers le bas
$\beta_2 < 0$	Biais vers le bas	Biais vers le haut

Figure 9.2 — Biais de variable omise

Deux panneaux montrent les mêmes données. Gauche : la vraie relation avec le facteur de confusion (capacité) indiqué par la couleur des points. Droite : la régression MCO naïve omettant la capacité. Déplacez le curseur pour modifier la force de la confusion et observer le biais croître.

Force de confusion ($\rho$) : 0,60

Pas de confusion (0) Modérée (0,5) Forte (0,95)

True β₁ = 0.50 | Naive OLS β̂ = 0.00 | Bias = 0.00

Gauche : Modèle vrai avec le facteur de confusion (capacité) montré par la couleur. Plus foncé = capacité plus élevée.

Droite : MCO naïf ignorant la capacité. La droite biaisée (rouge pointillé) est plus pentue que l'effet causal réel (bleu).

9.3 Variables instrumentales (VI)

Lorsque les MCO sont biaisés parce que $X$ est endogène ($Cov(X, \varepsilon) \neq 0$), une variable instrumentale peut sauver l'estimation.

Cela isole la partie de $X$ induite par l'instrument — la partie exogène. Les valeurs ajustées $\hat{X}_i$ représentent la variation « propre » de $X$.

L'estimation VI est le rapport de la forme réduite (effet de $Z$ sur $Y$) à la première étape (effet de $Z$ sur $X$). L'intuition : $Z$ n'affecte $Y$ qu'à travers $X$ (restriction d'exclusion), donc diviser par la première étape isole l'effet causal de $X$ sur $Y$.

Ce que la VI estime. Avec des effets de traitement hétérogènes, la VI identifie l'effet moyen local du traitement (LATE) — l'effet causal pour la sous-population dont le comportement est modifié par l'instrument (les « conformistes »).

Instruments faibles

Si $Z$ est faiblement corrélé avec $X$, la première étape est faible et l'estimation VI est peu fiable (biaisée vers les MCO, intervalles de confiance larges). Règle empirique : statistique F de la première étape > 10.

Exemple 9.2 — Trimestre de naissance (Angrist & Krueger 1991)

Le trimestre de naissance a été utilisé comme instrument pour les années de scolarité. Les lois sur la scolarité obligatoire signifient que les élèves nés plus tôt dans l'année peuvent abandonner avec légèrement moins d'éducation. Le trimestre de naissance est plausiblement : (a) corrélé avec la scolarité (pertinence), et (b) sans lien direct avec les revenus (exclusion). L'estimation VI du rendement de la scolarité était d'environ 7–8 % par an.

9.4 Différence de différences (DiD)

La première différence élimine les caractéristiques de groupe invariantes dans le temps. La seconde différence élimine les tendances temporelles communes.

Hypothèse clé : Tendances parallèles. En l'absence de traitement, les groupes de traitement et de contrôle auraient suivi la même tendance. Cela est non testable pour la période post-traitement mais évaluable pour la période pré-traitement.

Figure 9.3 — Différence de différences

Deux séries temporelles montrent un groupe de traitement et un groupe de contrôle. Le traitement intervient à $t = 5$. Déplacez le curseur pour modifier la taille de l'effet du traitement et voir comment l'estimation DiD se met à jour. Les tendances parallèles pré-traitement sont visibles.

Effet du traitement ($\tau$) : 3,0

Négatif (−5) Zéro Important (+10)

DiD estimate: τ̂ = 3.00

Figure 9.3. Design de différence de différences. La ligne pointillée montre le contrefactuel — ce qui serait arrivé au groupe de traitement sans traitement (parallèle au contrôle). L'écart entre les résultats réels et contrefactuels à la fin est l'effet du traitement.

9.5 Régression sur discontinuité (RD)

Hypothèse clé : Continuité. Tous les facteurs affectant $Y$ (autres que le traitement) varient continûment au seuil — pas de tri ni de manipulation autour du seuil.

Figure 9.4 — Régression sur discontinuité

Un nuage de points avec une variable de sélection (score au test). Les étudiants au-dessus du seuil reçoivent le traitement (bourse). Des ajustements polynomiaux de chaque côté révèlent le saut au seuil. Ajustez la position du seuil et la fenêtre pour voir comment l'effet estimé du traitement change.

Position du seuil : 50

Bas (30) Milieu (50) Haut (70)

Largeur de bande : 25

Étroite (5) Moyenne (25) Large (40)

RD estimate: τ̂ = 0.00 | Cutoff = 50 | Bandwidth = 25

Figure 9.4. Régression sur discontinuité. La ligne pointillée verticale marque le seuil. Les points à gauche du seuil ne sont pas traités (gris) ; à droite sont traités (vert). Le saut au seuil est l'estimation de l'effet du traitement. Ajustez la fenêtre pour vous concentrer sur les observations proches du seuil.

9.6 Essais contrôlés randomisés (ECR)

Les ECR sont la « référence absolue » pour la validité interne car la randomisation garantit $E[\varepsilon|X] = 0$ par construction. Banerjee, Duflo et Kremer ont reçu le prix Nobel 2019 pour leur approche expérimentale de la réduction de la pauvreté mondiale.

Limites des ECR

Exemple 9.5 — ECR avec conformité partielle

Un programme de formation professionnelle assigne aléatoirement 500 individus au groupe de traitement et 500 au groupe de contrôle. Seuls 60 % des personnes assignées au traitement participent effectivement au programme (taux de conformité = 0,6).

Résultats : Revenus moyens : groupe de traitement = 25 000 $, groupe de contrôle = 23 000 $.

ITT : $\hat{\tau}_{ITT} = 25{,}000 - 23{,}000 = \\$1{,}000$. C'est l'effet d'être invité au programme.

TOT : $\hat{\tau}_{TOT} = 2{,}000 / 0.6 = \\$1{,}333$. Ceci estime l'effet de participer effectivement au programme (pour les conformistes). Le TOT est plus élevé car l'ITT est dilué par les non-conformistes.

Vérification de puissance : Avec $n = 500$ par groupe, $\sigma = \\$1{,}000$, et un effet réel de $\\$1{,}000$, la puissance $\approx 0.80$. L'étude est suffisamment puissante pour détecter l'ITT.

Figure 9.5 — Calculateur de puissance ECR

La puissance statistique est la probabilité de détecter un vrai effet de traitement. Utilisez les curseurs pour explorer comment la taille de l'effet, la taille de l'échantillon et la variance affectent la puissance. La courbe de puissance se met à jour en temps réel, et l'effet minimum détectable (MDE) à 80 % de puissance est mis en évidence.

Taille d'effet vraie ($\delta$) : 0,50

Petit (0,05) Moyen (0,50) Grand (1,50)

Taille d'échantillon par groupe ($n$) : 100

10 250 500

Écart type ($\sigma$) : 1,00

Faible (0,5) Moyen (1,0) Élevé (3,0)

Power: 0.00 | MDE at 80% power: 0.00

Figure 9.5. Courbe de puissance : probabilité de détecter l'effet en fonction de la taille de l'effet. La ligne pointillée rouge marque 80 % de puissance. Le losange vert marque la combinaison de paramètres actuelle. Le MDE est le plus petit effet détectable à 80 % de puissance étant donné la taille de l'échantillon et la variance.

9.7 Erreurs types et inférence

Les erreurs types (SE) sont les racines carrées des éléments diagonaux. Un intervalle de confiance à 95 % est approximativement $\hat{\beta} \pm 1.96 \cdot SE(\hat{\beta})$.

Significativité statistique : On rejette $H_0: \beta = 0$ au seuil de 5 % si $|t| = |\hat{\beta}/SE(\hat{\beta})| > 1.96$.

Significativité économique vs significativité statistique : Un coefficient peut être statistiquement significatif mais économiquement trivial. Inversement, une estimation imprécise peut être économiquement importante mais statistiquement non significative. Un bon travail empirique discute les deux.

Menaces à l'inférence valide

Une règle pratique : En économie appliquée moderne, utilisez toujours des erreurs types robustes ou clustérisées.

9.8 Menaces à la validité

Stratégie	Hypothèse clé	Menace	Diagnostic
OLS	Pas de variables omises ($E[\varepsilon\|X]=0$)	Confusion	Théorie + analyse de sensibilité
IV	Restriction d'exclusion	Effet direct de $Z$ sur $Y$	Non testable directement ; argumenter théoriquement
IV	Pertinence	Instruments faibles	F de la première étape > 10
DiD	Tendances parallèles	Tendances pré-traitement différentielles	Tracer les tendances pré-traitement
RD	Pas de manipulation au seuil	Tri autour du seuil	Test de densité de McCrary
RCT	Pas d'attrition, pas de débordement	Abandon différentiel ; contamination	Tests d'équilibre, analyse d'attrition

Fil d'exemple : La République de Kaelani

Un économiste souhaite estimer l'effet de la nouvelle politique éducative de Kaelani (manuels gratuits pour les classes 1 à 6) sur les résultats aux examens. La politique a été mise en œuvre dans les provinces orientales en 2024 mais pas dans les provinces occidentales.

Design : Différence de différences.

	Avant la politique (2023)	Après la politique (2025)	Variation
Est (traitement)	55	63	+8
Ouest (contrôle)	52	56	+4
Estimation DiD			+4

L'estimation DiD est de 4 points. Les manuels gratuits ont augmenté les résultats aux examens de 4 points, après contrôle de la tendance commune à la hausse.

Menaces : (1) Tendances parallèles : Les provinces orientales s'amélioraient-elles déjà plus vite ? (2) Effets de débordement : Les familles près de la frontière envoyaient-elles leurs enfants dans les écoles orientales ? (3) Changements de composition : Les manuels gratuits ont-ils modifié les inscriptions ?

Une approche complémentaire : la régression sur discontinuité à la frontière provinciale, comparant les villages juste de chaque côté.

Résumé

Le problème d'identification — distinguer causalité et corrélation — est le défi central de l'économie empirique.
Les MCO estiment des relations linéaires mais sont biaisés lorsque les variables explicatives sont corrélées avec le terme d'erreur. Le biais de variable omise a une direction prévisible.
Les variables instrumentales isolent la variation exogène en utilisant une variable corrélée avec $X$ mais pas directement avec $Y$. La restriction d'exclusion est critique et non testable.
La différence de différences compare les évolutions dans le temps entre groupes de traitement et de contrôle sous l'hypothèse de tendances parallèles.
La régression sur discontinuité exploite les seuils dans les variables de sélection pour créer des quasi-expériences locales.
Les ECR résolvent le problème d'identification par conception mais font face à des limites de validité externe.
Chaque stratégie a des hypothèses et des menaces. Un bon travail empirique énonce clairement sa stratégie d'identification et traite les violations potentielles.

Équations clés

Libellé	Équation	Description
Éq. 9.1	$Y_i = \alpha + \beta X_i + \varepsilon_i$	Équation structurelle
Éq. 9.2	$\hat{\beta}_{OLS} = (X'X)^{-1}X'Y$	Estimateur MCO
Éq. 9.3	$E[\hat{\alpha}_1] = \beta_1 + \beta_2 \cdot Cov(X,Z)/Var(X)$	Formule du biais de variable omise
Éq. 9.5	$\hat{\beta}_{IV} = Cov(Z,Y)/Cov(Z,X)$	Estimateur VI (simple)
Éq. 9.6	$\hat{\tau}_{DiD}$ = (changement traité) − (changement contrôle)	Estimateur DiD
Éq. 9.7	$Y_{it} = \alpha + \beta_1 Treat + \beta_2 Post + \tau(Treat \times Post) + \varepsilon$	Régression DiD
Éq. 9.8	$\hat{\tau}_{RD} = \lim_{x \downarrow c} E[Y\|X=x] - \lim_{x \uparrow c} E[Y\|X=x]$	Estimateur RD
Éq. 9.9	$\hat{\tau}_{RCT} = \bar{Y}_{treat} - \bar{Y}_{control}$	Estimateur ECR
Éq. 9.10	$Var(\hat{\beta}) = \sigma^2(X'X)^{-1}$	Variance MCO

Exercices

Pratique

Supposez que vous régressiez les salaires sur les années d'éducation par MCO et que vous estimiez un coefficient de 0,10 (chaque année d'éducation est associée à des salaires 10 % plus élevés). Citez deux variables omises qui pourraient biaiser cette estimation et prédisez la direction du biais pour chacune.
Une étude VI utilise la « distance au collège le plus proche » comme instrument pour les années de scolarité. (a) Argumentez pour la pertinence. (b) Quelle est la restriction d'exclusion, et qu'est-ce qui pourrait la violer ?
Deux villes sont comparées avant et après que la ville A ait instauré une taxe sur les sodas. Avant la taxe, la consommation de sodas dans la ville A était de 100 canettes/personne et de 90 dans la ville B. Après la taxe, la consommation est de 80 dans A et de 85 dans B. Calculez l'estimation DiD. Quelle est l'hypothèse de tendances parallèles ici ?
Un programme de bourses admet les étudiants ayant une MPC ≥ 3,5. Vous disposez de données sur les étudiants ayant une MPC entre 3,0 et 4,0. (a) Décrivez le design RD. (b) Quelle est la variable de sélection ? (c) Quelle hypothèse doit être vérifiée concernant le comportement des étudiants près du seuil ?

Application

Un gouvernement randomise l'accès à un programme de formation professionnelle. 60 % de ceux à qui le programme est proposé y participent effectivement. L'estimation de l'intention de traiter est une augmentation de 500 $ des revenus. Quelle est l'estimation de l'effet du traitement sur les traités ? Quelle hypothèse est nécessaire, et quel est le lien avec la VI ?
Un économiste affirme que la démocratie cause la croissance économique, citant des corrélations entre pays. Critiquez cette affirmation en utilisant le cadre de ce chapitre. Quelle stratégie d'identification spécifique proposeriez-vous ?
Une étude DiD estime l'effet d'une réglementation environnementale. Les tendances pré-traitement montrent que la pollution du groupe de traitement diminuait déjà plus vite que celle du groupe de contrôle. Comment cela viole-t-il les tendances parallèles ? Dans quelle direction l'estimation DiD est-elle biaisée ?

Défi

Dérivez l'estimateur MCO $\hat{\beta} = (X'X)^{-1}X'Y$ en minimisant $S(\beta) = (Y - X\beta)'(Y - X\beta)$. Montrez que la condition du premier ordre donne les équations normales $X'X\hat{\beta} = X'Y$.
Montrez algébriquement que lorsque l'instrument $Z$ est binaire, l'estimateur VI se réduit à l'estimateur de Wald : $\hat{\beta}_{IV} = (\bar{Y}_1 - \bar{Y}_0)/(\bar{X}_1 - \bar{X}_0)$.
Discutez la « révolution de la crédibilité » en économie (Angrist et Pischke, 2010). Qu'est-ce qui a changé entre l'économétrie structurelle et le travail empirique basé sur le design ? Quels sont les forces et les limites de chaque approche ?

Chapitre 9Fondements de l'économétrie

Introduction