Kapitel 10Grundlagen der Ökonometrie

Einleitung

Die Volkswirtschaftslehre erhebt kausale Ansprüche — Mindestlöhne beeinflussen die Beschäftigung, Bildung erhöht das Einkommen, Institutionen bestimmen das Wachstum. Die Überprüfung dieser Ansprüche erfordert Daten und eine Methode zur Unterscheidung von Kausalität und Korrelation. Ökonometrie ist diese Methode.

Dieses Kapitel ist kein Statistikkurs. Wir setzen Vertrautheit mit grundlegender Wahrscheinlichkeitsrechnung und Regression voraus. Stattdessen konzentrieren wir uns auf das zentrale Problem der empirischen Ökonomie: Identifikation — das Finden glaubwürdiger Quellen exogener Variation, die es uns ermöglichen, kausale Effekte zu schätzen. Jedes Werkzeug in diesem Kapitel — OLS, Instrumentalvariablen, Differenz-von-Differenzen, Regressionsdiskontinuität — ist eine Strategie zur Lösung des Identifikationsproblems.

Am Ende dieses Kapitels werden Sie in der Lage sein:
  1. Das Identifikationsproblem benennen und erklären, warum Korrelation keine Kausalität impliziert
  2. OLS-Schätzer herleiten und interpretieren und die Verzerrung durch ausgelassene Variablen diagnostizieren
  3. Die Logik der Instrumentalvariablen erklären und die Gültigkeit des Instruments bewerten
  4. Ein Differenz-von-Differenzen-Design aufstellen und interpretieren
  5. Die Logik von Regressionsdiskontinuitäts-Designs erklären
  6. Bedrohungen der Validität in der empirischen Forschung bewerten

Voraussetzungen: Kapitel 2 und 5 (ökonomischer Kontext für Beispiele). Mathematische Voraussetzungen: Lineare Algebra, Wahrscheinlichkeitsrechnung und Statistik.

10.1 Das Identifikationsproblem

Das Identifikationsproblem. Die Schwierigkeit festzustellen, dass eine Beziehung zwischen zwei Variablen kausal und nicht nur korrelativ ist.

Betrachten Sie die Frage: Erhöht ein zusätzliches Jahr Bildung das Einkommen? Wir beobachten, dass besser gebildete Menschen mehr verdienen. Aber liegt das daran, dass:

Endogenität. Ein Regressor $X$ ist endogen, wenn er mit dem Fehlerterm korreliert ist: $Cov(X, \varepsilon) \neq 0$. Dies entsteht durch ausgelassene Variablen, Simultanität oder Messfehler und führt dazu, dass OLS verzerrte Schätzer liefert.
Kontrafaktisch. Das Ergebnis, das für eine behandelte Einheit beobachtet worden wäre, hätte sie die Behandlung nicht erhalten. Da für jede Einheit nur ein Zustand beobachtet wird, ist das Kontrafaktische immer hypothetisch. Alle Methoden der Kausalinferenz sind Strategien zur Konstruktion plausibler Kontrafaktischer.

Beides ist mit der beobachteten Korrelation vereinbar. Das Identifikationsproblem besteht darin, dass wir dieselbe Person nicht direkt mit und ohne Bildung vergleichen können — das Kontrafaktische ist unbeobachtet.

Die grundlegende Gleichung:

$$Y_i = \alpha + \beta X_i + \varepsilon_i$$ (Eq. 10.1)

wobei $Y_i$ das Ergebnis (Einkommen) ist, $X_i$ die Behandlung (Bildungsjahre), $\beta$ der kausale Parameter von Interesse und $\varepsilon_i$ alles andere erfasst, was $Y_i$ beeinflusst — Fähigkeit, familiärer Hintergrund, Motivation, Glück, Gesundheit und Tausende anderer Faktoren.

Das Identifikationsproblem entsteht, wenn $X_i$ mit $\varepsilon_i$ korreliert ist — wenn die „Behandlung“ nicht zufällig zugewiesen wird. In der Statistik wird dies als Endogenität bezeichnet. In der Ökonomie ist es die Norm, nicht die Ausnahme: Menschen wählen ihre Bildung (und die Wahl korreliert mit der Fähigkeit), Länder wählen ihre Politiken (und die Wahl korreliert mit ihren wirtschaftlichen Bedingungen), Unternehmen wählen ihre Preise (und die Wahl korreliert mit den Nachfragebedingungen).

In einem randomisierten Experiment wird die Behandlung $X_i$ per Münzwurf zugewiesen — sie ist konstruktionsbedingt unabhängig von $\varepsilon_i$. Aber Ökonomen haben selten den Luxus der Randomisierung bei den großen Fragen. Die Methoden in diesem Kapitel — OLS, IV, DiD, RD — sind Strategien, um „natürliche Experimente“ zu finden, die die Randomisierung in Beobachtungsdaten approximieren.

10.2 Gewöhnliche Methode der kleinsten Quadrate (OLS)

OLS. Minimiert die Summe der quadrierten Residuen, um die lineare Beziehung zwischen $Y$ und $X$ zu schätzen.

Für das multivariate Modell $Y = X\beta + \varepsilon$ (Matrixnotation):

$$\hat{\beta}_{OLS} = (X'X)^{-1}X'Y$$ (Eq. 10.2)
Gauss-Markov-Annahmen. Die Bedingungen, unter denen OLS der beste lineare unverzerrte Schätzer ist: (1) Linearität, (2) Zufallsstichprobe, (3) keine perfekte Multikollinearität, (4) bedingte Erwartung null ($E[\varepsilon|X] = 0$) und (5) Homoskedastizität ($Var(\varepsilon|X) = \sigma^2$).

Unter den Gauss-Markov-Annahmen hat OLS wünschenswerte Eigenschaften:

  1. Linearität: Das wahre Modell ist linear in den Parametern
  2. Zufallsstichprobe: Beobachtungen sind unabhängig gezogen
  3. Keine perfekte Multikollinearität: Kein Regressor ist eine exakte lineare Funktion anderer
  4. Bedingter Erwartungswert null: $E[\varepsilon|X] = 0$ — der Fehler hat keine systematische Beziehung zu den Regressoren
  5. Homoskedastizität: $Var(\varepsilon|X) = \sigma^2$ — die Fehlervarianz ist konstant
Bedingter Erwartungswert null. Die Annahme $E[\varepsilon|X] = 0$: Der Fehlerterm hat keine systematische Beziehung zu den Regressoren. Dies ist die entscheidende Annahme für die Unverzerrtheit von OLS. Wenn sie verletzt wird (durch ausgelassene Variablen, Simultanität oder Messfehler), ist OLS verzerrt.
BLUE (bester linearer unverzerrter Schätzer). Unter den Gauss-Markov-Annahmen hat OLS die geringste Varianz unter allen linearen unverzerrten Schätzern. „Best“ = minimale Varianz; „Linear“ = eine lineare Funktion von $Y$; „Unverzerrt“ = $E[\hat{\beta}] = \beta$.

Unter diesen Annahmen ist OLS BLUE — der beste lineare unverzerrte Schätzer. „Best“ bedeutet niedrigste Varianz unter allen linearen unverzerrten Schätzern. „Unverzerrt“ bedeutet $E[\hat{\beta}] = \beta$.

Die kritische Annahme ist Nr. 4: $E[\varepsilon|X] = 0$. Wenn diese versagt — aufgrund ausgelassener Variablen, Simultanität oder Messfehler in $X$ — ist OLS verzerrt. Die Schätzung $\hat{\beta}$ konvergiert selbst bei unendlich vielen Daten nicht mehr zum wahren $\beta$. Dies ist kein Kleinproben-Problem — es ist ein grundlegender Designfehler, den mehr Daten nicht beheben können.

Abbildung 10.1 — OLS-Regressions-Explorer

Ein Streudiagramm mit einer angepassten OLS-Regressionslinie. Ziehen Sie den Schieberegler, um einen Ausreißer an verschiedenen vertikalen Positionen hinzuzufügen, und beobachten Sie, wie die Regressionslinie kippt. Beobachten Sie, wie ein einzelner Punkt mit hohem Hebeleffekt die Steigung, $R^2$ und Koeffizienten dramatisch verändern kann.

Kein Ausreißer Moderat Extrem (Y=25)
OLS: β̂ = 0.00 | Intercept = 0.00 | R² = 0.00

Abbildung 10.1. OLS-Regression mit einem einstellbaren Ausreißer. Der Ausreißer befindet sich bei $X=14$ (hoher Hebeleffekt). Ziehen Sie den Schieberegler über „Kein Ausreißer“, um ihn einzuführen, und beobachten Sie, wie die Linie kippt. Hover für Werte.

Verzerrung durch ausgelassene Variablen

Verzerrung durch ausgelassene Variablen. Verzerrung im OLS-Schätzer durch das Auslassen einer relevanten Variablen, die sowohl mit der abhängigen Variablen als auch mit einem eingeschlossenen Regressor korreliert ist. Richtung und Ausmaß der Verzerrung hängen vom Vorzeichen des Effekts der ausgelassenen Variablen und ihrer Korrelation mit dem eingeschlossenen Regressor ab.

Angenommen, das wahre Modell ist $Y = \beta_0 + \beta_1 X + \beta_2 Z + u$, aber wir lassen $Z$ aus und schätzen $Y = \alpha_0 + \alpha_1 X + e$. Dann:

$$E[\hat{\alpha}_1] = \beta_1 + \beta_2 \cdot \frac{Cov(X, Z)}{Var(X)}$$ (Eq. 10.3)

Die Verzerrung entspricht dem Effekt der ausgelassenen Variablen ($\beta_2$) multipliziert mit der Assoziation zwischen der ausgelassenen Variablen und dem eingeschlossenen Regressor.

Vorzeichen der Verzerrung:

$Cov(X, Z) > 0$$Cov(X, Z) < 0$
$\beta_2 > 0$Aufwärtsverzerrung (Überschätzung von $\beta_1$)Abwärtsverzerrung
$\beta_2 < 0$AbwärtsverzerrungAufwärtsverzerrung
Beispiel 10.1 — Bildungsrendite

Angenommen, die Fähigkeit ($Z$) ist sowohl mit Bildung ($X$) als auch mit Einkommen ($Y$) positiv korreliert. Dann ist $\beta_2 > 0$ (Fähigkeit erhöht das Einkommen) und $Cov(X,Z) > 0$ (fähigere Menschen erhalten mehr Bildung). Die OLS-Schätzung der Bildungsrendite ist nach oben verzerrt — sie schreibt einen Teil des Fähigkeitseffekts der Bildung zu.

Abbildung 10.2 — Verzerrung durch ausgelassene Variablen

Zwei Panels zeigen dieselben Daten. Links: die wahre Beziehung mit dem Störfaktor (Fähigkeit), dargestellt als Punktfarbe. Rechts: die naive OLS-Regression ohne Fähigkeit. Ziehen Sie den Schieberegler, um die Stärke des Störfaktors zu ändern, und beobachten Sie, wie die Verzerrung wächst.

Keine Konfundierung (0) Moderat (0,5) Stark (0,95)
True β₁ = 0.50 | Naive OLS β̂ = 0.00 | Bias = 0.00

Links: Wahres Modell mit dem Störfaktor (Fähigkeit), dargestellt als Farbe. Dunkler = höhere Fähigkeit.

Rechts: Naive OLS-Regression ohne Berücksichtigung der Fähigkeit. Die verzerrte Linie (rot gestrichelt) ist steiler als der wahre kausale Effekt (blau).

10.3 Instrumentalvariablen (IV)

Wenn OLS verzerrt ist, weil $X$ endogen ist ($Cov(X, \varepsilon) \neq 0$), kann eine Instrumentalvariable die Schätzung retten.

Instrument ($Z$). Eine Variable, die: (1) Relevanz: $Z$ ist mit $X$ korreliert ($Cov(Z, X) \neq 0$); (2) Ausschlussrestriktion: $Z$ beeinflusst $Y$ nur über $X$ ($Cov(Z, \varepsilon) = 0$).
Relevanzbedingung. Die Anforderung, dass das Instrument $Z$ ausreichend mit dem endogenen Regressor $X$ korreliert ist. Ein schwaches Instrument (geringe Korrelation) erzeugt unzuverlässige IV-Schätzer mit großen Standardfehlern und Verzerrung in Richtung OLS. Die F-Statistik der ersten Stufe sollte 10 übersteigen.
Ausschlussrestriktion. Die Annahme, dass das Instrument $Z$ das Ergebnis $Y$ nur über seinen Effekt auf den endogenen Regressor $X$ beeinflusst, nicht über einen anderen Kanal: $Cov(Z, \varepsilon) = 0$. Diese Annahme ist nicht direkt testbar und muss theoretisch begründet werden.
Zweistufige Methode der kleinsten Quadrate (2SLS). Ein IV-Schätzverfahren: (1) Regression von $X$ auf $Z$, um angepasste Werte $\hat{X}$ zu erhalten; (2) Regression von $Y$ auf $\hat{X}$. Die erste Stufe isoliert die exogene Variation in $X$; die zweite Stufe verwendet nur diese Variation zur Schätzung des kausalen Effekts.

Zweistufige Methode der kleinsten Quadrate (2SLS):

Erste Stufe: Regression von $X$ auf $Z$ (und etwaige Kontrollvariablen):

$$X_i = \pi_0 + \pi_1 Z_i + \nu_i$$ (Erste Stufe)

Dies isoliert den Teil von $X$, der vom Instrument angetrieben wird — den exogenen Teil. Die angepassten Werte $\hat{X}_i$ repräsentieren die „saubere“ Variation in $X$.

Zweite Stufe: Regression von $Y$ auf $\hat{X}$. In Matrixform:

$$\hat{\beta}_{IV} = (Z'X)^{-1}Z'Y$$ (Eq. 10.4)

Im einfachen Fall mit einem Instrument und einem endogenen Regressor:

$$\hat{\beta}_{IV} = \frac{Cov(Z, Y)}{Cov(Z, X)}$$ (Eq. 10.5)

Die IV-Schätzung ist das Verhältnis der reduzierten Form (Effekt von $Z$ auf $Y$) zur ersten Stufe (Effekt von $Z$ auf $X$). Die Intuition: $Z$ beeinflusst $Y$ nur über $X$ (Ausschlussrestriktion), daher isoliert die Division durch die erste Stufe den kausalen Effekt von $X$ auf $Y$.

Was IV schätzt. Bei heterogenen Behandlungseffekten identifiziert IV den lokalen durchschnittlichen Behandlungseffekt (LATE) — den kausalen Effekt für die Teilpopulation, deren Verhalten durch das Instrument verändert wird (die „Complier“).

Schwache Instrumente

Schwache Instrumente. Instrumente mit geringer Korrelation mit dem endogenen Regressor (F-Statistik der ersten Stufe unter 10). Schwache Instrumente führen dazu, dass der IV-Schätzer in Richtung OLS verzerrt ist, nicht-normale Stichprobenverteilungen aufweist und irreführende Konfidenzintervalle liefert.

Wenn $Z$ schwach mit $X$ korreliert ist, ist die erste Stufe schwach und die IV-Schätzung unzuverlässig (verzerrt in Richtung OLS, breite Konfidenzintervalle). Faustregel: F-Statistik der ersten Stufe > 10.

Beispiel 10.2 — Geburtsquartal (Angrist & Krueger 1991)

Das Geburtsquartal wurde als Instrument für die Schuljahre verwendet. Schulpflichtgesetze bedeuten, dass früher im Jahr geborene Schüler mit etwas weniger Bildung die Schule verlassen können. Das Geburtsquartal ist plausiblerweise: (a) mit der Schulbildung korreliert (Relevanz), und (b) nicht direkt mit dem Einkommen verbunden (Ausschluss). Die IV-Schätzung der Bildungsrendite betrug etwa 7–8 % pro Jahr.

Interaktiv: DAG der Instrumentalvariablen

Dieser gerichtete azyklische Graph zeigt die Kausalstruktur eines IV-Designs. Wechseln Sie zwischen Ansichten, um zu sehen, wie ein Instrument Z den Konfundierungspfad unterbricht.

Abbildung 10.2. DAG für das Instrumentalvariablen-Design. Z ist das Instrument, X ist der endogene Regressor, Y ist das Ergebnis und U ist der unbeobachtete Störfaktor. Die IV-Strategie nutzt nur die Variation in X, die von Z angetrieben wird, und umgeht den Störpfad durch U.

10.4 Differenz-von-Differenzen (DiD)

Differenz-von-Differenzen. Eine Methode, die Veränderungen über die Zeit zwischen einer Behandlungs- und einer Kontrollgruppe vergleicht, um den kausalen Effekt einer Behandlung zu schätzen.
$$\hat{\tau}_{DiD} = (\bar{Y}_{T,post} - \bar{Y}_{T,pre}) - (\bar{Y}_{C,post} - \bar{Y}_{C,pre})$$ (Eq. 10.6)

Die erste Differenz beseitigt zeitinvariante Gruppenmerkmale. Die zweite Differenz beseitigt gemeinsame Zeittrends.

Annahme paralleler Trends. Die Annahme, dass die Behandlungs- und Kontrollgruppe ohne Behandlung die gleiche Veränderung der Ergebnisse über die Zeit erfahren hätten. Parallele Trends können für die Nachbehandlungsperiode nicht direkt getestet werden, aber man kann prüfen, ob die Trends vor der Behandlung ähnlich sind.

Schlüsselannahme: Parallele Trends. In Abwesenheit der Behandlung hätten Behandlungs- und Kontrollgruppe demselben Trend gefolgt. Dies ist für die Nachbehandlungsperiode nicht testbar, aber für die Vorbehandlungsperiode beurteilbar.

Beispiel 10.3 — Card & Krueger (1994)

New Jersey erhöhte seinen Mindestlohn im April 1992 von 4,25 $ auf 5,05 $; Pennsylvania nicht. Die DiD-Schätzung des Beschäftigungseffekts war positiv (+2,7 VZÄ), was der Vorhersage des einfachen Wettbewerbsmodells widersprach. Diese Studie löste eine Revolution in der empirischen Arbeitsmarktökonomie aus.

Regressionsformulierung:

$$Y_{it} = \alpha + \beta_1 \cdot Treat_i + \beta_2 \cdot Post_t + \tau \cdot (Treat_i \times Post_t) + \varepsilon_{it}$$ (Eq. 10.7)

Abbildung 10.3 — Differenz-von-Differenzen

Zwei Zeitreihen zeigen eine Behandlungs- und eine Kontrollgruppe. Die Behandlung erfolgt bei $t = 5$. Ziehen Sie den Schieberegler, um die Größe des Behandlungseffekts zu ändern, und beobachten Sie, wie sich die DiD-Schätzung aktualisiert. Parallele Trends vor der Behandlung sind sichtbar.

Negativ (−5) Null Groß (+10)
DiD estimate: τ̂ = 3.00

Abbildung 10.3. Differenz-von-Differenzen-Design. Die gestrichelte Linie zeigt das Kontrafaktische — was mit der Behandlungsgruppe ohne Behandlung passiert wäre (parallel zur Kontrolle). Die Lücke zwischen den tatsächlichen und kontrafaktischen Ergebnissen am Ende ist der Behandlungseffekt.

Große Frage Nr. 3

Verursacht der Mindestlohn Arbeitslosigkeit?

You now have difference-in-differences, instrumental variables, and the tools of causal identification. This is where the minimum wage debate gets resolved — not by theory, but by evidence.

Was das Modell sagt

Card and Krueger (1994) applied the method you just learned — difference-in-differences — to a natural experiment. When New Jersey raised its minimum wage from \$4.25 to \$5.05 in 1992, neighboring Pennsylvania didn't. By surveying fast-food restaurants on both sides of the border before and after the increase, they constructed a clean DiD estimate: the treatment group (NJ) versus the control group (PA), differencing out common trends. The result stunned the profession: employment in New Jersey fast-food restaurants didn't fall. If anything, it rose slightly. The competitive model's prediction — that a binding price floor reduces quantity demanded — failed its most direct empirical test. Subsequent studies using county-border designs (Dube, Lester & Reich, 2010) confirmed the pattern: comparing adjacent counties across state lines where one side raised its minimum wage and the other didn't, employment effects were small to negligible for moderate increases.

Das stärkste Gegenargument

Neumark and Wascher mounted the most sustained challenge. Using payroll data from the Bureau of Labor Statistics instead of Card and Krueger's telephone surveys, they found employment did decline in New Jersey — the original result, they argued, was an artifact of noisy survey data. Beyond data quality, the critique has structural force: DiD captures short-run effects, but firms adjust on multiple margins over time. Hours get cut even when headcount doesn't (Jardim et al., 2022, on Seattle's \$15 minimum). Benefits erode. Automation accelerates — self-order kiosks and scheduling software aren't coincidental. And the border-design studies may systematically understate effects by comparing areas that are economically similar precisely because they trade workers across the border, contaminating the control group. The meta-analysis is genuinely mixed: which studies you weight, and how, determines whether you find small negative effects or no effects.

Wie der Mainstream reagiert hat

The field's response illustrates what economists call the "credibility revolution" — the shift from estimating structural models to designing identification strategies. Card and Krueger didn't just challenge a prediction; they changed how empirical economics is done. The question moved from "what does the model predict?" to "can we find a credible research design that isolates the causal effect?" Cengiz, Dube, Lindner, and Zipperer (2019) produced the most comprehensive answer to date, analyzing 138 state-level minimum wage changes using a bunching estimator. They looked at the entire wage distribution: jobs paying just below the new minimum disappeared, jobs paying at or just above it appeared, and — crucially — total employment in the affected range barely changed. The jobs didn't vanish; they moved up the wage ladder. This is exactly what the monopsony model from Chapter 6 predicts and exactly what the competitive model says shouldn't happen.

Die Beurteilung (auf diesem Niveau)

The textbook prediction — that minimum wages cause unemployment — is wrong as a general empirical claim. Moderate minimum wage increases, up to roughly 50–60% of the local median wage, produce minimal detectable employment effects in most credible studies. This is consistent with monopsony power in low-wage labor markets: when employers have wage-setting power, a moderate minimum wage pushes them toward the competitive outcome rather than away from it. But "moderate" is the operative word. The competitive model isn't wrong — it's incomplete. Push the minimum wage high enough relative to local conditions (above 60% of the median, as a federal \$15 would in low-wage regions), and the standard prediction reasserts itself. The deeper lesson is methodological: a theoretical prediction that seemed airtight for decades was overturned not by better theory but by better identification. The model was logically correct; its empirical relevance was the question all along.

Was Sie noch nicht klären können

This Big Question is essentially resolved at this level: moderate minimum wages don't cause significant unemployment, consistent with monopsony. The remaining frontier is calibration, not direction. How high can you go before disemployment appears? The answer varies by region, sector, and time horizon — and the automation margin (kiosks, AI scheduling, self-checkout) may make long-run effects larger than short-run DiD estimates capture. The debate has shifted from "does it cause unemployment?" to "what's the right number for this labor market?" — which is a policy design question, not an economic theory question. The tools you learned in this chapter — DiD, IV, identification strategy — are exactly how that calibration question gets answered.

Verwandte Standpunkte

Standpunkt

"A \$7.25 minimum wage is a starvation wage" — AOC on the House floor, 2019

The Fight for \$15 made a number into a movement. But \$15 in San Francisco is very different from \$15 in rural Mississippi. The evidence says moderate increases work — is \$15 moderate?

Einführung
Standpunkt

What should a living wage be?

If the minimum wage isn't about employment anymore, it's about adequacy. How do economists measure what "enough" means — and who decides?

Mittelstufe
← Previous: Ch 6 — Monopsony and market power Stop 3 of 3 (Final)

10.5 Regressionsdiskontinuität (RD)

Regressionsdiskontinuität. Eine Methode, die einen scharfen Schwellenwert in einer „laufenden Variablen“ nutzt, die die Behandlungszuweisung bestimmt. Beobachtungen knapp über und knapp unter dem Schwellenwert sind in allen Aspekten außer der Behandlung ähnlich — was ein lokales Quasi-Experiment erzeugt.
Laufvariable. Die stetige Variable, die die Behandlungszuweisung in einem RD-Design bestimmt. Die Behandlung wird zugewiesen, wenn die laufende Variable einen Schwellenwert überschreitet (z.B. eine Testergebnisschwelle, eine Altersgrenze, ein Wahlvorsprung). Die laufende Variable darf von den Akteuren nicht präzise manipulierbar sein.
Stetigkeitsannahme. Die Annahme, dass alle Faktoren, die das Ergebnis beeinflussen (außer der Behandlung), am Schwellenwert stetig variieren. Wenn dies gilt, ist die Diskontinuität im Ergebnis am Schwellenwert ausschließlich der Behandlung zuzuschreiben. Verletzt, wenn Akteure sich präzise um den Schwellenwert sortieren können.
$$\hat{\tau}_{RD} = \lim_{x \downarrow c} E[Y|X = x] - \lim_{x \uparrow c} E[Y|X = x]$$ (Eq. 10.8)

Schlüsselannahme: Stetigkeit. Alle Faktoren, die $Y$ beeinflussen (außer der Behandlung), variieren stetig am Schwellenwert — keine Sortierung oder Manipulation um den Schwellenwert.

Beispiel 10.4 — Stipendium bei Punktzahl = 80

Ein Stipendium wird an Studierende vergeben, die bei einer Prüfung über 80 Punkte erzielen. Studierende mit 79 und 81 Punkten sind in ihren Fähigkeiten ähnlich, aber einer erhält das Stipendium und der andere nicht. Die Diskontinuität der Ergebnisse (z. B. Studienabschlussquoten) an der 80-Punkte-Schwelle schätzt den kausalen Effekt des Stipendiums.

Abbildung 10.4 — Regressionsdiskontinuität

Ein Streudiagramm mit einer Laufvariablen (Testergebnis). Studierende oberhalb des Schwellenwerts erhalten die Behandlung (Stipendium). Polynom-Anpassungen auf jeder Seite zeigen den Sprung am Schwellenwert. Passen Sie die Position des Schwellenwerts und die Bandbreite an, um zu sehen, wie sich der geschätzte Behandlungseffekt ändert.

Niedrig (30) Mitte (50) Hoch (70)
Schmal (5) Mittel (25) Breit (40)
RD estimate: τ̂ = 0.00 | Cutoff = 50 | Bandwidth = 25

Abbildung 10.4. Regressionsdiskontinuität. Die vertikale gestrichelte Linie markiert den Schwellenwert. Punkte links des Schwellenwerts sind unbehandelt (grau); rechts sind behandelt (grün). Der Sprung am Schwellenwert ist die Schätzung des Behandlungseffekts. Passen Sie die Bandbreite an, um sich auf Beobachtungen nahe dem Schwellenwert zu konzentrieren.

10.6 Randomisierte kontrollierte Studien (RCTs)

Randomisierte kontrollierte Studie. Zufällige Zuweisung der Behandlung stellt sicher, dass Behandlungs- und Kontrollgruppe im Erwartungswert identisch sind — und eliminiert Konfundierung durch Design.
$$\hat{\tau}_{RCT} = \bar{Y}_{treatment} - \bar{Y}_{control}$$ (Eq. 10.9)
Interne Validität. Das Ausmaß, in dem eine Studie den kausalen Effekt in ihrem spezifischen Kontext und ihrer Stichprobe korrekt schätzt. Eine intern valide Studie identifiziert die Kausalität für die untersuchte Population korrekt. Bedrohungen sind Konfundierung, Selektionsverzerrung, Ausfall und Messfehler.
Externe Validität. Das Ausmaß, in dem die Ergebnisse einer Studie auf andere Populationen, Kontexte oder Zeiträume verallgemeinerbar sind. Ein RCT im ländlichen Kenia gilt möglicherweise nicht für das städtische Indien. Die Skalierung eines Programms verändert oft den Kontext (allgemeine Gleichgewichtseffekte, andere Populationen von Befolgern).

RCTs sind der „Goldstandard“ für interne Validität, da die Randomisierung konstruktionsbedingt $E[\varepsilon|X] = 0$ garantiert. Banerjee, Duflo und Kremer erhielten 2019 den Nobelpreis für ihren experimentellen Ansatz zur Bekämpfung globaler Armut.

Grenzen der RCTs

Intention-to-Treat (ITT). Der durchschnittliche Behandlungseffekt der Zuweisung zur Behandlung, unabhängig davon, ob die Person tatsächlich teilgenommen hat. ITT ist in einem RCT immer sauber identifiziert, da es die Gruppen wie randomisiert vergleicht. Bei teilweiser Befolgung unterschätzt ITT den Effekt der tatsächlichen Behandlung.
Treatment-on-Treated (TOT). Der durchschnittliche kausale Effekt der tatsächlichen Behandlung (unter Befolgern). Geschätzt als $TOT = ITT / \text{compliance rate}$. TOT beantwortet: „Was ist der Effekt für Personen, die die Behandlung tatsächlich erhalten haben?“, erfordert aber stärkere Annahmen als ITT.
Statistische Teststärke. Die Wahrscheinlichkeit, dass eine Studie eine falsche Nullhypothese korrekt ablehnt (d.h. einen wahren Behandlungseffekt erkennt). Die Teststärke hängt von Effektgröße, Stichprobengröße und Varianz ab. Unterpowerte Studien riskieren, reale Effekte nicht zu erkennen (Fehler 2. Art). Standardziel: 80 % Teststärke.
Beispiel 10.5 — RCT mit partieller Compliance

Ein Berufsausbildungsprogramm weist 500 Personen zufällig der Behandlungsgruppe und 500 der Kontrollgruppe zu. Nur 60 % der zur Behandlung Zugewiesenen nehmen tatsächlich am Programm teil (Compliance-Rate = 0,6).

Ergebnisse: Durchschnittliches Einkommen: Behandlungsgruppe = 25.000 $, Kontrollgruppe = 23.000 $.

ITT: $\hat{\tau}_{ITT} = 25{,}000 - 23{,}000 = \\$1{,}000$. Dies ist der Effekt des Angebots des Programms.

TOT: $\hat{\tau}_{TOT} = 2{,}000 / 0.6 = \\$1{,}333$. Dies schätzt den Effekt der tatsächlichen Teilnahme am Programm (für Complier). Der TOT ist größer, da der ITT durch Nicht-Complier verdünnt wird.

Teststärke-Prüfung: Mit $n = 500$ pro Gruppe, $\sigma = \\$1{,}000$ und einem wahren Effekt von $\\$1{,}000$ beträgt die Teststärke $\approx 0.80$. Die Studie ist ausreichend gepowert, um den ITT zu erkennen.

Abbildung 10.5 — RCT-Teststärkerechner

Statistische Teststärke ist die Wahrscheinlichkeit, einen wahren Behandlungseffekt zu erkennen. Verwenden Sie die Schieberegler, um zu erkunden, wie Effektgröße, Stichprobengröße und Varianz die Teststärke beeinflussen. Die Teststärkekurve aktualisiert sich in Echtzeit, und der minimale erkennbare Effekt (MDE) bei 80 % Teststärke wird hervorgehoben.

Klein (0,05) Mittel (0,50) Groß (1,50)
10 250 500
Niedrig (0,5) Mittel (1,0) Hoch (3,0)
Teststärke: 0.00 | MDE at 80% power: 0.00

Abbildung 10.5. Teststärkekurve: Wahrscheinlichkeit, den Effekt zu erkennen, als Funktion der Effektgröße. Die rote gestrichelte Linie markiert 80 % Teststärke. Die grüne Raute markiert die aktuelle Parameterkombination. Der MDE ist der kleinste erkennbare Effekt bei 80 % Teststärke bei gegebener Stichprobengröße und Varianz.

10.7 Standardfehler und Inferenz

Eine Punktschätzung ohne Maß der Unsicherheit ist nahezu nutzlos.

$$Var(\hat{\beta}) = \sigma^2(X'X)^{-1}$$ (Eq. 10.10)

Standardfehler (SE) sind die Quadratwurzeln der Diagonalelemente. Ein 95%-Konfidenzintervall beträgt ungefähr $\hat{\beta} \pm 1.96 \cdot SE(\hat{\beta})$.

Statistische Signifikanz: Wir lehnen $H_0: \beta = 0$ auf dem 5%-Niveau ab, wenn $|t| = |\hat{\beta}/SE(\hat{\beta})| > 1.96$.

Ökonomische Signifikanz vs. statistische Signifikanz: Ein Koeffizient kann statistisch signifikant, aber ökonomisch trivial sein. Umgekehrt kann eine unpräzise Schätzung ökonomisch groß, aber statistisch insignifikant sein. Gute empirische Arbeit diskutiert beides.

Bedrohungen für valide Inferenz

Eine praktische Regel: In der modernen angewandten Ökonomie sollten Sie immer robuste oder geclusterte Standardfehler verwenden.

10.8 Bedrohungen der Validität

Jede empirische Strategie hat Annahmen, die versagen können:

StrategieSchlüsselannahmeBedrohungDiagnostik
OLSKeine ausgelassenen Variablen ($E[\varepsilon|X]=0$)KonfundierungTheorie + Sensitivitätsanalyse
IVAusschlussrestriktionDirekter Effekt von $Z$ auf $Y$Nicht direkt testbar; theoretisch argumentieren
IVRelevanzSchwache InstrumenteF der ersten Stufe > 10
DiDParallele TrendsUnterschiedliche VorbehandlungstrendsVorbehandlungstrends grafisch darstellen
RDKeine Manipulation am SchwellenwertSortierung um den SchwellenwertMcCrary-Dichtetest
RCTKeine Attrition, keine SpilloverDifferenzieller Abbruch; KontaminationBalance-Checks, Attritionsanalyse

Beispiel-Faden: Die Republik Kaelani

Ein Ökonom möchte den Effekt von Kaelanis neuer Bildungspolitik (kostenlose Schulbücher für die Klassen 1–6) auf die Testergebnisse schätzen. Die Politik wurde 2024 in den östlichen Provinzen eingeführt, aber nicht in den westlichen.

Design: Differenz-von-Differenzen.

Vor der Politik (2023)Nach der Politik (2025)Veränderung
Osten (Behandlung)5563+8
Westen (Kontrolle)5256+4
DiD-Schätzung+4

Die DiD-Schätzung beträgt 4 Punkte. Kostenlose Schulbücher haben die Testergebnisse um 4 Punkte erhöht, nach Kontrolle des gemeinsamen Aufwärtstrends.

Bedrohungen: (1) Parallele Trends: Verbesserten sich die östlichen Provinzen bereits schneller? (2) Spillover-Effekte: Schickten Familien nahe der Grenze ihre Kinder in östliche Schulen? (3) Zusammensetzungsänderungen: Veränderten kostenlose Schulbücher die Einschreibungen?

Ein ergänzender Ansatz: Regressionsdiskontinuität an der Provinzgrenze, mit Vergleich von Dörfern direkt auf beiden Seiten.

Zusammenfassung

Wichtige Gleichungen

BezeichnungGleichungBeschreibung
Gl. 10.1$Y_i = \alpha + \beta X_i + \varepsilon_i$Strukturgleichung
Gl. 10.2$\hat{\beta}_{OLS} = (X'X)^{-1}X'Y$OLS-Schätzer
Gl. 10.3$E[\hat{\alpha}_1] = \beta_1 + \beta_2 \cdot Cov(X,Z)/Var(X)$Formel der Verzerrung durch ausgelassene Variablen
Gl. 10.5$\hat{\beta}_{IV} = Cov(Z,Y)/Cov(Z,X)$IV-Schätzer (einfach)
Gl. 10.6$\hat{\tau}_{DiD}$ = (treat change) − (control change)DiD-Schätzer
Gl. 10.7$Y_{it} = \alpha + \beta_1 Treat + \beta_2 Post + \tau(Treat \times Post) + \varepsilon$DiD-Regression
Gl. 10.8$\hat{\tau}_{RD} = \lim_{x \downarrow c} E[Y|X=x] - \lim_{x \uparrow c} E[Y|X=x]$RD-Schätzer
Gl. 10.9$\hat{\tau}_{RCT} = \bar{Y}_{treat} - \bar{Y}_{control}$RCT-Schätzer
Gl. 10.10$Var(\hat{\beta}) = \sigma^2(X'X)^{-1}$OLS-Varianz

Übungen

Übung

  1. Angenommen, Sie regressieren Löhne auf Bildungsjahre mit OLS und schätzen einen Koeffizienten von 0,10 (jedes Bildungsjahr ist mit 10 % höheren Löhnen verbunden). Nennen Sie zwei ausgelassene Variablen, die diese Schätzung verzerren könnten, und sagen Sie die Richtung der Verzerrung für jede voraus.
  2. Eine IV-Studie verwendet die „Entfernung zum nächsten College“ als Instrument für die Schuljahre. (a) Argumentieren Sie für die Relevanz. (b) Was ist die Ausschlussrestriktion, und was könnte sie verletzen?
  3. Zwei Städte werden vor und nach der Einführung einer Limonadensteuer in Stadt A verglichen. Vor der Steuer betrug der Limonadenkonsum in Stadt A 100 Dosen/Person und in Stadt B 90. Nach der Steuer beträgt der Konsum 80 in A und 85 in B. Berechnen Sie die DiD-Schätzung. Was ist hier die Annahme paralleler Trends?
  4. Ein Stipendienprogramm nimmt Studierende mit einem Notendurchschnitt ≥ 3,5 auf. Sie haben Daten über Studierende mit Notendurchschnitten von 3,0 bis 4,0. (a) Beschreiben Sie das RD-Design. (b) Was ist die Laufvariable? (c) Welche Annahme muss bezüglich des Verhaltens der Studierenden nahe dem Schwellenwert gelten?

Anwendung

  1. Eine Regierung randomisiert den Zugang zu einem Berufsausbildungsprogramm. 60 % derjenigen, denen das Programm angeboten wird, nehmen tatsächlich teil. Die Intention-to-Treat-Schätzung beträgt eine Einkommenserhöhung von 500 $. Wie hoch ist die Treatment-on-Treated-Schätzung? Welche Annahme benötigen Sie, und wie hängt dies mit IV zusammen?
  2. Ein Ökonom behauptet, dass Demokratie Wirtschaftswachstum verursacht, und zitiert Länderquerschnitts-Korrelationen. Kritisieren Sie diese Behauptung anhand des Rahmens dieses Kapitels. Welche spezifische Identifikationsstrategie würden Sie vorschlagen?
  3. Eine DiD-Studie schätzt den Effekt einer Umweltregulierung. Vorbehandlungstrends zeigen, dass die Verschmutzung der Behandlungsgruppe bereits schneller sank als die der Kontrollgruppe. Wie verletzt dies parallele Trends? In welche Richtung ist die DiD-Schätzung verzerrt?

Herausforderung

  1. Leiten Sie den OLS-Schätzer $\hat{\beta} = (X'X)^{-1}X'Y$ her, indem Sie $S(\beta) = (Y - X\beta)'(Y - X\beta)$ minimieren. Zeigen Sie, dass die Bedingung erster Ordnung die Normalgleichungen $X'X\hat{\beta} = X'Y$ ergibt.
  2. Zeigen Sie algebraisch, dass wenn das Instrument $Z$ binär ist, der IV-Schätzer sich zum Wald-Schätzer vereinfacht: $\hat{\beta}_{IV} = (\bar{Y}_1 - \bar{Y}_0)/(\bar{X}_1 - \bar{X}_0)$.
  3. Diskutieren Sie die „Glaubwürdigkeitsrevolution“ in der Ökonomie (Angrist und Pischke, 2010). Was hat sich zwischen der Strukturökonometrie und der designbasierten empirischen Arbeit verändert? Was sind die Stärken und Grenzen jedes Ansatzes?