Es una técnica estadística ampliamente utilizada en estudios observacionales para estimar efectos causales. Su idea principal es "emparejar" unidades tratadas con unidades de control que presenten características similares antes del tratamiento, resumidas a través de una medida llamada propensity score. El objetivo es emular de la forma más cercana posible las condiciones de un experimento aleatorizado, reduciendo así el sesgo de selección e incrementando la validez causal de las estimaciones.
Ecuaciones del Proceso Generador de Datos
Las variables de control \(X_1\) y \(X_2\) se generan como variables aleatorias normales:
\[ X_1 \sim N(0, 1) \] \[ X_2 \sim N(0, 1) \]La probabilidad de recibir el tratamiento está dada por:
\[ P(D=1 \mid X_1, X_2) = \frac{1}{1 + e^{-(\gamma + \alpha X_1 + \beta X_2)}} \]El tratamiento \(D\) se asigna de manera aleatoria basado en esta probabilidad.
La variable de resultado \(Y\) se genera como:
\[ Y = \delta + \theta X_1 + \eta X_2 + \beta_{\text{efecto}} D + \varepsilon \]Donde \(\delta = 1.0\) es el intercepto y \(\varepsilon \sim N(0, 1)\) es un término de error aleatorio.