Series Temporales
Principales Conceptos Teóricos

Giuliodori, David y Rodriguez, Alejandro

Introducción

Procesos Estacionarios

Estacionariedad Estricta

Un proceso estocástico \(Y_t\) se dice que es estrictamente estacionario si sus propiedades estadísticas son invariantes bajo traslaciones en el tiempo.

Esto significa que la distribución conjunta de una colección de variables aleatorias \(Y_{t_1}, Y_{t_2},\cdots Y_{t_k}\) es la misma que la distribución conjunta de \(Y_{t_{1+\tau}}, Y_{t_{2+\tau}},\cdots Y_{t_{k+\tau}}\) para cualquier desplazamiento \(+\tau\) y cualquier k.

Es decir: \[(Y_{t_1}, Y_{t_2}, \ldots, Y_{t_k}) \overset{d}{=} (Y_{t_1+\tau}, Y_{t_2+\tau}, \ldots, Y_{t_k+\tau})\] para todo \(k\), \(\tau\) y \(t_1, t_2, \ldots, t_k\).

La distribución conjunta es invariante bajo traslaciones en el tiempo.

Estacionariedad Débil

Para demostrar que un proceso es estacionario en covarianza, debemos verificar que su media, varianza y autocovarianza no dependen del tiempo.

Procesos No Estacionarios

Un proceso estocástico \(Y_{t}\) es no estacionario si sus momentos de orden 1 y 2 (esperanza y varianza), y la autocovarianza, no son constantes a lo largo del tiempo. Más específicamente, un proceso no estacionario se caracterizarse por las siguientes condiciones:

¿Por qué es relevante conocer si un proceso estocástico es estacionario o no?

Clasificación por Orden de Integración

Clasifica las series según cuántas veces deben ser diferenciadas para volverse estacionarias.

La Raíz Unitaria

La causa del comportamiento I(1) es una raíz unitaria.

El Teorema de Descomposición de Wold

El Teorema de Wold es un resultado fundamental en el análisis de series de tiempo. Afirma que cualquier proceso estocástico \(\{Y_t\}\) estacionario en covarianza y puramente no determinístico puede ser representado como una suma lineal de errores no correlacionados (ruido blanco) de la siguiente forma: \[\label{wold} Y_t = \sum_{j=0}^{\infty} \psi_j \epsilon_{t-j} + d_t\] donde:

La condición de que los coeficientes sean cuadráticamente sumables (\(\sum \psi_j^2 < \infty\)) es crucial, ya que garantiza que el proceso \(Y_t\) tiene una varianza finita, un requisito para la estacionariedad.

El Teorema de Wold garantiza que cualquier proceso estacionario se puede escribir como un MA(\(\infty\)). Un MA(1) ya cumple esta condición trivialmente. La invertibilidad es el concepto dual: la condición bajo la cual un proceso MA(q) se puede escribir como un AR(\(\infty\)). Las técnicas matemáticas son similares, pero los conceptos de estacionariedad e invertibilidad son distintos.

Conceptos Importantes

Proceso i.i.d.

Una secuencia \(\{X_t\}\) es Independiente e Idénticamente Distribuida si:

Representa la ausencia total de dinámica temporal.

Ruido Blanco (White Noise)

Un proceso \(\{\varepsilon_t\}\) es ruido blanco si:

Importante: i.i.d. \(\implies\) Ruido Blanco, pero el inverso no es cierto en general.

Ecuaciones en Diferencia y Operador Lag

Las ecuaciones en diferencia describen la evolución de una variable en el tiempo.

Un proceso autorregresivo de orden \(p\) se escribe como: \[Y_t = \phi_1 Y_{t-1} + \dots + \phi_p Y_{t-p} + \varepsilon_t\] Usando el operador de rezagos \(L\): \[(1 - \phi_1 L - \dots - \phi_p L^p) Y_t = \varepsilon_t \quad \implies \quad \phi(L)Y_t = \varepsilon_t\]

Condición de Estabilidad: Un proceso AR es estable si todas las raíces del polinomio característico \(\phi(z) = 0\) se encuentran fuera del círculo unitario en el plano complejo (\(|z_i| > 1\)).

Para un AR(1), \(Y_t = \phi Y_{t-1} + \varepsilon_t\), la condición es simplemente \(|\phi| < 1\).

Proceso AR

Introducción: El Modelo AR(1)

Un proceso autorregresivo de orden 1, o AR(1), se define por la siguiente ecuación: \[\label{ar1_completo} Y_t = c + \phi Y_{t-1} + \epsilon_t\] Para realizar el cálculo analítico, se establecen las siguientes condiciones:

  1. Estacionariedad: El proceso es estacionario en covarianza, lo que implica que el parámetro autorregresivo está dentro del círculo unitario: \(|\phi| < 1\).

  2. Error de Ruido Blanco: El término de error \(\epsilon_t\) es un proceso de ruido blanco con media cero y varianza constante, es decir, \(\epsilon_t \sim WN(0, \sigma_\epsilon^2)\).

  3. Media Cero: Para simplificar la derivación (sin pérdida de generalidad para la estructura de covarianza), asumimos que el proceso tiene media cero, \(E[Y_t] = 0\). Esto implica que la constante \(c=0\).

Bajo estas condiciones, el modelo se simplifica a: \[\label{ar1} Y_t = \phi Y_{t-1} + \epsilon_t\]

Expresión del Proceso AR(1) como un MA(\(\infty\))

Nuestro objetivo es reescribir el modelo AR(1) en la forma de la descomposición de Wold y encontrar la condición bajo la cual los coeficientes \(\psi_j\) cumplen el requisito de ser cuadráticamente sumables.

Partimos del modelo AR(1) con media cero: \[Y_t = \phi Y_{t-1} + \epsilon_t\] Podemos expresar \(Y_t\) en términos de sus valores y errores pasados mediante sustitución recursiva hacia atrás:

Después de \(k\) sustituciones, observamos un patrón claro: \[Y_t = \phi^{k+1} Y_{t-(k+1)} + \sum_{j=0}^{k} \phi^j \epsilon_{t-j}\] Si este proceso se extiende infinitamente hacia el pasado (asumiendo que comenzó en \(t \to -\infty\)), tomamos el límite cuando \(k \to \infty\): \[Y_t = \lim_{k \to \infty} \phi^{k+1} Y_{t-(k+1)} + \sum_{j=0}^{\infty} \phi^j \epsilon_{t-j}\]

Condición de Convergencia y Estacionariedad

Para que la expresión anterior sea válida y represente un proceso estacionario, dos cosas deben ocurrir:

  1. El primer término debe desaparecer (converger a cero).

  2. El segundo término debe converger a un valor finito, lo que implica que sus coeficientes deben ser cuadráticamente sumables, como exige el Teorema de Wold.

Análisis del Primer Término

El término \(\lim_{k \to \infty} \phi^{k+1} Y_{t-(k+1)}\) representa la dependencia de \(Y_t\) de su valor en el pasado infinitamente lejano. Para que el proceso sea estacionario (es decir, que no explote y tenga una memoria finita), esta dependencia debe desvanecerse. Esto ocurre si y solo si: \[|\phi| < 1\] Bajo esta condición, \(\lim_{k \to \infty} \phi^{k+1} = 0\), y el primer término se anula.

Análisis de los Coeficientes (Segundo Término)

Si \(|\phi| < 1\), el proceso AR(1) tiene la representación de Media Móvil Infinita MA(\(\infty\)): \[Y_t = \sum_{j=0}^{\infty} \phi^j \epsilon_{t-j}\] Comparando esta expresión con la forma del Teorema de Wold (Ec. [wold]), podemos identificar los coeficientes \(\psi_j\): \[\psi_j = \phi^j \quad \text{para } j = 0, 1, 2, \dots\] Ahora, verificamos la condición de que los coeficientes sean cuadráticamente sumables: \[\sum_{j=0}^{\infty} \psi_j^2 = \sum_{j=0}^{\infty} (\phi^j)^2 = \sum_{j=0}^{\infty} (\phi^2)^j\] Esta es una serie geométrica con primer término \(a=1\) y razón \(r = \phi^2\). Una serie geométrica converge si y solo si el valor absoluto de su razón es menor que 1. Por lo tanto, necesitamos: \[|r| = |\phi^2| < 1\] Como \(\phi^2\) es siempre no negativo, esta condición es equivalente a \(\phi^2 < 1\), lo que implica: \[\sqrt{\phi^2} < \sqrt{1} \implies |\phi| < 1\] Si esta condición se cumple, la suma converge a un valor finito: \[\sum_{j=0}^{\infty} (\phi^2)^j = \frac{1}{1 - \phi^2} < \infty\] Como la suma de los coeficientes al cuadrado es finita, se cumple la condición del Teorema de Wold.

Cálculo de la Esperanza (Momento de orden 1)

La esperanza o media de un proceso estacionario es constante. La denotamos como \(\mu\). \[E[Y_t] = E[Y_{t-1}] = \dots = \mu\] Procedemos a calcular su valor tomando la esperanza en ambos lados de la Ec. ([ar1_completo]): \[\begin{aligned} E[Y_t] &= E[c + \phi Y_{t-1} + \epsilon_t] \end{aligned}\] Por la propiedad de linealidad de la esperanza, podemos separar los términos: \[\begin{aligned} E[Y_t] &= E[c] + E[\phi Y_{t-1}] + E[\epsilon_t] \end{aligned}\] Ahora, evaluamos cada término individualmente: \[\begin{aligned} \mu &= c + \phi E[Y_{t-1}] + E[\epsilon_t] \\ \mu &= c + \phi \mu + 0 \end{aligned}\] Finalmente, despejamos \(\mu\) para obtener la media del proceso: \[\begin{aligned} \mu - \phi \mu &= c \\ \mu(1 - \phi) &= c \end{aligned}\] El resultado final para la esperanza del proceso AR(1) es: \[\boxed{\mu = \frac{c}{1 - \phi}}\] Esta expresión es válida porque la condición de estacionariedad \(|\phi|<1\) asegura que el denominador \((1-\phi)\) no es cero.

Cálculo de la Varianza (Momento de orden 2)

La varianza de un proceso estacionario también es constante. La denotamos como \(\gamma_0\). \[\text{Var}(Y_t) = \text{Var}(Y_{t-1}) = \dots = \gamma_0\] Aplicamos el operador de varianza a ambos lados de la Ec. ([ar1_completo]): \[\begin{aligned} \text{Var}(Y_t) &= \text{Var}(c + \phi Y_{t-1} + \epsilon_t) \\ \end{aligned}\] Utilizamos las propiedades de la varianza. Primero, una constante aditiva como \(c\) no afecta a la varianza. Segundo, la varianza de una suma de variables no correlacionadas es la suma de sus varianzas. El término \(\epsilon_t\) no está correlacionado con \(Y_{t-1}\) (ya que \(Y_{t-1}\) depende de errores pasados, no del error actual), por lo tanto, \(\text{Cov}(\phi Y_{t-1}, \epsilon_t) = 0\). \[\begin{aligned} \text{Var}(Y_t) &= \text{Var}(\phi Y_{t-1} + \epsilon_t) \\ &= \text{Var}(\phi Y_{t-1}) + \text{Var}(\epsilon_t) \end{aligned}\] Ahora, evaluamos cada término: \[\begin{aligned} \gamma_0 &= \phi^2 \text{Var}(Y_{t-1}) + \sigma_\epsilon^2 \\ \gamma_0 &= \phi^2 \gamma_0 + \sigma_\epsilon^2 \end{aligned}\] Despejamos \(\gamma_0\) para obtener la varianza del proceso: \[\begin{aligned} \gamma_0 - \phi^2 \gamma_0 &= \sigma_\epsilon^2 \\ \gamma_0(1 - \phi^2) &= \sigma_\epsilon^2 \end{aligned}\] El resultado final para la varianza del proceso AR(1) es: \[\boxed{\gamma_0 = \frac{\sigma_\epsilon^2}{1 - \phi^2}}\] Para que la varianza sea finita y positiva, el denominador debe ser positivo (\(1-\phi^2 > 0\)), lo que de nuevo requiere que \(\phi^2 < 1\), es decir, la condición de estacionariedad \(|\phi|<1\).

Función de Autocorrelación (FAC)

La ACF en el rezago \(k\) se define como \(\rho_k = \frac{\gamma_k}{\gamma_0}\), donde \(\gamma_k\) es la autocovarianza en el rezago \(k\) y \(\gamma_0\) es la varianza del proceso.

Cálculo de la Varianza (\(\gamma_0\))

La varianza de \(Y_t\) se define como \(\gamma_0 = \text{Var}(Y_t)\). Dado que la media es cero, esto es igual a \(E[Y_t^2]\). \[\begin{aligned} \gamma_0 &= E[Y_t^2] \\ &= E[(\phi Y_{t-1} + \epsilon_t)^2] \quad \\ &= E[\phi^2 Y_{t-1}^2 + 2\phi Y_{t-1}\epsilon_t + \epsilon_t^2] \\ &= \phi^2 E[Y_{t-1}^2] + 2\phi E[Y_{t-1}\epsilon_t] + E[\epsilon_t^2] \quad \text{(Por linealidad de la esperanza)} \end{aligned}\] Ahora, analizamos cada término:

Sustituyendo estos resultados en la ecuación: \[\begin{aligned} \gamma_0 &= \phi^2 \gamma_0 + 0 + \sigma_\epsilon^2 \\ \gamma_0 - \phi^2 \gamma_0 &= \sigma_\epsilon^2 \\ \gamma_0(1 - \phi^2) &= \sigma_\epsilon^2 \end{aligned}\] Despejando \(\gamma_0\), obtenemos la varianza del proceso AR(1): \[\gamma_0 = \frac{\sigma_\epsilon^2}{1 - \phi^2}\]

Cálculo de la Autocovarianza (\(\gamma_k\))

La autocovarianza para un rezago \(k > 0\) es \(\gamma_k = \text{Cov}(Y_t, Y_{t-k})\). Con media cero, es \(E[Y_t Y_{t-k}]\). \[\begin{aligned} \gamma_k &= E[Y_t Y_{t-k}] \\ &= E[(\phi Y_{t-1} + \epsilon_t) Y_{t-k}] \\ &= \phi E[Y_{t-1}Y_{t-k}] + E[\epsilon_t Y_{t-k}] \quad \text{(Por linealidad de la esperanza)} \end{aligned}\] El término \(E[\epsilon_t Y_{t-k}]\) es cero para \(k>0\), ya que \(Y_{t-k}\) (que depende de errores hasta el tiempo \(t-k\)) no está correlacionado con el error futuro \(\epsilon_t\). Por lo tanto: \[\gamma_k = \phi E[Y_{t-1}Y_{t-k}]\] Por estacionariedad, la covarianza entre dos puntos solo depende de la distancia entre ellos, así que \(E[Y_{t-1}Y_{t-k}] = \text{Cov}(Y_{t-1}, Y_{t-k}) = \gamma_{k-1}\). Esto nos da la famosa ecuación de Yule-Walker para un AR(1): \[\gamma_k = \phi \gamma_{k-1}\] Esta es una relación recursiva. Podemos resolverla por sustitución sucesiva: \[\begin{aligned} \text{Para } k=1: \quad & \gamma_1 = \phi \gamma_0 \\ \text{Para } k=2: \quad & \gamma_2 = \phi \gamma_1 = \phi(\phi \gamma_0) = \phi^2 \gamma_0 \\ \text{Para } k=3: \quad & \gamma_3 = \phi \gamma_2 = \phi(\phi^2 \gamma_0) = \phi^3 \gamma_0 \\ & \vdots \\ \text{En general:} \quad & \gamma_k = \phi^k \gamma_0 \end{aligned}\]

Derivación Final de la FAC (\(\rho_k\))

Con las fórmulas para \(\gamma_0\) y \(\gamma_k\), podemos encontrar la función de autocorrelación: \[\rho_k = \frac{\gamma_k}{\gamma_0} = \frac{\phi^k \gamma_0}{\gamma_0}\] Lo que nos lleva al resultado final: \[\boxed{\rho_k = \phi^k}\] Esto demuestra que la ACF de un proceso AR(1) decae exponencialmente a una tasa \(\phi\).

Función de Autocorrelación Parcial (FACP)

La FACP en el rezago \(k\), denotada \(\phi_{kk}\), mide la correlación entre \(Y_t\) y \(Y_{t-k}\) después de remover el efecto lineal de los rezagos intermedios (\(Y_{t-1}, Y_{t-2}, \dots, Y_{t-k+1}\)).

FACP en el Rezago 1 (\(\phi_{11}\))

Para el rezago \(k=1\), no existen rezagos intermedios. Por lo tanto, la autocorrelación parcial es simplemente la autocorrelación simple: \[\phi_{11} = \text{Corr}(Y_t, Y_{t-1}) = \rho_1\] Usando nuestro resultado de la FAC, sabemos que \(\rho_1 = \phi^1 = \phi\). Entonces: \[\boxed{\phi_{11} = \phi}\]

FACP en Rezago k > 1 (\(\phi_{kk}\))

El modelo AR(1) es \(Y_t = \phi Y_{t-1} + \epsilon_t\). Esta ecuación nos dice que, una vez que el valor de \(Y_{t-1}\) es conocido, toda la información relevante del pasado para predecir \(Y_t\) ya ha sido utilizada. El término \(\epsilon_t\) es independiente de todo el pasado.

Esto significa que los valores más antiguos como \(Y_{t-2}, Y_{t-3}, \dots\) no aportan ninguna información lineal adicional para predecir \(Y_t\) una vez que ya hemos tenido en cuenta a \(Y_{t-1}\).

Por definición, la FACP mide esta correlación adicional. Como no existe, la autocorrelación parcial debe ser cero para todos los rezagos mayores que 1. \[\boxed{\phi_{kk} = 0 \quad \text{para todo } k > 1}\] Este resultado muestra que la PACF de un proceso AR(1) se corta abruptamente después del primer rezago.

Estimación por Máxima Verosimilitud

La función de densidad de probabilidad (PDF) para una sola observación \(Y_t\), condicionada a \(Y_{t-1}\), es la de una distribución normal: \[f(Y_t | Y_{t-1}; \theta) = \frac{1}{\sqrt{2\pi\sigma_\epsilon^2}} \exp\left(-\frac{(Y_t - c - \phi Y_{t-1})^2}{2\sigma_\epsilon^2}\right)\] Para construir la verosimilitud de la muestra completa, utilizamos la verosimilitud condicional, que trata la primera observación \(Y_1\) como fija. La función de verosimilitud \(L(\theta)\) es entonces el producto de las densidades condicionales para \(t = 2, \dots, T\): \[L(\theta | Y) = \prod_{t=2}^{T} f(Y_t | Y_{t-1}; \theta) = \prod_{t=2}^{T} \frac{1}{\sqrt{2\pi\sigma_\epsilon^2}} \exp\left(-\frac{(Y_t - c - \phi Y_{t-1})^2}{2\sigma_\epsilon^2}\right)\]

La Función de Log-Verosimilitud

Maximizar \(L(\theta)\) es equivalente a maximizar su logaritmo natural, \(\ln L(\theta)\), lo cual es matemáticamente más sencillo porque convierte productos en sumas. \[\begin{aligned} \ln L(\theta) &= \ln \left[ \prod_{t=2}^{T} (2\pi\sigma_\epsilon^2)^{-1/2} \exp\left(-\frac{\epsilon_t^2}{2\sigma_\epsilon^2}\right) \right] \\ &= \sum_{t=2}^{T} \ln \left[ (2\pi\sigma_\epsilon^2)^{-1/2} \exp\left(-\frac{\epsilon_t^2}{2\sigma_\epsilon^2}\right) \right] \\ &= \sum_{t=2}^{T} \left[ \ln((2\pi\sigma_\epsilon^2)^{-1/2}) + \ln\left(\exp\left(-\frac{\epsilon_t^2}{2\sigma_\epsilon^2}\right)\right) \right] \\ &= \sum_{t=2}^{T} \left[ -\frac{1}{2}\ln(2\pi\sigma_\epsilon^2) - \frac{\epsilon_t^2}{2\sigma_\epsilon^2} \right] \end{aligned}\] Sustituyendo \(\epsilon_t = Y_t - c - \phi Y_{t-1}\) y separando la suma, obtenemos la función de log-verosimilitud final a maximizar: \[\ln L(c, \phi, \sigma_\epsilon^2) = -\frac{T-1}{2}\ln(2\pi) - \frac{T-1}{2}\ln(\sigma_\epsilon^2) - \frac{1}{2\sigma_\epsilon^2} \sum_{t=2}^{T} (Y_t - c - \phi Y_{t-1})^2\]

Maximización y Condiciones de Primer Orden

Para encontrar los estimadores de máxima verosimilitud (MLE), tomamos las derivadas parciales de \(\ln L\) con respecto a cada parámetro, las igualamos a cero y resolvemos.

Derivada con respecto a \(c\)

\[\begin{aligned} \frac{\partial \ln L}{\partial c} &= -\frac{1}{2\sigma_\epsilon^2} \sum_{t=2}^{T} 2(Y_t - c - \phi Y_{t-1})(-1) = 0 \\ &\implies \sum_{t=2}^{T} (Y_t - \hat{c} - \hat{\phi} Y_{t-1}) = 0 \end{aligned}\]

Derivada con respecto a \(\phi\)

\[\begin{aligned} \frac{\partial \ln L}{\partial \phi} &= -\frac{1}{2\sigma_\epsilon^2} \sum_{t=2}^{T} 2(Y_t - c - \phi Y_{t-1})(-Y_{t-1}) = 0 \\ &\implies \sum_{t=2}^{T} (Y_t - \hat{c} - \hat{\phi} Y_{t-1})Y_{t-1} = 0 \end{aligned}\]

Derivada con respecto a \(\sigma_\epsilon^2\)

\[\begin{aligned} \frac{\partial \ln L}{\partial \sigma_\epsilon^2} &= -\frac{T-1}{2\sigma_\epsilon^2} + \frac{1}{2(\sigma_\epsilon^2)^2} \sum_{t=2}^{T} (Y_t - c - \phi Y_{t-1})^2 = 0 \\ &\implies \frac{1}{2(\hat{\sigma}_\epsilon^2)^2} \sum_{t=2}^{T} \hat{\epsilon}_t^2 = \frac{T-1}{2\hat{\sigma}_\epsilon^2} \\ &\implies \hat{\sigma}_\epsilon^2 = \frac{1}{T-1} \sum_{t=2}^{T} \hat{\epsilon}_t^2 \end{aligned}\]

Solución y Conexión con MCO (OLS)

Las dos primeras condiciones de primer orden: \[\begin{aligned} \sum (Y_t - \hat{c} - \hat{\phi} Y_{t-1}) &= 0 \\ \sum (Y_t - \hat{c} - \hat{\phi} Y_{t-1})Y_{t-1} &= 0 \end{aligned}\] son idénticas a las ecuaciones normales que se obtienen al minimizar la suma de errores al cuadrado en una regresión por Mínimos Cuadrados Ordinarios (MCO/OLS) de \(Y_t\) sobre una constante y \(Y_{t-1}\).

Por lo tanto, los estimadores de máxima verosimilitud para \(c\) y \(\phi\) son los mismos que los estimadores de MCO.

\[\boxed{\hat{c}_{MLE} = \hat{c}_{OLS} \quad \text{y} \quad \hat{\phi}_{MLE} = \hat{\phi}_{OLS}}\] El estimador para la varianza del error es: \[\boxed{\hat{\sigma}_{\epsilon, MLE}^2 = \frac{1}{T-1} \sum_{t=2}^{T} (Y_t - \hat{c} - \hat{\phi} Y_{t-1})^2}\] Esto demuestra que, bajo el supuesto de errores normales, el método de máxima verosimilitud y el de mínimos cuadrados ordinarios producen los mismos estimadores para los coeficientes de un modelo AR(1).

Modelo AR(2)

Partimos del modelo autorregresivo de orden 2, AR(2): \[\label{ar2} Y_t = c + \phi_1 Y_{t-1} + \phi_2 Y_{t-2} + \varepsilon_t\] donde \(\varepsilon_t\) es un proceso de ruido blanco. Para trabajar analíticamente, introducimos el operador de rezago \(L\), tal que \(L^k Y_t = Y_{t-k}\).

Reordenamos la Ec. ([ar2]) para agrupar los términos de \(Y_t\) en el lado izquierdo: \[Y_t - \phi_1 Y_{t-1} - \phi_2 Y_{t-2} = c + \varepsilon_t\] Factorizando \(Y_t\) con el operador de rezago: \[(1 - \phi_1 L - \phi_2 L^2) Y_t = c + \varepsilon_t\] Definimos el polinomio característico autorregresivo como \(\Phi(L) = 1 - \phi_1 L - \phi_2 L^2\). Con esto, el modelo se escribe de forma compacta: \[\Phi(L) Y_t = c + \varepsilon_t\]

Representación de Media Móvil Infinita (MA(\(\infty\)))

La condición de estacionariedad para un proceso AR(p) es que todas las raíces de su polinomio característico \(\Phi(z)=0\) se encuentren fuera del círculo unitario. Si esta condición se cumple, el polinomio \(\Phi(L)\) es invertible, y podemos despejar \(Y_t\): \[\label{represen} Y_t = [\Phi(L)]^{-1} (c + \varepsilon_t) = [\Phi(L)]^{-1} c + [\Phi(L)]^{-1} \varepsilon_t\] El polinomio inverso \([\Phi(L)]^{-1}\) se puede expresar como un polinomio de orden infinito, que llamamos \(\Psi(L)\): \[\Psi(L) = [\Phi(L)]^{-1} = \sum_{j=0}^{\infty} \psi_j L^j, \quad \text{con } \psi_0 = 1\] Sustituyendo esto en la Ec. ([represen]), obtenemos la representación MA(\(\infty\)) del proceso: \[\label{represen2} Y_t = \Psi(L)c + \Psi(L)\varepsilon_t = \left(\sum_{j=0}^{\infty} \psi_j L^j\right)c + \left(\sum_{j=0}^{\infty} \psi_j L^j\right)\varepsilon_t\]

Derivación del Término Determinístico (\(d_t\))

El primer término de la Ec. ([represen2]) es la parte determinística o media del proceso. Como \(c\) es una constante, \(L^j c = c\) para todo \(j\). \[\begin{aligned} d_t = \Psi(L)c &= c \sum_{j=0}^{\infty} \psi_j \end{aligned}\] La suma de los coeficientes \(\psi_j\) es simplemente el polinomio \(\Psi(L)\) evaluado en \(L=1\). A su vez, \(\Psi(1) = [\Phi(1)]^{-1}\): \[\begin{aligned} d_t &= c \cdot \Psi(1) = c \cdot [\Phi(1)]^{-1} \\ &= c \cdot \frac{1}{1 - \phi_1(1) - \phi_2(1)^2} = \frac{c}{1 - \phi_1 - \phi_2} \end{aligned}\] Este término es la media incondicional del proceso AR(2), \(E[Y_t]\).

Derivación Recursiva de los Coeficientes \(\psi_j\)

La relación fundamental que nos permite encontrar los coeficientes \(\psi_j\) es la que se muestra en la diapositiva: \[\Phi(L) \Psi(L) = 1\] Expandimos esta identidad con los polinomios del AR(2): \[(1 - \phi_1 L - \phi_2 L^2) (\psi_0 + \psi_1 L + \psi_2 L^2 + \psi_3 L^3 + \dots) = 1\] Ahora, multiplicamos los polinomios y agrupamos los términos según las potencias del operador \(L\): \[\begin{aligned} 1 = & \quad \psi_0 \\ & + (\psi_1 - \phi_1 \psi_0)L \\ & + (\psi_2 - \phi_1 \psi_1 - \phi_2 \psi_0)L^2 \\ & + (\psi_3 - \phi_1 \psi_2 - \phi_2 \psi_1)L^3 \\ & + \dots \\ & + (\psi_i - \phi_1 \psi_{i-1} - \phi_2 \psi_{i-2})L^i + \dots \end{aligned}\] Para que esta igualdad sea cierta para cualquier serie, los coeficientes de cada potencia de \(L\) en el lado derecho deben ser iguales a los del lado izquierdo. En el lado izquierdo tenemos \(1 = 1 \cdot L^0 + 0 \cdot L^1 + 0 \cdot L^2 + \dots\). Por lo tanto, igualamos los coeficientes:

Estos resultados finales coinciden exactamente con los presentados en la diapositiva, mostrando el procedimiento de "igualación de coeficientes" para derivar las fórmulas recursivas de los pesos \(\psi_j\) de la representación MA(\(\infty\)) de un proceso AR(2).

Proceso MA

Un proceso de Media Móvil de orden 1, o MA(1), es siempre estacionario por construcción, pero es invertible solo si la condición \(|\theta|<1\) se cumple. A continuación se presentan ambas demostraciones.

El Modelo MA(1) y Supuestos Fundamentales

Un proceso de media móvil de orden 1, o MA(1), se define por la siguiente ecuación: \[\label{ma1} Y_t = \mu + \epsilon_t + \theta \epsilon_{t-1}\] donde los supuestos clave son:

A diferencia de los procesos AR, un proceso MA es estacionario para cualquier valor de \(\theta\).

Cálculo de la Esperanza

La esperanza de \(Y_t\) se calcula aplicando el operador de esperanza a la Ec. ([ma1]): \[\begin{aligned} E[Y_t] &= E[\mu + \epsilon_t + \theta \epsilon_{t-1}] \end{aligned}\] Por la linealidad de la esperanza: \[\begin{aligned} E[Y_t] &= E[\mu] + E[\epsilon_t] + E[\theta \epsilon_{t-1}] \\ &= \mu + 0 + \theta E[\epsilon_{t-1}] \\ &= \mu + \theta \cdot 0 \end{aligned}\] El resultado para la esperanza es simplemente la constante \(\mu\): \[\boxed{E[Y_t] = \mu}\]

Cálculo de la Varianza y Autocovarianza

Varianza (\(\gamma_0\))

La varianza de \(Y_t\), denotada como \(\gamma_0\), es: \[\begin{aligned} \gamma_0 = \text{Var}(Y_t) &= \text{Var}(\mu + \epsilon_t + \theta \epsilon_{t-1}) \end{aligned}\] La constante \(\mu\) no afecta la varianza. Como \(\epsilon_t\) y \(\epsilon_{t-1}\) no están correlacionados, la varianza de la suma es la suma de las varianzas: \[\begin{aligned} &= \text{Var}(\epsilon_t) + \text{Var}(\theta \epsilon_{t-1}) \\ &= \text{Var}(\epsilon_t) + \theta^2 \text{Var}(\epsilon_{t-1}) \\ &= \sigma_\epsilon^2 + \theta^2 \sigma_\epsilon^2 \end{aligned}\] La varianza del proceso MA(1) es: \[\boxed{\gamma_0 = (1 + \theta^2)\sigma_\epsilon^2}\]

Autocovarianza en Rezago 1 (\(\gamma_1\))

Calculamos la covarianza entre \(Y_t\) y \(Y_{t-1}\). Asumimos \(\mu=0\) para simplificar la notación. \[\begin{aligned} \gamma_1 &= \text{Cov}(Y_t, Y_{t-1}) = E[(Y_t)(Y_{t-1})] \\ &= E[(\epsilon_t + \theta \epsilon_{t-1})(\epsilon_{t-1} + \theta \epsilon_{t-2})] \\ &= E[\epsilon_t\epsilon_{t-1} + \theta\epsilon_t\epsilon_{t-2} + \theta\epsilon_{t-1}^2 + \theta^2\epsilon_{t-1}\epsilon_{t-2}] \end{aligned}\] Por linealidad de la esperanza y sabiendo que \(E[\epsilon_t\epsilon_s]=0\) para \(t \neq s\): \[\begin{aligned} &= E[\epsilon_t\epsilon_{t-1}] + \theta E[\epsilon_t\epsilon_{t-2}] + \theta E[\epsilon_{t-1}^2] + \theta^2 E[\epsilon_{t-1}\epsilon_{t-2}] \\ &= 0 + \theta \cdot 0 + \theta \cdot \sigma_\epsilon^2 + \theta^2 \cdot 0 \end{aligned}\] El único término no nulo es el que contiene \(\epsilon_{t-1}\) en ambas expresiones: \[\boxed{\gamma_1 = \theta \sigma_\epsilon^2}\]

Autocovarianza en Rezago \(k \geq 2\) (\(\gamma_k\))

Para cualquier rezago \(k \geq 2\): \[\begin{aligned} \gamma_k &= \text{Cov}(Y_t, Y_{t-k}) \\ &= E[(\epsilon_t + \theta \epsilon_{t-1})(\epsilon_{t-k} + \theta \epsilon_{t-k-1})] \end{aligned}\] Al expandir este producto, todos los términos son de la forma \(E[\epsilon_i \epsilon_j]\) donde \(i \neq j\), ya que los índices de los errores en la primera expresión (\(t, t-1\)) no se solapan con los de la segunda (\(t-k, t-k-1\)). Por lo tanto: \[\boxed{\gamma_k = 0 \quad \text{para todo } k \geq 2}\]

Función de Autocorrelación (FAC)

La ACF, \(\rho_k = \frac{\gamma_k}{\gamma_0}\), se calcula directamente de los resultados anteriores.

La ACF de un proceso MA(1) tiene un único valor significativo en el rezago 1 y se corta abruptamente a cero para todos los rezagos posteriores.

Función de Autocorrelación Parcial (FACP)

La FACP de un proceso MA(q) no se corta, sino que decae. Esto se debe a la dualidad entre los procesos AR y MA: un proceso MA(q) invertible puede ser representado como un proceso AR(\(\infty\)).

Para un proceso MA(1), la FACP se comporta de manera análoga a la ACF de un proceso AR(1). Es decir, la FACP decae exponencialmente hacia cero.

La fórmula explícita para el coeficiente de la FACP en el rezago \(k\) es: \[\phi_{kk} = \frac{-\theta^k (1 - \theta^2)}{1 - \theta^{2(k+1)}}\] La característica principal es el decaimiento. Si \(\theta\) es positivo, la FACP alternará en signo mientras decae. Si \(\theta\) es negativo, la FACP decaerá de forma directa hacia cero (con valores positivos).

Invertibilidad

La invertibilidad es la propiedad que permite reescribir un proceso MA(q) como un proceso AR(\(\infty\)). Esto es fundamental porque nos permite expresar el error no observable \(\epsilon_t\) en función de los valores observables de la serie (\(Y_t, Y_{t-1}, \dots\)).

La demostración se realiza mediante sustitución recursiva. Partimos del modelo MA(1), asumiendo \(\mu=0\) para simplificar la notación: \[\begin{aligned} Y_t &= \epsilon_t + \theta \epsilon_{t-1} \end{aligned}\] Despejamos el término de error actual: \[\begin{aligned} \epsilon_t &= Y_t - \theta \epsilon_{t-1} \label{eq:rec_start} \end{aligned}\] Ahora, sustituimos recursivamente los términos de error pasados:

Después de \(k\) sustituciones, el patrón que emerge es: \[\epsilon_t = \sum_{j=0}^{k} (-\theta)^j Y_{t-j} + (-\theta)^{k+1} \epsilon_{t-(k+1)}\] Para que \(\epsilon_t\) pueda expresarse como una serie convergente de valores pasados de \(Y\), el último término debe desaparecer a medida que nos remontamos al pasado infinito (\(k \to \infty\)): \[\lim_{k \to \infty} (-\theta)^{k+1} \epsilon_{t-(k+1)} = 0\] Este límite se anula si y solo si la magnitud del coeficiente es estrictamente menor que 1. \[\boxed{|\theta| < 1}\] Si se cumple esta condición de invertibilidad, el proceso MA(1) admite una representación autorregresiva infinita AR(\(\infty\)): \[\epsilon_t = \sum_{j=0}^{\infty} (-\theta)^j Y_{t-j}\] Esto confirma que un proceso MA(1) es invertible si y solo si \(|\theta|<1\).

Estimación de los Coeficientes

Recordemos el modelo de Media Móvil de orden 1, MA(1): \[Y_t = \mu + \epsilon_t + \theta \epsilon_{t-1}\] donde \(\{\epsilon_t\}\) es un proceso de ruido blanco con \(\epsilon_t \sim N(0, \sigma_\epsilon^2)\). El objetivo es estimar los parámetros \(\mu\), \(\theta\) y \(\sigma_\epsilon^2\) a partir de una muestra de datos \(\{Y_1, \dots, Y_T\}\).

Mínimos Cuadrados Ordinarios (MCO)

En un modelo de regresión lineal, como el AR(1), MCO funciona porque podemos observar tanto la variable dependiente (\(Y_t\)) como las variables regresoras (una constante y \(Y_{t-1}\)).

Si intentamos escribir el modelo MA(1) en una forma de regresión, tendríamos: \[Y_t = \mu + \text{regresores} + \text{error}\] El problema es identificar los regresores. La ecuación (1) muestra que \(Y_t\) depende de una constante y del término de error del período anterior, \(\epsilon_{t-1}\).

El problema fundamental es que \(\epsilon_{t-1}\) es una variable latente o no observable. No tenemos una columna en nuestra base de datos que corresponda a los verdaderos errores del proceso. Como no podemos observar uno de los regresores clave, es imposible aplicar directamente el método de Mínimos Cuadrados Ordinarios.

Cualquier intento de usar un sustituto (proxy), como \(Y_{t-1}\), fallaría porque la estructura de correlación es distinta y llevaría a estimadores sesgados e inconsistentes.

Estimación por Máxima Verosimilitud (MLE)

Dado que MCO no es viable, la MLE es el método estándar para estimar modelos MA(q). La lógica se basa en reconstruir los errores no observados de forma iterativa.

Reconstrucción Recursiva de los Errores

Asumiendo que conocemos los parámetros \(\mu\) y \(\theta\), podemos despejar el error \(\epsilon_t\) de la Ec. ([ma1]): \[\epsilon_t = Y_t - \mu - \theta \epsilon_{t-1}\] Vemos que para calcular el error en el tiempo \(t\), necesitamos conocer el error en \(t-1\). Esto sugiere un cálculo recursivo:

  1. Condición Inicial: Para empezar el proceso en \(t=1\), necesitamos un valor para \(\epsilon_0\). Como es desconocido, se asume que su valor esperado es cero: \(\epsilon_0 = 0\).

  2. Cálculo Recursivo: Con esta condición inicial, podemos calcular la serie completa de errores para cualquier valor de \(\mu\) y \(\theta\): \[\begin{aligned} \hat{\epsilon}_1 &= Y_1 - \mu - \theta \epsilon_0 = Y_1 - \mu \\ \hat{\epsilon}_2 &= Y_2 - \mu - \theta \hat{\epsilon}_1 \\ \hat{\epsilon}_3 &= Y_3 - \mu - \theta \hat{\epsilon}_2 \\ & \vdots \\ \hat{\epsilon}_T &= Y_T - \mu - \theta \hat{\epsilon}_{T-1} \end{aligned}\]

La Función de Log-Verosimilitud

Ahora que podemos expresar cada \(\hat{\epsilon}_t\) en función de los datos y los parámetros, podemos construir la función de log-verosimilitud. Dado que \(\epsilon_t \sim N(0, \sigma_\epsilon^2)\), la log-verosimilitud (condicionada a \(\epsilon_0=0\)) es: \[\ln L(\mu, \theta, \sigma_\epsilon^2) = -\frac{T}{2}\ln(2\pi) - \frac{T}{2}\ln(\sigma_\epsilon^2) - \frac{1}{2\sigma_\epsilon^2} \sum_{t=1}^{T} \hat{\epsilon}_t^2\] Sustituyendo la definición recursiva del error, el término clave a minimizar (la Suma de Cuadrados de los Errores, SSE) es: \[\label{ma1_max} \text{SSE}(\mu, \theta) = \sum_{t=1}^{T} (Y_t - \mu - \theta \hat{\epsilon}_{t-1})^2\]

Maximización Numérica: La Gran Diferencia

A diferencia del caso AR(1), la SSE en la Ec. ([ma1_max]) es una función altamente no lineal del parámetro \(\theta\). Cada término \(\hat{\epsilon}_{t-1}\) depende de \(\theta\) y de todos los errores anteriores, que a su vez dependen de \(\theta\).

Debido a esta compleja dependencia no lineal, no podemos simplemente tomar las derivadas, igualarlas a cero y encontrar una solución analítica cerrada (como las ecuaciones normales de MCO).

La maximización de la función de log-verosimilitud debe realizarse mediante algoritmos de optimización numérica (como Newton-Raphson, BGFS, etc.). Estos algoritmos buscan iterativamente los valores de \(\mu\) y \(\theta\) que minimizan la SSE (o equivalentemente, maximizan la log-verosimilitud).

Conclusión y Comparación

La estimación de un modelo MA(1) ilustra una diferencia fundamental con los modelos AR(1). La siguiente tabla resume los puntos clave:

Comparación de la estimación entre modelos AR(1) y MA(1).
Característica Modelo AR(1) Modelo MA(1)
Regresor \(Y_{t-1}\) (Observable) \(\epsilon_{t-1}\) (No observable)
Aplicabilidad de MCO Directamente aplicable. No aplicable.
Solución de MLE Analítica, idéntica a MCO. No analítica, requiere optimización numérica.

Procesos ARMA

El Modelo ARMA(p,q) y Supuestos Clave

Un proceso autorregresivo de media móvil de órdenes \(p\) y \(q\), o ARMA(p,q), se define como: \[\label{arma} Y_t = c + \sum_{i=1}^{p} \phi_i Y_{t-i} + \sum_{j=0}^{q} \theta_j \epsilon_{t-j}\] donde \(\theta_0=1\) y \(\{\epsilon_t\}\) es un proceso de ruido blanco con \(E[\epsilon_t]=0\) y \(\text{Var}(\epsilon_t)=\sigma_\epsilon^2\).

Para estos cálculos, el supuesto fundamental es que el proceso es estacionario en covarianza. La condición de estacionariedad para un modelo ARMA(p,q) depende exclusivamente de su parte autorregresiva (AR). Específicamente, todas las raíces del polinomio característico autorregresivo \(\Phi(z) = 1 - \phi_1 z - \dots - \phi_p z^p\) deben estar fuera del círculo unitario.

Cálculo de la Esperanza

La esperanza o media de un proceso estacionario es constante en el tiempo, por lo que \(E[Y_t] = E[Y_{t-i}] = \mu\) para todo \(i\).

Aplicamos el operador de esperanza a ambos lados de la Ec. ([arma]): \[\begin{aligned} E[Y_t] &= E\left[c + \sum_{i=1}^{p} \phi_i Y_{t-i} + \sum_{j=0}^{q} \theta_j \epsilon_{t-j}\right] \end{aligned}\] Por la linealidad de la esperanza: \[\begin{aligned} E[Y_t] &= E[c] + \sum_{i=1}^{p} \phi_i E[Y_{t-i}] + \sum_{j=0}^{q} \theta_j E[\epsilon_{t-j}] \end{aligned}\] Sustituyendo los valores conocidos (\(\mu\) para los términos de Y, y 0 para los términos de \(\epsilon\)): \[\begin{aligned} \mu &= c + \sum_{i=1}^{p} \phi_i \mu + \sum_{j=0}^{q} \theta_j \cdot 0 \\ \mu &= c + \mu \sum_{i=1}^{p} \phi_i \end{aligned}\] Ahora, despejamos \(\mu\): \[\begin{aligned} \mu - \mu \sum_{i=1}^{p} \phi_i &= c \\ \mu \left(1 - \sum_{i=1}^{p} \phi_i\right) &= c \end{aligned}\] El resultado final para la esperanza del proceso ARMA(p,q) es: \[\boxed{\mu = \frac{c}{1 - \sum_{i=1}^{p} \phi_i}}\] Es importante notar que la media de un proceso ARMA estacionario depende únicamente de la constante y de los parámetros de su parte autorregresiva (AR). Los parámetros de la parte de media móvil (MA) no influyen en el nivel medio de la serie.

Cálculo de la Varianza

El cálculo directo de la varianza de la Ec. ([arma]) es complicado debido a las covarianzas entre los términos \(Y_{t-i}\) y \(\epsilon_{t-j}\). Un método mucho más elegante es utilizar la representación de media móvil infinita (MA(\(\infty\))) del proceso, garantizada por el Teorema de Wold para cualquier proceso estacionario.

La Representación MA(\(\infty\))

El modelo ARMA(p,q) se puede escribir con operadores de rezago como: \[\Phi(L) Y_t = c + \Theta(L) \epsilon_t\] donde \(\Phi(L)=1-\sum \phi_i L^i\) y \(\Theta(L)=1+\sum \theta_j L^j\).

Si el proceso es estacionario, podemos despejar \(Y_t\): \[\begin{aligned} Y_t &= [\Phi(L)]^{-1}c + [\Phi(L)]^{-1}\Theta(L)\epsilon_t \\ Y_t &= \mu + \Psi(L)\epsilon_t \end{aligned}\] donde \(\mu\) es la media que ya calculamos, y \(\Psi(L) = \Phi(L)^{-1}\Theta(L)\) es un polinomio de orden infinito en el operador de rezago, \(\Psi(L) = \sum_{j=0}^{\infty} \psi_j L^j\) (con \(\psi_0 = 1\)). La forma explícita de \(Y_t\) es: \[Y_t = \mu + \sum_{j=0}^{\infty} \psi_j \epsilon_{t-j}\]

Derivación de la Varianza (\(\gamma_0\))

Con la forma MA(\(\infty\)), el cálculo de la varianza es directo. \[\begin{aligned} \gamma_0 = \text{Var}(Y_t) &= \text{Var}\left(\mu + \sum_{j=0}^{\infty} \psi_j \epsilon_{t-j}\right) \end{aligned}\] La media \(\mu\) no afecta la varianza. Como los términos \(\epsilon_{t-j}\) no están correlacionados entre sí, la varianza de la suma es la suma de las varianzas: \[\begin{aligned} \text{Var}(Y_t) &= \sum_{j=0}^{\infty} \text{Var}(\psi_j \epsilon_{t-j}) \\ &= \sum_{j=0}^{\infty} \psi_j^2 \text{Var}(\epsilon_{t-j}) \end{aligned}\] Dado que \(\text{Var}(\epsilon_{t-j})=\sigma_\epsilon^2\) para todo \(j\): \[\begin{aligned} &= \sum_{j=0}^{\infty} \psi_j^2 \sigma_\epsilon^2 \end{aligned}\] El resultado final para la varianza del proceso ARMA(p,q) es: \[\boxed{\gamma_0 = \sigma_\epsilon^2 \sum_{j=0}^{\infty} \psi_j^2}\] La varianza es el producto de la varianza del ruido blanco y la suma de los cuadrados de los coeficientes de su representación MA(\(\infty\)). La condición de estacionariedad (\(|\phi_i|<1\) en el caso AR(1), o raíces de \(\Phi(z)\) fuera del círculo unitario en general) garantiza que la suma \(\sum \psi_j^2\) converge a un valor finito. Los coeficientes \(\psi_j\) dependen tanto de los parámetros AR (\(\phi_i\)) como de los parámetros MA (\(\theta_j\)).

Metodología de Box-Jenkins

La metodología de Box-Jenkins, propuesta por George Box y Gwilym Jenkins en 1970, es un enfoque sistemático para el análisis y pronóstico de series de tiempo. Su objetivo es encontrar el modelo ARIMA(\(p,d,q\)) más adecuado para representar los datos observados.

La metodología es un proceso iterativo que se puede describir como un ciclo de cuatro etapas: Identificación, Estimación, Diagnóstico y, finalmente, Uso (Pronóstico). Si en la etapa de diagnóstico se determina que el modelo no es adecuado, el ciclo se repite desde la primera etapa.

Las Cuatro Etapas del Ciclo

Etapa 1: Identificación del Modelo

En esta primera fase, el objetivo es determinar el orden del modelo, es decir, los valores de \(p, d, q\).

  1. Análisis de Estacionariedad. El primer paso es determinar si la serie es estacionaria en media y varianza.

    • Gráfico de la serie: Se inspecciona visualmente para detectar tendencias o cambios en la varianza.

    • Función de Autocorrelación (FAC): Una FAC que decae muy lentamente es un signo claro de no estacionariedad.

    • Pruebas formales: Se utilizan pruebas de raíz unitaria como la de Dickey-Fuller Aumentada (ADF).

  2. Diferenciación para Alcanzar Estacionariedad (determinar \(d\)). Si la serie no es estacionaria, se aplica una o más diferenciaciones hasta que lo sea. El número de diferenciaciones necesarias nos da el orden de integración, \(d\). \[\Delta Y_t = Y_t - Y_{t-1}\] Generalmente, \(d\) es 0, 1 o 2.

  3. Análisis de FAC y FACP (determinar \(p\) y \(q\)). Una vez que la serie es estacionaria (posiblemente después de diferenciar), se analizan su Función de Autocorrelación (FAC) y su Función de Autocorrelación Parcial (FACP) para determinar los órdenes \(p\) y \(q\).

Guía para la identificación de órdenes \(p\) y \(q\)
Proceso FAC FACP
AR(p) Decae exponencialmente o sinusoidalmente. Se corta abruptamente después del rezago \(p\).
MA(q) Se corta abruptamente después del rezago \(q\). Decae exponencialmente o sinusoidalmente.
ARMA(p,q) Decae exponencialmente después del rezago \(q\). Decae exponencialmente después del rezago \(p\).

Al final de esta etapa, se proponen uno o varios modelos candidatos, por ejemplo, ARIMA(1,1,0) o ARIMA(0,1,1).

Etapa 2: Estimación de Parámetros

Una vez que se ha identificado un modelo candidato, se estiman sus parámetros (\(c, \phi_1, \dots, \phi_p, \theta_1, \dots, \theta_q\)). El método estándar para esta tarea es la Máxima Verosimilitud (MLE).

Este proceso es computacionalmente intensivo y se realiza con software estadístico, que utiliza algoritmos de optimización numérica para encontrar los valores de los parámetros que maximizan la función de verosimilitude.

Etapa 3: Diagnóstico y Verificación

Esta es una etapa crucial para validar si el modelo estimado es adecuado. La idea central es que si el modelo ha capturado correctamente la estructura de los datos, los residuos del modelo, \(\hat{\epsilon}_t = Y_t - \hat{Y}_t\), deben comportarse como un proceso de ruido blanco.

Se realizan las siguientes verificaciones sobre los residuos:

Si los residuos no se comportan como ruido blanco, significa que el modelo es inadecuado y se debe volver a la Etapa 1 para identificar un modelo alternativo.

Etapa 4: Uso del Modelo (Pronóstico)

Si el modelo pasa satisfactoriamente la etapa de diagnóstico, está listo para ser utilizado para su propósito principal: realizar pronósticos sobre los valores futuros de la serie de tiempo.

El modelo proporciona no solo las predicciones puntuales, sino también intervalos de predicción que cuantifican la incertidumbre asociada a los pronósticos.

La metodología de Box-Jenkins proporciona un marco de trabajo riguroso y completo para el modelado de series de tiempo. Su naturaleza iterativa asegura que el modelo final sea estadísticamente validado, aunque requiere un grado de experiencia y juicio por parte del analista, especialmente en la etapa de identificación.

Estimación por Máxima Verosimilitud

Un proceso autorregresivo de media móvil, ARMA(p,q), se define como: \[\label{arma2} Y_t = c + \sum_{i=1}^{p} \phi_i Y_{t-i} + \sum_{j=0}^{q} \theta_j \epsilon_{t-j}\] donde \(\theta_0=1\) y el término de error sigue un proceso de ruido blanco gaussiano, \(\epsilon_t \sim \text{i.i.d.} \, N(0, \sigma_\epsilon^2)\). Los parámetros a estimar son el vector \(\mathbf{\Theta} = (c, \phi_1, \dots, \phi_p, \theta_1, \dots, \theta_q, \sigma_\epsilon^2)\).

El problema central de la estimación, tanto para MCO como para MLE, es que los términos de error pasados (\(\epsilon_{t-1}, \dots, \epsilon_{t-q}\)) son no observables.

La Función de Log-Verosimilitud Condicional

El método de máxima verosimilitud se basa en maximizar la función de densidad conjunta de la muestra. Bajo el supuesto de normalidad, esto es equivalente a minimizar la Suma de los Cuadrados de los Errores (SSE). Para ello, primero debemos expresar los errores en función de los parámetros y los datos observables.

Cálculo Recursivo de los Errores

Despejando el error de la Ec. ([arma2]), obtenemos su fórmula recursiva: \[\epsilon_t = Y_t - c - \sum_{i=1}^{p} \phi_i Y_{t-i} - \sum_{j=1}^{q} \theta_j \epsilon_{t-j}\] Para calcular la serie completa de errores \(\{\hat{\epsilon}_t\}_{t=1}^T\), necesitamos establecer unas condiciones iniciales. Para un modelo ARMA(p,q), necesitamos los valores de \(Y_0, \dots, Y_{1-p}\) y \(\epsilon_0, \dots, \epsilon_{1-q}\). La aproximación más común (verosimilitud condicional) es asumir que todos estos valores pre-muestrales son cero (o la media de la muestra para los valores de Y).

Con estas condiciones, la serie de errores se puede calcular iterativamente para cualquier conjunto de parámetros.

Construcción de la Función

La función de log-verosimilitud condicional (ignorando las constantes) es proporcional al negativo de la suma de los errores al cuadrado: \[\ln L(\mathbf{\Theta}) \propto - \frac{T}{2}\ln(\sigma_\epsilon^2) - \frac{1}{2\sigma_\epsilon^2} \sum_{t=1}^{T} \hat{\epsilon}_t^2\] Sustituyendo la Ec. ([arma2]), la función que debemos maximizar con respecto a los parámetros es: \[\label{emv_arma} \ln L(\mathbf{\Theta}) \propto - \frac{T}{2}\ln(\sigma_\epsilon^2) - \frac{1}{2\sigma_\epsilon^2} \sum_{t=1}^{T} \left( Y_t - c - \sum_{i=1}^{p} \phi_i Y_{t-i} - \sum_{j=1}^{q} \theta_j \hat{\epsilon}_{t-j} \right)^2\]

El Obstáculo Analítico y la Solución Numérica

Aquí es donde encontramos la diferencia fundamental con un modelo AR(p) puro.

Al tomar las derivadas parciales de la Ec. ([emv_arma]) con respecto a los parámetros \(\theta_j\), obtenemos un sistema de ecuaciones no lineales muy complejo. No existe una solución analítica cerrada para este sistema.

Analíticamente, podemos plantear la función objetivo (la log-verosimilitud) que debe ser maximizada. Sin embargo, el paso final de la maximización no se puede resolver de forma analítica.

La estimación de los coeficientes de un modelo ARMA(p,q) (con \(q>0\)) debe realizarse necesariamente mediante algoritmos de optimización numérica (como Newton-Raphson, BGFS, etc.). Estos algoritmos evalúan la función de log-verosimilitud para diferentes valores de los parámetros de forma iterativa hasta que encuentran el conjunto de valores que la maximiza.