Sunday 26 November 2017

Autocovariancia Media Móvil


Propósito: Comprobar la aleatoriedad Las gráficas de autocorrelación (Box y Jenkins, págs. 28-32) son una herramienta comúnmente usada para verificar la aleatoriedad en un conjunto de datos. Esta aleatoriedad se determina mediante el cálculo de autocorrelaciones para los valores de datos en diferentes intervalos de tiempo. Si son aleatorias, tales autocorrelaciones deben estar cerca de cero para todas las separaciones de tiempo-retraso. Si no es aleatorio, entonces una o más de las autocorrelaciones serán significativamente no-cero. Además, las parcelas de autocorrelación se utilizan en la fase de identificación del modelo para los modelos autorregresivos y móviles de serie temporal de Box-Jenkins. La autocorrelación es solo una medida de aleatoriedad Tenga en cuenta que no correlacionado no significa necesariamente aleatorio. Los datos que tienen una autocorrelación significativa no son aleatorios. Sin embargo, los datos que no muestran una autocorrelación significativa todavía pueden mostrar no aleatoriedad de otras maneras. La autocorrelación es sólo una medida de aleatoriedad. En el contexto de la validación del modelo (que es el tipo primario de aleatoriedad que describimos en el Manual), la comprobación de la autocorrelación suele ser una prueba suficiente de aleatoriedad, ya que los residuos de un modelo de ajuste inadecuado tienden a mostrar aleatoriedad no sutil. Sin embargo, algunas aplicaciones requieren una determinación más rigurosa de la aleatoriedad. En estos casos, una batería de pruebas, que pueden incluir la comprobación de la autocorrelación, se aplican ya que los datos pueden ser no aleatorios de muchas maneras diferentes ya menudo sutiles. Un ejemplo de dónde se necesita un control más riguroso de la aleatoriedad sería probar generadores de números aleatorios. Trazado de muestra: Las autocorrelaciones deben ser cercanas a cero para aleatoriedad. Este no es el caso en este ejemplo y por lo tanto la suposición de aleatoriedad falla. Este gráfico de autocorrelación muestra muestra que la serie temporal no es aleatoria, sino que tiene un alto grado de autocorrelación entre observaciones adyacentes y casi adyacentes. Definición: r (h) versus h Las gráficas de autocorrelación están formadas por el eje vertical: Coeficiente de autocorrelación donde C h es la función de autocovariancia y C 0 es la función de varianza Obsérvese que R h está entre -1 y 1. Observe que algunas fuentes pueden usar el Fórmula siguiente para la función de autocovariancia Aunque esta definición tiene menos sesgo, la formulación (1 / N) tiene algunas propiedades estadísticas deseables y es la forma más comúnmente utilizada en la bibliografía estadística. Vea las páginas 20 y 49-50 en Chatfield para más detalles. Eje horizontal: Retardo de tiempo h (h 1, 2, 3.) La línea anterior también contiene varias líneas de referencia horizontales. La línea media está en cero. Las otras cuatro líneas son 95 y 99 bandas de confianza. Observe que hay dos fórmulas distintas para generar las bandas de confianza. Si se utiliza el gráfico de autocorrelación para probar la aleatoriedad (es decir, no hay dependencia temporal en los datos), se recomienda la siguiente fórmula: donde N es el tamaño de la muestra, z es la función de distribución acumulativa de la distribución normal estándar y ) Es el nivel de significación. En este caso, las bandas de confianza tienen un ancho fijo que depende del tamaño de la muestra. Esta es la fórmula que se utilizó para generar las bandas de confianza en la gráfica anterior. Las gráficas de autocorrelación también se usan en la etapa de identificación del modelo para el ajuste de modelos ARIMA. En este caso, se supone un modelo de media móvil para los datos y se deben generar las siguientes bandas de confianza: donde k es el retraso, N es el tamaño de la muestra, z es la función de distribución acumulativa de la distribución normal estándar y (alfa) es El nivel de significación. En este caso, las bandas de confianza aumentan a medida que aumenta el desfase. La gráfica de autocorrelación puede proporcionar respuestas a las siguientes preguntas: ¿Los datos son aleatorios? ¿Es una observación relacionada con una observación adyacente? ¿Es una observación relacionada con una observación extraída dos veces? ¿Es la serie de tiempo observada el ruido blanco? La serie temporal observada es sinusoidal ¿Es el modelo válido y suficiente? Es la fórmula ss / sqrt válida Importancia: Garantizar la validez de las conclusiones de la ingeniería Aleatoriedad (junto con el modelo fijo, la variación fija y la distribución fija) Es uno de los cuatro supuestos que típicamente subyacen a todos los procesos de medición. El supuesto de aleatoriedad es de importancia crítica por las tres razones siguientes: La mayoría de las pruebas estadísticas estándar dependen de la aleatoriedad. La validez de las conclusiones de la prueba está directamente relacionada con la validez del supuesto de aleatoriedad. Muchas de las fórmulas estadísticas utilizadas comúnmente dependen de la suposición de aleatoriedad, siendo la fórmula más común la fórmula para determinar la desviación estándar de la media de la muestra: donde s es la desviación estándar de los datos. Aunque muy utilizados, los resultados de usar esta fórmula no tienen ningún valor a menos que la suposición de aleatoriedad se mantenga. Para datos univariados, el modelo predeterminado es Si los datos no son aleatorios, este modelo es incorrecto y no válido, y las estimaciones de los parámetros (como la constante) se vuelven sin sentido e inválidas. En resumen, si el analista no comprueba la aleatoriedad, entonces la validez de muchas de las conclusiones estadísticas se vuelve sospechosa. El gráfico de autocorrelación es una excelente manera de comprobar tal aleatoriedad.2.1 Modelos de media móvil (modelos MA) Modelos de series de tiempo conocidos como modelos ARIMA pueden incluir términos autorregresivos y / o términos de media móvil. En la semana 1, aprendimos un término autorregresivo en un modelo de series de tiempo para la variable x t es un valor retrasado de x t. Por ejemplo, un término autorregresivo de retardo 1 es x t-1 (multiplicado por un coeficiente). Esta lección define los términos del promedio móvil. Un término medio móvil en un modelo de serie temporal es un error pasado (multiplicado por un coeficiente). Dejamos (wt desbordamiento N (0, sigma2w)), lo que significa que los w t son idéntica, independientemente distribuidos, cada uno con una distribución normal que tiene la media 0 y la misma varianza. El modelo de media móvil de primer orden, denotado por MA (1) es (xt mu wt theta1w) El modelo de media móvil de segundo orden, denotado por MA (2) es (xt mu wt theta1w theta2w) , Denotado por MA (q) es (xt mu wt theta1w theta2w puntos thetaqw) Nota. Muchos libros de texto y programas de software definen el modelo con signos negativos antes de los términos. Esto no cambia las propiedades teóricas generales del modelo, aunque sí cambia los signos algebraicos de los valores estimados de los coeficientes y los términos (no cuadrados) en las fórmulas para las ACF y las varianzas. Usted necesita comprobar su software para verificar si los signos negativos o positivos se han utilizado con el fin de escribir correctamente el modelo estimado. R utiliza signos positivos en su modelo subyacente, como lo hacemos aquí. Propiedades teóricas de una serie temporal con un modelo MA (1) Tenga en cuenta que el único valor distinto de cero en el ACF teórico es para el retardo 1. Todas las demás autocorrelaciones son 0. Por lo tanto, una ACF de muestra con una autocorrelación significativa sólo con el retardo 1 es un indicador de un posible modelo MA (1). Para los estudiantes interesados, las pruebas de estas propiedades son un apéndice a este folleto. Ejemplo 1 Supongamos que un modelo MA (1) es x t 10 w t .7 w t-1. Donde (wt overset N (0,1)). Así, el coeficiente 1 0,7. El ACF teórico se da por un diagrama de esta ACF sigue. La gráfica que se muestra es la ACF teórica para una MA (1) con 1 0,7. En la práctica, una muestra no suele proporcionar un patrón tan claro. Utilizando R, simulamos n 100 valores de muestra utilizando el modelo x t 10 w t .7 w t-1 donde w t iid N (0,1). Para esta simulación, sigue un diagrama de series de tiempo de los datos de la muestra. No podemos decir mucho de esta trama. A continuación se muestra el ACF de muestra para los datos simulados. Observamos un pico en el retraso 1 seguido por valores generalmente no significativos para los retrasos de 1. Obsérvese que la muestra ACF no coincide con el patrón teórico del MA subyacente (1), que es que todas las autocorrelaciones para los retrasos de 1 serán 0.Una muestra diferente tendría una ACF de muestra ligeramente diferente mostrada abajo, pero probablemente tendría las mismas características amplias. Propiedades Terapéuticas de una Serie de Tiempo con un Modelo MA (2) Para el modelo MA (2), las propiedades teóricas son las siguientes: Obsérvese que los únicos valores distintos de cero en la ACF teórica son para los retornos 1 y 2. Las autocorrelaciones para retardos mayores son 0 . Por lo tanto, una muestra de ACF con autocorrelaciones significativas en los intervalos 1 y 2, pero autocorrelaciones no significativas para retardos mayores, indica un posible modelo MA (2). Iid N (0,1). Los coeficientes son 1 0,5 y 2 0,3. Dado que se trata de una MA (2), la ACF teórica tendrá valores distintos de cero sólo en los retornos 1 y 2. Los valores de las dos autocorrelaciones distintas de cero son: Un gráfico del ACF teórico sigue. Como casi siempre es el caso, los datos de la muestra no se comportarán tan perfectamente como la teoría. Se simularon 150 valores de muestra para el modelo x t 10 w t .5 w t-1 .3 w t-2. Donde w t iid N (0,1). A continuación se muestra el gráfico de la serie de tiempo de los datos. Al igual que con el gráfico de la serie de tiempo para los datos de la muestra MA (1), no se puede decir mucho de ella. A continuación se muestra el ACF de muestra para los datos simulados. El patrón es típico para situaciones donde un modelo MA (2) puede ser útil. Hay dos picos estadísticamente significativos en los intervalos 1 y 2, seguidos de valores no significativos para otros desfases. Tenga en cuenta que debido al error de muestreo, la muestra ACF no coincide exactamente con el patrón teórico. ACF para modelos MA (q) Una propiedad de los modelos MA (q) en general es que hay autocorrelaciones no nulas para los primeros q retrasos y autocorrelaciones 0 para todos los retrasos gt q. No unicidad de la conexión entre los valores de 1 y (rho1) en MA (1) Modelo. En el modelo MA (1), para cualquier valor de 1. El 1/1 recíproco da el mismo valor para. Por ejemplo, use 0.5 para 1. Y luego utilice 1 / (0,5) 2 para 1. Youll get (rho1) 0.4 en ambos casos. Para satisfacer una restricción teórica llamada invertibilidad. Limitamos los modelos MA (1) a tener valores con valor absoluto menor que 1. En el ejemplo dado, 1 0,5 será un valor de parámetro permisible, mientras que 1 1 / 0,5 2 no. Invertibilidad de los modelos MA Se dice que un modelo MA es invertible si es algebraicamente equivalente a un modelo de orden infinito convergente. Al converger, queremos decir que los coeficientes de AR disminuyen a 0 a medida que retrocedemos en el tiempo. Invertibilidad es una restricción programada en el software de la serie de tiempo usado para estimar los coeficientes de modelos con términos de MA. No es algo que buscamos en el análisis de datos. En el apéndice se proporciona información adicional sobre la restricción de la invertibilidad para los modelos MA (1). Nota de Teoría Avanzada. Para un modelo MA (q) con un ACF especificado, sólo hay un modelo invertible. La condición necesaria para la invertibilidad es que los coeficientes tienen valores tales que la ecuación 1- 1 y-. - q y q 0 tiene soluciones para y que caen fuera del círculo unitario. Código R para los Ejemplos En el Ejemplo 1, se representó la ACF teórica del modelo x $ _ {t} $ w $ _ {t} $. 7w t-1. Y luego se simularon 150 valores de este modelo y se representaron las series de tiempo de muestra y la muestra ACF para los datos simulados. Los comandos R usados ​​para trazar el ACF teórico fueron: acfma1ARMAacf (mac (0.7), lag. max10) 10 retardos de ACF para MA (1) con theta1 0.7 lags0: 10 crea una variable llamada lags que va de 0 a 10. plot Abline (h0) añade un eje horizontal al diagrama El primer comando determina el ACF y lo almacena en un objeto (a0) Llamado acfma1 (nuestra elección de nombre). El comando plot (el 3er comando) traza retrasos en comparación con los valores ACF para los retornos 1 a 10. El parámetro ylab etiqueta el eje y y el parámetro principal coloca un título en la gráfica. Para ver los valores numéricos de la ACF simplemente utilice el comando acfma1. La simulación y las parcelas se realizaron con los siguientes comandos. Xcarzim. sim (n150, lista (mac (0.7))) Simula n 150 valores de MA (1) xxc10 agrega 10 para hacer la media 10. La simulación predeterminada significa 0. plot (x, typeb, mainSimulated MA (1) data) (X, xlimc (1,10), mainACF para datos de muestra simulados) En el Ejemplo 2, se representó el ACF teórico del modelo xt 10 wt. 5 w t-1 .3 w t-2. Y luego se simularon 150 valores de este modelo y se representaron las series de tiempo de muestra y la muestra ACF para los datos simulados. Los comandos R utilizados fueron acfma2ARMAacf (mac (0.5.0.3), lag. max10) acfma2 lags0: 10 trama (lags, acfma2, xlimc (1,10), ylabr, typeh, ACF principal para MA (2) con theta1 0,5, (X, typeb, principal serie MA simulado) acf (x, xlimc (1,10), x2) (1) Para los estudiantes interesados, aquí hay pruebas de las propiedades teóricas del modelo MA (1). Cuando x 1, la expresión anterior 1 w 2. Para cualquier h 2, la expresión anterior 0 (x) La razón es que, por definición de independencia del peso. E (w k w j) 0 para cualquier k j. Además, debido a que w t tiene una media 0, E (w j w j) E (w j 2) w 2. Para una serie de tiempo, aplique este resultado para obtener la ACF dada anteriormente. Un modelo inversible MA es uno que puede ser escrito como un modelo de orden infinito AR que converge para que los coeficientes AR convergen a 0 a medida que avanzamos infinitamente en el tiempo. Bien demostrar invertibilidad para el modelo MA (1). A continuación, sustituimos la relación (2) por wt-1 en la ecuación (1) (3) (zt wt theta1 (z-theta1w) wt theta1z - theta2w) En el momento t-2. La ecuación (2) es entonces sustituimos la relación (4) por w t-2 en la ecuación (3) (zt wt theta1 z - theta21w wt theta1z - theta21 (z - theta1w) wt theta1z - theta12z theta31w) Si continuáramos Sin embargo, si 1 1, los coeficientes que multiplican los retrasos de z aumentarán (infinitamente) en tamaño a medida que retrocedemos hacia atrás hora. Para evitar esto, necesitamos 1 lt1. Esta es la condición para un modelo de MA (1) invertible. Infinite Order MA model En la semana 3, veamos bien que un modelo AR (1) puede convertirse en un modelo de orden infinito MA: (xt - mu wt phi1w phi21w puntos phik1 w dots sum phij1w) Esta suma de términos de ruido blanco pasado es conocida Como la representación causal de una AR (1). En otras palabras, x t es un tipo especial de MA con un número infinito de términos remontándose en el tiempo. Esto se llama un orden infinito MA o MA (). Una orden finita MA es un orden infinito AR y cualquier orden finito AR es un orden infinito MA. Recordemos en la semana 1, observamos que un requisito para un AR estacionario (1) es que 1 lt1. Vamos a calcular el Var (x t) utilizando la representación causal. Este último paso utiliza un hecho básico sobre series geométricas que requiere (phi1lt1) de lo contrario la serie diverge. Navegación12.1: Estimación de la Densidad Espectral Describimos previamente el periodograma, una función / gráfico que muestra información sobre los componentes periódicos de una serie temporal. Cualquier serie temporal puede ser expresada como una suma de ondas coseno y seno que oscilan en las frecuencias fundamentales (armónicas) j / n. Con j 1, 2,, n / 2. El periodograma proporciona información sobre las fuerzas relativas de las diversas frecuencias para explicar la variación en las series temporales. El periodograma es una estimación de la muestra de una función de población denominada densidad espectral, que es una caracterización del dominio de la frecuencia de una serie temporal de población estacionaria. La densidad espectral es una representación del dominio de la frecuencia de una serie temporal que está directamente relacionada con la representación del dominio del tiempo de autocovariancia. En esencia, la densidad espectral y la función de autocovariancia contienen la misma información, pero la expresan de diferentes maneras. Nota de revisión. La autocovariancia es el numerador de la autocorrelación. La autocorrelación es la autocovariancia dividida por la varianza. Supongamos que (h) es la función de autocovariancia de un proceso estacionario y que f () es la densidad espectral para el mismo proceso. En la anotación de la oración anterior, h tiempo de retraso y frecuencia. La autocovariancia y la densidad espectral tienen las siguientes relaciones: En el lenguaje del cálculo avanzado, la autocovariancia y la densidad espectral son pares de transformada de Fourier. No nos preocuparemos por el cálculo de la situación. Bien se centran en la estimación de la densidad espectral de la caracterización del dominio de frecuencia de una serie. Las ecuaciones de la transformada de Fourier se dan aquí solamente para establecer que hay una conexión directa entre la representación del dominio del tiempo y la representación del dominio de la frecuencia de una serie. Matemáticamente, la densidad espectral se define para las frecuencias negativas y positivas. Sin embargo, debido a la simetría de la función y su patrón de repetición para frecuencias fuera del rango -1/2 a 1/2, sólo necesitamos preocuparnos con frecuencias entre 0 y 1/2. La densidad espectral total integrada es igual a la varianza de la serie. Así, la densidad espectral dentro de un intervalo particular de frecuencias puede ser vista como la cantidad de la varianza explicada por esas frecuencias. Métodos para estimar la densidad espectral El periodograma en bruto es una estimación aproximada de la muestra de la densidad espectral de la población. La estimación es áspera, en parte, porque sólo usamos las frecuencias armónicas fundamentales discretas para el periodograma mientras que la densidad espectral se define sobre un continuo de frecuencias. Una posible mejora de la estimación periodográfica de la densidad espectral es suavizarla usando medias móviles centradas. Se puede crear un suavizado adicional usando métodos de estrechamiento que ponderan los extremos (en el tiempo) de la serie menos que el centro de los datos. Bueno, no cubra el estrechamiento en esta lección. Los interesados ​​pueden ver la Sección 4.5 en el libro y varias fuentes de Internet. Un enfoque alternativo para suavizar el periodograma es un enfoque de estimación paramétrica basado en el hecho de que cualquier serie temporal estacionaria puede ser aproximada por un modelo de AR de algún orden (aunque podría ser un orden alto). En este enfoque se encuentra un modelo de AR adecuado, y luego se estima la densidad espectral como la densidad espectral para ese modelo de AR estimado. Método de Suavizado (Estimación No Paramétrica de la Densidad Espectral) El método usual para suavizar un periodograma tiene un nombre tan sofisticado que suena difícil. De hecho, es simplemente un procedimiento centrado media móvil con algunas posibles modificaciones. Para una serie temporal, el kernel de Daniell con el parámetro m es un promedio móvil centrado que crea un valor suavizado en el tiempo t promediando todos los valores entre los tiempos t m y t m (inclusive). Por ejemplo, la fórmula de suavizado para un núcleo de Daniell con m 2 es In R, los coeficientes de ponderación para un núcleo de Daniell con m 2 se pueden generar con el kernel de comandos (daniell, 2). El resultado es coef-2 0,2 ​​coef-1 0,2 coef 0,2 coef 1 0,2 coef 2 0,2 ​​Los subíndices de coef se refieren a la diferencia de tiempo desde el centro de la media en el tiempo t. Por lo tanto, la fórmula de suavizado en este caso es la que es la misma que la fórmula dada anteriormente. El núcleo de Daniell modificado es tal que los dos extremos en el promedio reciben la mitad del peso que hacen los puntos interiores. Para un kernel de Daniell modificado con m 2, el suavizado es In R, el kernel de comandos (modified. daniell, 2) enumerará los coeficientes de ponderación que se acaban de usar. El núcleo de Daniell o el núcleo de Daniell modificado puede ser convoluto (repetido) de modo que el suavizado se aplique de nuevo a los valores suavizados. Esto produce un suavizado más extenso promediando en un intervalo de tiempo más amplio. Por ejemplo, para repetir un núcleo de Daniell con m 2 sobre los valores suavizados que resultaron de un núcleo de Daniell con m 2, la fórmula sería: Esta es la media de los valores suavizados dentro de dos períodos de tiempo t. en cualquier dirección. En R, el núcleo de comando (daniell, c (2,2)) suministrará los coeficientes que se aplicarán como pesos en el promedio de los valores de datos originales para un núcleo de Daniell con m 2 en ambas suavizaciones. El resultado es el grano gt (daniell, c (2,2)) coef-4 0,04 coef-3 0,08 coef-2 0,12 coef-1 0,16 coef 0,20 coef 1 0,16 coef 2 0,12 coef 3 0,08 coef 4 0,04 Esto genera el suavizado Fórmula Una convolución del método modificado en el que los puntos finales tienen menos peso también es posible. El núcleo de comando (modified. daniell, c (2,2)) da estos coeficientes: coef-4 0.01563 coef-3 0.06250 coef-2 0.12500 coef-1 0.18750 coef 0 0.21875 coef 1 0.18750 coef 2 0.12500 coef 3 0.06250 coef 4 0.01563 Así, los valores centrales se ponderan ligeramente más fuertemente que en el núcleo de Daniell no modificado. Cuando suavizamos un periodograma, estamos suavizando un intervalo de frecuencia en lugar de un intervalo de tiempo. Recuerde que el periodograma se determina en las frecuencias fundamentales j j / n para j 1, 2,, n / 2. Sea I (j) el valor del periodograma a la frecuencia j j / n. Cuando usamos un kernel de Daniell con el parámetro m para suavizar un periodograma, el valor suavizado (hat (omegaj)) es un promedio ponderado de los valores del periodograma para las frecuencias en el rango (j-m) / n a (jm) / n. Hay valores de frecuencia fundamental L 2 m 1 en el rango (j-m) / n a (jm) / n. La gama de valores utilizados para suavizar. El ancho de banda para el periodograma suavizado se define como: El ancho de banda es una medida de la anchura del intervalo de frecuencias utilizado para suavizar el periodograma. Cuando se usan pesos desiguales en el suavizado, se modifica la definición de ancho de banda. Denotar el valor del periodograma suavizado en j j / n como hat (omegaj) sum hk I left (omegaj frac right). Los hk son los pesos posiblemente desiguales utilizados en el alisado. La fórmula de ancho de banda se modifica en realidad, esta fórmula funciona igual para pesos iguales. El ancho de banda debe ser suficiente para suavizar nuestra estimación, pero si usamos un ancho de banda que es demasiado grande, bien suavizar el periodograma demasiado y no ver picos importantes. En la práctica, por lo general se necesita una cierta experimentación para encontrar el ancho de banda que proporciona un suavizado adecuado. El ancho de banda se controla predominantemente por el número de valores que se promedian en el suavizado. En otras palabras, el parámetro m para el kernel de Daniell y si el núcleo es convoluto (repetido) afectan el ancho de banda. Nota: Los anchos de banda de los informes R con sus gráficos no coinciden con los valores que se calcularían utilizando las fórmulas anteriores. Véase la nota a pie de página p. 197 de su texto para una explicación. El promedio / suavizado del periodograma con un kernel Daniell se puede lograr en R usando una secuencia de dos órdenes. El primero define un núcleo de Daniell y el segundo crea el periodograma suavizado. Por ejemplo, supongamos que la serie observada se denomina xy deseamos suavizar el periodograma usando un núcleo de Daniell con m 4. Los comandos son k kernel (daniell, 4) spec. pgram (x, k, taper0, log no) El primer comando crea los coeficientes de ponderación necesarios para el suavizado y los almacena en un vector denominado k. (Su arbitrario para llamarlo k. Se podría llamar cualquier cosa.) El segundo comando pide una estimación de densidad espectral basado en el periodograma para la serie x. Utilizando los coeficientes de ponderación almacenados en k, sin conicidad, y la gráfica será a escala ordinaria, no a escala logarítmica. Si se desea una convolución, el comando kernel podría modificarse a algo como k kernel (daniell, c (4,4)). Hay dos maneras posibles de lograr un kernel de Daniell modificado. Puede cambiar el comando kernel para referirse a modified. daniell en vez de daniell o puede saltarse usando el comando kernel y usar un parámetro spans en el comando spec. pgram. El parámetro spans proporciona la longitud (2 m 1) del núcleo de Daniell modificado deseado. Por ejemplo, un núcleo de Daniell modificado con m 4 tiene longitud L 2 m 1 9 así que podríamos usar el comando spec. pgram (x, spans9, taper 0, logno) Dos pasadas de un kernel de Daniell modificado con m 4 en cada paso Puede hacerse usando spec. pgram (x, spansc (9,9), conicidad 0, logno) Ejemplo. Este ejemplo utilizará la serie de reclutamiento de peces que se usa en varios lugares del texto, incluyendo varios lugares en el capítulo 4. La serie consta de 453 valores mensuales de una medida de una población de peces en una ubicación en el hemisferio sur. Los datos están en el archivo recruit. dat. El periodograma en bruto se puede crear usando el comando (o podría crearse usando el método dado en la Lección 6). Spec. pgram (x, taper0, logno) Tenga en cuenta que en el comando recién dado hemos omitido el parámetro que da pesos para suavizado. El periodograma en bruto sigue: El siguiente diagrama es un periodograma suavizado usando un núcleo de Daniell con m 4. Obsérvese que un efecto del suavizado es que el pico dominante en la versión sin suavizar es ahora el segundo pico más alto. Esto sucedió porque el pico está tan claramente definido en la versión sin pulir que cuando la media con unos cuantos valores circundantes la altura se reduce. La siguiente gráfica es un periodograma suavizado usando dos pasadas de un núcleo de Daniell con m 4 en cada paso. Observe cómo es aún más suavizado que previamente. Para saber dónde se encuentran los dos picos dominantes, asigne un nombre a la salida spec. pgram y, a continuación, puede enumerarla. Por ejemplo, specvalues ​​spec. pgram (x, k, taper0, logno) specvalues ​​Usted puede tamizar a través de la salida para encontrar las frecuencias en las cuales ocurren los picos. Las frecuencias y estimaciones de densidad espectral se enumeran por separado, pero en el mismo orden. Identifique las densidades espectrales máximas y luego encuentre las frecuencias correspondientes. Aquí, el primer pico está en una frecuencia .0229. El período (número de meses) asociado con este ciclo 1 / .0229 43,7 meses, o aproximadamente 44 meses. El segundo pico se produce a una frecuencia de 0,083333. El período asociado 1 / .08333 12 meses. El primer pico se asocia con un efecto del tiempo de El Niño. El segundo es el habitual efecto estacional de 12 meses. Estos dos comandos colocarán líneas punteadas verticales en el diagrama de densidad espectral (estimado) en las localizaciones aproximadas de las densidades máximas. Abline (v1 / 44, ltydotted) abline (v1 / 12, lty punteado) Aquí está el diagrama resultante: Hemos suavizado lo suficiente, pero para propósitos de demostración, la siguiente parcela es el resultado de spec. pgram (x, spansc (13,13) , Taper0, logno) Utiliza dos pasadas de un núcleo de Daniell modificado con longitud L 13 (así que m 6) cada vez. La trama es un poco más suave, pero no por mucho. Los picos, por cierto, están exactamente en los mismos lugares que en la parcela inmediatamente superior. Es definitivamente posible suavizar demasiado. Supongamos que debemos utilizar un núcleo de Daniell modificado de longitud total 73 (m 36). El comando es spec. pgram (x, spans73, taper0, logno) El resultado sigue. Los picos se han ido. Estimación paramétrica de la densidad espectral El método de suavizado de la estimación de la densidad espectral se denomina método no paramétrico porque no utiliza ningún modelo paramétrico para el proceso de la serie temporal subyacente. Un método alternativo es un método paramétrico que implica encontrar el mejor modelo de AR para la serie y luego trazar la densidad espectral de ese modelo. Este método está apoyado por un teorema que dice que la densidad espectral de cualquier proceso de series temporales puede ser aproximada por la densidad espectral de un modelo AR (de algún orden, posiblemente alto). En R, la estimación paramétrica de la densidad espectral se realiza fácilmente con el comando / función spec. ar. Un comando como spec. ar (x, logno) hará que R haga todo el trabajo. Nuevamente, para identificar picos podemos asignar un nombre a los resultados spec. ar haciendo algo como specvaluesspec. ar (x, log no). Para el ejemplo de reclutamiento de peces, la siguiente gráfica es el resultado. Obsérvese que la densidad trazada es la de un modelo AR (13). Ciertamente podemos encontrar más parsimonious ARIMA modelos para estos datos. Sólo se utiliza la densidad espectral de ese modelo para aproximar la densidad espectral de las series observadas. La aparición de la densidad espectral estimada es aproximadamente la misma que antes. El pico estimado de El Niño se encuentra en un lugar ligeramente diferente, la frecuencia es de aproximadamente 0,024 para un ciclo de aproximadamente 1 / .024 aproximadamente 42 meses. Una serie debe ser de-tendencia antes de un análisis espectral. Una tendencia causará una densidad espectral tan dominante a una frecuencia baja que otros picos no serán vistos. De forma predeterminada, el comando spec. pgram R realiza una de-tendencias usando un modelo de tendencia lineal. Es decir, la densidad espectral se estima utilizando los residuos de una regresión hecha donde la variable y los datos observados y la variable x t. Si existe un tipo diferente de tendencia, una cuadrática por ejemplo, entonces se podría usar una regresión polinómica para desvirtuar los datos antes de explorar la densidad espectral estimada. Tenga en cuenta, sin embargo, que el comando R spec. ar. Sin embargo no realiza un de-trending por defecto. Aplicación de Smoothers a datos brutos Tenga en cuenta que los suavizadores descritos aquí también podrían aplicarse a datos sin procesar. El núcleo de Daniell y sus modificaciones son sencillamente medios lisos de media móvil (o media móvil ponderada). Navegación

No comments:

Post a Comment