Union Europea
 
Que es el CIOMTA
Proyectos
Eventos
Prensa y Difusión
Banco de Datos
Resultados de Investigaciones
Contactenos


ANALISIS SERIES HISTORICAS

ANÁLISIS DE MÉTODOS DE VALIDACIÓN DE LA CALIDAD DE LOS DATOS METEOROLÓGICOS

Objetivos y generalidades

El objetivo final es asociar a cada dato archivado un código (flag) que certifique su validez o la sospecha de dato errado o anómalo basado en el control efectuado.

Para este fin se ha tomado de la bibliografía analizada algunos métodos que responden satisfactoriamente a este objetivo. Se detallan brevemente los que han sido adoptados para cuantificar el análisis preliminar ya realizado en forma cualitativa.

En la existencia de valores anómalos mucho tiene que ver la ubicación de la estación meteorológica su buena disposición, las condiciones que la rodean, su mantenimiento, la forma de realizar los relevamientos o mediciones y por supuesto las características intrínsecas de los sensores.

También se presentan errores que se pueden verificar en el momento de la elaboración y archivado de los datos, durante la operación de transcripción, copia, digitalización, transmisión codificación y su inserción en la base de datos.

El observador de la estación tiene un rol importantísimo en la calidad de los datos, ya que en función de su experiencia y del conocimiento de la fenomenología meteorológica del lugar puede verificar instantáneamente la certeza del dato. De todas maneras pueden ocurrir errores accidentales, errores sistemáticos debidos al procedimiento operativo.

La validación del dato puede realizarse a diferentes niveles con diferentes algoritmos o procedimientos. El control de calidad incluye procedimientos desde los más simples a aquellos que son más complejos.


Descripción de los Métodos

El control de calidad de los datos meteorológicos tiende a verificar sustancialmente tres condiciones:

1.- la consistencia interna

2.- la persistencia temporal

3.- la consistencia espacial


1.- Verificación de la consistencia interna (interanual)

Se puede asumir que un dato meteorológico determinado en cierto lugar y tiempo es función de las características ambientales y estacionales. Esto varía normalmente dentro de un rango de valores fuera del cual se puede decir que el dato es anómalo.

La elección del valor límite con el cual confrontar cada dato es importante a la hora de decidir sobre la exactitud del mismo.

Para una dada variable meteorológica (X) en examen, se calcula la media móvil de orden 31 con el fin de obtener una estimación robusta y no distorsionada de la misma:

xi media móvil de orden 31 para cada día del año (1……..365) y para cada año de la serie, es decir se consideran todos los datos.

N: cantidad de años de la serie

d: día del año en consideración


Se estima el desvío estándar de esa media móvil para cada día y entonces las mediciones cuya dispersión en valor absoluto sean mayores de tres veces este desvío calculado se consideran sospechosas:

Para el caso del control de la precipitación el proceso es algo más complicado ya que debe realizarse en forma indirecta a través de la temperatura, esto debido a que la distribución de la lluvia es altamente asimétrica lo que no permitiría realizar los controles basados en el supuesto de distribución normal de los datos.

Entonces una vez realizado el control completo sobre los datos de temperatura se procede con los de lluvia. Para esto deben considerarse dos grupos de días los lluviosos y los no lluviosos.

Se obtiene entonces la media y la desviación estándar de la variación térmica de cada uno de estos tipos de días. Luego para determinar el carácter de anómalo de un dato se considera otra vez la categoría del día y algunas condiciones a cumplir en cuanto a la temperatura:

Si el día en análisis es no lluvioso:

a- temperatura máxima del día menor a la del día anterior.
b- temperatura mínima del día mayor a la del día anterior.
c- la variación térmica del día es menor a la media antes calculada menos tres veces el desvío.

Si el día en análisis es lluvioso:

a- temperatura máxima del día mayor a la del día anterior
b- temperatura mínima del día menor a la del día anterior.
c- Variación térmica del día mayor a la media ya obtenida menos tres veces el desvío.


2.- Verificación de la consistencia temporal

Este tipo de verificación permite evidenciar eventuales anomalías entre datos temporalmente contiguos y se basa en la hipótesis que el cambio en el tiempo de las mediciones de la variable meteorológica no puede superar determinados límites.

La eficacia del control depende del valor umbral elegido para confrontar la dispersión o alejamiento temporal entre las mediciones; es decir su ajuste a la condición específica local.

Algunos criterios utilizados para esta verificación son:

a-Variación respecto al valor precedente:

Se confronta la diferencia entre dos valores sucesivos con el valor umbral. El dato será sospechoso si esta diferencia supera al valor límite


b- Comparación con la climatología de la diferencia de un día con el siguiente:

Se calcula la media climática de la diferencia entre dos intervalos consecutivos (días) como media móvil de orden 31 a fin de obtener una estimación robusta y sin distorsión:

media móvil interanual de la diferencia de la variable meteorológica x entre dos días consecutivos para el día i, año y ; d día del año considerado.

Se obtiene la desviación estándar de esta media móvil para cada día del año de toda la serie.

Este último criterio es el adoptado, entonces se consideran sospechosos los datos con diferencias respecto al valor precedente mayor en valor absoluto a tres veces el desvío:

Como en el caso anterior para verificar la calidad de los datos de precipitación se lo hace a través de la variabilidad térmica entre dos días consecutivos. Para esto ahora se deberán considerar tres grupos de días:

1- dos días consecutivos de lluvia (p)
2- dos días consecutivos no lluviosos (np)
3- dos días consecutivos uno de cada clase (pnp)

Entonces se realiza el análisis para cada uno de estos grupos y se determina la condición de anómalo o no de los datos.

La consideración de dato anómalo se dará para cada uno de los grupos si se dan las siguientes condiciones:

Dos días consecutivos de lluvia:

Dos días consecutivos no lluviosos:

Dos días consecutivos uno de lluvia y el otro no:

3.- Verificación de la consistencia espacial:

La comparación de datos en puntos diversos del dominio espacial representa uno de los métodos más frecuentemente utilizados para determinar la eventual presencia de errores en los datos.

Uno de los problemas de estos métodos es la elección de la estación con la cual confrontar los datos a controlar. Además de pertenecer a una condición climática común es necesario individualizar el procedimiento concreto para seleccionar la más oportuna de las estaciones entre todas las disponibles en la red.

Un primer criterio es comparar con la más cercana, esto no es una garantía para ver la correspondencia en los datos pero se puede iniciar así. De hecho este procedimiento fue el implementado inicialmente por nosotros.

Un segundo criterio es correlacionar la estación a controlar con otras. La que tiene mayor correlación será la que se use para confrontarla; esto tampoco es una seguridad ya que los montos precipitados pueden ser múltiplos y entonces la correlación resulta espuria.


a- Buddy Checking

Es un método simple de aplicar. Se calculan las medias mensuales de la estación a controlar K y la estación J usada para el control.

Para el día i se calcula el desvío respecto a la media mensual de cada una.

Se obtiene luego la diferencia entre ellos y entonces el dato será considerado sospechoso si ? es mayor o igual a algún valor límite prefijado de antemano en función de las características climáticas de la región.


b- Control areal para regiones pequeñas

Para una región pequeña homogénea climatológicamente se usan los datos de todas las estaciones.

Para cada estación del área, “j” se tiene la media mensual, luego para el día “i” se calcula la media de los desvíos respecto a la media mensual respectiva para todas las estaciones del área (a excepción de la estación K bajo control). Luego se calcula la desviación estándar de esta media y para el día i para la estación k se calcula el desvío respecto a la media mensual respectiva Xk. Se calcula la diferencia absoluta entre el desvío de la estación k y la media de los desvíos de todas las otras estaciones:

se señalan como valores sospechosos a aquellos en que ? supera los valores límites predefinidos para cada variable.

c- Comparación de la variabilidad meteorológica de estaciones cercanas

El método se apoya en el simple principio que una variación registrada cerca de una estación deberá ser registrada en intensidad y signo similar también en las estaciones cercanas.

Si se tienen M estaciones cercanas utilizables para el control de la estación k este procedimiento se realiza haciendo la media M de la variación en todas las estaciones vecinas y confrontando la desviación entre esta media y la variación k registrada en la estación k en el mismo período. Un valor será considerado sospechoso si se da la siguiente relación esa desviación supera un valor límite preestablecido.


d-Comparación con la climatología de la diferencia de mediciones entre estaciones cercanas

Se calcula la media móvil de orden 31 de la diferencia entre la estación que se controla K y las restantes 1………M:

media de la diferencia entre el dato i de la estación a controlar K y las estaciones vecinas para ese mismo día i. Se obtiene la desviación estándar de esta media de cada día i del año.

Se considera como sospechoso al dato si la media de la diferencia en valor absoluto entre los datos medidos por la estación bajo control y el de las vecinas, superan la media climatológica más 3 veces el desvío:

Este fue el criterio adoptado para evaluar la consistencia espacial.

Como resultado del control efectuado, cada dato posee una marca: si dos o más de los métodos le asignaron un código de sospechoso entonces el dato fue marcado como erróneo y fue rellenado posteriormente al igual que los datos faltantes originalmente.


ANÁLISIS DE MÉTODOS DE RELLENAMIENTO

Existen algunos métodos de rellenamiento de series que utilizan el concepto de variable regionalizada y estructura de correlación por lo que es posible adoptar los registros de estaciones vecinas en el proceso de rellenamiento.

Dependiendo de cual es la variable a completar, los métodos son levemente diferentes ya que por ejemplo la precipitación tiene una distribución asimétrica, por lo que los métodos basados en datos normales no son aplicables directamente.

Se mencionan los métodos analizados, posteriormente se seleccionó uno de ellos como método de completado definitivo:

Método basado en la regresión

Se realiza la regresión de los datos previamente estandarizados entre la estación a completar y las más cercanas.

Se generan los datos faltantes usando las relaciones de las estaciones que poseen mayor correlación con la estación incompleta. Para esto se utilizan los coeficientes de la regresión y el coeficiente de correlación.


Basado en regresiones múltiples

Para cada dato faltante se hace una regresión múltiple entre el dato de la estación incompleta y el dato de la estación que presenta esta variable en el mismo día. Se eligen datos de varios años en una extensión de más o menos 5 días. Esto es variable dependiendo de la naturaleza de los datos a completar.

Generación de lluvia

El caso de la precipitación es especial ya que como se ha mencionado sus propiedades estadísticas son muy particulares y su distribución espacial y temporal muy variable.

La particularidad es que se deben considerar los días como de lluvia si la cantidad supera el valor definido arealmente para día lluvioso o día seco en caso contrario. Normalmente se asigna un 1 al día lluvioso y 0 al seco.

Una vez hecho esto se obtiene el coeficiente de correlación entre la estación a completar y las restantes tomando para eso una secuencia de días respecto al día a completar de más menos 15 días.

Se realiza una media ponderada del dato binario de todas las estaciones que tiene dato ese día y que poseen un coeficiente de correlación alto. Esto permite obtener la probabilidad de día de lluvia. Si este valor es mayor de 0.5 el día se considera lluvioso y entonces para generar la cantidad de lluvia se realiza una regresión múltiple entre los datos (previamente estandarizados) de la estación a completar y las restantes. Lo ideal es tomar ±45 días respecto al día a rellenar.

n: número de estaciones a considerar

B: dato binario (0,1)

r: coeficiente de correlación

P probabilidad de que el día sea de lluvia o no.


Sobre esta base se realizaron las rutinas correspondientes, se implementaron en una o dos estaciones alguno de estos métodos y luego se determinó su bondad como método de rellenamiento.

Diagnóstico Definitivo de Datos Meteorológico

Se han sistematizado convenientemente los métodos de validación y rellenamiento de datos meteorológicos con el diseño de un sistema específico el cual implementa el control de calidad y rellenamiento de datos meteorológicos correspondiente a las series históricas de aproximadamente 30 años pertenecientes a estaciones del INTA y SMN, para las variables temperatura (máxima y mínima), precipitación y radiación. El objetivo era lograr series históricas continuas y confiables para poder aplicar los modelos agronómicos, realizar estudios estadísticos, y tenerlas disponibles para otros organismos.
En el proceso de rellenado de las series (generación de datos faltantes y/o anómalos) es necesario cumplir con algunas premisas, para no variar su distribución resultante, obteniendo de esta forma series con datos observados y estimados. Estas condiciones, son las que han impedido en algunos casos realizar el rellenamiento de los datos, por ejemplo la cantidad de datos faltantes consecutivos no puede superar 30, 60 o 90 días dependiendo de la variable (precipitación, temperatura mínima y temperatura máxima respectivamente), y además deben existir como mínimo tres estaciones vecinas completas en sus series de datos con un rango de años superior a doce años.

Dentro del área de estudio del proyecto se han definido, en principio, siete zonas climáticamente homogéneas, para las cuales se identifica por estación el rango continuo de años de su serie histórica:

 
Zona Provincia Estacion Origen Rangos Continuos
Zona 1 Santa Fe Ceres SMN 1971-1994 1997-2003
    El Trébol SMN 1990-2003
    Oliveros INTA 1971-2003
    Rafaela INTA 1971-2003
    Rosario SMN 1971-2003
    Sauce Viejo SMN 1971-2003
  Buenos Aires Castelar SMN 1971-2003
  Córdoba Laboulage SMN 1971-2003
Zona 2 Entre Ríos Concepción del Uruguay INTA 1971-2003
    Concordia INTA 1971-1993
    Concordia Aero SMN 1971-2003
    Gualeguaychú SMN 1971-2003
    Paraná INTA 1971-2003
    Paraná Aero SMN 1971-2003
  Corrientes Curuzú Cuatiá SMN 1978-1986 1988-1998
    Monte Caseros SMN 1971-2003
    Paso de los Libres SMN 1971-2003
Zona 3 Corrientes Bella Vista INTA 1971-1987
    Corrientes INTA 1971-1992
    Corrientes Aero SMN 1971-2003
  Chaco El Colorado INTA 1971-1994
    Colonia Benitez INTA 1971-2003
    Las Breñas INTA 1971-1989
    Pte. R. S. Peña INTA 1971-1997
    Pte. R. S. Peña Aero SMN 1971-2003
    Resistencia SMN 1971-1989 1991-2003
  Santa Fe Reconquista INTA 1971-2002
    Reconquista Aero SMN 1971-2003
  Formosa Las Lomitas SMN 1971-1990 1992-2003
Zona 4 Misiones Bernardo de Irigoyen SMN 1988-2003
    Cerro Azul INTA 1971-2003
    iguazú SMN 1971-1984 1986-2003
    Oberá SMN 1971-1989 1991-2003
    Posadas SMN 1971-2003
  Formosa Formosa SMN 1971-2003
  Corrientes Ituzaingo SMN 1971-2003 Sin rellenar
    Mercedes INTA 1971-1988
Zona 5 Córdoba Córdoba Aero SMN 1971-2003
    Manfredi INTA 1971-2003
    Marcos Juarez INTA 1971-2003
    Marcos Juarez Aero SMN 1971-2003
    Pilar Obs. SMN 1971-2003
    Rio Cuarto SMN 1971-2003
    Villa Dolores Aero SMN 1971-2003
    Villa María del Río Seco SMN 1971-1989 1991-2003
Zona 6 Santiago del Estero Famaillá INTA 1971-1992
    La Banda INTA 1971-1987
    Santiago del Estero SMN 1971-1992
    La María INTA 1995-2000
  Tucumán Tucumán Aero SMN 1971-2000
Zona 7 Salta Salta SMN 1971-2003 Sin rellenar
    Orán SMN 1974-2003 Sin rellenar
    Tartagal SMN 1975-2000 Sin rellenar


Agradecemos a las instituciones que nos brindaron las Series de Datos Históricas en rangos de 30 años, desde 1971 al 2003. Las mismas constituyen las bases para realizar análisis estadísticos consistentes, con el fin de evaluar si en los últimos años existe variabilidad significativa en las series analizadas.
Dadas las condiciones o requerimientos para realizar el control de calidad de los datos meteorológicos, se dispone de cinco zonas con tres o más estaciones, en las que se aplicaron los métodos detallados anteriormente. Estas zonas con mayor densidad de estaciones y cantidad de años posibilitan la aplicación del modelo de simulación de rendimiento de cultivos CROPSYS, el cual es sensible a los parámetros meteorológicos.

 


Universidad Católica -  Santa Fe Associoazione Volontari per il Servizio Internazionale Asociación Cultural para el Desarrollo Integral
www.ciomta.com.ar