ANALISIS SERIES HISTORICAS
ANÁLISIS
DE MÉTODOS DE VALIDACIÓN DE LA CALIDAD DE LOS DATOS
METEOROLÓGICOS
Objetivos
y generalidades
El objetivo final es asociar a cada dato archivado un código
(flag) que certifique su validez o la sospecha de dato errado
o anómalo basado en el control efectuado.
Para este fin se ha tomado de
la bibliografía analizada algunos métodos que responden
satisfactoriamente a este objetivo. Se detallan brevemente los
que han sido adoptados para cuantificar el análisis preliminar
ya realizado en forma cualitativa.
En la existencia de valores anómalos
mucho tiene que ver la ubicación de la estación
meteorológica su buena disposición, las condiciones
que la rodean, su mantenimiento, la forma de realizar los relevamientos
o mediciones y por supuesto las características intrínsecas
de los sensores.
También se presentan
errores que se pueden verificar en el momento de la elaboración
y archivado de los datos, durante la operación de transcripción,
copia, digitalización, transmisión codificación
y su inserción en la base de datos.
El observador de la estación
tiene un rol importantísimo en la calidad de los datos,
ya que en función de su experiencia y del conocimiento
de la fenomenología meteorológica del lugar puede
verificar instantáneamente la certeza del dato. De todas
maneras pueden ocurrir errores accidentales, errores sistemáticos
debidos al procedimiento operativo.
La validación del dato
puede realizarse a diferentes niveles con diferentes algoritmos
o procedimientos. El control de calidad incluye procedimientos
desde los más simples a aquellos que son más complejos.
Descripción de los Métodos
El control de calidad de los datos meteorológicos
tiende a verificar sustancialmente tres condiciones:
1.- la consistencia interna
2.- la persistencia temporal
3.- la consistencia espacial
1.- Verificación de la consistencia interna (interanual)
Se puede asumir que un dato meteorológico
determinado en cierto lugar y tiempo es función de las
características ambientales y estacionales. Esto varía
normalmente dentro de un rango de valores fuera del cual se puede
decir que el dato es anómalo.
La elección del valor
límite con el cual confrontar cada dato es importante a
la hora de decidir sobre la exactitud del mismo.
Para una dada variable meteorológica
(X) en examen, se calcula la media móvil de orden 31 con
el fin de obtener una estimación robusta y no distorsionada
de la misma:

xi media móvil de orden
31 para cada día del año (1……..365)
y para cada año de la serie, es decir se consideran todos
los datos.
N: cantidad de años de la serie
d: día del año en consideración
Se estima el desvío estándar de esa media móvil
para cada día y entonces las mediciones cuya dispersión
en valor absoluto sean mayores de tres veces este desvío
calculado se consideran sospechosas:

Para el caso del control de la
precipitación el proceso es algo más
complicado ya que debe realizarse en forma indirecta a través
de la temperatura, esto debido a que la distribución de
la lluvia es altamente asimétrica lo que no permitiría
realizar los controles basados en el supuesto de distribución
normal de los datos.
Entonces una vez realizado el
control completo sobre los datos de temperatura se procede con
los de lluvia. Para esto deben considerarse dos grupos de días
los lluviosos y los no lluviosos.
Se obtiene entonces la media
y la desviación estándar de la variación
térmica de cada uno de estos tipos de días. Luego
para determinar el carácter de anómalo de un dato
se considera otra vez la categoría del día y algunas
condiciones a cumplir en cuanto a la temperatura:
Si el día en análisis
es no lluvioso:
a- temperatura máxima
del día menor a la del día anterior.
b- temperatura mínima del día mayor a la del día
anterior.
c- la variación térmica del día es menor
a la media antes calculada menos tres veces el desvío.
Si el día en análisis
es lluvioso:
a- temperatura máxima
del día mayor a la del día anterior
b- temperatura mínima del día menor a la del día
anterior.
c- Variación térmica del día mayor a la media
ya obtenida menos tres veces el desvío.
2.- Verificación de la consistencia temporal
Este tipo de verificación
permite evidenciar eventuales anomalías entre datos temporalmente
contiguos y se basa en la hipótesis que el cambio en el
tiempo de las mediciones de la variable meteorológica no
puede superar determinados límites.
La eficacia del control depende
del valor umbral elegido para confrontar la dispersión
o alejamiento temporal entre las mediciones; es decir su ajuste
a la condición específica local.
Algunos criterios
utilizados para esta verificación son:
a-Variación respecto
al valor precedente:
Se confronta la diferencia entre
dos valores sucesivos con el valor umbral. El dato será
sospechoso si esta diferencia supera al valor límite
b- Comparación con la climatología de la diferencia
de un día con el siguiente:
Se calcula la media climática
de la diferencia entre dos intervalos consecutivos (días)
como media móvil de orden 31 a fin de obtener una estimación
robusta y sin distorsión:

media
móvil interanual de la diferencia de la variable meteorológica
x entre dos días consecutivos para el día i, año
y ; d día del año considerado.
Se obtiene la desviación
estándar de esta media móvil para cada día
del año de toda la serie.
Este último criterio
es el adoptado, entonces se consideran sospechosos los datos con
diferencias respecto al valor precedente mayor en valor absoluto
a tres veces el desvío:

Como en el caso anterior
para verificar la calidad de los datos de precipitación
se lo hace a través de la variabilidad térmica entre
dos días consecutivos. Para esto ahora se deberán
considerar tres grupos de días:
1- dos días consecutivos
de lluvia (p)
2- dos días consecutivos no lluviosos (np)
3- dos días consecutivos uno de cada clase (pnp)
Entonces se realiza el análisis
para cada uno de estos grupos y se determina la condición
de anómalo o no de los datos.
La consideración de dato
anómalo se dará para cada uno de los grupos si se
dan las siguientes condiciones:
Dos días consecutivos de lluvia:

Dos días consecutivos
no lluviosos:

Dos días consecutivos
uno de lluvia y el otro no:

3.- Verificación
de la consistencia espacial:
La comparación de datos
en puntos diversos del dominio espacial representa uno de los
métodos más frecuentemente utilizados para determinar
la eventual presencia de errores en los datos.
Uno de los problemas de estos
métodos es la elección de la estación con
la cual confrontar los datos a controlar. Además de pertenecer
a una condición climática común es necesario
individualizar el procedimiento concreto para seleccionar la más
oportuna de las estaciones entre todas las disponibles en la red.
Un primer criterio es
comparar con la más cercana, esto no es una garantía
para ver la correspondencia en los datos pero se puede iniciar
así. De hecho este procedimiento fue el implementado inicialmente
por nosotros.
Un segundo criterio
es correlacionar la estación a controlar con otras. La
que tiene mayor correlación será la que se use para
confrontarla; esto tampoco es una seguridad ya que los montos
precipitados pueden ser múltiplos y entonces la correlación
resulta espuria.
a- Buddy Checking
Es un método simple de
aplicar. Se calculan las medias mensuales de la estación
a controlar K y la estación J usada para el control.
Para el día i se calcula
el desvío respecto a la media mensual de cada una.
Se obtiene luego la diferencia
entre ellos y entonces el dato será considerado sospechoso
si ? es mayor o igual a algún valor límite prefijado
de antemano en función de las características climáticas
de la región.
b- Control areal para regiones pequeñas
Para una región pequeña
homogénea climatológicamente se usan los
datos de todas las estaciones.
Para cada estación del
área, “j” se tiene la media mensual, luego
para el día “i” se calcula la media de los
desvíos respecto a la media mensual respectiva para todas
las estaciones del área (a excepción de la estación
K bajo control). Luego se calcula la desviación estándar
de esta media y para el día i para la estación k
se calcula el desvío respecto a la media mensual respectiva
Xk. Se calcula la diferencia absoluta entre el desvío
de la estación k y la media de los desvíos de todas
las otras estaciones:

se señalan como valores
sospechosos a aquellos en que ? supera los valores límites
predefinidos para cada variable.
c- Comparación
de la variabilidad meteorológica de estaciones cercanas
El método se apoya en
el simple principio que una variación
registrada cerca de una estación deberá ser registrada
en intensidad y signo similar también en las estaciones
cercanas.
Si se tienen M estaciones cercanas
utilizables para el control de la estación k este procedimiento
se realiza haciendo la media M de la variación en todas
las estaciones vecinas y confrontando la desviación entre
esta media y la variación k registrada en la estación
k en el mismo período. Un valor será considerado
sospechoso si se da la siguiente relación esa desviación
supera un valor límite preestablecido.
d-Comparación con la climatología de la diferencia
de mediciones entre estaciones cercanas
Se calcula la media móvil
de orden 31 de la diferencia entre la estación que se controla
K y las restantes 1………M:

media de la diferencia entre
el dato i de la estación a controlar K y las estaciones
vecinas para ese mismo día i. Se obtiene la desviación
estándar de esta media de cada día i del año.
Se considera como sospechoso
al dato si la media de la diferencia en valor absoluto entre los
datos medidos por la estación bajo control y el de las
vecinas, superan la media climatológica más 3 veces
el desvío:

Este fue el criterio adoptado
para evaluar la consistencia espacial.
Como resultado del control efectuado,
cada dato posee una marca: si dos o más de los métodos
le asignaron un código de sospechoso entonces el dato fue
marcado como erróneo y fue rellenado posteriormente al
igual que los datos faltantes originalmente.
ANÁLISIS DE MÉTODOS DE RELLENAMIENTO
Existen algunos métodos
de rellenamiento de series que utilizan el concepto de variable
regionalizada y estructura de correlación por lo que es
posible adoptar los registros de estaciones vecinas en el proceso
de rellenamiento.
Dependiendo de cual es la variable
a completar, los métodos son levemente diferentes ya que
por ejemplo la precipitación tiene una distribución
asimétrica, por lo que los métodos basados en datos
normales no son aplicables directamente.
Se mencionan los métodos
analizados, posteriormente se seleccionó uno de ellos como
método de completado definitivo:
Método basado en la regresión
Se realiza la regresión
de los datos previamente estandarizados entre la estación
a completar y las más cercanas.
Se generan los datos faltantes
usando las relaciones de las estaciones que poseen mayor correlación
con la estación incompleta. Para esto se utilizan los coeficientes
de la regresión y el coeficiente de correlación.
Basado en regresiones múltiples
Para cada dato faltante se hace
una regresión múltiple entre el dato de la estación
incompleta y el dato de la estación que presenta esta variable
en el mismo día. Se eligen datos de varios años
en una extensión de más o menos 5 días. Esto
es variable dependiendo de la naturaleza de los datos a completar.
Generación de
lluvia
El caso de la precipitación
es especial ya que como se ha mencionado sus propiedades estadísticas
son muy particulares y su distribución espacial y temporal
muy variable.
La particularidad es que se deben
considerar los días como de lluvia si la cantidad supera
el valor definido arealmente para día lluvioso o día
seco en caso contrario. Normalmente se asigna un 1 al día
lluvioso y 0 al seco.
Una vez hecho esto se obtiene
el coeficiente de correlación entre la estación
a completar y las restantes tomando para eso una secuencia de
días respecto al día a completar de más menos
15 días.
Se realiza una media ponderada
del dato binario de todas las estaciones que tiene dato ese día
y que poseen un coeficiente de correlación alto. Esto permite
obtener la probabilidad de día de lluvia. Si este valor
es mayor de 0.5 el día se considera lluvioso y entonces
para generar la cantidad de lluvia se realiza una regresión
múltiple entre los datos (previamente estandarizados) de
la estación a completar y las restantes. Lo ideal es tomar
±45 días respecto al día a rellenar.

n: número de estaciones
a considerar
B: dato binario (0,1)
r: coeficiente de correlación
P probabilidad de que el día sea de lluvia
o no.
Sobre esta base se realizaron las rutinas correspondientes, se
implementaron en una o dos estaciones alguno de estos métodos
y luego se determinó su bondad como método de rellenamiento.
Diagnóstico
Definitivo de Datos Meteorológico
Se han sistematizado convenientemente los métodos
de validación y rellenamiento de datos meteorológicos
con el diseño de un sistema específico el cual implementa
el control de calidad y rellenamiento de datos meteorológicos
correspondient
e
a las series históricas de aproximadamente 30 años
pertenecientes a estaciones del INTA y SMN, para las variables
temperatura (máxima y mínima), precipitación
y radiación. El objetivo era lograr series históricas
continuas y confiables para poder aplicar los modelos agronómicos,
realizar estudios estadísticos, y tenerlas disponibles
para otros organismos.
En el proceso de rellenado de las series (generación de
datos faltantes y/o anómalos) es necesario cumplir con
algunas premisas, para no variar su distribución resultante,
obteniendo de esta forma series con datos observados y estimados.
Estas condiciones, son las que han impedido en algunos casos realizar
el rellenamiento de los datos, por ejemplo la cantidad de datos
faltantes consecutivos no puede superar
30, 60 o 90 días dependiendo de la variable (precipitación,
temperatura mínima y temperatura máxima respectivamente),
y además deben existir como mínimo tres estaciones
vecinas completas en sus series de datos con un rango de años
superior a doce años.
Dentro del área de estudio del proyecto
se han definido, en principio, siete zonas climáticamente
homogéneas, para las cuales se identifica por estación
el rango continuo de años de su serie histórica:
| Zona |
Provincia |
Estacion |
Origen |
Rangos Continuos |
| Zona 1 |
Santa Fe |
Ceres |
SMN |
1971-1994 1997-2003 |
| |
|
El Trébol |
SMN |
1990-2003 |
| |
|
Oliveros |
INTA |
1971-2003 |
| |
|
Rafaela |
INTA |
1971-2003 |
| |
|
Rosario |
SMN |
1971-2003 |
| |
|
Sauce Viejo |
SMN |
1971-2003 |
| |
Buenos Aires |
Castelar |
SMN |
1971-2003 |
| |
Córdoba |
Laboulage |
SMN |
1971-2003 |
| Zona 2 |
Entre Ríos |
Concepción del Uruguay |
INTA |
1971-2003 |
| |
|
Concordia |
INTA |
1971-1993 |
| |
|
Concordia Aero |
SMN |
1971-2003 |
| |
|
Gualeguaychú |
SMN |
1971-2003 |
| |
|
Paraná |
INTA |
1971-2003 |
| |
|
Paraná Aero |
SMN |
1971-2003 |
| |
Corrientes |
Curuzú Cuatiá |
SMN |
1978-1986 1988-1998 |
| |
|
Monte Caseros |
SMN |
1971-2003 |
| |
|
Paso de los Libres |
SMN |
1971-2003 |
| Zona 3 |
Corrientes |
Bella Vista |
INTA |
1971-1987 |
| |
|
Corrientes |
INTA |
1971-1992 |
| |
|
Corrientes Aero |
SMN |
1971-2003 |
| |
Chaco |
El Colorado |
INTA |
1971-1994 |
| |
|
Colonia Benitez |
INTA |
1971-2003 |
| |
|
Las Breñas |
INTA |
1971-1989 |
| |
|
Pte. R. S. Peña |
INTA |
1971-1997 |
| |
|
Pte. R. S. Peña Aero |
SMN |
1971-2003 |
| |
|
Resistencia |
SMN |
1971-1989 1991-2003 |
| |
Santa Fe |
Reconquista |
INTA |
1971-2002 |
| |
|
Reconquista Aero |
SMN |
1971-2003 |
| |
Formosa |
Las Lomitas |
SMN |
1971-1990 1992-2003 |
| Zona 4 |
Misiones |
Bernardo de Irigoyen |
SMN |
1988-2003 |
| |
|
Cerro Azul |
INTA |
1971-2003 |
| |
|
iguazú |
SMN |
1971-1984 1986-2003 |
| |
|
Oberá |
SMN |
1971-1989 1991-2003 |
| |
|
Posadas |
SMN |
1971-2003 |
| |
Formosa |
Formosa |
SMN |
1971-2003 |
| |
Corrientes |
Ituzaingo |
SMN |
1971-2003 Sin rellenar |
| |
|
Mercedes |
INTA |
1971-1988 |
| Zona 5 |
Córdoba |
Córdoba Aero |
SMN |
1971-2003 |
| |
|
Manfredi |
INTA |
1971-2003 |
| |
|
Marcos Juarez |
INTA |
1971-2003 |
| |
|
Marcos Juarez Aero |
SMN |
1971-2003 |
| |
|
Pilar Obs. |
SMN |
1971-2003 |
| |
|
Rio Cuarto |
SMN |
1971-2003 |
| |
|
Villa Dolores Aero |
SMN |
1971-2003 |
| |
|
Villa María del Río
Seco |
SMN |
1971-1989 1991-2003 |
| Zona 6 |
Santiago del Estero |
Famaillá |
INTA |
1971-1992 |
| |
|
La Banda |
INTA |
1971-1987 |
| |
|
Santiago del Estero |
SMN |
1971-1992 |
| |
|
La María |
INTA |
1995-2000 |
| |
Tucumán |
Tucumán Aero |
SMN |
1971-2000 |
| Zona 7 |
Salta |
Salta |
SMN |
1971-2003 Sin rellenar |
| |
|
Orán |
SMN |
1974-2003 Sin rellenar |
| |
|
Tartagal |
SMN |
1975-2000 Sin rellenar |
Agradecemos a las instituciones que nos
brindaron las Series de Datos Históricas en rangos de
30 años, desde 1971 al 2003. Las mismas constituyen las
bases para realizar análisis estadísticos consistentes,
con el fin de evaluar si en los últimos años existe
variabilidad significativa en las series analizadas.
Dadas las condiciones o requerimientos para realizar el control
de calidad de los datos meteorológicos, se dispone de
cinco zonas con tres o más estaciones, en las que se
aplicaron los métodos detallados anteriormente. Estas
zonas con mayor densidad de estaciones y cantidad de años
posibilitan la aplicación del modelo de simulación
de rendimiento de cultivos CROPSYS, el cual es sensible a los
parámetros meteorológicos.