Văduva Vlad-Andrei, Hrițu Toma Vlad, Bogdan Topliceanu
Stările
atmosferice sunt importante în simulările meteorologice și climatice, utilizate
pe scară largă de cercetători, factori de decizie politică și asiguratori
pentru a înțelege sistemul Pământului și a ghida deciziile. Dimensiunea enormă
a acestor date limitează accesul doar la grupurile bine finanțate. Pentru a rezolva
această problemă, este propusă o metodă de compresie bazată pe rețele
neuronale: adaptarea sferică a datelor la procesarea de către arhitecturile
neuronale convenționale prin utilizarea HEALPix care păstrează zona de
proiecție. Două modele de compresie neuronală, modelul hyperprior și modelele
vector-quantified au fost evaluate. Ambele obțin rapoarte de compresie ridicate
(peste 1000x), erori medii reduse, păstrarea evenimentelor meteorologice
extreme și fidelitate spectrală, cu o durată de compresie și decompresie de
aproximativ o secundă per stare atmosferică globală.
1.
Introducere
Această
lucrare prezintă metode de compresie bazate pe rețele neuronale, care urmăresc
reducerea cerințelor de stocare pentru
datele atmosferice simulate
de la nivelul petabytes la
terabytes. În ultimii 50 de ani, creșterea rezoluției simulărilor atmosferice a
dus la extinderea considerabilă a dimensiunii seturilor de date, care au
devenit esențiale pentru aplicații științifice, industriale și de politică
publică. Rezoluțiile mai mari îmbunătățesc acuratețea predicțiilor și permit
modelarea detaliată a fenomenelor atmosferice, precum furtunile (ce necesită o
rezoluție de 1 km) și mișcarea norilor (ce necesită o rezoluție de 100 m). Deși
învățarea automată oferă oportunități de îmbunătățire a predicțiilor
meteorologice, dimensiunea mare a datelor atmosferice rămâne o provocare
majoră.
Stocarea a 40 de ani de date de reanaliză atmosferică la rezoluție completă, precum setul de date ECMWF ERA5, necesită un spațiu imens de stocare—181 TB per variabilă, sau peste 1 PB pentru șase variabile. Simulările de tip ansamblu pentru comparații sau predicții de rezultate amplifică semnificativ aceste cerințe. Cercetările climatice generează date la o rată de până la 260 TB la fiecare 16 secunde, ceea ce duce la constrângeri financiare și tehnice care forțează cercetătorii să reducă rezoluția datelor sau să le elimine. Acest lucru limitează accesul doar la grupurile bine finanțate, îngreunează antrenarea modelelor de învățare automată și complică comparațiile cu modelele tradiționale de predicție numerică a vremii. Costurile de stocare în cloud pentru 100 PB sunt de aproximativ 1 milion de dolari pe lună.
Metodele moderne de compresie fără pierderi reduc puțin dimensiunea datelor atmosferice, iar cele cu pierderi pot distorsiona informații importante, precum uraganele. Pentru a rezolva aceste probleme, studiul propune metode de compresie bazate pe rețele neuronale autoencoder, care asigură rate ridicate de compresie, erori scăzute și păstrarea evenimentelor extreme. Modelul hyperprior este identificat ca cea mai eficientă soluție, demonstrând performanțe ridicate în păstrarea detaliilor critice.
Abordarea propusă constă în patru etape:
-
reproiectarea stării atmosferice într-un format pătrat
utilizând proiecția HEALPix
-
codificarea neuronală a acestor
proiecții într-o reprezentare discretă compresabilă
fără pierderi
-
reconstruirea proiecțiilor HEALPix
cu ajutorul unui decodor neuronal
- reproiectarea finală pe o grilă latitudine/longitudine equirectangulară folosind transformarea armonicilor sferice.
Abordarea comprimă datele atmosferice cu erori reduse, realizând o compresie de aproximativ 1000×. Se obține o eroare medie absolută (MAE) de 0,4 K pentru temperatură, 0,5 m/s pentru vântul zonal și meridional, sub 1 hPa pentru presiunea la suprafață și 40 m²/s² pentru geopotențial, cu mai puțin de 0,5% din pixeli având erori mari. Pixeli cu erori ridicate sunt suficient de rari pentru a fi stocați separat într-o tabelă, păstrând detalii importante, cum ar fi evenimente extreme precum uraganele sau valurile de căldură. Compresia și decompresia durează aproximativ o secundă per stare globală.
2. Antrenarea Compresiei
Compresia
fără pierderi asigură că datele originale pot fi recuperate exact după
decomprimare, dar este limitată în eficiență, oferind
rapoarte de compresie modeste (sub 3×).
Aceasta este utilă pentru aplicații unde fiecare bit contează, dar nu abordează
problema stocării mari a datelor atmosferice. Pe de altă parte, compresia cu
pierderi permite o reducere semnificativă a dimensiunii datelor, dar implică un
compromis între dimensiunea redusă și distorsiuni acceptabile. În cazul datelor
atmosferice, aceste distorsiuni trebuie controlate atent pentru a păstra
fenomene critice, cum ar fi
uraganele sau discontinuitățile spațiale importante, care sunt esențiale pentru
analiza științifică.
2.2. Compresie neuronală
Metodele de compresie neuronală folosesc rețele autoencoder pentru a învăța
reprezentări compacte ale datelor complexe. Acestea constau din două
componente principale: un codificator care reduce datele într-o reprezentare
simplificată și un decodificator care reconstruiește datele originale din
această reprezentare. Autoencoderele pot fi antrenate pentru a optimiza
diferiți indicatori, cum ar fi erorile medii sau păstrarea unor caracteristici
fizice specifice ale datelor. Această abordare permite o compresie adaptivă și
personalizată pentru seturile mari de date atmosferice.
2.2.1. VQ-VAE și VQ-GAN
●
VQ-VAE
(Vector-Quantized Variational Autoencoder): Această
metodă utilizează un codificator neuronal pentru a mapa datele într-o matrice
discretă, folosind un cod de valori (codebook). Fiecare element este înlocuit
cu cea mai apropiată valoare din cod. Aceasta
permite o compresie eficientă și o reconstrucție
de înaltă calitate prin utilizarea tehnicilor standard de codare entropică.
●
VQ-GAN (Vector-Quantized Generative Adversarial Network): Îmbunătățește VQ-VAE prin adăugarea unui
discriminator adversarial care identifică diferențele între datele reale și
cele reconstruite. Această metodă păstrează mai bine detaliile frecvențelor
spațiale înalte, cum ar fi marginile sau discontinuitățile, ceea ce este
esențial pentru fenomenele atmosferice de interes, cum ar fi uraganele.
2.2.2. Modele Factorized Prior și Hyperprior
● Factorized Prior: Acest model discretizează fiecare element al datelor codificate prin rotunjire, ceea ce permite o compresie eficientă folosind modele probabilistice simple. Se bazează pe ideea că datele pot fi modelate ca variabile independente cu o distribuție uniformă.
●
Hyperprior:
Extinde modelul anterior prin adăugarea unei etape suplimentare care modelează
corelațiile spațiale locale între date. Aceasta se face printr-un alt
autoencoder, care creează
o reprezentare adițională pentru a îmbunătăți predicțiile și compresia. Hyperprior-ul este deosebit de
eficient pentru datele atmosferice, unde există o redundanță informațională în
spațiu și timp.
2.2.3. Raportul efectiv de compresie
Modelele
propuse ating rapoarte de compresie impresionante, de la 1000× la 1800×. De
exemplu, VQ-VAE comprima o matrice de intrare (5 variabile verticale, fiecare
cu 256×256 pixeli) într-o
matrice discretă mult mai
mică, iar codificarea entropică reduce și mai mult
dimensiunea finală. Modelele sunt evaluate în funcție de raportul dintre
dimensiunea datelor inițiale și cea a reprezentării comprimate, incluzând
tehnici precum entropia empirică pentru a estima costurile de stocare.
2.3. Proiecția HEALPix
Proiecția
HEALPix (Hierarchical Equal Area isoLatitude Pixelation) transformă datele
sferice ale atmosferei într-un format pătrat compatibil cu arhitecturile neuronale. Aceasta împarte suprafața
globului în 12 zone de bază cu arii egale, fiecare fiind subdivizată într- o grilă pătrată. Spre deosebire de
proiecția latitudine/longitudine, HEALPix elimină supraeșantionarea la poli și
asigură o distribuție uniformă a rezoluției pe întreaga sferă.
Conversiile bidirecționale între proiecția HEALPix și alte formate sunt eficiente, iar acest format este potrivit pentru a păstra detalii spațiale și pentru calculele armonicilor sferice, reducând în același timp pierderile de informații în procesul de comprimare.
3. Rezultate
Această secțiune
prezintă analiza performanței compresiei datelor atmosferice folosind modele neuronale, cu accent pe acuratețe și menținerea
caracteristicilor relevante din punct de vedere științific.
3.1. Date și Standardizare
Datele utilizate provin din datasetul ERA5 al ECMWF, care oferă o reconstrucție detaliată a stării atmosferice din 1959 până în 2023. Au fost analizate două subseturi:
1.
Date de la nivelul
suprafeței, incluzând variabile precum temperatura, presiunea
și viteza vântului.
2. Date verticale, care acoperă 13 nivele de presiune între 50 și 1000 hPa.
Toate variabilele au fost standardizate la media 0 și deviația standard 1.
3.2. Împărțirea setului de date și generalizare
Setul de date a fost împărțit în:
●
Set de antrenament (1959–2009, 447,072 cadre).
● Set de testare (2010–2023, 114,192 cadre).
Pentru a îmbunătăți performanța, modelele au fost condiționate pe informații
suplimentare, cum ar fi topografia și localizarea geografică.
3.3. Rezultate ale compresiei
Modelele au demonstrat că este posibilă
o compresie de peste 1000×, cu erori medii
acceptabile:
●
Temperatura: MAE ≈ 0.4 K.
●
Viteza vântului: MAE ≈ 0.5 m/s.
● Presiunea: MAE < 1 hPa.
Doar o mică proporție
de pixeli au erori mai mari de praguri prestabilite (de exemplu, 0.5% din
pixeli pentru temperaturi cu erori > 1 K). Evenimente extreme, cum ar fi
uraganele, sunt păstrate fidel.
3.4. Rata ridicată de compresie cu RMSE și MAE reduse
Modelele au fost evaluate
folosind măsuri precum MAE și RMSE, demonstrând că reconstrucțiile sunt precise și rețin
caracteristicile esențiale.
3.5. Număr redus de pixeli eronați în reconstrucții
Erorile maxime sunt rare, afectând sub 0.5% dintre pixeli. Se poate îmbunătăți acuratețea prin salvarea valorilor inițiale ale acestor pixeli, fără a compromite semnificativ raportul de compresie.
3.6 Valori extreme
Pentru a înțelege mai bine comportamentul modelelor, au fost selectate manual date corespunzătoare extremelor de temperatură, cum ar fi valul de căldură din India din anul 2015 și uraganelor, cum ar fi Uraganul Harvey din septembrie 2017 și Uraganul Matthew din octombrie 2016. Figura de mai jos ilustrează performanța modelului hyperprior asupra Uraganului Matthew și demonstrează că informațiile despre geopotențial și viteza vântului, corespunzătoare ochiului ciclonului, sunt păstrate după comprimare și reconstrucție.
Figura următoare
ilustrează reconstrucția temperaturii la 1000 hPa a valului
de căldură din India, pe
parcursul a 24 de ore și arată că extremele de temperatură de până la
aproximativ 45C sunt reprezentate corect.
4.
Compararea cu modelele cu o singură
variabilă.
Abordarea propusă este destinată comprimării multivariate, adică comprimarea mai multor variabile atmosferice utilizând un singur cod latent. Totuși, pot fi dezvoltate modele de compresie și pentru variabile individuale. De exemplu, un model VQ-VAE cu 4 blocuri, antrenat doar pe date de geopotențial, poate reconstrui geopotențialul cu o eroare medie absolută (MAE) de 0,2 m²/s² pentru toate nivelurile de latitudine/longitudine, menținând un raport de compresie eficient de 1800×. Doar un număr foarte mic (0,012%) de pixeli depășesc pragul de eroare de 100 m²/s².
4.1.
Probleme în învățarea și reconstruirea variabilelor specifice și a nivelelor de presiune
Analiza evidențiază dificultățile modelelor în reconstruirea unor variabile și niveluri de presiune specifice. Modelul hyperprior are performanțe mai bune decât modelul VQ-VAE cu 3 blocuri, dar ambele întâmpină provocări la nivelul de presiune 50 hPa, unde apar erori datorate anomaliilor în afara setului de antrenament. Principalele limite ale metodelor autoencoder sunt: lipsa garanțiilor pentru limitele erorilor, dificultăți în gestionarea artefactelor din afara setului de date și vulnerabilitatea reconstrucțiilor interdependente la contaminare din cauza erorilor în variabile individuale.
4.2. Generalizarea comprimării de-a lungul timpului
Spre deosebire de metodele tradiționale care necesită reantrenarea modelului pentru noi cadre de date, abordarea bazată pe autoencodere permite generalizarea la date noi, fiind ideală pentru procesele meteorologice și climatice, care nu sunt staționare. Analiza pe un set de date din 1959-2023 arată o tendință de creștere a erorilor (RMSE) pe măsură ce datele de testare se îndepărtează de perioada de antrenare, explicată prin distanța temporală față de limitele setului de antrenament. Totuși, sezonalitatea variabilelor meteorologice domină variațiile anuale ale erorilor.
5.
HEALPix
Studiul
utilizează o proiecție HEALPix specifică, care împarte sfera în 12 bucăți sub
formă de diamant de arii egale, aranjate
între poli și Ecuator. Coordonatele pixelilor sunt
calculate cu biblioteca astropy_healpix.
6. Reprezentare a modelului
hyperprior
Diagrama
pentru modelul hyperprior include mai
multe etape importante. Începe cu un encoder care procesează datele, urmat de
un cuantizator scalar care compune intrarea în formă de indecși și le trimite
la un encoder aritmetic. Acesti
indecși sunt apoi decodați cu ajutorul unui decodificator aritmetic
și al unui decodificator hyperprior.
În paralel, se utilizează o rețea pentru a obține reconstrucțiile HEALPix pe care le procesează diferite
straturi convoluționale și deconvoluționale pentru a obține rezultatele finale.
7.
Comparatii
Nivelurile de presiune sunt diverse altitudini atmosferice la care sunt măsurate
diferite condiții climatice, cum ar fi temperatura, umiditatea și
vânturile.
Studiul compară modelele antrenate pe 11 niveluri de presiune (folosite de Huang și Hoefler, 2023) cu cele antrenate pe 13 niveluri de presiune pentru reconstrucția datelor climatice. Modelele au fost adaptate pentru a gestiona nivelele suplimentare, iar rezultatele arată o acuratețe similară în reconstrucție, cu o ușoară degradare a performanței la un raport de compresie mai mic (width=128) atunci când se folosesc 13 niveluri. Compararea a fost realizată pe date din 2016, cu o rezoluție spațială de 0,25 grade, pentru geopotențial și temperatură.
8.
Analiza detaliata
8.1 Rezultate VQ-VAE
hPa
– hectopascal adica unitate de măsură folosită pentru a exprima presiunea
atmosferică. 1 hPa este echivalent cu 100 pascali
(Pa). Aceasta este unitatea standard utilizată în meteorologie pentru
măsurarea presiunii la nivelul mării sau la diferite altitudini.
Pentru reconstrucția temperaturii și a vitezei vântului, modelul VQ-VAE a avut următoarele valori de eroare medie absolută (MAE): pentru temperatura la 850 hPa, MAE = 0.65°C, iar pentru viteza vântului zonal la 1000 hPa, MAE = 0.52 m/s. În comparație, modelul Hyperprior a obținut MAE = 0.39°C pentru temperatură și MAE = 0.52 m/s pentru vânt, arătând că, deși ambele modele au performanțe similare, Hyperprior a oferit o performanță mai bună în reconstrucția acestor variabile specifice.
8.2
Rezultate la reconstruirea HEALPix
Rezultatele reconstrucției în proiecția HEALPix sunt comparate între toate modelele, folosind metrici precum RMSE, MAE și numărul de pixeli care depășesc un anumit prag de eroare. Aceste rezultate sunt prezentate în spațiul de pixeli HEALPix, fără reproiectare în coordonate latitudine/longitudine, confirmând că modelul Hyperprior este cel mai puțin eronat în ceea ce privește compresia datelor.
8.3
Diferite configurații ale modelului
Rezultatele
arată că, prin calibrarea reconstrucțiilor pentru a avea aceleași statistici de
medie și deviație standard ca și intrările, se reduce MAE și procentajul pixelilor eronați. De asemenea, includerea orografiei ca intrare reduce
MAE și numărul de pixeli
eronați, confirmând alegerile de design făcute în cadrul studiului.
8.4
Comparatie intre erorile de reconstrucție si valorile de referință
În acest experiment, sunt prezentate histograme bidimensionale ale erorilor de reconstrucție comparativ cu valorile de referință, pentru modelul hyperprior, utilizând valori pentru temperatură, viteză zonală a vântului și geopotențial. Se observă că, pentru valori mai mari ale țintei, erorile tind să fie negative (subestimare), iar pentru valori mai mici ale țintei, erorile sunt pozitive (supraîncredere). Aceste observații sugerează o tendință generală a modelului de a subestima valorile mari și a supraestima valorile mici.
8.5
Anomalii ale datelor in zonele de cu presiune
scazuta
Rezultatele modelului
hyperprior cu un raport de compresie de 1000× arată erori de reconstrucție ridicate
pentru temperatura, viteza vântului zonal și umiditatea specifică la nivelul
de presiune de 50 hPa, în decembrie 2020. Anomaliile de date, cum ar fi
umiditatea specifică negativă, sunt confirmate de alte cercetări. Modelul
hyperprior nu reușește să redea aceste anomalii și generează artefacte de
valoare mare, în timp ce modelul VQ-VAE reconstituie corect aceste date.
Totodată, pentru nivelul de 100 hPa, erorile sunt mai mici și nu apar anomalii
de valoare mică.
[1] |
P. Mirowski, D. Warde-Farley, M. Rosca, M. K. Grimes,
Y. Hasson, H. Kim, M. Rey, S. Osindero, S. Ravuri and S. Mohamed, "Neural Compression of Atmospheric States". |