marți, 17 decembrie 2024

Neural Compression of Atmospheric States

Văduva Vlad-Andrei, Hrițu Toma Vlad, Bogdan Topliceanu


 

 

Prefață

 

Stările atmosferice sunt importante în simulările meteorologice și climatice, utilizate pe scară largă de cercetători, factori de decizie politică și asiguratori pentru a înțelege sistemul Pământului și a ghida deciziile. Dimensiunea enormă a acestor date limitează accesul doar la grupurile bine finanțate. Pentru a rezolva această problemă, este propusă o metodă de compresie bazată pe rețele neuronale: adaptarea sferică a datelor la procesarea de către arhitecturile neuronale convenționale prin utilizarea HEALPix care păstrează zona de proiecție. Două modele de compresie neuronală, modelul hyperprior și modelele vector-quantified au fost evaluate. Ambele obțin rapoarte de compresie ridicate (peste 1000x), erori medii reduse, păstrarea evenimentelor meteorologice extreme și fidelitate spectrală, cu o durată de compresie și decompresie de aproximativ o secundă per stare atmosferică globală.

 

1.   Introducere

Această lucrare prezintă metode de compresie bazate pe rețele neuronale, care urmăresc reducerea cerințelor de stocare pentru datele atmosferice simulate de la nivelul petabytes la terabytes. În ultimii 50 de ani, creșterea rezoluției simulărilor atmosferice a dus la extinderea considerabilă a dimensiunii seturilor de date, care au devenit esențiale pentru aplicații științifice, industriale și de politică publică. Rezoluțiile mai mari îmbunătățesc acuratețea predicțiilor și permit modelarea detaliată a fenomenelor atmosferice, precum furtunile (ce necesită o rezoluție de 1 km) și mișcarea norilor (ce necesită o rezoluție de 100 m). Deși învățarea automată oferă oportunități de îmbunătățire a predicțiilor meteorologice, dimensiunea mare a datelor atmosferice rămâne o provocare majoră.

 

Stocarea a 40 de ani de date de reanaliză atmosferică la rezoluție completă, precum setul de date ECMWF ERA5, necesită un spațiu imens de stocare—181 TB per variabilă, sau peste 1 PB pentru șase variabile. Simulările de tip ansamblu pentru comparații sau predicții de rezultate amplifică semnificativ aceste cerințe. Cercetările climatice generează date la o rată de până la 260 TB la fiecare 16 secunde, ceea ce duce la constrângeri financiare și tehnice care forțează cercetătorii reducă rezoluția datelor sau  le elimine. Acest lucru limitează accesul doar la grupurile bine finanțate, îngreunează antrenarea modelelor de învățare automată și complică comparațiile cu modelele tradiționale de predicție numerică a vremii. Costurile de stocare în cloud pentru 100 PB sunt de aproximativ 1 milion de dolari pe lună.

Metodele moderne de compresie fără pierderi reduc puțin dimensiunea datelor atmosferice, iar cele cu pierderi pot distorsiona informații importante, precum uraganele. Pentru a rezolva aceste probleme, studiul propune metode de compresie bazate pe rețele neuronale autoencoder, care asigură rate ridicate de compresie, erori scăzute și păstrarea evenimentelor extreme. Modelul hyperprior este identificat ca cea mai eficientă soluție, demonstrând performanțe ridicate în păstrarea detaliilor critice.

Abordarea propusă constă în patru etape:

-         reproiectarea stării atmosferice într-un format pătrat utilizând proiecția HEALPix

-         codificarea neuronală a acestor proiecții într-o reprezentare discretă compresabilă fără pierderi

-         reconstruirea proiecțiilor HEALPix cu ajutorul unui decodor neuronal

-         reproiectarea finală pe o grilă latitudine/longitudine equirectangulară folosind transformarea armonicilor sferice.

Abordarea comprimă datele atmosferice cu erori reduse, realizând o compresie de aproximativ 1000×. Se obține o eroare medie absolută (MAE) de 0,4 K pentru temperatură, 0,5 m/s pentru vântul zonal și meridional, sub 1 hPa pentru presiunea la suprafață și 40 m²/s² pentru geopotențial, cu mai puțin de 0,5% din pixeli având erori mari. Pixeli cu erori ridicate sunt suficient de rari pentru a fi stocați separat într-o tabelă, păstrând detalii importante, cum ar fi evenimente extreme precum uraganele sau valurile de căldură. Compresia și decompresia durează aproximativ o secundă per stare globală.

2.  Antrenarea Compresiei

      2.1.   Compresie fără pierderi și cu pierderi

Compresia fără pierderi asigură că datele originale pot fi recuperate exact după decomprimare, dar este limitată în eficiență, oferind rapoarte de compresie modeste (sub 3×). Aceasta este utilă pentru aplicații unde fiecare bit contează, dar nu abordează problema stocării mari a datelor atmosferice. Pe de altă parte, compresia cu pierderi permite o reducere semnificativă a dimensiunii datelor, dar implică un compromis între dimensiunea redusă și distorsiuni acceptabile. În cazul datelor atmosferice, aceste distorsiuni trebuie controlate atent pentru a păstra fenomene critice, cum ar fi uraganele sau discontinuitățile spațiale importante, care sunt esențiale pentru analiza științifică.

   2.2.   Compresie neuronală

Metodele de compresie neuronală folosesc rețele autoencoder pentru a învăța reprezentări compacte ale datelor complexe. Acestea constau din două componente principale: un codificator care reduce datele într-o reprezentare simplificată și un decodificator care reconstruiește datele originale din această reprezentare. Autoencoderele pot fi antrenate pentru a optimiza diferiți indicatori, cum ar fi erorile medii sau păstrarea unor caracteristici fizice specifice ale datelor. Această abordare permite o compresie adaptivă și personalizată pentru seturile mari de date atmosferice.

2.2.1.   VQ-VAE și VQ-GAN

       VQ-VAE (Vector-Quantized Variational Autoencoder): Această metodă utilizează un codificator neuronal pentru a mapa datele într-o matrice discretă, folosind un cod de valori (codebook). Fiecare element este înlocuit cu cea mai apropiată valoare din cod. Aceasta permite o compresie eficientă și o reconstrucție de înaltă calitate prin utilizarea tehnicilor standard de codare entropică.

       VQ-GAN (Vector-Quantized Generative Adversarial Network): Îmbunătățește VQ-VAE prin adăugarea unui discriminator adversarial care identifică diferențele între datele reale și cele reconstruite. Această metodă păstrează mai bine detaliile frecvențelor spațiale înalte, cum ar fi marginile sau discontinuitățile, ceea ce este esențial pentru fenomenele atmosferice de interes, cum ar fi uraganele.

2.2.2.   Modele Factorized Prior și Hyperprior

       Factorized Prior: Acest model discretizează fiecare element al datelor codificate prin rotunjire, ceea ce permite o compresie eficientă folosind modele probabilistice simple. Se bazează pe ideea că datele pot fi modelate ca variabile independente cu o distribuție uniformă.

       Hyperprior: Extinde modelul anterior prin adăugarea unei etape suplimentare care modelează corelațiile spațiale locale între date. Aceasta se face printr-un alt autoencoder, care creează o reprezentare adițională pentru a îmbunătăți predicțiile și compresia. Hyperprior-ul este deosebit de eficient pentru datele atmosferice, unde există o redundanță informațională în spațiu și timp.

2.2.3.   Raportul efectiv de compresie

Modelele propuse ating rapoarte de compresie impresionante, de la 1000× la 1800×. De exemplu, VQ-VAE comprima o matrice de intrare (5 variabile verticale, fiecare cu 256×256 pixeli) într-o matrice discretă mult mai mică, iar codificarea entropică reduce și mai mult dimensiunea finală. Modelele sunt evaluate în funcție de raportul dintre dimensiunea datelor inițiale și cea a reprezentării comprimate, incluzând tehnici precum entropia empirică pentru a estima costurile de stocare.

   2.3.   Proiecția HEALPix

Proiecția HEALPix (Hierarchical Equal Area isoLatitude Pixelation) transformă datele sferice ale atmosferei într-un format pătrat compatibil cu arhitecturile neuronale. Aceasta împarte suprafața globului în 12 zone de bază cu arii egale, fiecare fiind subdivizată într- o grilă pătrată. Spre deosebire de proiecția latitudine/longitudine, HEALPix elimină supraeșantionarea la poli și asigură o distribuție uniformă a rezoluției pe întreaga sferă.

Conversiile bidirecționale între proiecția HEALPix și alte formate sunt eficiente, iar acest format este potrivit pentru a păstra detalii spațiale și pentru calculele armonicilor sferice, reducând în același timp pierderile de informații în procesul de comprimare.

3.  Rezultate

Această secțiune prezintă analiza performanței compresiei datelor atmosferice folosind modele neuronale, cu accent pe acuratețe și menținerea caracteristicilor relevante din punct de vedere științific.

   3.1.   Date și Standardizare

Datele utilizate provin din datasetul ERA5 al ECMWF, care oferă o reconstrucție detaliată a stării atmosferice din 1959 până în 2023. Au fost analizate două subseturi:

1.      Date de la nivelul suprafeței, incluzând variabile precum temperatura, presiunea și viteza vântului.

2.      Date verticale, care acoperă 13 nivele de presiune între 50 și 1000 hPa.

Toate variabilele au fost standardizate la media 0 și deviația standard 1.

   3.2.   Împărțirea setului de date și generalizare

Setul de date a fost împărțit în:

       Set de antrenament (1959–2009, 447,072 cadre).

       Set de testare (2010–2023, 114,192 cadre).

Pentru a îmbunătăți performanța, modelele au fost condiționate pe informații suplimentare, cum ar fi topografia și localizarea geografică.

   3.3.   Rezultate ale compresiei

Modelele au demonstrat este posibilă o compresie de peste 1000×, cu erori medii acceptabile:

       Temperatura: MAE 0.4 K.

       Viteza vântului: MAE 0.5 m/s.

       Presiunea: MAE < 1 hPa.

Doar o mică proporție de pixeli au erori mai mari de praguri prestabilite (de exemplu, 0.5% din pixeli pentru temperaturi cu erori > 1 K). Evenimente extreme, cum ar fi uraganele, sunt păstrate fidel.

   3.4.   Rata ridicată de compresie cu RMSE și          MAE reduse

Modelele au fost evaluate folosind măsuri precum MAE și RMSE, demonstrând că reconstrucțiile sunt precise și rețin caracteristicile esențiale.

   3.5.   Număr redus de pixeli eronați în           reconstrucții

Erorile maxime sunt rare, afectând sub 0.5% dintre pixeli. Se poate îmbunătăți acuratețea prin salvarea valorilor inițiale ale acestor pixeli, fără a compromite semnificativ raportul de compresie.

3.6 Valori extreme

Pentru a înțelege mai bine comportamentul modelelor, au fost selectate manual date corespunzătoare extremelor de temperatură, cum ar fi valul de căldură din India din anul 2015 și uraganelor, cum ar fi Uraganul Harvey din septembrie 2017 și Uraganul Matthew din octombrie 2016. Figura de mai jos ilustrează performanța modelului hyperprior asupra Uraganului Matthew și demonstrează că informațiile despre geopotențial și viteza vântului, corespunzătoare ochiului ciclonului, sunt păstrate după comprimare și reconstrucție.

Figura următoare ilustrează reconstrucția temperaturii la 1000 hPa a valului de căldură din India, pe parcursul a 24 de ore și arată că extremele de temperatură de până la aproximativ 45C sunt reprezentate corect.


4.  Compararea cu modelele cu o singură variabilă.

Abordarea propusă este destinată comprimării multivariate, adică comprimarea mai multor variabile atmosferice utilizând un singur cod latent. Totuși, pot fi dezvoltate modele de compresie și pentru variabile individuale. De exemplu, un model VQ-VAE cu 4 blocuri, antrenat doar pe date de geopotențial, poate reconstrui geopotențialul cu o eroare medie absolută (MAE) de 0,2 m²/s² pentru toate nivelurile de latitudine/longitudine, menținând un raport de compresie eficient de 1800×. Doar un număr foarte mic (0,012%) de pixeli depășesc pragul de eroare de 100 m²/s².

4.1.   Probleme în învățarea și reconstruirea variabilelor specifice și a nivelelor de presiune

Analiza evidențiază dificultățile modelelor în reconstruirea unor variabile și niveluri de presiune specifice. Modelul hyperprior are performanțe mai bune decât modelul VQ-VAE cu 3 blocuri, dar ambele întâmpină provocări la nivelul de presiune 50 hPa, unde apar erori datorate anomaliilor în afara setului de antrenament. Principalele limite ale metodelor autoencoder sunt: lipsa garanțiilor pentru limitele erorilor, dificultăți în gestionarea artefactelor din afara setului de date și vulnerabilitatea reconstrucțiilor interdependente la contaminare din cauza erorilor în variabile individuale.

   4.2.   Generalizarea comprimării de-a lungul timpului

Spre deosebire de metodele tradiționale care necesită reantrenarea modelului pentru noi cadre de date, abordarea bazată pe autoencodere permite generalizarea la date noi, fiind ideală pentru procesele meteorologice și climatice, care nu sunt staționare. Analiza pe un set de date din 1959-2023 arată o tendință de creștere a erorilor (RMSE) pe măsură ce datele de testare se îndepărtează de perioada de antrenare, explicată prin distanța temporală față de limitele setului de antrenament. Totuși, sezonalitatea variabilelor meteorologice domină variațiile anuale ale erorilor.

5.  HEALPix

Studiul utilizează o proiecție HEALPix specifică, care împarte sfera în 12 bucăți sub formă de diamant de arii egale, aranjate între poli și Ecuator. Coordonatele pixelilor sunt calculate cu biblioteca astropy_healpix.




6.  Reprezentare a modelului hyperprior


Diagrama pentru modelul hyperprior include mai multe etape importante. Începe cu un encoder care procesează datele, urmat de un cuantizator scalar care compune intrarea în formă de indecși și le trimite la un encoder aritmetic. Acesti indecși sunt apoi decodați cu ajutorul unui decodificator aritmetic și al unui decodificator hyperprior. În paralel, se utilizează o rețea pentru a obține reconstrucțiile HEALPix pe care le procesează diferite straturi convoluționale și deconvoluționale pentru a obține rezultatele finale.

 



 

7.  Comparatii

Nivelurile de presiune sunt diverse altitudini atmosferice la care sunt măsurate diferite condiții climatice, cum ar fi temperatura, umiditatea și vânturile.

Studiul compară modelele antrenate pe 11 niveluri de presiune (folosite de Huang și Hoefler, 2023) cu cele antrenate pe 13 niveluri de presiune pentru reconstrucția datelor climatice. Modelele au fost adaptate pentru a gestiona nivelele suplimentare, iar rezultatele arată o acuratețe similară în reconstrucție, cu o ușoară degradare a performanței la un raport de compresie mai mic (width=128) atunci când se folosesc 13 niveluri. Compararea a fost realizată pe date din 2016, cu o rezoluție spațială de 0,25 grade, pentru geopotențial și temperatură.



 

8.  Analiza detaliata

8.1   Rezultate VQ-VAE

hPa – hectopascal adica unitate de măsură folosită pentru a exprima presiunea atmosferică. 1 hPa este echivalent cu 100 pascali (Pa). Aceasta este unitatea standard utilizată în meteorologie pentru măsurarea presiunii la nivelul mării sau la diferite altitudini.

Pentru reconstrucția temperaturii și a vitezei vântului, modelul VQ-VAE a avut următoarele valori de eroare medie absolută (MAE): pentru temperatura la 850 hPa, MAE = 0.65°C, iar pentru viteza vântului zonal la 1000 hPa, MAE = 0.52 m/s. În comparație, modelul Hyperprior a obținut MAE = 0.39°C pentru temperatură și MAE 0.52 m/s pentru vânt, arătând că, deși ambele modele au performanțe similare, Hyperprior a oferit o performanță mai bună în reconstrucția acestor variabile specifice.

8.2   Rezultate la reconstruirea HEALPix

Rezultatele reconstrucției în proiecția HEALPix sunt comparate între toate modelele, folosind metrici precum RMSE, MAE și numărul de pixeli care depășesc un anumit prag de eroare. Aceste rezultate sunt prezentate în spațiul de pixeli HEALPix, fără reproiectare în coordonate latitudine/longitudine, confirmând că modelul Hyperprior este cel mai puțin eronat în ceea ce privește compresia datelor.




8.3   Diferite configurații ale modelului

Rezultatele arată că, prin calibrarea reconstrucțiilor pentru a avea aceleași statistici de medie și deviație standard ca și intrările, se reduce MAE și procentajul pixelilor eronați. De asemenea, includerea orografiei ca intrare reduce MAE și numărul de pixeli eronați, confirmând alegerile de design făcute în cadrul studiului.

8.4   Comparatie intre erorile de reconstrucție si valorile de referință

În acest experiment, sunt prezentate histograme bidimensionale ale erorilor de reconstrucție comparativ cu valorile de referință, pentru modelul hyperprior, utilizând valori pentru temperatură, viteză zonală a vântului și geopotențial. Se observă că, pentru valori mai mari ale țintei, erorile tind fie negative (subestimare), iar pentru valori mai mici ale țintei, erorile sunt pozitive (supraîncredere). Aceste observații sugerează o tendință generală a modelului de a subestima valorile mari și a supraestima valorile mici.

8.5   Anomalii ale datelor in zonele de cu presiune scazuta


Rezultatele modelului hyperprior cu un raport de compresie de 1000× arată erori de reconstrucție ridicate pentru temperatura, viteza vântului zonal și umiditatea specifică la nivelul de presiune de 50 hPa, în decembrie 2020. Anomaliile de date, cum ar fi umiditatea specifică negativă, sunt confirmate de alte cercetări. Modelul hyperprior nu reușește să redea aceste anomalii și generează artefacte de valoare mare, în timp ce modelul VQ-VAE reconstituie corect aceste date. Totodată, pentru nivelul de 100 hPa, erorile sunt mai mici și nu apar anomalii de valoare mică.




Bibliografie

 

 

[1]

P. Mirowski, D. Warde-Farley, M. Rosca, M. K. Grimes, Y. Hasson, H. Kim, M.

Rey, S. Osindero, S. Ravuri and S. Mohamed, "Neural Compression of Atmospheric States".

 


Niciun comentariu:

Trimiteți un comentariu

Microaneurysm Detection Using Fully Convolutional Neural Networks

  Microaneurysm Detection Using Fully Convolutional Neural Networks (Piotr Chudzik et al.) Introduction Retinopatia diabetică (DR) est...