Exploring Air Quality Prediction: Methods, Models, and Insights

January 14, 2025

Contents

1 Introducere 2

2 Descrierea Generală a Documentelor 2

2.1 Urban Air Quality Prediction Using Regression Analysis . . . . . . . . . 2

2.1.1 Procesul de Gândire: . . . . . . . . . . . . . . . . . . . . . . . . . 2

2.1.2 Algoritmi Utilizat, i: . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2.1.3 Rezultate: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2.2 Air Quality Prediction Using Machine Learning Algorithms – A Review . 4

2.2.1 Procesul de Gândire: . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.2.2 Algoritmi Prezentati: . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.2.3 Rezultate: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.3 Air Quality Prediction: Big Data and Machine Learning Approaches . . . 4

2.3.1 Procesul de Gândire: . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.3.2 Algoritmi s, i Abordări: . . . . . . . . . . . . . . . . . . . . . . . . 5

2.3.3 Rezultate: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

3 Compararea preciziei pentru diferite modele în cadrul articolelor. 6

4 Cum funct, ionează algoritmul Decision Tree? 6

4.1 Măsurile de select, ie a atributelor . . . . . . . . . . . . . . . . . . . . . . 6

4.1.1 Information Gain . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

4.1.2 Gain Ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

4.1.3 Gini Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

5 O privire de ansamblu asupra Random Forests 8

5.1 Cum funct, ionează clasificarea cu Random Forest . . . . . . . . . . . . . . 9

6 Setul de date 10

7 Încheiere 10

1 Introducere

Calitatea aerului a devenit o preocupare majoră în zonele urbane s, i industriale datorită impactului său asupra sănătăt, ii publice s, i mediului. Poluarea aerului poate provoca efecte negative pe termen scurt s, i lung, cum ar fi probleme respiratorii, boli cardiovasculare s, i degradarea stratului de ozon. Pentru a aborda această problemă, cercetătorii au dezvoltat modele predictive utilizând algoritmi de machine learning s, i analiza datelor mari (big data). Acest document sintetizează informat, iile din trei lucrări s, tiint, ifice importante:

• Predict, ia calităt, ii aerului folosind analiza de regresie.

• Revizuirea algoritmilor de machine learning pentru predict, ia calităt, ii aerului.

• Aplicarea big data în monitorizarea s, i predict, ia calităt, ii aerului.

2 Descrierea Generală a Documentelor

2.1 Urban Air Quality Prediction Using Regression Analysis

Această lucrare explorează relat, ia dintre factorii meteorologici s, i Indicele de Calitate a Aerului (AQI) în Delhi, India. Datele au fost colectate din două surse principale: AirNow pentru calitatea aerului s, i Kaggle pentru datele meteorologice. Seturile de date au fost combinate pe baza orei s, i datei pentru a crea un set complet de caracteristici relevante. [1]

2.1.1 Procesul de Gândire:

Cercetătorii au început prin analizarea grafică a relat, iilor dintre variabilele meteorologice s, i AQI pentru a identifica caracteristicile relevante. Apoi au aplicat metode de curăt, are a datelor, eliminând valorile lipsă s, i selectând doar variabilele esent, iale. Următorul pas a fost antrenarea mai multor modele de regresie pentru a compara performant, a.

Figure 1: de sus, de la stânga la dreapta) Variat, ia AQI s, i modul în care variază în funct, ie de secunde, dewptm, hum, pressurem, wspdm, ora, tempm, wdird, luna s, i datele seriilor cronologice ale AQI (2015-17)

2.1.2 Algoritmi Utilizat, i:

• Linear Regression: Evaluarea relat, iilor liniare dintre variabile.

• Neural Networks: Oferă flexibilitate în modelarea relat, iilor complexe.

• Extra Trees: Utilizează arbori de decizie pentru a selecta s, i evalua important, a caracteristicilor.

• XGBoost: Optimizare prin boosting pentru rezultate precise.

2.1.3 Rezultate:

• Extra Trees a obt, inut o acuratet, e de 85%, fiind cel mai performant model.

• Caracteristicile cele mai relevante au fost presiunea atmosferică, umiditatea, tem- peratura s, i valorile AQI anterioare.

2.2 Air Quality Prediction Using Machine Learning Algorithms – A Review

Această lucrare oferă o trecere în revistă a metodelor de predict, ie a calităt, ii aerului, incluzând modele pentru poluant, i specifici precum PM2.5 s, i NO2. Datele au fost preluate din diverse surse, inclusiv monitorizări locale s, i platforme globale. [2]

2.2.1 Procesul de Gândire:

Autorii au analizat algoritmii tradit, ionali s, i moderni, evaluând performant, ele acestora în funct, ie de complexitatea seturilor de date s, i condit, iile geografice. Accentul a fost pus pe identificarea algoritmilor capabili să gestioneze date incomplete s, i complexe.

2.2.2 Algoritmi Prezentati:

• Random Forest: Utilizat pentru clasificare s, i reducerea supraînvăt, ării.

• Support Vector Machines (SVM): Analizează datele complexe cu limite nelin- eare.

• Artificial Neural Networks (ANN): Modelează relat, iile neliniare.

• LightGBM: O solut, ie hibridă pentru predict, ii rapide s, i precise.

2.2.3 Rezultate:

• Neural Networks au obt, inut o acuratet, e de 92.3%, fiind eficiente în analiza regională.

• Modelele hibride precum LightGBM au arătat rezultate excelente pentru PM2.5.

2.3 Air Quality Prediction: Big Data and Machine Learning Ap- proaches

Această lucrare explorează utilizarea big data s, i a senzorilor pentru predict, ia calităt, ii aerului. Datele provin din surse precum satelit, i, senzori s, i platforme IoT. [3]

2.3.1 Procesul de Gândire:

Autorii au combinat abordările de analiză spat, io-temporală cu metode de prelucrare a datelor mari. Ei au utilizat corelat, ii între variabile pentru a reduce complexitatea s, i au testat mai mulţi algoritmi pentru a identifica cel mai performant model.

Figure 2: Random Forest

2.3.2 Algoritmi s, i Abordări:

• Artificial Neural Networks (ANN)

• Genetic Algorithm - ANN (GA-ANN): Optimizare prin select, ia caracteristi- cilor relevante.

• Random Forest: Clasificare s, i predict, ie pentru AQI.

2.3.3 Rezultate:

• GA-ANN a avut rezultate superioare în predict, ia NO2 s, i SO2.

• Abordările big data au îmbunătăt, it precizia predict, iilor prin integrarea mai multor surse.

3 Compararea preciziei pentru diferite modele în cadrul articolelor.

	Neural Network	Decision Trees	Random Forests
Articolul 1	55 %	89.46 %	81 %
Articolul 2	82.52 %	84.89 %	83.89 %
Articolul 3	99.56 %	85.3 %	79 %

4 Cum funct_, ionează algoritmul Decision Tree?

Algoritmul Decision Tree funct, ionează după cum urmează:

1. Selectează atributul optim folosind Măsurile de Select, ie a Atributelor (Attribute Selection Measures - ASM) pentru a împărt, i setul de date.

2. Desemnează acest atribut ca un nod de decizie s, i împarte setul de date în subseturi.

3. Aplică acest proces recursiv pentru fiecare nod copil până când una dintre urmă- toarele condit, ii este îndeplinită:

• Toate tuplele apart, in aceleias, i valori a atributului.

• Nu există atribute rămase.

• Nu există instant, e suplimentare.

Figure 3: Decision tree

4.1 Măsurile de select, ie a atributelor

Măsurile de select, ie a atributelor sunt euristici care determină cea mai bună metodă de a împărt, i datele. Acestea clasifică fiecare caracteristică în funct, ie de capacitatea sa de a partitiona setul de date, atributul cu cea mai mare clasificare fiind ales pentru împărt, ire. Măsurile comune includ Information Gain, Gain Ratio s, i Gini Index.

4.1.1 Information Gain

Information Gain se bazează pe conceptul de entropie, care măsoară impuritatea unui set. Aceasta calculează reducerea entropiei obt, inută prin împărt, irea setului de date con- form unui atribut dat. Atributul cu cel mai mare Information Gain este selectat pentru împărt, ire.

Unde P_i este probabilitatea ca o tuplă arbitrară din D să apart, ină clasei C_i.

Unde:

• Info(D) este cantitatea medie de informat, ii necesară pentru a identifica eticheta clasei unei tuple din D.

•

|D_j|

|D|

reprezintă greutatea partajării j-lea.

• Info_A(D) este informat, ia as, teptată necesară pentru a clasifica o tuplă din D pe baza partajării de către A.

4.1.2 Gain Ratio

Des, i Information Gain poate fi părtinitor fat, ă de atributele cu multe rezultate, Gain Ratio abordează acest lucru prin normalizarea Information Gain utilizând o valoare cunoscută sub numele de Split Info. Atributul cu cel mai mare Gain Ratio este ales pentru împărt, ire.

Unde:

•

|D_j|

|D|

reprezintă greutatea partajării j-lea.

• v este numărul de valori discrete ale atributului A.

Gain Ratio poate fi definit astfel:

4.1.3 Gini Index

Un alt algoritm de arbore de decizie, CART (Classification and Regression Tree), uti- lizează metoda Gini pentru a crea puncte de împărt, ire.

Unde p_i este probabilitatea ca o tuplă din D să apart, ină clasei C_i.

Indexul Gini consideră o împărt, ire binară pentru fiecare atribut. Se poate calcula o sumă ponderată a impurităt, ii fiecărei partit, ii. Dacă o împărt, ire binară pe atributul A împarte datele D în D₁ s, i D₂, indexul Gini al lui D este:

În cazul unui atribut cu valori discrete, subsetul care oferă indexul Gini minim este ales ca atribut de împărt, ire. În cazul atributelor cu valori continue, strategia este să selectezi fiecare pereche de valori adiacente ca un posibil punct de împărt, ire, iar punctul cu un index Gini mai mic este ales ca punct de împărt, ire.

Atributul cu indexul Gini minim este ales ca atribut de împărt, ire.

5 O privire de ansamblu asupra Random Forests

Random forests reprezintă un algoritm popular de învăt, are automată supravegheată care poate gestiona atât sarcini de regresie, cât s, i de clasificare. Mai jos sunt prezentate câteva dintre caracteristicile principale ale algoritmului Random Forests:

• Random forests sunt utilizate în învăt, area automată supravegheată, unde există o variabilă t, intă etichetată.

• Random forests pot fi folosite pentru rezolvarea problemelor de regresie (variabilă t, intă numerică) s, i de clasificare (variabilă t, intă categorială).

• Random forests sunt o metodă de tip ansamblu, ceea ce înseamnă că combină predict, iile obt, inute din alte modele. Fiecare dintre modelele mai mici din ansamblul Random Forest este un arbore de decizie.

5.1 Cum funct, ionează clasificarea cu Random Forest

Imaginează-t, i că ai o problemă complexă de rezolvat s, i aduni un grup de expert, i din diverse domenii pentru a oferi opiniile lor. Fiecare expert îs, i oferă părerea bazată pe expertiza s, i experient, a sa. Ulterior, expert, ii votează pentru a ajunge la o decizie finală. În clasificarea cu Random Forest, sunt create mai mult, i arbori de decizie folosind subseturi aleatorii diferite de date s, i caracteristici. Fiecare arbore de decizie este ca un expert, oferind opinia sa despre cum ar trebui clasificate datele. Predict, iile sunt făcute calculând predict, iile fiecărui arbore de decizie s, i luând în considerare rezultatul cel mai

popular. (Pentru regresie, predict, iile folosesc o tehnică de mediere în loc de vot).

În diagrama de mai jos avem un "random forest" cu n arbori de decizie s, i sunt arătat, i primii 5, împreună cu predict, iile lor (fie „Câine”, fie „Pisică”). Fiecare arbore este expus la un număr diferit de caracteristici s, i la un es, antion diferit al setului de date init, ial, astfel încât fiecare arbore poate fi diferit. Fiecare arbore face o predict, ie.

Analizând primii 5 arbori, putem observa că 4 din 5 au prezis că exemplul este o

„Pisică”. Cercurile verzi indică un traseu ipotetic pe care arborele l-a urmat pentru a ajunge la decizia sa. Random Forest numără numărul de predict, ii din partea arborilor de decizie pentru „Pisică” s, i „Câine” s, i alege predict, ia cea mai populară.

Figure 4: Cum funct, ionează Random Forest

6 Setul de date

• Setul de date conţine informaţii legate de componenţa chimica a aerului în Madrid [4]

• Conţine valori pentru indici atat pentru elemente chimice (CO,NO,NO2,SO2,O3,TOL,BEN,EBE,C etc.), cât şi pentru alte tipuri de particule (PM25,PM10), plus data măsurărilor.

• Valorile date au fost măsurate pe parcursul a 18 ani (2001-2018), respectiv avem câte un fişier (format csv) pentru fiecare an.

• Avem şi un fişier csv cu staţiunile implicate in măsurări, având coloane pentru – id, nume, adresa, lat, long, elevaţie.

7 Încheiere

Modelele de predict, ie a calităt, ii aerului joacă un rol important în combaterea poluării. Utilizarea algoritmilor de machine learning s, i big data permite îmbunătăt, irea acuratet, ei s, i furnizarea de solut, ii scalabile pentru problemele urbane.

În viitor, integrarea datelor din surse variate, cum ar fi traficul rutier s, i imaginile satelitare, poate îmbunătăt, i semnificativ capacitatea de predict, ie a acestor modele.

References

[1] Mahanta, Soubhik, et al. "Urban air quality prediction using regression analysis." TENCON 2019-2019 IEEE Region 10 Conference (TENCON). IEEE, 2019.

[2] Kang, Gaganjot Kaur, et al. "Air quality prediction: Big data and machine learning approaches." Int. J. Environ. Sci. Dev 9.1 (2018): 8-16.

[3] Madan, Tanisha, Shrddha Sagar, and Deepali Virmani. "Air quality prediction using machine learning algorithms–a review." 2020 2nd International Conference on Ad- vances in Computing,Communication Control and Networking (ICACCCN). IEEE, 2020.

[4] https://www.kaggle.com/datasets/decide-soluciones/air-quality-madrid

Invatare Automata 2024

marți, 14 ianuarie 2025

Exploring Air Quality Prediction