Exploring Air
Quality Prediction: Methods, Models,
and Insights
January 14, 2025
Contents
1 Introducere 2
2 Descrierea Generală a Documentelor 2
2.1
Urban Air Quality Prediction Using Regression Analysis . . . . . . . . . 2
2.1.1
Procesul de Gândire: . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.1.2
Algoritmi Utilizat, i: . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.1.3
Rezultate: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2
Air Quality
Prediction Using Machine
Learning Algorithms – A Review . 4
2.2.1
Procesul de Gândire: . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2.2
Algoritmi Prezentati: . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2.3
Rezultate: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.3
Air Quality
Prediction: Big Data and Machine
Learning Approaches . . . 4
2.3.1
Procesul de Gândire: . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3.2
Algoritmi s, i Abordări: . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3.3
Rezultate: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3 Compararea preciziei pentru diferite modele în cadrul articolelor. 6
4 Cum funct, ionează algoritmul Decision Tree? 6
4.1
Măsurile de select, ie a atributelor . . . . . . . . . . . . . . . . . . . . . . 6
4.1.1
Information Gain . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4.1.2
Gain Ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4.1.3
Gini Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
5 O privire de ansamblu asupra Random Forests 8
5.1
Cum funct, ionează clasificarea cu Random Forest . . . . . . . . . . . . . . 9
6 Setul de date 10
7 Încheiere 10
1
Introducere
Calitatea aerului a devenit o
preocupare majoră în zonele urbane s,
i industriale
datorită impactului său asupra sănătăt, ii publice s,
i mediului. Poluarea aerului poate provoca efecte negative pe termen scurt s, i lung, cum ar fi probleme respiratorii, boli cardiovasculare s, i degradarea stratului de ozon. Pentru
a aborda această problemă, cercetătorii au dezvoltat modele predictive
utilizând algoritmi de machine learning s, i analiza
datelor mari (big data). Acest
document sintetizează informat,
iile din trei
lucrări s, tiint,
ifice importante:
•
Predict, ia calităt, ii aerului
folosind analiza de regresie.
•
Revizuirea algoritmilor de machine learning
pentru predict,
ia calităt,
ii aerului.
•
Aplicarea big data în monitorizarea s,
i predict,
ia calităt,
ii aerului.
2
Descrierea Generală
a Documentelor
2.1
Urban Air Quality Prediction Using Regression Analysis
Această lucrare explorează relat, ia dintre factorii meteorologici s, i Indicele de Calitate a Aerului (AQI) în Delhi, India. Datele au fost colectate din două surse
principale: AirNow
pentru calitatea aerului s, i Kaggle pentru
datele meteorologice. Seturile de
date au fost combinate pe baza orei s, i datei pentru a crea un set complet de caracteristici relevante. [1]
2.1.1
Procesul de Gândire:
Cercetătorii au început prin analizarea grafică
a relat, iilor dintre variabilele meteorologice s,
i AQI pentru a identifica caracteristicile
relevante. Apoi au aplicat metode de
curăt, are a datelor,
eliminând valorile lipsă s,
i selectând doar
variabilele esent, iale. Următorul
pas a fost antrenarea mai multor modele de regresie pentru a compara performant, a.
Figure 1: de sus, de la stânga la dreapta) Variat, ia AQI s, i modul în care variază în funct, ie de secunde, dewptm, hum, pressurem, wspdm, ora, tempm, wdird, luna s, i datele seriilor cronologice ale AQI (2015-17)
2.1.2
Algoritmi Utilizat, i:
•
Linear Regression: Evaluarea relat, iilor liniare
dintre variabile.
•
Neural Networks: Oferă flexibilitate în modelarea relat, iilor complexe.
• Extra Trees: Utilizează arbori de decizie pentru a selecta s,
i evalua important, a caracteristicilor.
•
XGBoost: Optimizare prin boosting
pentru rezultate precise.
2.1.3
Rezultate:
•
Extra Trees a obt,
inut o acuratet,
e de 85%, fiind cel
mai performant model.
• Caracteristicile cele mai relevante au fost presiunea atmosferică,
umiditatea, tem- peratura s, i
valorile AQI anterioare.
2.2
Air Quality Prediction Using Machine Learning Algorithms
– A Review
Această lucrare oferă o
trecere în revistă a metodelor de predict, ie a
calităt, ii aerului, incluzând modele pentru poluant, i specifici
precum PM2.5 s, i NO2. Datele au fost preluate din diverse surse, inclusiv
monitorizări locale s, i platforme globale. [2]
2.2.1
Procesul de Gândire:
Autorii au analizat algoritmii tradit,
ionali s,
i moderni,
evaluând performant, ele acestora în funct, ie de complexitatea seturilor de date s,
i condit, iile geografice. Accentul a fost pus pe identificarea algoritmilor capabili să
gestioneze date incomplete s,
i complexe.
2.2.2 Algoritmi Prezentati:
•
Random Forest: Utilizat pentru clasificare s, i reducerea supraînvăt, ării.
• Support Vector Machines
(SVM): Analizează datele complexe cu limite nelin- eare.
•
Artificial Neural Networks (ANN): Modelează relat, iile neliniare.
•
LightGBM: O solut, ie hibridă pentru predict, ii rapide s, i precise.
2.2.3 Rezultate:
•
Neural Networks au obt, inut o acuratet, e de 92.3%, fiind eficiente în analiza regională.
•
Modelele hibride precum LightGBM au arătat rezultate
excelente pentru PM2.5.
2.3
Air Quality
Prediction: Big Data and Machine
Learning Ap- proaches
Această lucrare explorează utilizarea big data s, i a senzorilor pentru predict,
ia calităt, ii aerului. Datele provin din
surse precum satelit, i, senzori s, i platforme
IoT. [3]
2.3.1
Procesul de Gândire:
Autorii au combinat
abordările de analiză spat,
io-temporală cu
metode de prelucrare a datelor mari. Ei au utilizat corelat, ii între variabile pentru a reduce complexitatea s, i au testat mai mulţi algoritmi pentru a identifica cel mai performant
model.
Figure
2: Random Forest
2.3.2 Algoritmi s, i Abordări:
•
Artificial Neural Networks (ANN)
• Genetic Algorithm - ANN (GA-ANN): Optimizare prin select, ia caracteristi- cilor relevante.
•
Random Forest: Clasificare s, i predict, ie pentru AQI.
2.3.3 Rezultate:
•
GA-ANN a avut rezultate superioare în predict,
ia NO2 s, i SO2.
• Abordările big data au îmbunătăt, it precizia predict, iilor
prin integrarea mai multor surse.
3
Compararea preciziei pentru
diferite modele în cadrul articolelor.
|
Neural Network |
Decision Trees |
Random Forests |
Articolul 1 |
55 % |
89.46 % |
81 % |
Articolul 2 |
82.52 % |
84.89 % |
83.89 % |
Articolul 3 |
99.56 % |
85.3 % |
79 % |
4
Cum funct, ionează algoritmul Decision
Tree?
Algoritmul Decision Tree funct, ionează după cum urmează:
1.
Selectează atributul optim folosind Măsurile
de Select, ie a Atributelor (Attribute Selection Measures - ASM)
pentru a împărt, i setul de date.
2.
Desemnează acest atribut ca un nod de decizie
s, i împarte setul de date în subseturi.
3.
Aplică acest
proces recursiv pentru fiecare nod copil până când una dintre urmă- toarele condit, ii este îndeplinită:
•
Toate tuplele apart, in aceleias, i valori a atributului.
•
Nu există atribute rămase.
•
Nu există instant,
e suplimentare.
Figure 3: Decision
tree
4.1
Măsurile de select, ie a atributelor
Măsurile de select, ie a atributelor sunt euristici
care determină cea mai bună metodă de a împărt, i datele. Acestea clasifică
fiecare caracteristică în funct,
ie de capacitatea sa
de a partitiona setul de date,
atributul cu cea mai mare clasificare fiind ales pentru împărt, ire. Măsurile comune includ Information
Gain, Gain Ratio s, i Gini Index.
4.1.1
Information Gain
Information Gain se bazează pe conceptul de entropie,
care măsoară impuritatea unui set. Aceasta calculează reducerea entropiei obt, inută prin împărt,
irea setului de date
con- form unui atribut dat. Atributul cu cel mai mare Information Gain este selectat pentru împărt, ire.
Unde Pi este probabilitatea ca o tuplă arbitrară din D să apart,
ină clasei Ci.
Unde:
• Info(D) este cantitatea medie de informat, ii
necesară pentru a identifica eticheta clasei unei tuple din D.
•
|Dj|
|D|
reprezintă greutatea partajării j-lea.
• InfoA(D) este informat, ia as, teptată necesară pentru a clasifica o tuplă din D pe baza
partajării de către A.
4.1.2
Gain Ratio
Des, i Information Gain poate fi părtinitor fat,
ă de atributele cu multe rezultate, Gain Ratio abordează acest lucru prin
normalizarea Information Gain utilizând
o valoare cunoscută sub numele de Split Info. Atributul
cu cel mai mare Gain Ratio este ales pentru împărt,
ire.
Unde:
•
|Dj|
|D|
reprezintă greutatea partajării j-lea.
•
v este numărul de valori discrete
ale atributului A.
Gain Ratio poate fi definit astfel:
4.1.3
Gini Index
Un alt algoritm
de arbore de decizie, CART (Classification and Regression Tree),
uti- lizează metoda Gini pentru a crea puncte de împărt, ire.
Unde pi este
probabilitatea ca o tuplă din D să apart,
ină clasei Ci.
Indexul
Gini consideră o împărt,
ire binară pentru
fiecare atribut. Se poate calcula o
sumă ponderată a impurităt, ii fiecărei partit,
ii. Dacă o împărt, ire binară
pe atributul A împarte datele D în
D1 s, i D2,
indexul Gini al lui D este:
În cazul
unui atribut cu valori discrete, subsetul care oferă indexul Gini minim este
ales ca atribut de împărt,
ire. În cazul atributelor cu valori continue,
strategia este să selectezi fiecare
pereche de valori adiacente ca un posibil punct de împărt, ire, iar punctul cu un index Gini mai mic este ales ca punct de împărt, ire.
Atributul cu indexul
Gini minim este ales ca atribut de împărt,
ire.
5
O privire de ansamblu
asupra Random Forests
Random forests reprezintă un algoritm popular de învăt, are automată supravegheată care poate gestiona atât sarcini de regresie, cât s, i de clasificare. Mai jos sunt prezentate câteva dintre caracteristicile principale ale algoritmului
Random Forests:
• Random forests sunt utilizate în învăt, area
automată supravegheată, unde există o variabilă t, intă etichetată.
• Random forests pot fi folosite pentru rezolvarea problemelor de regresie
(variabilă t, intă numerică) s,
i de clasificare (variabilă t,
intă categorială).
• Random forests sunt o metodă de tip ansamblu, ceea ce
înseamnă că combină predict, iile obt, inute din alte modele. Fiecare dintre modelele mai mici din ansamblul Random Forest este un arbore de decizie.
5.1
Cum funct, ionează clasificarea cu Random Forest
Imaginează-t, i că ai o problemă
complexă de rezolvat
s, i aduni un grup de expert, i din diverse domenii
pentru a oferi opiniile lor. Fiecare expert îs, i oferă părerea bazată pe expertiza s, i experient, a sa. Ulterior, expert, ii votează
pentru a ajunge la o decizie finală. În clasificarea cu Random Forest,
sunt create mai mult, i arbori de decizie folosind subseturi aleatorii diferite de
date s, i caracteristici.
Fiecare arbore de decizie este ca un expert, oferind opinia sa despre
cum ar trebui clasificate datele. Predict, iile sunt făcute calculând predict, iile fiecărui
arbore de decizie s, i luând în considerare rezultatul
cel mai
popular. (Pentru
regresie, predict, iile folosesc o tehnică de mediere în loc de vot).
În diagrama
de mai jos avem un "random forest" cu n arbori
de decizie s,
i sunt arătat, i primii 5, împreună cu predict, iile lor (fie „Câine”, fie „Pisică”). Fiecare arbore este expus la un număr diferit
de caracteristici s, i la un es,
antion diferit al
setului de date init, ial, astfel încât fiecare arbore poate fi diferit. Fiecare arbore face o predict, ie.
Analizând primii 5 arbori, putem observa că 4 din 5 au prezis că exemplul este o
„Pisică”. Cercurile verzi indică un traseu ipotetic pe care arborele l-a
urmat pentru a ajunge la decizia
sa. Random Forest
numără numărul de predict,
ii din partea arborilor de decizie pentru „Pisică”
s, i „Câine” s, i alege predict,
ia cea mai populară.
Figure 4: Cum funct,
ionează Random
Forest
6
Setul de date
• Setul de date conţine informaţii legate de componenţa chimica a aerului
în Madrid [4]
• Conţine valori pentru
indici atat pentru
elemente chimice (CO,NO,NO2,SO2,O3,TOL,BEN,EBE,C etc.), cât şi pentru alte tipuri de particule
(PM25,PM10), plus data măsurărilor.
• Valorile date au fost măsurate pe parcursul a 18 ani (2001-2018),
respectiv avem câte un fişier (format
csv) pentru fiecare an.
• Avem şi un fişier csv cu staţiunile implicate in măsurări,
având coloane pentru – id, nume, adresa, lat, long, elevaţie.
7
Încheiere
Modelele de predict, ie a
calităt, ii aerului joacă un rol important în combaterea
poluării. Utilizarea algoritmilor de machine
learning s, i big data permite îmbunătăt, irea acuratet, ei s,
i furnizarea de
solut, ii scalabile pentru problemele urbane.
În viitor, integrarea datelor din
surse variate, cum ar fi traficul rutier s, i imaginile satelitare, poate îmbunătăt, i semnificativ capacitatea de predict, ie a acestor
modele.
References
[1]
Mahanta,
Soubhik, et al. "Urban air quality prediction using regression
analysis." TENCON 2019-2019 IEEE Region 10 Conference (TENCON). IEEE,
2019.
[2]
Kang, Gaganjot
Kaur, et al. "Air quality prediction: Big data and machine learning
approaches." Int. J. Environ. Sci. Dev 9.1 (2018): 8-16.
[3]
Madan, Tanisha,
Shrddha Sagar, and Deepali Virmani. "Air quality prediction using machine
learning algorithms–a review." 2020 2nd International Conference on Ad-
vances in Computing,Communication Control and Networking (ICACCCN). IEEE, 2020.
[4]
https://www.kaggle.com/datasets/decide-soluciones/air-quality-madrid
Niciun comentariu:
Trimiteți un comentariu