vineri, 24 ianuarie 2025

Microaneurysm Detection Using Fully Convolutional Neural Networks

 

Microaneurysm Detection Using Fully Convolutional Neural Networks

(Piotr Chudzik et al.)

Introduction

Retinopatia diabetică (DR) este o complicație severă care afectează aproape o treime dintre pacienții cu diabet din întreaga lume și este cauza principală a pierderii vederii. Manifestarea primară a DR este dezvoltarea microanevrismelor (MA), care sunt leziuni mici, rotunde, roșii pe retină. Detectarea precisă și în timp util a MA este esențială în prevenirea progresiei bolii, dar acest proces rămâne provocator din cauza complexității și variabilității imagistice retiniene. MA sunt greu de distins din cauza dimensiunilor lor mici, a contrastului scăzut față de fundalul retinian și a asemănării cu alte structuri anatomice. Metodele tradiționale de screening se bazează pe expertiza oftalmologilor pentru a identifica aceste leziuni minuscule din fotografiile fundului de ochi.

Articolul prezintă o abordare automată a detectării MA, propunând un model de rețea neuronală complet convoluțională care valorifică învățarea profundă pentru a identifica cu precizie MA în imaginile retiniene. Motivația din spatele acestei cercetări constă în nevoia de soluții fiabile, coerente și scalabile pentru a îmbunătăți screening-ul DR, în special în regiunile cu resurse limitate, unde accesul la oftalmologi poate fi limitat.

Methodology

Autorii propun un patch-based CNN pentru detectarea MA în imaginile fundului retinian. Arhitectura se concentrează pe o abordare de procesare în trei etape. Cele trei componente principale ale acestui model includ preprocesarea, extragerea patch-urilor și clasificarea în funcție de pixeli.

1.        Preprocessing: Imaginile sunt preprocesate pentru analiză prin extragerea canalului verde, care oferă cel mai mare contrast. Imaginile sunt iluminate și se aplică o mască pentru limitarea analizei din câmpul vizual (FOV). Preprocesarea reduce zgomotul și imbunătațește calitatea imaginilor.

2.        Patch Extraction and Classification: CNN procesează patch-uri de imagine mai mici. Fiecare patch este supus clasificării pentru a determina dacă conține pixeli MA, sporind granularitatea și specificitatea detectării.


Training and Transfer Learning: Autorii abordează limitările seturilor de date medicale mici, antrenând CNN pe un set de date și ajustându-l pe altele. Această abordare permite modelului să se generalizeze mai bine în condiții variate de imagistică retiniană și să folosească cunoștințele anterioare, îmbunătățind ratele de detectare chiar și atunci când datele de antrenament sunt limitate.

Experimental Design, Datasets, Results and Performance

Performanța modelului a fost evaluată pe trei seturi de date: E-Ophtha, DIARETDB1 și ROC. Aceste seturi de date diferă în ceea ce privește rezoluția, calitatea imaginii și surse, oferind o evaluare cuprinzătoare a robusteței CNN. FROC este utilizată ca măsurătoare de performanță primară. Această măsurătoare de evaluare este deosebit de potrivită pentru detectarea MA, deoarece abordează eficient dezechilibrul dintre pixelii MA și non-MA.1.       E-Ophtha: Cu peste 380 de imagini colectate de la diferite centre de screening din Franța, E-Ophtha prezintă un set de date provocator datorită calității sale diverse a imaginii și condițiilor de iluminare. Setul de date oferă, de asemenea, adnotări la nivel de pixeli pentru MA.

2.        DIARETDB1: 89 de imagini retiniene capturate în condiții controlate, fiecare imagine fiind adnotată de mai mulți evaluatori.

3.        ROC: Retinopathy Online Challenge cuprinde 100 de imagini luate de la diferite camere pentru fundul de ochi.


Conclusions

Prin eliminarea necesității de caracteristici realizate manual, modelul reduce dependența de expertiza domeniului, făcându-l adaptabil la diferite condiții de imagine și mai scalabil pentru aplicații mai largi. Studiul evidențiază rolul critic al învățării prin transfer în imagistica medicală, unde seturile mari de date adnotate sunt rare. Cu toate acestea, timpul actual de procesare de aproximativ 120 de secunde per imagine prezintă o limitare pentru screening-ul de mare debit, indicând necesitatea unor optimizări viitoare, cum ar fi inferența paralelizată, pentru a crește viteza.











miercuri, 15 ianuarie 2025

Applying Supervised Machine Learning Algorithms for Fraud Detection in Anti-Money Laundering

 

Applying Supervised Machine Learning Algorithms for Fraud Detection in Anti-Money Laundering

Petcu Vlad-Gavril
Tircomnicu Vlad-Mihai


    Introduction
    Money laundering dates back to early twentieth century which is regarded a gangster era in American history. Gambling and alcohol sales were all increasing at the time, and people were earning a huge amount of cash that required to be laundered so the authorities would not know where their money came from.

    Money laundering may be broken into three parts, which may be referred to as placement, layering, and integration.

    Data Set
    Features are given as follows: CASH-IN, CASH-OUT, DEBIT, PAYMENT, and TRANSFER are the different types of transactions. 
    - amount - the transaction's value in local currency. 
    - nameOrigin - is the name of the client who initiated the transaction.
    - oldbalanceOrg - before to the transaction, the original balance 
    - newbalanceOrig - following the transaction, the new balance 
    - nameDest - the customer who is the transaction's beneficiary. 
    - oldbalanceDest - the receiver of the original balance before the transaction.
    - isFraud - This represents the fraudulent agents' transactions inside the simulation. The fraudulent activity of the agents in this dataset tries to profit by seizing control of clients' accounts and attempting to empty the money by transferring to another account and then cashing out of the system. 
    - isFlaggedFraud - The business model strives to regulate large transfers from one account to another and flags any efforts that seem to be fraudulent. An attempt to transfer more than 200.000 in a single transaction is considered unlawful in this dataset.

    Solution
    Machine learning technologies can be a helpful contribution to the existing challenges of money laundering detection. Fresh approaches can provide new insights and help detect questionable transactions more precisely.
    


    Conclusion
    To summarize this research, machine learning models might help with money laundering detection by effectively identifying money laundering transactions from routine transactions. Furthermore, this research findings suggest that Random Forest might help in real-world anti-money laundering detecting settings. Because of its accuracy and interpretability, it may be utilized in Anti-Money Laundering (AML) architecture in financial institutions.

    Bibliography



marți, 14 ianuarie 2025

Antrenarea de NPC-uri cu Machine Learning

Exploring Air Quality Prediction

 

Exploring Air Quality Prediction: Methods, Models, and Insights

 

January 14, 2025

 

 

Contents

1       Introducere                                                                                                                      2

2      Descrierea Generală a Documentelor                                                                      2

2.1        Urban Air Quality Prediction Using Regression Analysis     . . . . . . . . .         2

2.1.1         Procesul de Gândire: . . . . . . . . . . . . . . . . . . . . . . . . .         2

2.1.2         Algoritmi Utilizat, i: . . . . . . . . . . . . . . . . . . . . . . . . . .         3

2.1.3         Rezultate: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .         3

2.2        Air Quality Prediction Using Machine Learning Algorithms A Review .         4

2.2.1         Procesul de Gândire: . . . . . . . . . . . . . . . . . . . . . . . . .         4

2.2.2         Algoritmi Prezentati: . . . . . . . . . . . . . . . . . . . . . . . . .         4

2.2.3         Rezultate: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .         4

2.3        Air Quality Prediction: Big Data and Machine Learning Approaches . . .         4

2.3.1         Procesul de Gândire: . . . . . . . . . . . . . . . . . . . . . . . . .         5

2.3.2         Algoritmi s, i Abordări:  . . . . . . . . . . . . . . . . . . . . . . . .          5

2.3.3         Rezultate: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .         5

3      Compararea preciziei pentru diferite modele în cadrul articolelor.                6

4      Cum funct, ionează algoritmul Decision Tree?                                                        6

4.1        Măsurile de select, ie a atributelor       . . . . . . . . . . . . . . . . . . . . . .         6

4.1.1         Information Gain . . . . . . . . . . . . . . . . . . . . . . . . . . .         7

4.1.2         Gain Ratio     . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .         7

4.1.3         Gini Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .         8

5      O privire de ansamblu asupra Random Forests                                                   8

5.1        Cum funct, ionează clasificarea cu Random Forest . . . . . . . . . . . . . .          9

6      Setul de date                                                                                                                  10

7       Încheiere                                                                                                                        10

 


1             Introducere

Calitatea aerului a devenit o preocupare majoră în zonele urbane s, i industriale datorită impactului său asupra sănătăt, ii publice s, i mediului. Poluarea aerului poate provoca efecte negative pe termen scurt s, i lung, cum ar fi probleme respiratorii, boli cardiovasculare s, i degradarea stratului de ozon. Pentru a aborda această problemă, cercetătorii au dezvoltat modele predictive utilizând algoritmi de machine learning s, i analiza datelor mari (big data). Acest document sintetizează informat, iile din trei lucrări s, tiint, ifice importante:

    Predict, ia calităt, ii aerului folosind analiza de regresie.

    Revizuirea algoritmilor de machine learning pentru predict, ia calităt, ii aerului.

    Aplicarea big data în monitorizarea s, i predict, ia calităt, ii aerului.

 

2             Descrierea Generală a Documentelor

2.1           Urban Air Quality Prediction Using Regression Analysis

Această lucrare explorează relat, ia dintre factorii meteorologici s, i Indicele de Calitate a Aerului (AQI) în Delhi, India. Datele au fost colectate din două surse principale: AirNow pentru calitatea aerului s, i Kaggle pentru datele meteorologice. Seturile de date au fost combinate pe baza orei s, i datei pentru a crea un set complet de caracteristici relevante. [1]

 

2.1.1         Procesul de Gândire:

Cercetătorii au început prin analizarea grafică a relat, iilor dintre variabilele meteorologice s, i AQI pentru a identifica caracteristicile relevante. Apoi au aplicat metode de curăt, are a datelor, eliminând valorile lipsă s, i selectând doar variabilele esent, iale. Următorul pas a fost antrenarea mai multor modele de regresie pentru a compara performant, a.




 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


Figure 1: de sus, de la stânga la dreapta) Variat, ia AQI s, i modul în care variază în funct, ie de secunde, dewptm, hum, pressurem, wspdm, ora, tempm, wdird, luna s, i datele seriilor cronologice ale AQI (2015-17)

 

2.1.2        Algoritmi Utilizat, i:

    Linear Regression: Evaluarea relat, iilor liniare dintre variabile.

    Neural Networks: Oferă flexibilitate în modelarea relat, iilor complexe.

    Extra Trees: Utilizează arbori de decizie pentru a selecta s, i evalua important, a caracteristicilor.

    XGBoost: Optimizare prin boosting pentru rezultate precise.

 

2.1.3        Rezultate:

    Extra Trees a obt, inut o acuratet, e de 85%, fiind cel mai performant model.

    Caracteristicile cele mai relevante au fost presiunea atmosferică, umiditatea, tem- peratura s, i valorile AQI anterioare.


2.2           Air Quality Prediction Using Machine Learning Algorithms – A Review

Această lucrare oferă o trecere în revistă a metodelor de predict, ie a calităt, ii aerului, incluzând modele pentru poluant, i specifici precum PM2.5 s, i NO2. Datele au fost preluate din diverse surse, inclusiv monitorizări locale s, i platforme globale. [2]

 

2.2.1        Procesul de Gândire:

Autorii au analizat algoritmii tradit, ionali s, i moderni, evaluând performant, ele acestora în funct, ie de complexitatea seturilor de date s, i condit, iile geografice. Accentul a fost pus pe identificarea algoritmilor capabili să gestioneze date incomplete s, i complexe.



 

2.2.2       Algoritmi Prezentati:

    Random Forest: Utilizat pentru clasificare s, i reducerea supraînvăt, ării.

    Support Vector Machines (SVM): Analizează datele complexe cu limite nelin- eare.

    Artificial Neural Networks (ANN): Modelează relat, iile neliniare.

    LightGBM: O solut, ie hibridă pentru predict, ii rapide s, i precise.

 

2.2.3       Rezultate:

    Neural Networks au obt, inut o acuratet, e de 92.3%, fiind eficiente în analiza regională.

    Modelele hibride precum LightGBM au arătat rezultate excelente pentru PM2.5.

 

2.3           Air Quality Prediction: Big Data and Machine Learning Ap- proaches

Această lucrare explorează utilizarea big data s, i a senzorilor pentru predict, ia calităt, ii aerului. Datele provin din surse precum satelit, i, senzori s, i platforme IoT. [3]


2.3.1        Procesul de Gândire:

Autorii au combinat abordările de analiză spat, io-temporală cu metode de prelucrare a datelor mari. Ei au utilizat corelat, ii între variabile pentru a reduce complexitatea s, i au testat mai mulţi algoritmi pentru a identifica cel mai performant model.



 

Figure 2: Random Forest

 

2.3.2       Algoritmi s, i Abordări:

    Artificial Neural Networks (ANN)

    Genetic Algorithm - ANN (GA-ANN): Optimizare prin select, ia caracteristi- cilor relevante.

    Random Forest: Clasificare s, i predict, ie pentru AQI.

 

2.3.3       Rezultate:

    GA-ANN a avut rezultate superioare în predict, ia NO2 s, i SO2.

    Abordările big data au îmbunătăt, it precizia predict, iilor prin integrarea mai multor surse.


3             Compararea preciziei pentru diferite modele în cadrul articolelor.

 

 

Neural Network

Decision Trees

Random Forests

Articolul 1

55 %

89.46 %

81 %

Articolul 2

82.52 %

84.89 %

83.89 %

Articolul 3

99.56 %

85.3 %

79 %

 

4             Cum funct, ionează algoritmul Decision Tree?

Algoritmul Decision Tree funct, ionează după cum urmează:

1.    Selectează atributul optim folosind Măsurile de Select, ie a Atributelor (Attribute Selection Measures - ASM) pentru a împărt, i setul de date.

2.    Desemnează acest atribut ca un nod de decizie s, i împarte setul de date în subseturi.

3.    Aplică acest proces recursiv pentru fiecare nod copil până când una dintre urmă- toarele condit, ii este îndeplinită:

    Toate tuplele apart, in aceleias, i valori a atributului.

    Nu există atribute rămase.

    Nu există instant, e suplimentare.



 

Figure 3: Decision tree

 

4.1           Măsurile de select, ie a atributelor

Măsurile de select, ie a atributelor sunt euristici care determină cea mai bună metodă de a împărt, i datele. Acestea clasifică fiecare caracteristică în funct, ie de capacitatea sa de a partitiona setul de date, atributul cu cea mai mare clasificare fiind ales pentru împărt, ire. Măsurile comune includ Information Gain, Gain Ratio s, i Gini Index.


4.1.1         Information Gain

Information Gain se bazează pe conceptul de entropie, care măsoară impuritatea unui set. Aceasta calculează reducerea entropiei obt, inută prin împărt, irea setului de date con- form unui atribut dat. Atributul cu cel mai mare Information Gain este selectat pentru împărt, ire.



 

 



 

Unde Pi este probabilitatea ca o tuplă arbitrară din D apart, ină clasei Ci.

 



 

 

Unde:

    Info(D) este cantitatea medie de informat, ii necesară pentru a identifica eticheta clasei unei tuple din D.


 
|Dj|

|D|


reprezintă greutatea partajării j-lea.


    InfoA(D) este informat, ia as, teptată necesară pentru a clasifica o tuplă din D pe baza partajării de către A.

 

4.1.2        Gain Ratio

Des, i Information Gain poate fi părtinitor fat, ă de atributele cu multe rezultate, Gain Ratio abordează acest lucru prin normalizarea Information Gain utilizând o valoare cunoscută sub numele de Split Info. Atributul cu cel mai mare Gain Ratio este ales pentru împărt, ire.

 



 

 

Unde:


 
|Dj|

|D|


reprezintă greutatea partajării j-lea.


    v este numărul de valori discrete ale atributului A.

Gain Ratio poate fi definit astfel:

 



 

 

4.1.3        Gini Index

Un alt algoritm de arbore de decizie, CART (Classification and Regression Tree), uti- lizează metoda Gini pentru a crea puncte de împărt, ire.




 

Unde pi este probabilitatea ca o tuplă din D apart, ină clasei Ci.

Indexul Gini consideră o împărt, ire binară pentru fiecare atribut. Se poate calcula o sumă ponderată a impurităt, ii fiecărei partit, ii. Dacă o împărt, ire binară pe atributul A împarte datele D în D1 s, i D2, indexul Gini al lui D este:



 

În cazul unui atribut cu valori discrete, subsetul care oferă indexul Gini minim este ales ca atribut de împărt, ire. În cazul atributelor cu valori continue, strategia este să selectezi fiecare pereche de valori adiacente ca un posibil punct de împărt, ire, iar punctul cu un index Gini mai mic este ales ca punct de împărt, ire.

 



 

Atributul cu indexul Gini minim este ales ca atribut de împărt, ire.

 

5             O privire de ansamblu asupra Random Forests

Random forests reprezintă un algoritm popular de învăt, are automată supravegheată care poate gestiona atât sarcini de regresie, cât s, i de clasificare. Mai jos sunt prezentate câteva dintre caracteristicile principale ale algoritmului Random Forests:


    Random forests sunt utilizate în învăt, area automată supravegheată, unde există o variabilă t, intă etichetată.

    Random forests pot fi folosite pentru rezolvarea problemelor de regresie (variabilă t, intă numerică) s, i de clasificare (variabilă t, intă categorială).

    Random forests sunt o metodă de tip ansamblu, ceea ce înseamnă că combină predict, iile obt, inute din alte modele. Fiecare dintre modelele mai mici din ansamblul Random Forest este un arbore de decizie.

 

5.1           Cum funct, ionează clasificarea cu Random Forest

Imaginează-t, i ai o problemă complexă de rezolvat s, i aduni un grup de expert, i din diverse domenii pentru a oferi opiniile lor. Fiecare expert îs, i oferă părerea bazată pe expertiza s, i experient, a sa. Ulterior, expert, ii votează pentru a ajunge la o decizie finală. În clasificarea cu Random Forest, sunt create mai mult, i arbori de decizie folosind subseturi aleatorii diferite de date s, i caracteristici. Fiecare arbore de decizie este ca un expert, oferind opinia sa despre cum ar trebui clasificate datele. Predict, iile sunt făcute calculând predict, iile fiecărui arbore de decizie s, i luând în considerare rezultatul cel mai

popular. (Pentru regresie, predict, iile folosesc o tehnică de mediere în loc de vot).

În diagrama de mai jos avem un "random forest" cu n arbori de decizie s, i sunt arătat, i primii 5, împreună cu predict, iile lor (fie „Câine”, fie „Pisică”). Fiecare arbore este expus la un număr diferit de caracteristici s, i la un es, antion diferit al setului de date init, ial, astfel încât fiecare arbore poate fi diferit. Fiecare arbore face o predict, ie.

Analizând primii 5 arbori, putem observa 4 din 5 au prezis exemplul este o

„Pisică”. Cercurile verzi indică un traseu ipotetic pe care arborele l-a urmat pentru a ajunge la decizia sa. Random Forest numără numărul de predict, ii din partea arborilor de decizie pentru „Pisică” s, i „Câine” s, i alege predict, ia cea mai populară.



 

Figure 4: Cum funct, ionează Random Forest


6             Setul de date

    Setul de date conţine informaţii legate de componenţa chimica a aerului în Madrid [4]

    Conţine valori pentru indici atat pentru elemente chimice (CO,NO,NO2,SO2,O3,TOL,BEN,EBE,C etc.), cât şi pentru alte tipuri de particule (PM25,PM10), plus data măsurărilor.

    Valorile date au fost măsurate pe parcursul a 18 ani (2001-2018), respectiv avem câte un fişier (format csv) pentru fiecare an.

    Avem şi un fişier csv cu staţiunile implicate in măsurări, având coloane pentru id, nume, adresa, lat, long, elevaţie.

 

7             Încheiere

Modelele de predict, ie a calităt, ii aerului joacă un rol important în combaterea poluării. Utilizarea algoritmilor de machine learning s, i big data permite îmbunătăt, irea acuratet, ei s, i furnizarea de solut, ii scalabile pentru problemele urbane.

În viitor, integrarea datelor din surse variate, cum ar fi traficul rutier s, i imaginile satelitare, poate îmbunătăt, i semnificativ capacitatea de predict, ie a acestor modele.


References

[1]    Mahanta, Soubhik, et al. "Urban air quality prediction using regression analysis." TENCON 2019-2019 IEEE Region 10 Conference (TENCON). IEEE, 2019.

[2]    Kang, Gaganjot Kaur, et al. "Air quality prediction: Big data and machine learning approaches." Int. J. Environ. Sci. Dev 9.1 (2018): 8-16.

[3]    Madan, Tanisha, Shrddha Sagar, and Deepali Virmani. "Air quality prediction using machine learning algorithms–a review." 2020 2nd International Conference on Ad- vances in Computing,Communication Control and Networking (ICACCCN). IEEE, 2020.

[4]    https://www.kaggle.com/datasets/decide-soluciones/air-quality-madrid

Microaneurysm Detection Using Fully Convolutional Neural Networks

  Microaneurysm Detection Using Fully Convolutional Neural Networks (Piotr Chudzik et al.) Introduction Retinopatia diabetică (DR) est...