Localizarea Memoriei Factuale în Modele Lingvistice Mari prin Inginerie Inversă
de
Iacobescu Alexandru
Elber Da
Costișanu Vlad
Învățare Automată
Universitatea de Vest Timișoara
Facultatea de Matematică și Informatică
România
Decembrie, 2024
rezumat
Lucrarea își propune să investigheze mecanismele prin care modelele lingvistice mari (LLM-uri), cum ar fi Pythia 6.9B, stochează și regăsesc informații factuale la nivelul straturilor neuronale. Studiul se concentrează pe ingineria inversă a memoriei factuale, analizând contribuțiile straturilor MLP timpurii în procesul de regăsire a informațiilor. Prin experimente sistematice, utilizând tehnici precum patching cauzal și proiecții liniare, se demonstrează că MLP-urile funcționează ca un tabel distribuit de căutare, unde numele entităților sunt transformate în reprezentări multi-token.
Rezultatele evidențiază dificultățile inerente în interpretarea mecanismelor distribuite din straturile neuronale, infirmând ipoteze simplificate, cum ar fi detokenizarea într-un singur pas. De asemenea, se observă o procesare preponderent locală în straturile timpurii, cu o dependență ridicată de contextul imediat al tokenurilor. Studiul oferă o înțelegere aprofundată a fenomenului suprapoziției în rețelele neuronale și sugerează direcții viitoare pentru interpretabilitatea modelelor de limbaj, subliniind importanța reprezentărilor liniare în memorarea factuală.
Introducere
Capacitatea de a gestiona sarcini complexe, cum ar fi înțelegerea limbajului natural, traducerea automată și generarea de text, a crescut semnificativ datorită dezvoltării modelelor de limbaj bazate pe rețele neuronale profunde, cum ar fi transformerele. Cu toate acestea, o problemă fundamentală rămâne în continuare: înțelegerea modului în care aceste modele stochează și recuperează datele reale pe care le-am învățat în timpul antrenamentului.
Încercarea de a interpreta funcția internă a anumitor neuroni și straturi ale modelului este scopul articolului „Fact Finding: Attempting to Reverse-Engineer Factual Recall on the Neuron Level”, care oferă o investigație amănunțită a memoriei factuale în rețelele neuronale. Această metodă combină ingineria inversă și analiza experimentală pentru a explica modul în care modelul procesează, organizează și utilizează datele reale.
Lucrări Conexe
Studiul relației dintre rețelele neuronale și recuperarea faptelor explorează modul în care aceste modele pot simula procesele de memorie umană. Memoria artificială, spre deosebire de cea biologică, este implementată prin greutăți și conexiuni, reprezentând o formă implicită de stocare a informațiilor. Acest contrast fundamental a motivat cercetări privind similitudinile și diferențele dintre cele două sisteme (McCulloch and Pitts 1943).
Progresele în învățarea profundă, precum RNN-urile și modelele LSTM, au permis procesarea secvențială a datelor, facilitând sarcini precum traducerea automată și analiza textelor. Cu toate acestea, modelele recente, cum ar fi GPT și BERT, în ciuda performanțelor remarcabile în generarea și recuperarea informațiilor, nu integrează o memorie explicită comparabilă celei umane (Hochreiter 1997; Vaswani 2017). Memoria lor implicită, bazată pe asocierea de tipare, rămâne limitată în redarea contextuală a faptelor.
Mecanismele precum memoria de lucru și memoria episodică au fost integrate în rețelele neuronale pentru a îmbunătăți recuperarea faptelor. De exemplu, Neural Turing Machine (NTM) combină rețelele neuronale cu o memorie externă, sporind precizia în gestionarea informațiilor (Graves 2014). În mod similar, mecanismele de atenție, cum ar fi cele din arhitectura Transformer, au permis modelelor să prioritizeze informațiile relevante, dar fără a atinge complexitatea memoriei umane (Vaswani 2017).
Limitările persistă: rețelele neuronale nu dețin o "memorie conștientă" și recuperează faptele cu inexactități frecvente. Provocări precum suprainvățarea și uitarea continuă să fie bariere în modelarea fidelă a memoriei umane (Goodfellow 2016). În ciuda progreselor, diferențele conceptuale și practice între memoria umană și cea artificială sugerează nevoia unor abordări mai avansate pentru a înțelege și reproduce procesele de reamintire factuală.
Interpretabilitate Mecanică
Interpretabilitatea mecanică în rețelele neuronale se referă la capacitatea de a înțelege procesele interne ale modelelor de rețele neuronale. Datorită naturii opace și complexe a rețelelor neuronale profunde, interpretabilitatea a devenit un domeniu crucial, în special în sarcini complexe, cum ar fi recunoașterea imaginilor, procesarea limbajului natural și recuperarea factuală (Lipton 2018).
Provocarea "Cutiei Negre" Modelele neuronale profunde, cum ar fi GPT sau BERT, sunt deseori considerate "cutii negre" datorită arhitecturii lor complexe, care implică mii de parametri și straturi. Acest lucru face dificilă înțelegerea modului în care acestea produc răspunsuri, ceea ce ridică probleme legate de transparență și încredere (Olah et al. 2018). Pentru aplicațiile de recuperare factuală, este esențial să înțelegem cum modelele accesează și organizează informația pentru a garanta precizia și relevanța răspunsurilor. Modelele opace pot introduce riscuri de eroare, cum ar fi informații eronate sau asocieri incorecte.
Instrumente pentru Interpretabilitate O serie de tehnici au fost dezvoltate pentru a înțelege funcționarea internă a rețelelor neuronale. Acestea includ:
Hărți de Saliență Hărțile de saliență identifică părțile intrării care influențează cel mai mult decizia unui model. În procesarea limbajului natural, ele pot evidenția cuvintele care au cel mai mare impact asupra predicțiilor modelului, permițând verificarea utilizării adecvate a informațiilor factuală.
Layer-wise Relevance Propagation (LRP) Layer-wise Relevance Propagation (LRP) decompune deciziile rețelelor neuronale pentru a identifica relevanța fiecărui strat în producerea unui rezultat. În contextul recuperării factuală, LRP poate arăta cum sunt utilizate diferitele straturi pentru a accesa și structura informațiile (Binder et al. 2016).
Aplicație în Recuperarea Factuală Tehnici precum hărțile de saliență și LRP permit analizarea modului în care rețelele neuronale "își amintesc" faptele. Aceste metode contribuie la ingineria inversă a proceselor de recuperare, dezvăluind modul în care activările neuronale corespund unor informații specifice. Acest lucru îmbunătățește atât încrederea în sistem, cât și capacitatea acestuia de a imita memoria umană într-un mod mai transparent și eficient (Geva et al. 2020).
Supraînvățare în Rețele Neuronale
Supraînvățare, sau overfitting-ul, este fenomenul prin care un model neuronal învață excesiv de specific relații din datele de antrenament, pierzând astfel capacitatea de a generaliza la date noi. Acest fenomen este deosebit de relevant pentru recall-ul factual, deoarece modele bine antrenate pot memora detalii fără a le aplica corect în contexte diferite.
Ce este Supraînvățare? Supraînvățare apare atunci când un model memorizează exemplare din datele de antrenament în loc să învețe tipare generale aplicabile. Modelele complexe, cum ar fi rețelele neuronale adânci, sunt deosebit de vulnerabile la acest fenomen, având o capacitate mare de memorare.
Impact asupra Recall-ului Factual. În recall-ul factual, supraînvățare poate duce la performanțe inconsistente. Un model antrenat pe un set limitat de fapte istorice poate "aminti" detalii exacte, dar poate eșua în reamintirea acelorași informații reformulate sau aplicate într-un alt context (Brown et al. 2020). De asemenea, supraînvățare limitează capacitatea modelului de a face inferențe logice din informațiile existente, în contrast cu flexibilitatea memoriei umane.
Diferențe față de Memoria Umană. Memoria umană generalizează informațiile și stabilește conexiuni între diferite seturi de date, făcând inferențe în situații noi. În schimb, modelele neuronale tind să rămână rigide, amintindu-și doar detalii exacte (Lake et al. 2017).
Metode de Mitigare. Prevenirea supraînlocării include:
Regularizare: Tehnici precum dropout, L2 regularization sau early stopping (Srivastava et al. 2014) reduc ajustarea excesivă la datele de antrenament.
Diversificarea Datelor: Utilizarea unui set variat de date ajută la generalizare (Shorten and Khoshgoftaar 2019).
Augmentarea Datelor: Generarea de variații ale datelor, cum ar fi parafrazarea, antrenează modelele să fie mai robuste.
Modele cu Memorie Episodică: Sisteme precum Neural Turing Machines facilitează stocarea structurată a informațiilor pentru un recall mai flexibil (Graves 2014).
Rememorarea Faptelor în Modele de Limbaj
Modelele de limbaj mari, precum GPT (Generative Pretrained Transformer) și BERT (Bidirectional Encoder Representations from Transformers), oferă o analogie interesantă cu memoria umană, dar prezintă limitări semnificative. Deși sunt capabile să genereze răspunsuri coerente pe baza datelor de antrenament, modul în care „își amintesc” informațiile diferă fundamental de memoria umană.
Memoria Umană vs. Memoria Modelului de Limbaj
Spre deosebire de memoria episodică și semantică umană, modelele de limbaj funcționează pe baza parametrilor optimizați în timpul antrenamentului, fără o structură explicită pentru stocarea informațiilor. În loc de amintiri conștiente, aceste modele operează pe corelații statistice între cuvinte și fraze (Brown et al. 2020). Procesul lor de generare este o extensie a previziunilor probabilistice, ceea ce le limitează în înțelegerea profundă a contextului.
Limitări în Recuperarea Faptelor
Modelele pot produce informații imprecise sau fabricate, deoarece nu dispun de mecanisme interne de verificare a veridicității. Această problemă este amplificată de lipsa accesului la date actualizate în timp real, ceea ce duce la răspunsuri bazate pe cunoștințele statice capturate în timpul antrenamentului (Bommasani et al. 2021). De exemplu, pentru întrebări despre evenimente recente, modelele oferă frecvent răspunsuri învechite sau incorecte.
Memorie Explicită și Îmbunătățiri Posibile
Pentru a aborda aceste limitări, sunt explorate metode de integrare a unei memorii explicite, inspirate de structuri precum rețelele de memorie diferențială (DNC) (Graves et al. 2016). Acestea permit modelelor să acceseze informații externe structurate și verificabile. Alte strategii includ îmbunătățiri în mecanismele de atenție pentru prioritizarea informațiilor relevante și utilizarea tehnicilor de fine-tuning pentru a actualiza modelele cu date recente.
Încorporarea surselor externe de date, precum baze de cunoștințe sau API-uri, oferă o „memorie externă” care poate îmbogăți răspunsurile modelelor, oferindu-le acces la informații fiabile și actualizate. Aceste soluții rămân însă în stadii incipiente de dezvoltare, necesitând cercetări suplimentare pentru a ajunge la flexibilitatea memoriei umane.
Metodologie
Descrierea Modelului
Modelul investigat în cadrul studiului este un model de limbaj bazat pe arhitectura Transformer, denumit Pythia 6.9B. Studiul analizează modul în care straturile MLP timpurii din acest model implementează un mecanism de stocare și regăsire a informațiilor factuale prin reprezentări lineare. Aceasta presupune că fiecare entitate este reprezentată printr-un "embedding multi-token", derivat din ultimele câteva tokenuri recente din fluxul rezidual (Nanda et al. 2023).
Colectarea Datelor
Pentru a evalua comportamentul modelului, cercetătorii au utilizat o serie de prompturi construite manual, de forma „Fapt: Michael Jordan joacă sportul”, care implică trei categorii sportive diferite: baseball, baschet și fotbal american. S-a selectat un set de 1000 de exemple de sportivi cunoscuți, pentru a analiza corectitudinea și robustezza mecanismelor de regăsire factuală ale modelului (Nanda et al. 2023).
Configurația Experimentală
Experimentul a fost conceput pentru a testa ipoteza conform căreia MLP-urile timpurii funcționează ca un tabel de căutare pentru a stoca și extrage faptele. Aceasta a inclus:
Analiza direcțiilor liniare care codifică atributele factuale în fluxul rezidual al modelului.
Utilizarea de tehnici de patching cauzal pentru a evalua contribuția fiecărui strat sau neuron individual la procesul de regăsire factuală.
Testarea ipotezei „hash și căutare”, conform căreia MLP-urile timpurii fragmentează spațiul linear pentru a genera reprezentări unice, care sunt apoi mapate la atributele asociate entităților (Elhage et al. 2022).
Rezultatele experimentale au fost comparate cu metodele tradiționale de interpretabilitate, cum ar fi probele liniare aplicate pe fluxul rezidual pentru a evidenția reprezentările factuale (Geva et al. 2020).
Rezultate
Simplificarea Circuitului
Un aspect central al analizei a fost simplificarea circuitului responsabil pentru regăsirea factuală. Cercetătorii au demonstrat că acest proces poate fi descompus în trei etape principale: concatenarea tokenurilor, maparea acestora către o reprezentare liniară prin MLP-uri și extragerea atributelor relevante de către capetele de atenție. De exemplu, în cazul unui prompt precum „Michael Jordan joacă sportul”, numele complet este concatenat pe ultimul token („Jordan”), iar straturile MLP 2-6 mapează această concatenare într-o reprezentare ce permite extragerea sportului jucat (Nanda et al. 2023).
Înțelegerea Mecanică a Straturilor MLP Timpurii
În cadrul investigației mecaniciste, autorii au testat mai multe ipoteze, inclusiv ipoteza „hash și căutare”. S-a constatat că straturile MLP timpurii nu operează printr-un simplu proces de detokenizare, ci utilizează reprezentări intermediare distribuite și complexe. De exemplu, ipoteza conform căreia un singur neuron ar putea reprezenta toate informațiile asociate unui sportiv a fost infirmată, indicând că MLP-urile implementează un proces mai fragmentat și distribuit (Nanda et al. 2023; Elhage et al. 2022).
Interpretarea Memorării
Memorarea în rețelele neuronale, cum este cea observată în Pythia 6.9B, se bazează pe stocarea faptelor în reprezentări liniare care sunt accesate printr-un tabel de căutare implicit. Studiul a arătat că, pentru sarcini bazate pe memorare, nu există o reprezentare intermediară evidentă care să faciliteze interpretarea. În schimb, procesul se bazează pe corelații locale între tokenuri și faptele stocate (Geva et al. 2020).
Procesarea Locală în Straturile Timpurii
Rezultatele experimentale au indicat că straturile timpurii se concentrează în mare parte pe procesarea contextului local. Prin măsurarea similitudinilor cosinus între activările fluxului rezidual pentru contexte trunchiate și contexte complete, s-a demonstrat că aceste straturi sunt dependente în principal de tokenurile recente. Totuși, pentru anumite categorii de tokenuri, cum ar fi semnele de punctuație, s-a observat o procesare non-locală, sugerând roluri suplimentare, cum ar fi rezumarea sau delimitarea (Nanda et al. 2023).
Discuții
Constatări Cheie
Studiul a fost organizat în patru etape distincte, fiecare vizând analiza unor aspecte esențiale ale circuitului de reamintire factuală. Prima etapă s-a concentrat pe o analiză amănunțită a funcționării acestui circuit prin tehnici cauzale, identificând că informațiile factuale sunt procesate de straturile MLP 2-6 și oferind o perspectivă generală asupra rolului acestora în gestionarea informațiilor.
În a doua etapă, cercetarea s-a orientat către explorarea detaliată a mecanismelor interne ale acestor straturi MLP. Au fost propuse și evaluate diverse ipoteze privind funcționarea lor, însă rezultatele au indicat dificultăți semnificative în obținerea unei înțelegeri clare a proceselor mecanistice bazate pe ponderile rețelelor, subliniind astfel complexitatea acestora.
A treia etapă a implicat utilizarea unor modele simplificate pentru a studia modul în care are loc procesul de memorare și reamintire factuală. S-a constatat că aceste modele, similare cu modelul Pythia, sunt dificil de interpretat, ceea ce sprijină ideea că procesul de reamintire factuală ar putea fi, în mod fundamental, greu de descifrat, punând în evidență limitele abordărilor curente.
Ultima etapă a analizat o ipoteză mai amplă legată de embedding-ul multi-token, care sugerează că fluxurile reziduale din straturile inițiale depind în principal de token-urile recente, în timp ce contextul mai îndepărtat devine relevant în straturile intermediare. Deși această tendință a fost confirmată, cercetarea a arătat că și straturile timpurii pot utiliza informații din contexte mai largi, ceea ce complică o separare strictă a funcțiilor straturilor(Nanda et al. 2023).
Prin aceste etape, investigația a oferit o înțelegere aprofundată a funcționării rețelelor neuronale, evidențiind atât complexitatea proceselor implicate, cât și limitele metodelor actuale de analiză, deschizând astfel noi direcții pentru cercetări viitoare.
Implicații pentru Cercetări Viitoare
Perspectiva generală prezentată de Geva și colaboratorii săi este în mare măsură confirmată: având un prompt de genul „Fapt: Michael Jordan joacă sportul”, modelul detokenizează termenii „Michael” și „Jordan” pe tokenul „Jordan” pentru a reprezenta toate informațiile pe care le deține despre Michael Jordan. După stratul 6, sportul este reprezentat clar și liniar pe tokenul „Jordan”. În plus, există capete de atenție pentru extragerea faptelor în straturile medii și târzii, care leagă termenul „of” de „Jordan” și mapează sportul în logits-ul de ieșire. O analiză detaliată realizată de Chughtai și colaboratorii săi (în curs de publicare) a demonstrat că aceste capete de atenție continuă să extragă sportul asociat unui atlet, chiar și atunci când relația solicitată se referă la un atribut diferit de sport.
Circuitul pentru extragerea faptelor a fost simplificat și denumit „modelul efectiv”. În cazul numelor de atleți formate din doi tokeni, acest model presupune ca straturile de atenție 0 și 1 să recupereze embedding-ul tokenului anterior și să-l adauge la embedding-ul tokenului curent. Aceste embedding-uri combinate sunt procesate prin straturile MLP 2 până la 6, iar la final sportul devine recuperabil liniar. Straturile de atenție începând cu stratul 2, precum și stratul MLP 1, pot fi ablate fără a afecta această reprezentare.
Pentru clasificarea liniară, s-a demonstrat că aceasta poate fi antrenată prin regresie logistică. De asemenea, s-a obținut o performanță ridicată (86% acuratețe) prin utilizarea direcțiilor pe care un anumit cap de atenție (Stratul 16, Capul 20) le mapează în logits-ul de ieșire pentru cele trei sporturi analizate: baseball, baschet și fotbal. Analiza a fost simplificată prin interpretarea modelului efectiv, unde „finalul” modelului constă într-un clasificator liniar urmat de o funcție softmax pentru cele trei sporturi.
Un aspect semnificativ al acestei analize este ideea că „odată ce o caracteristică devine recuperabilă liniar, este suficient să se interpreteze modul în care aceasta este extrasă liniar, ignorând restul circuitului”. Această perspectivă ar putea fi utilă și în alte analize de circuite, mai ales având în vedere ușurința cu care pot fi antrenați proiecții liniare, cu condiția de a dispune de date etichetate.
După ce analiza noastră s-a concentrat asupra faptelor stocate în straturile MLP 2 până la 6, am formulat, testat și infirmat mai multe ipoteze cu privire la mecanismele implicate în procesul de memorare. Este esențial de menționat că aceste ipoteze au fost extrem de specifice și detaliate, fiind influențate în mare măsură de intuițiile cercetătorului (Neel) cu privire la ceea ce ar putea avea loc în cadrul procesului investigat. Având în vedere că spațiul ipotezelor posibile este vast, investigațiile întreprinse au dus la concluzia că multe dintre acestea sunt probabil incorecte, iar această descoperire a oferit o înțelegere aprofundată atât a modului în care funcționează modelele lingvistice mari (LLMs), cât și a complexității intrinseci a problemei în cauză.
Ipoteza detokenizării într-un singur pas sugerează existența unor neuroni de „detokenizare” care interacționează direct cu embedding-urile brute ale tokenilor, folosind funcția GELU pentru a simula o operațiune Boolean de tipul prev==Michael && curr==Jordan, astfel generând o reprezentare liniară a tuturor faptelor asociate cu entitatea „Michael Jordan”. Un aspect semnificativ al acestei ipoteze este că aceiași neuroni sunt implicați în procesarea tuturor faptelor referitoare la o anumită entitate, fără a exista o stare intermediară între tokenii inițiali și atributele acestora.
Cercetările anterioare sugerează că detokenizarea se realizează în superpoziție, ceea ce implică un mecanism mult mai complex decât atribuirea unui neuron unic fiecărei entități. Ipoteza formulată sugerează că acest proces ar putea fi implementat printr-o configurare combinatorică, în care fiecare neuron detokenizează mai multe secvențe de caractere, iar fiecare secvență este detokenizată de mai mulți neuroni, fiecare dintre aceștia activându-se pentru un subset unic de secvențe care depășesc un anumit prag.
Limitări
Au fost identificate mai multe limitări care influențează interpretarea circuitelor neuronale, în special în ceea ce privește memorarea și procesarea informațiilor. Aceste limitări sunt legate de complexitatea mecanismelor implicate, natura zgomotoasă a datelor și modul în care rețelele neuronale prelucrează informațiile.
Una dintre principalele limitări a fost complexitatea distribuției informațiilor în rețea. Deși au fost identificate straturi și neuroni esențiali pentru extragerea și stocarea faptelor, modelul prezenta interacțiuni mult mai complexe între straturi decât se anticipase. Aceasta sugerează o interdependență mai mare între straturile MLP, ceea ce face dificilă extragerea semnificațiilor clare. În plus, zgomotul din activările neuronale face interpretarea acestora mai complicată. De exemplu, activările pentru numele unui atlet nu urmează un tipar clar, iar simplificarea analizei la câteva straturi nu a fost suficientă pentru a explica în totalitate procesul de stocare a faptelor.
O altă limitare importantă provine din natura memorării în rețelele neuronale, mai ales când acestea sunt folosite pentru a reaminti fapte specifice, cum ar fi asocierea unui atlet cu un sport. S-a observat că rețelele de memorare nu implică generalizare. Spre deosebire de sarcinile care presupun generalizare, în cazul memorării, rețeaua nu dezvoltă reguli care să ajute la predicții, ci pur și simplu stochează informațiile specifice, iar procesul de raționament complex nu este implicat. În loc să creeze reprezentări intermediare utile pentru extragerea faptei (de exemplu, sportul unui atlet), rețeaua stochează direct aceste informații în stările sale finale. Aceasta face ca interpretarea activărilor neuronale să fie mult mai dificilă. În astfel de cazuri de memorare, nu există reprezentări intermediare care să ajute la aplicarea unor reguli pe date noi, iar rețeaua funcționează ca un tabel de căutare care memorează perechi de nume și sporturi fără a implica un raționament generalizabil.
Un alt obstacol a fost interpretarea activărilor straturilor MLP și a reprezentărilor intermediare. Pe măsură ce cercetarea a avansat, s-a realizat că straturile MLP 2-6 sunt mult mai interconectate decât se anticipase, ceea ce face dificilă înțelegerea impactului fiecărui strat asupra rezultatului final. Ablațiile efectuate pe stratul 2 nu au furnizat rezultate clare, indicând faptul că interacțiunile dintre straturi sunt mult mai complexe decât se crezuse inițial. În plus, nu toți neuronii reacționează în același mod pentru fiecare fapt, ceea ce sugerează că mecanismele implicate sunt mai variate decât se presupusese. În ciuda eforturilor de a analiza efectul fiecărui neuron prin ablație, nu s-a observat o corelație constantă între activările neuronilor pentru diferite fapte, ceea ce indică faptul că mecanismele de memorare sunt mai subtile și mai dispersate decât se presupusese.
În analiza modului în care rețeaua procesează contextul apropiat față de cel îndepărtat, s-a descoperit că straturile timpurii sunt mai sensibile la contextul local, dar chiar și acestea depind semnificativ de contextul îndepărtat. Aceasta sugerează că modelul nu se limitează doar la procesarea informațiilor locale, dar utilizează și contextul îndepărtat, chiar și în straturile inferioare. Observațiile făcute asupra token-urilor de punctuație și a cuvintelor funcționale indică faptul că acestea sunt procesate diferit, având o dependență mult mai mare de contextul mai larg, ceea ce complică interpretarea lor în cadrul întregii rețele.
Concluzii
Cercetarea a evidențiat mai multe concluzii fundamentale privind procesele de stocare și procesare a informațiilor în rețelele neuronale de tip MLP, subliniind complexitatea interpretării acestora. Un aspect central al studiului a fost identificarea rolului crucial al memorării în modelele LLM (Large Language Models), în detrimentul generalizării, mai ales atunci când modelele asociază fapte specifice, cum ar fi asocierea unui atlet cu sportul pe care îl practică. În această situație, procesul implică o memorare directă a informațiilor, fără a recurge la reguli generalizabile, ceea ce face ca reprezentările intermediare generate de rețea să fie greu de interpretat. Mai mult, cercetările asupra straturilor MLP 2-6 au demonstrat că aceste straturi sunt interdependente într-un mod complex, iar simplificarea modelului nu a fost suficientă pentru a oferi o înțelegere completă a procesului de extragere și memorare a faptelor. În ciuda eforturilor de a analiza activările neuronale, s-a observat că nu există o corelație constantă între activările neuronilor pentru diverse fapte, ceea ce sugerează existența unor mecanisme dispersate care nu urmează un model simplu.
În plus, straturile timpurii ale rețelei au prezentat o sensibilitate nu doar la contextul imediat, dar și la contextul mai îndepărtat, ceea ce sugerează că aceste rețele neuronale nu se limitează exclusiv la procesarea informațiilor de context local, ci integrează și contextul mai larg încă din primele etape de procesare. Acest fenomen a fost observat în mod deosebit în cazul token-urilor de punctuație și al cuvintelor funcționale, care sunt dependente într-o măsură considerabilă de contextul mai îndepărtat. În concluzie, cercetarea a subliniat și limitările interpretării activărilor neuronale, din cauza zgomotului prezent în activările acestora și a dificultății de a identifica mecanisme clare de generalizare. Deși modelele MLP sunt eficiente în procesul de memorare și recunoaștere a faptelor, o înțelegere completă a modului în care aceste informații sunt procesate și stocate rămâne o provocare semnificativă. Aceste constatări sugerează că sunt necesare investigații suplimentare și dezvoltarea unor noi metode de interpretare pentru a avansa în înțelegerea funcționării acestor rețele neuronale complexe.
Lucrări Viitoare
În ceea ce privește implicațiile generale pentru interpretarea mecanistică (mech interp), cele mai importante concluzii susțin că straturile MLP timpurii implicate în reamintirea factuală implementează „embedding-uri multi-token”. Acest lucru înseamnă că, pentru entități cunoscute ale căror denumiri sunt formate din mai mulți tokeni, aceste straturi produc o reprezentare liniară a atributelor cunoscute. În plus, se argumentează, deși cu un grad de incertitudine, că nu este necesar să se înțeleagă mecanistic modul de calcul al acestor embedding-uri multi-token pentru ca interpretarea mecanistică să fie utilă, atât timp cât semnificația lor poate fi înțeleasă.
În ceea ce privește direcțiile viitoare de cercetare, se subliniază importanța explorării critice („red-teaming”) și dezvoltării ipotezei conform căreia mecanismul reamintirii factuale constă în formarea embedding-urilor multi-token. De asemenea, se încurajează investigații care să identifice cazuri concrete în care înțelegerea detaliată a calculelor strâns legate în superpoziție este esențială, fie pentru reamintirea factuală, fie pentru alte sarcini, mai ales cele cu implicații practice în domenii reale sau în contexte diferite calitativ de reamintirea factuală.
Dintr-o perspectivă estetică, este remarcat faptul că, deși au fost obținute perspective mai clare asupra modului în care modelele reamintesc faptele, nu s-a reușit o înțelegere completă la nivel de parametri, ceea ce rămâne un aspect nesatisfăcător.
Bibliografie
Binder, Alexander, Grégoire Montavon, Sebastian Lapuschkin, Klaus-Robert Müller, and Wojciech Samek. 2016. “Layer-Wise Relevance Propagation for Neural Networks with Local Renormalization Layers.” In Artificial Neural Networks and Machine Learning–ICANN 2016: 25th International Conference on Artificial Neural Networks, Barcelona, Spain, September 6-9, 2016, Proceedings, Part II 25, 63–71. Springer.
Bommasani, Rishi, Drew A Hudson, Ehsan Adeli, Russ Altman, Simran Arora, Sydney von Arx, Michael S Bernstein, et al. 2021. “On the Opportunities and Risks of Foundation Models.” arXiv Preprint arXiv:2108.07258.
Brown, Tom, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, et al. 2020. “Language Models Are Few-Shot Learners.” Advances in Neural Information Processing Systems 33: 1877–1901.
Elhage, Nelson, Tristan Hume, Catherine Olsson, Nicholas Schiefer, Tom Henighan, Shauna Kravec, Zac Hatfield-Dodds, et al. 2022. “Toy Models of Superposition.” arXiv Preprint arXiv:2209.10652.
Geva, Mor, Roei Schuster, Jonathan Berant, and Omer Levy. 2020. “Transformer Feed-Forward Layers Are Key-Value Memories.” arXiv Preprint arXiv:2012.14913.
Goodfellow, Ian. 2016. “Deep Learning.” MIT press.
Graves, Alex. 2014. “Neural Turing Machines.” arXiv Preprint arXiv:1410.5401.
Graves, Alex, Greg Wayne, Malcolm Reynolds, Tim Harley, Ivo Danihelka, Agnieszka Grabska-Barwińska, Sergio Gómez Colmenarejo, et al. 2016. “Hybrid Computing Using a Neural Network with Dynamic External Memory.” Nature 538 (7626): 471–76.
Hochreiter, S. 1997. “Long Short-Term Memory.” Neural Computation MIT-Press.
Lake, Brenden M, Tomer D Ullman, Joshua B Tenenbaum, and Samuel J Gershman. 2017. “Building Machines That Learn and Think Like People.” Behavioral and Brain Sciences 40: e253.
Lipton, Zachary C. 2018. “The Mythos of Model Interpretability: In Machine Learning, the Concept of Interpretability Is Both Important and Slippery.” Queue 16 (3): 31–57.
McCulloch, Warren S, and Walter Pitts. 1943. “A Logical Calculus of the Ideas Immanent in Nervous Activity.” The Bulletin of Mathematical Biophysics 5: 115–33.
Nanda, Neel, Senthooran Rajamanoharan, Janos Kramar, and Rohin Shah. 2023. “Fact Finding: Attempting to Reverse-Engineer Factual Recall on the Neuron Level.” Alignment Forum. https://www.alignmentforum.org/posts/iGuwZTHWb6DFY3sKB/fact-finding-attempting-to-reverse-engineer-factual-recall.
Olah, Chris, Arvind Satyanarayan, Ian Johnson, Shan Carter, Ludwig Schubert, Katherine Ye, and Alexander Mordvintsev. 2018. “The Building Blocks of Interpretability.” Distill 3 (3): e10.
Shorten, Connor, and Taghi M Khoshgoftaar. 2019. “A Survey on Image Data Augmentation for Deep Learning.” Journal of Big Data 6 (1): 1–48.
Srivastava, Nitish, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. 2014. “Dropout: A Simple Way to Prevent Neural Networks from Overfitting.” The Journal of Machine Learning Research 15 (1): 1929–58.
Vaswani, A. 2017. “Attention Is All You Need.” Advances in Neural Information Processing Systems.
Niciun comentariu:
Trimiteți un comentariu