Astăzi, la început de primăvară, vom explora o temă care ar putea să vă lase cu sprâncenele ridicate: posibila implozie a modelelor de inteligență artificială. Nu, nu e vorba de roboți care se prăbușesc fizic, ci de ceva mult mai subtil și potențial mai problematic pentru viitorul tehnologiei. Recent, o echipă de cercetători (Shumailov et al., 2024) a publicat in revista Nature un studiu intitulat „AI models collapse when trained on recursively generated data” sau, pe românește, „Modelele de IA se prăbușesc atunci când sunt antrenate pe date generate recursiv„.
Sună complicat? Stați liniștiți, vă explic eu… Imaginați-vă că aveți un papagal foarte inteligent care învață să vorbească. La început, îl învățați cuvinte și fraze noi. Papagalul le repetă, le combină, creează propoziții noi. Totul e minunat! Dar ce s-ar întâmpla dacă, în loc să-i mai predați lucruri noi, l-ați pune să asculte doar înregistrări cu propria lui voce, zi după zi? Ei bine, cam asta se întâmplă și cu modelele noastre de inteligență artificială. Trebuie să înțelegem că modelele de inteligență artificială sunt antrenate și învață din surse care există, de obicei, pe internet. Ele consumă cantități uriașe de texte, imagini și date pentru a-și forma abilitățile. Dar, de când au apărut modelele generative, din ce în ce mai mult conținut creat de IA a început să apară online. Astăzi, articole, povești, poezii și chiar cod în diverse limbaje de programare generate de IA se răspândesc rapid pe internet, devenind parte din viitoarele date de antrenare.
Cercetătorii au descoperit că atunci când aceste modele sunt antrenate folosind date generate de versiuni anterioare ale lor, începe un proces de degradare numit „model collapse” sau „prăbușirea modelului”. La început, modelul uită evenimentele rare sau mai puțin probabile. E ca și cum papagalul nostru ar uita cuvintele mai puțin folosite. Cu timpul, răspunsurile devin tot mai previzibile și mai puțin variate. Papagalul nostru ar ajunge să repete aceleași fraze, iar și iar. În cele din urmă, modelul începe să producă informații eronate cu o frecvență tot mai mare. Imaginați-vă papagalul spunând lucruri fără sens, convins că sunt corecte.
Într-un video recent, canalul YouTube Underscore_a abordat acest subiect într-un mod fascinant. Ei au explicat cum modelele de IA se „otrăvesc” singure atunci când sunt antrenate pe date generate recursiv. E ca și cum ai încerca să înveți o limbă străină citind doar traduceri automate ale propriilor tale texte. La un moment dat, ai ajunge să vorbești o limbă pe care doar tu o înțelegi.
De ce ar trebui să ne pese? Gândiți-vă la toate domeniile în care inteligența artificială joacă un rol crucial astăzi: asistență medicală, sisteme de recomandări, motoare de căutare și lista continuă. Dacă aceste sisteme încep să „halucineze” sau să producă informații eronate, consecințele ar putea fi serioase. Mai mult, acest fenomen ridică întrebări importante despre viitorul dezvoltării IA. Cum vom putea antrena modele mai bune în viitor dacă internetul va fi inundat de conținut generat de IA? Va trebui să păstrăm cu sfințenie texte și imagini create de oameni, ca pe niște relicve prețioase ale creativității umane?
Cercetătorii lucrează deja la metode de „decontaminare” a datelor folosite pentru antrenarea IA. E ca și cum am încerca să-l învățăm pe papagalul nostru să fie mai critic cu ceea ce aude și să verifice informațiile înainte de a le repeta. Poate că e momentul să ne amintim că și noi, oamenii, ar trebui să facem la fel: să fim mai critici cu informațiile pe care le primim și să verificăm sursele înainte de a le împărtăși mai departe. În concluzie, trăim vremuri fascinante, în care chiar și inteligența artificială are nevoie de o doză sănătoasă de gândire critică.
Până data viitoare, rămâneți curioși și sceptici în egală măsură, cine știe, poate că următoarea revoluție în IA va veni chiar de la unul dintre voi! Vă trimit salutări din Marsilia, de unde studiez fenomenul imploziei… al croasantelor proaspete în fața ochilor mei! Să sperăm că modelele noastre de IA nu vor suferi o soartă similară, transformându-se în niște coji goale de informație. Până atunci, să ne bucurăm de creativitatea umană în toate formele ei, fie ea gastronomică sau tehnologică!
PS: La final vă las o glumă despre implozie, scrisă de DeepSeek V3 (US hosted): Omul întreabă inginerul: „Cum reușești să dormi liniștit, știind că totul se poate prăbuși în orice moment?” Inginerul răspunde: „Simplu, gândesc la implozii – măcar acolo totul se strânge ordonat, nu se împrăștie haotic!” 😄
Adrian CHIFU este conferențiar universitar în informatică la Universitatea Aix-Marseille și, desigur, absolvent de Carabella târgovișteană…