Cum nu te păcălești: halucinații, deepfakes AI

„ChatGPT mi-a dat surse bibliografice pentru lucrarea de licență și abia la predare am realizat că jumătate din ele nu existau." Este una dintre cele mai comune povești de pe forumurile studențești din ultimii doi ani. Halucinațiile AI nu sunt un bug pe cale de a fi remediat — sunt o consecință structurală a modului în care LLM-urile funcționează. Înțelegând de ce apar, poți să le anticipezi și să te protejezi.

De ce inventează AI-ul lucruri — mecanismul real

Un LLM nu consultă o bază de date când îți răspunde. Generează tokeni pe baza probabilităților calculate din antrenare — fiecare token următor e ales pe baza contextului anterior și a pattern-urilor văzute în miliarde de texte. Modelul nu știe ce e „adevărat" și ce e „inventat"; știe ce secvențe de tokeni sunt plauzibile dat contextul.

Când îl întrebi despre o carte care există, răspunde corect pentru că a văzut mii de referințe la ea în datele de antrenare. Când îl întrebi despre o carte care nu există, dar dai un titlu plauzibil, modelul completează cu detalii plauzibile — autor plauzibil, an plauzibil, editură plauzibilă, rezumat plauzibil. Totul e statistic consistent, nimic nu e verificat.

Cel mai periculos aspect: modelul e la fel de confident când halucinează ca atunci când e corect. Nu există un indicator intern care să clipească „atenție, inventez acum". Tonul asertiv e o caracteristică a antrenării cu RLHF — oamenii au preferat răspunsuri sigure față de cele ezitante, deci modelul a învățat să sune sigur.

Tipuri de halucinații — cu ce te poți confrunta

Halucinații factuale: date greșite, statistici inventate, atribuiri eronate de citate. Ex: „Einstein a spus că imaginația e mai importantă decât cunoașterea" — corect. „Newton a spus că gravity is just a theory" — inventat.
Halucinații bibliografice: articole academice sau cărți cu titlu plauzibil, autori reali, DOI plauzibil — dar care nu există. Extrem de frecvente când ceri surse specifice.
Halucinații de raționament: pașii unui calcul sau ai unui argument par corecți, dar concluzia e greșită din cauza unei erori subtile în mijlocul lanțului logic.
Halucinații de cod: funcții de bibliotecă care nu există, argumente inventate pentru funcții reale, versiuni de API care nu au existat niciodată.

Cum verifici ce îți spune AI-ul

Regula de aur: orice informație factuală importantă trebuie verificată dintr-o sursă independentă. Asta pare evident, dar în practică e ușor să uiți când AI-ul sună extrem de convingător. Câteva tehnici concrete:

Pentru surse bibliografice: caută titlul exact pe Google Scholar, PubMed sau Semantic Scholar. Dacă nu apare, nu există.
Pentru statistici: caută cifra și sursa citată. Dacă AI-ul spune „conform studiului McKinsey din 2023", caută raportul McKinsey din 2023 și verifică dacă cifra respectivă e acolo.
Pentru cod: rulează-l și testează cazuri limită. Nu presupune că funcționează pentru că arată bine.
Întreabă explicit: „Ești sigur de asta? Care e sursa?" — uneori modelul va admite incertitudinea, alteori va inventa o sursă mai specifică. Oricum e un semnal util.

Cum reduci halucinațiile — tehnici de prompting

Câteva tehnici reduc semnificativ (nu elimină) halucinațiile:

Cere incertitudine explicită: „Dacă nu ești sigur de ceva, spune-mi că nu știi în loc să ghicești."
Chain of thought: „Gândește pas cu pas înainte să răspunzi." Raționamentul explicit face erorile mai vizibile.
Nu cere surse dacă nu ești pregătit să le verifici — sau cere-le și verifică fiecare.
Retrieval Augmented Generation (RAG): dacă ai acces la instrumente cu browsing activat sau la sisteme enterprise cu documente proprii, AI-ul caută mai întâi în surse verificate și generează pe baza lor. Halucinațiile scad dramatic față de modelul fără context extern.

Deepfakes — cum se fac și ce permit

„Deepfake" a intrat în vocabular cu aplicații de face swap din jur de 2017 — tehnologie care înlocuia fața dintr-un video cu fața altcuiva, inițial cu artefacte evidente, treptat cu o calitate înfricoșătoare. Astăzi, tehnologia include:

Face swap în video: înlocuirea completă a feței, cu sincronizare a expresiilor și iluminare
Voice cloning: 3–10 secunde de audio real sunt suficiente pentru a clona o voce convingător; platforme comerciale ca ElevenLabs oferă asta ca serviciu
Lip sync: modificarea mișcărilor buzelor dintr-un video real pentru a sincroniza cu un audio diferit
Full body synthesis: generarea unui video cu o persoană care face ceva ce nu a făcut niciodată (cu limitări tehnice încă semnificative în 2025)

Cum detectezi un deepfake

Detectarea devine din ce în ce mai dificilă pe măsură ce tehnologia avansează, dar câteva semne rămân relevante:

Artefacte în zona urechilor și a gâtului — marginile feței sunt adesea cel mai greu de redat natural
Inconsistențe de iluminare — fața pare iluminată diferit față de restul scenei
Clipiri anormale — primele modele aveau dificultăți cu clipirea naturală; modelele noi au corectat asta, dar urmărind cu atenție poți încă observa anomalii
Mișcări rigide ale capului — rotația 3D a feței poate genera artefacte la unghiuri extreme
Instrumente de detecție: Deepware Scanner, Intel FakeCatcher, Microsoft Video Authenticator — nu sunt perfecte, dar adaugă un strat de verificare

Cea mai bună metodă rămâne verificarea contextului: dacă un video pare prea dramatic, prea convingător pentru un scenariu improbabil, sau vine de la o sursă neverificabilă, tratează-l cu scepticism înainte de a-l distribui.

Dezinformare AI la scară

Combinația de text generat de AI + imagini generate de AI + deepfakes video creează premisele pentru campanii de dezinformare la o scară și o viteză fără precedent. Exemple documentate deja: articole de știri false generate de AI (detectate în Italia, România, SUA), fotografii false din zone de conflict distribuite pe rețele sociale, înregistrări audio false cu politicieni.

Pericolul nu e că fiecare conținut fals e convingător — mulți deepfakes sunt depistabili de un ochi atent. Pericolul e volumul și viteza: o campanie de dezinformare poate produce în câteva ore mai mult conținut fals decât poate verifica o redacție întreagă în câteva zile.

Trusa ta practică de supraviețuire

Verificare inversă a imaginilor: Google Images sau TinEye pentru orice imagine care pare suspectă — dacă apare în contexte diferite, e probabil refolosită sau falsă
Fact-checking românesc: Factual.ro, Verificat.ro pentru știri din spațiul românesc
Metadate imagine: instrumente ca Jeffrey's Exif Viewer pot arăta când și cu ce cameră a fost făcută o poză (lipsa metadatelor e și ea un semnal)
Principiul „prea bun de crezut": dacă un conținut confirmă perfect o convingere existentă și e extrem de emoțional, e un semnal de alertă, nu de distribuire imediată
Surse primare: mergi la sursă — comunicatul oficial, site-ul instituției, declarația originală — nu la știrea care citează o altă știre care citează un tweet

🤖 Inteligență Artificială

← Toate articolele

🤖

Serie de articole

Inteligența Artificială

Vezi toate →