Ce este un LLM și cum știe să răspundă

Episodul anterior a explicat cum rețelele neurale „văd" imagini — straturile adânci extrag trăsături din ce în ce mai abstracte, iar backpropagation ajustează milioane de parametri până când rețeaua face predicții corecte. Același principiu se aplică și limbajului, dar cu o răsucire majoră: cuvintele au context. „Am văzut omul cu telescopul" — cine avea telescopul, eu sau omul? O rețea de imagini nu se confruntă cu acest tip de ambiguitate. Modelele de limbaj da — și tocmai rezolvarea acestei probleme a dus la LLM-uri.

Prima provocare: tokenizarea

Un model de limbaj nu citește text — procesează numere. Primul pas e tokenizarea: convertirea textului în unități numerice numite tokeni. Un token nu e neapărat un cuvânt întreg; sistemele moderne folosesc subword tokenization, care împarte cuvintele în bucăți mai mici.

De exemplu, propoziția „Bună ziua, România!" ar putea deveni ceva de genul: [„Bun", „ă", „ zi", „ua", „,", „ Rom", „ânia", „!"]. Fiecare fragment primește un ID numeric unic dintr-un vocabular de 50.000–100.000 de tokeni. Avantajul: cuvintele rare sau neologismele pot fi descompuse în bucăți familiare, în loc să fie ignorate complet. GPT-4 folosește aproximativ 100.000 de tokeni în vocabular; Claude și Gemini au abordări similare.

Sarcina de bază: prezice tokenul următor

Toată magia unui LLM pornește de la o sarcină aparent banală: dat un șir de tokeni, prezice care e tokenul următor. Asta e tot ce face modelul în pre-antrenare. „La mulți ___" → probabilitate mare pentru „ani". „Capitala Franței este ___" → probabilitate mare pentru „Paris".

Pre-antrenarea înseamnă să expui modelul la cantități uriașe de text — în cazul GPT-3, aproximativ 570 GB de text după filtrare, reprezentând sute de miliarde de cuvinte din cărți, articole, site-uri web, cod sursă. Modelul vede miliarde de exemple de „text urmat de tokenul corect" și ajustează 175 de miliarde de parametri (în cazul GPT-3) prin backpropagation până când devine bun la această predicție.

Paradoxul fascinant: un model antrenat doar să prezică tokeni următori, pe suficiente date și cu suficienți parametri, emergent capătă abilități pe care nimeni nu le-a programat explicit — traducere, rezumat, răspuns la întrebări, scriere de cod. Acestea apar spontan ca efecte secundare ale stăpânirii profunde a structurii limbajului.

Mecanismul de atenție: ce cuvânt contează pentru ce

Marea inovație a arhitecturii Transformer (2017, Google Brain) este mecanismul de atenție (self-attention). Îl poți gândi așa: când procesezi un cuvânt dintr-o propoziție, modelul calculează cât de „relevant" e fiecare alt cuvânt din context pentru a înțelege cuvântul curent.

Exemplu: „El a luat borcanul și l-a deschis." Când modelul procesează „l-a", mecanismul de atenție calculează scoruri de relevanță pentru fiecare cuvânt anterior. „Borcanul" primește un scor mare — pentru că „l-" se referă la borcan, nu la el sau la verbul „luat". Aceste scoruri determină cât de mult influențează fiecare cuvânt reprezentarea lui „l-a".

Față de arhitecturile anterioare (RNN-uri, LSTM-uri) care procesau textul secvențial și „uitau" contextul îndepărtat, Transformer-ul procesează toți tokenii simultan și poate stabili conexiuni directe între orice două poziții din text, indiferent de distanța dintre ele. Aceasta e baza pe care sunt construite toate LLM-urile moderne.

Scala care a schimbat totul

O descoperire empirică surprinzătoare din cercetarea LLM: performanța crește predictibil cu scala — mai mulți parametri, mai multe date de antrenare, mai multă putere de calcul → model mai bun, conform unor legi de putere (scaling laws, Kaplan et al., 2020).

Model	An	Parametri	Date antrenare
GPT-2	2019	1,5 miliarde	40 GB
GPT-3	2020	175 miliarde	570 GB
GPT-4	2023	~1,8 trilioane (estimat)	Necunoscut public
Claude 3 Opus	2024	Necunoscut public	Necunoscut public

La scale mari apar emergent behaviors — capabilități care nu existau în versiunile mai mici ale aceluiași model și care nu pot fi prezise prin simplă extrapolare. GPT-3, la 175 miliarde de parametri, a surprins cercetătorii cu abilitatea de a face few-shot learning: dacă îi dai 3 exemple în prompt, generalizează imediat la sarcini noi, fără antrenare suplimentară. Această capacitate nu era prezentă în GPT-2.

Fine-tuning și RLHF: din mașinărie de prezis text în asistent

Un model pre-antrenat e impresionant dar dificil de folosit: dacă îl întrebi „Care e capitala Franței?", s-ar putea să răspundă cu alte întrebări, pentru că în datele de antrenare întrebările sunt adesea urmate de alte întrebări, nu de răspunsuri. Modelul a învățat să continue text, nu să răspundă la întrebări.

Fine-tuning-ul rezolvă asta: modelul e antrenat suplimentar pe un set de exemple de conversații de calitate înaltă — întrebare urmată de răspuns bun — astfel încât să adopte un comportament de „asistent". Dar fine-tuning-ul simplu nu garantează că răspunsurile sunt utile, sigure sau adevărate.

Marele salt l-a adus RLHF (Reinforcement Learning from Human Feedback): oameni reali evaluează perechi de răspunsuri ale modelului, indicând care e mai bun. Un model de recompensă e antrenat să prezică aceste preferințe umane, iar LLM-ul e apoi antrenat prin reinforcement learning să maximizeze scorul dat de modelul de recompensă. Rezultatul: un model aliniat cu preferințele umane — mai util, mai sigur, mai onest. InstructGPT (2022, OpenAI) a demonstrat prima că RLHF transformă radical comportamentul modelului.

Context window: memoria de lucru a modelului

Un LLM nu are memorie persistentă între conversații. Tot ce știe în timpul unei conversații e ce se află în fereastra de context — un număr maxim de tokeni pe care îi poate procesa simultan. Primele versiuni ale GPT-3 aveau 4.096 tokeni (~3.000 de cuvinte). Astăzi: Claude 3.5 are 200.000 de tokeni (~150.000 de cuvinte — aproximativ o carte întreagă), iar Gemini 1.5 Pro a atins 1 milion de tokeni.

Fereastra de context conține întreaga conversație — instrucțiunile sistemului, toate mesajele anterioare, documentele atașate. Când o conversație devine prea lungă și depășește limita, modelul nu mai „vede" ce s-a spus la început. De aceea, în conversații lungi, uneori pare că LLM-urile „uită" instrucțiuni din startul sesiunii.

Temperatura și creativitatea

Când un LLM generează un răspuns, la fiecare pas calculează o distribuție de probabilitate peste toți tokenii din vocabular. Temperatura controlează cât de uniformă e această distribuție. La temperatură 0, modelul alege întotdeauna tokenul cu probabilitatea cea mai mare — răspunsuri deterministe, predictibile, uneori repetitive. La temperatură înaltă (1.5–2.0), și tokenii cu probabilitate mică au șanse să fie alese — răspunsuri mai creative, mai surprinzătoare, dar și mai predispuse la erori sau non-sens.

Aplicațiile de cod folosesc de obicei temperaturi mici (precizie > creativitate). Aplicațiile de scriere creativă folosesc temperaturi mai mari. ChatGPT și Claude nu expun direct această setare în interfața standard, dar o gestionează intern în funcție de tipul de sarcină detectat.

De ce halucinează uneori — un preview pentru episodul 6

Acum că înțelegi cum funcționează un LLM, poți înțelege și de ce halucinează: modelul nu caută informații într-o bază de date — generează tokeni probabilistici pe baza pattern-urilor din antrenare. Nu există un mecanism intern care verifice dacă ceea ce generează e adevărat. Dacă pattern-ul din antrenare sugerează că după „Prima femeie care a câștigat Premiul Nobel a fost ___" urmează un nume feminin de om de știință din perioada respectivă, modelul va genera un astfel de nume — chiar dacă mai introduce și câteva detalii biografice inventate. Episodul 6 explorează în detaliu cum recunoști și cum gestionezi halucinațiile.

🤖 Inteligență Artificială

← Toate articolele

🤖

Serie de articole

Inteligența Artificială

Vezi toate →

1 Cum gândește un calculator: de la reguli la rețele neurale

2 Ce este un LLM și cum știe să răspundă Acum citești