Partiamo dal mondo pre-Transformer, entriamo nell’anatomia del paper Attention is All You Need, arriviamo ai modelli di frontiera del 2026 e finiamo con quello che tutto questo significa concretamente se lavori nella search. Il testo principale è scritto perché lo possa leggere chiunque abbia curiosità: uno studente di liceo, un marketer, un developer.

I box Approfondimento tecnico sono colorati e contengono formule, pseudo-codice e dimensioni dei tensori — lì dentro scendo al livello universitario, e se vuoi saltarli la guida resta comunque completa. Ti anticipo una cosa: capire come pensano gli LLM nel 2026 non è più un lusso per chi lavora nella SEO. È diventato il fondamento.

Cos’è davvero un Large Language Model

Un Large Language Model è un predittore di token. Tutto qui. Gli dai un testo in input, e lui calcola quale sarà il pezzetto di testo successivo più probabile. Poi ripete. Poi ripete ancora. Un token alla volta, finché non produce un segnale speciale di “ho finito” oppure raggiunge il limite che gli hai imposto. Non c’è pensiero cosciente, non c’è ragionamento nel senso in cui lo intendi tu quando risolvi un problema. C’è una funzione matematica gigantesca che prende una sequenza di numeri e ne restituisce un’altra.

Ti sembra poco? Aspetta, perché il “Large” non è decorativo. Indica modelli con decine o centinaia di miliardi di parametri — i pesi delle connessioni tra i neuroni artificiali — addestrati su trilioni di token di testo provenienti da libri, codice sorgente, articoli scientifici, forum, enciclopedie. La scala conta, e conta tantissimo: come vedremo quando parleremo di scaling laws, la qualità delle risposte cresce con il numero di parametri e con la quantità di dati di addestramento seguendo leggi matematiche prevedibili. Scoperta scientifica, non magia.

Token, parametri, pesi: il vocabolario minimo

Prima di andare avanti ti servono tre definizioni, e ci tengo che siano chiare.

    • Un token è l’unità minima che il modello elabora. Non è una parola, non è un carattere: è qualcosa a metà. La parola “intelligenza” potrebbe essere un singolo token oppure spezzata in “intel” + “ligenza” a seconda del tokenizer che il modello usa.
    • Un parametro è un numero in virgola mobile che rappresenta un peso della rete neurale: GPT-3 ne ha 175 miliardi, Llama 3.1 nella versione più grande ne ha 405 miliardi.
    • I pesi sono i parametri addestrati: durante il training vengono continuamente aggiornati per minimizzare l’errore di predizione, poi, una volta finito il training, vengono “congelati” e rimangono fissi mentre tu usi il modello. Ogni volta che parli con ChatGPT, i pesi del modello non cambiano di una virgola.

Approfondimento tecnico — Il language modeling come probabilità condizionale

Formalmente, un modello di linguaggio stima la probabilità di una sequenza di token fattorizzandola come prodotto di probabilità condizionali, secondo la regola della catena della probabilità. L’obiettivo del training è massimizzare la log-verosimiglianza dei dati osservati, il che equivale a minimizzare la cross-entropy tra la distribuzione predetta dal modello e la distribuzione reale dei token nel dataset.

Prima del 2017: RNN, LSTM e il muro della sequenzialità

Per capire davvero perché il Transformer è stata una rivoluzione devi ricordare com’era il natural language processing prima del giugno 2017. Per oltre vent’anni il paradigma dominante nei modelli neurali del linguaggio era stato quello delle reti ricorrenti: architetture che processano la frase un token alla volta, mantenendo uno stato interno che si aggiorna a ogni passo. Concettualmente elegante, praticamente limitata da due problemi strutturali che nessuna ottimizzazione riusciva a risolvere davvero.

Word embeddings: word2vec e GloVe, la prima rivoluzione semantica

Nel 2013 Tomáš Mikolov e colleghi di Google pubblicano [word2vec](https://www.evemi), un modello di apprendimento di rappresentazioni di parole in uno spazio vettoriale. Questo modello ha rivoluzionato il modo in cui le parole vengono rappresentate nei modelli di linguaggio, permettendo di catturare relazioni semantiche tra le parole.

I word embeddings sono una rappresentazione delle parole come vettori in uno spazio di dimensione fissa, dove le parole simili sono rappresentate da vettori vicini. Questo permette di catturare relazioni semantiche tra le parole, come ad esempio la sinonimia e l'antonimia.

Il Transformer: una rivoluzione nel natural language processing

Il Transformer è un modello di linguaggio introdotto da Vaswani et al. nel 2017. Questo modello ha rivoluzionato il campo del natural language processing grazie alla sua capacità di processare le frasi in parallelo e gestire le dipendenze a lungo raggio.

Il Transformer è basato su un meccanismo di attenzione che permette di modellare dipendenze a lungo raggio tra le parole. Questo meccanismo è diverso dalle reti ricorrenti, che processano le frasi un token alla volta e mantengono uno stato interno che si aggiorna a ogni passo.

Approfondimento tecnico — L’attenzione nel Transformer

Il meccanismo di attenzione nel Transformer è basato su tre vettori: il vettore di query, il vettore di chiave e il vettore di valore. Il vettore di query rappresenta il contesto della frase, il vettore di chiave rappresenta le parole della frase e il vettore di valore rappresenta le informazioni semantiche associate a ciascuna parola.

Il meccanismo di attenzione calcola la somma pesata dei vettori di valore, dove i pesi sono calcolati in base alla similarità tra il vettore di query e il vettore di chiave. Questo permette di selezionare le informazioni più rilevanti per il contesto della frase.

Le applicazioni degli LLM

Gli LLM hanno molte applicazioni pratiche, tra cui la traduzione automatica, la generazione di testi, la risposta a domande e la classificazione di testi.

La traduzione automatica è una delle applicazioni più comuni degli LLM. Gli LLM possono essere addestrati per tradurre testi da una lingua all’altra, mantenendo la coerenza e la semanticità del testo originale.

La generazione di testi è un’altra applicazione degli LLM. Gli LLM possono essere addestrati per generare testi coerenti e semanticamente validi, come ad esempio articoli, racconti o poesie.

La risposta a domande è un’altra applicazione degli LLM. Gli LLM possono essere addestrati per ris