ChipsBuilder

I modelli AI generativa nascono da una filiera tecnica sempre più articolata: pre-training su enormi basi dati, fine-tuning supervisionato, preferenze umane, reinforcement learning, reasoning training e test di sicurezza. Vediamo nel dettaglio cosa porta ai modelli che tutti noi usiamo.

La complessità dell’addestramento AI

C’è tanta confusione sui processi che portano alla nascita di un modello AI. È noto ormai che c’è un training basato su dati. Meno noto che questo training ha diverse fasi, alcune massive, altre specialistiche e di dettaglio, con diversi ruoli per l’essere umano, ancora non eludibile. Ancora non siamo entrati insomma nell’addestramento automatico totale di un modello, alba di un ipotetico recursive self-improvement infinito.

Dato sintetico e umano

Se ne parla in una recente scoperta del New Scientist: alcuni addestratori invece di generare dati umani per il training hanno usato un chatbot. Un problema: a conferma che l’umano non può essere sostituito dal sintetico tout court.

La catena per creare un modello di AI

La filiera che porta da un base model a un prodotto come GPT, Claude, Gemini o Grok è ormai abbastanza riconoscibile, anche se ogni laboratorio usa ricette, nomi e pesi diversi per i vari componenti. Per un costo totale di decine di milioni di dollari.

La fase di pre-training

Il pre-training è la fase in cui il modello assorbe la maggior parte delle proprie capacità linguistiche e conoscenze generali. OpenAI, nel GPT-4 Technical Report del 2023, descrive GPT-4 come un modello Transformer pre-addestrato per prevedere il token successivo in un documento. È la formulazione tecnica del meccanismo di base: dato un contesto, il modello stima quale unità linguistica abbia più probabilità di venire dopo.

La scala è enorme. Meta, nel lancio di Llama 3.1 405B, ha indicato oltre 15 trilioni di token e più di 16 mila GPU Nvidia H100 per l’addestramento del suo modello più grande. DeepSeek, nel technical report di DeepSeek-V3, dichiara 14,8 trilioni di token, 2,788 milioni di ore GPU H800 e un costo della sola fase ufficiale di training stimato in 5,576 milioni di dollari, esclusi esperimenti preliminari e ricerca.

Il pre-training richiede anche una pipeline di preparazione dei dati: raccolta, deduplicazione, classificazione, filtri di qualità, filtri di sicurezza, tokenizzazione, bilanciamento tra lingue e domini. Google, nel report tecnico Gemini 2.5, indica per la serie 2.5 una base di pre-training multimodale con documenti web pubblici, codice, immagini, audio e video, con cutoff gennaio 2025 per Gemini 2.5. xAI, nel model card di Grok 4, descrive una ricetta con dati web pubblici, dati prodotti da terze parti, dati di utenti o contractor e dati generati internamente, filtrati con deduplicazione e classificazione.

Architetture Transformer e MoE

Il pre-training non è solo una questione di dati. Conta anche l’architettura. Molti modelli restano basati su Transformer, ma cresce l’uso di architetture mixture-of-experts, che attivano solo una parte dei parametri per ciascun token. Google descrive Gemini 2.5 come una famiglia di Transformer sparse MoE multimodali; xAI aveva già rilasciato Grok-1 come modello MoE da 314 miliardi di parametri, con il 25% dei pesi attivati per token.

Problemi tecnici nel pre-training

La scala introduce problemi ingegneristici propri: guasti hardware, instabilità numeriche, errori silenziosi, ripartenze, sincronizzazione tra cluster. Nel report Gemini 2.5, Google spiega di avere addestrato la famiglia su architettura TPUv5p, con training data-parallel sincrono su più pod da 8.960 chip distribuiti su più data center. Lo stesso report indica che, durante il run, il 93,4% del tempo è stato speso in computazione TPU e che circa lo 0,25% degli step è stato rieseguito per sospetta corruzione silenziosa dei dati.

La crescita esponenziale del calcolo AI

Secondo Epoch AI, il compute usato per addestrare i frontier language model cresce di circa 5 volte l’anno dal 2020 e raddoppia ogni 5,2 mesi. Il costo di training dei modelli di frontiera, sempre secondo Epoch AI, cresce di circa 3,5 volte l’anno. Lo Stanford AI Index 2025, usando stime Epoch, colloca il costo di training di GPT-4 intorno a 79 milioni di dollari e quello di Llama 3.1 405B intorno a 170 milioni di dollari.

Questi numeri spiegano perché pochi soggetti addestrano modelli di frontiera da zero. Per imprese e sviluppatori, la scelta più frequente è diversa: usare un modello già addestrato, adattarlo con fine-tuning, retrieval augmented generation (RAG), dati proprietari, controlli applicativi e governance.

Differenze tra modelli e fine-tuning

La scala dei training pubblicamente documentati mostra bene la distanza tra modelli di frontiera e adattamenti enterprise. Un base model sa completare testo, ma non necessariamente rispondere bene a una domanda. Può continuare un prompt, imitare stili, produrre frammenti incoerenti o ignorare vincoli. Il supervised fine-tuning, spesso indicato come SFT, serve a insegnare il formato dell’interazione: istruzione dell’utente, risposta utile, stile conversazionale, rispetto dei vincoli, struttura dell’output.

Il ruolo del dataset SFT

Nel paper OpenAI "Training language models to follow instructions with human feedback", pubblicato a NeurIPS 2022, la pipeline InstructGPT parte da dimostrazioni scritte da annotatori. Il dataset SFT contiene circa 13 mila prompt di training. È piccolo rispetto ai trilioni di token del pre-training, ma cambia in modo sostanziale il comportamento del modello: gli insegna che cosa significa rispondere come assistente, non solo completare testo.

Questa fase oggi può essere umana, sintetica o ibrida. Nei modelli più avanzati gli esempi non sono soltanto domande e risposte generiche: includono codice, ragionamento matematico, analisi di documenti lunghi, uso di strumenti, chiamate a funzioni, risposta multimodale, policy di sicurezza, casi limite e scenari avversariali.

Modelli di reward e preferenze umane

Dopo il fine-tuning supervisionato entra in gioco il problema più difficile: definire che cosa sia una risposta migliore. Una risposta può essere grammaticalmente corretta ma incompleta, sicura ma evasiva, dettagliata ma sbagliata, brillante ma non aderente alla richiesta. Per questo molti laboratori raccolgono preferenze umane.