ChipsBuilder

GLM 5.2 sfida i modelli Usa sui benchmark. Il modello cinese open pesa circa 744 miliardi di parametri e si avvicina alle performance di Claude Opus e GPT, ma al costo di circa un sesto. Si può integrare con l’API ufficiale, tramite fornitori terzi o usando il self-hosting.

Un modello open e accessibile

GLM 5.2 è un modello linguistico open con licenza MIT, una tra le più permissive. Chiunque può scaricarlo, modificarlo, riatteggiarlo e usarlo commercialmente senza limitazioni e senza royalty. Il rilascio di GLM 5.2 segue da poco il veto Usa sui modelli di punta di Anthropic, Fable 5 e Mythos 5, che ne impedivano l’accesso ai Paesi esteri.

L’emergere di alternativi cinesi arriva al momento giusto, con l’Europa in cerca di opzioni diversa rispetto ai colossi Usa.

I vantaggi di GLM 5.2

GLM 5.2, il modello di punta di Z.ai, è economico e versatile, ma è necessario valutare non solo i prezzi ma anche gli aspetti tecnici e di conformità. Z.ai è nata nel 2019 come spin-off della Tsinghua University e si è velocemente affermata nel mercato globale.

Nell’ultimo periodo, Z.ai ha accelerato i propri rilasci, specializzandosi in codifica e sistemi agenti autonomi. GLM 5.2 è stato addestrato interamente su chip Huawei Ascend 910B, evitando quelli di NVIDIA, un dettaglio di notevole interesse in chiave geopolitica.

Architettura e capacità

GLM 5.2 utilizza l’architettura MoE (Mixture-of-Experts): i 744 miliardi di parametri iniziali vengono attivati solo una parte per ogni token elaborato, circa 40 miliardi. La sua finestra di contesto, la quantità di testo che mantiene in memoria, arriva a un milione di token, ossia a centinaia di migliaia di parole.

La capacità di generazione del modello arriva fino a 131.000 token, anche se alcuni provider potrebbero limitare. GLM 5.2 offre due livelli di ragionamento, “High” e “Max”, che regolano velocità e profondità.

Evoluzioni tecniche

Ipotizzando una struttura innovativa, Z.ai ha introdotto IndexShare. Questo strumento riduce operazioni di calcolo ripetitivo, migliorando l’efficienza quando si utilizza un contesto lungo.

Un’altra novità è il Multi-Token Prediction, una tecnica che specula generando token extra. Secondo Z.ai, questa tecnica può estendere la sequenza accettata del 20% e accelerare la generazione del testo.

Performance sui benchmark

I benchmark sono metriche standard che permettono di misurare e confrontare le capacità di modelli diversi. Z.ai ha pubblicato i suoi risultati e ne sono seguiti test indipendenti di società come Artificial Analysis. I punteggi di GLM 5.2 risultano superiori a modelli di pari livello, addirittura superando in alcuni test matematici modelli come DeepSeek V4 Pro o Kimi K2.6.

Le differenze economiche

I costi sono un aspetto cruciale nella scelta del modello. Opus 4.8 costa 5 dollari per un milione di token input e 25 dollari per un milione di token output, mentre GLM costa 1,40 dollari per token input e 4,40 dollari per token output. I modelli hanno entrambi un sistema di caching per ridurre i costi. Quando si manda ripetutamente lo stesso contesto, la parte elaborata precedentemente viene caricata a tariffe ridotte.

In questo ambito, il caching costa 0,50 dollari per milione di token in Opus 4.8, ma dimezzo con GLM. Il costo della ricerca web integrata è di circa un centesimo di dollaro per utilizzo, più il costo del token.

Secondo un benchmark agentivo del Laboratorio Latent Space, i costi medi per un compito complesso sono stimati a 31 dollari per Fable 5, 10,40 dollari per Opus 4.8, 3,68 dollari per GPT-5.5 e 2,40 dollari per GLM 5.2. Il cinese risulta il più economico tra i modelli di pari potenza.

Nonostante il costo ridotto, GLM 5.2 è risultato molto verboso, generando molti token nel ragionamento. Questo riduce il vantaggio economico su compiti lunghi o complessi e limita il vantaggio teorico in termini di risparmio.

Piani a abbonamento

L’azienda offre anche un piano di abbonamento, GLM Coding Plan, a partire da 10-15 dollari al mese per i piani base, salendo a circa 80 dollari al mese per il piano Max.

La strada più semplice per utilizzare GLM 5.2 è l'API ufficiale di Z.ai. Tuttavia, l’infrastruttura che usa non è conforme alle normative europee. Chi tratta dati sensibili, come informazioni personali o dati clienti, deve evitare l'API per rispettare GDPR.

Usare GLM 5.2 con fornitori terzi

Dato che GLM 5.2 è open, si può utilizzare con fornitori terzi. Tra questi, figurano Fireworks, DeepInfra, Together AI, Nebius, CoreWeave e OpenRouter, che instrada automaticamente l’accesso a diversi provider in caso di errore.

La maggior parte di questi provider opera in America o in Europa, offrendo una maggiore conformità e località dati rispetto a Z.ai. Tuttavia, alcuni adottano modelli di precisione ridotta con la tecnica di quantizzazione, con un piccolo calo in qualità.

Self-hosting come alternativa

La terza opzione è il self-hosting: si installa GLM 5.2 su una struttura propria. È l’approccio che rispetta le regole di privacy più restrittive e permette di operare in ambienti isolati.

Questo richiede però un importante investimento in infrastruttura informatica e di sicurezza. Il self-hosting è vantaggioso solo in caso di utilizzo massiccio e quando la conformità è cruciale.