Uno dei segnali più riconoscibili di un mercato in forte espansione che si avvia a diventare maturo è il susseguirsi di sorpassi e controsorpassi da parte delle aziende che si sfidano per conquistare la vetta. È il caso dell’AI, la cui tecnologia ormai si è evoluta da tempo da curioso passatempo a strumento indispensabile per centinaia di milioni di utenti.
E se per lungo tempo OpenAI e ChatGPT sono stati sinonimo di AI generativa, ora forse qualcosa sta cambiando a favore di un altro concorrente: in questa direzione, almeno, sembra andare il “codice rosso” interno che qualche giorno fa Sam Altman, CEO di OpenAI, ha emesso dopo aver visto i progressi di Gemini 3.
Il nuovo modello di Google segna infatti un punto di svolta difficilmente riducibile al semplice “incremento generazionale” con cui oggi si presentano le novità nel settore. A differenza dei consueti miglioramenti marginali, infatti, Gemini 3 sembra introdurre verediscontinuità: non soltanto si impone in 19 benchmark su 20 tra i principali utilizzati dall’industria, ma lo fa con una costanza e una superiorità tali da ridefinire del tutto le aspettative sulle capacità di un modello generalista.
Che si tratti di ragionamento, pianificazione a lungo raggio o gestione multimodale di informazioni complesse, la nuova architettura di Google appare in grado di offrire risposte più stabili, meno “rumorose” e più profondamente integrate rispetto a quelle dei concorrenti diretti. Le stesse analisi di settore mostrano la distanza che separa (almeno per ora) Gemini 3 da GPT-5.1 e da Claude Sonnet 4.5, una distanza che raramente si osserva in un’industria abituata a iterazioni ravvicinate. Perfino la comunicazione ufficiale di Google, di solito piuttosto prudente, stavolta assume toni assertivi: la compagnia parla di “state-of-the-art reasoning capabilities” e di “world-leading multimodal understanding”, ma stavolta le formule di rito sembrano meno iperboliche del solito.
I test dove Google va meglio
Se si entra più nel dettaglio delle comparazioni pubblicate da Google, il quadro diventa ancora più eloquente: Gemini 3 non solo vince quasi ovunque, ma lo fa con margini sorprendenti. Per esempio, nel test chiamato Humanity’s Last Exam – una grande raccolta di domande difficili su oltre cento materie, pensata per misurare quanto un modello “sa ragionare” in generale – Gemini 3 raggiunge il 37,5%, mentre GPT-5.1 si ferma a circa 26%. Impressionante è anche il comportamento nel test Vending-Bench 2, che misura se un’AI riesce a prendere decisioni sensate, simili a quelle di un piccolo imprenditore che deve far funzionare un’attività per settimane: comprare, vendere, organizzare le scorte.
Anche qui Gemini 3 sembra capire meglio la situazione e correggersi quando sta sbagliando, ma ancora più evidente è il vantaggio nel test SimpleQA Verified, che serve a valutare quanto un modello sia affidabile quando deve dare risposte di fatto corrette, senza “inventare” cose (le allucinazioni sono tuttora uno dei problemi più deprimenti quando si tenta di usare l’AI in maniera fruttuosa). Gemini 3 arriva al 72,1%, quasi il doppio dei concorrenti. Infine, l’Artificial Analysis Intelligence Index, un indice che combina dieci prove diverse per creare una valutazione complessiva: qui Gemini 3 stacca GPT-5.1 di tre punti, e in questo settore sono tantissimi.
È vero, i benchmark non dicono tutto. Nessun test riesce a catturare la complessità di un modello. Però quando un sistema vince test diversi, costruiti da gruppi diversi, e lo fa sempre con vantaggi chiari, diventa difficile pensare che sia fortuna; sembra piuttosto che Google abbia migliorato ogni parte del modello per rendere l’AI più solida in generale. Più che “alzare l’asticella”, insomma, si rende più stabile e migliore il pavimento; una buona notizia per tutti quelli che già usano gli strumenti di Google, da Gmail a Google Drive o Docs, tutti i giorni, e stanno valutando se abbonarsi anche a un piano a pagamento, da abbinare alla propria connessione per renderla più smart (a proposito, su SOSTariffe.it è sempre possibile mettere a confronto le opzioni più convenienti per la fibra, anche quelle che comprendono abbonamenti a Google come TIM Business).
Da Jimmy Fallon alle guerre della zuppa
Il nervosismo si vede da più elementi, anche dai tentativi di mostrare che l’AI non è pericolosa. L’ha fatto vedere la comparsata di Altman al Tonight Show di Jimmy Fallon, un’ospitata televisiva presto etichettata come la “più sfacciata mossa pubblicitaria della Silicon Valley” degli ultimi tempi. Altman ha sfruttato l’intervista per dipingere un’immagine dell’AI come strumento umano e rassicurante, raccontando come ChatGPT lo abbia aiutato a gestire l’ansia legata alla sua esperienza da neo-genitore. Queste operazioni-simpatia però non sembrano convincere più di tanto, anche se aziende come Meta, Anthropic e Google investono tonnellate di soldi in pubblicità per promuovere i loro prodotti AI.
In ogni caso, molti esperti pensano che, anche se Google ha fatto il botto con il suo nuovo modello, OpenAI non è affatto fuori dai giochi, anzi. Hanno ancora talento, soldi e progetti di ricerca che possono permettere una rimonta lampo, e del resto è la stessa storia recente dell’AI, ma più in genere della tecnologia, a insegnarcelo: ogni volta che qualcuno sorpassa, l’altro risponde con una mossa spesso inaspettata che rimescola tutte le carte. Pensiamo, per i telefoni, all’introduzione dei modelli pieghevoli da parte di Samsung che, malgrado le difficoltà iniziali di progettazione, hanno via via costretto gli altri player del settore ad adeguarsi, ultima Apple che l’anno prossimo dovrebbe lanciare il suo nuovo iPhone Fold, se davvero si chiamerà così.
Ecco, a OpenAI serve una mossa del genere: bisogna accelerare, far entrare meglio i modelli nella vita di tutti i giorni e creare una strategia più completa che unisca prestazioni tecniche di alto livello e fiducia del pubblico. Quella che oggi sembra una rivoluzione definitiva domani potrebbe essere solo un gradino intermedio.
È proprio questa competizione feroce, questa tensione quasi “darwiniana”, a rendere il settore così elettrizzante, ma anche brutale, come dimostrano le acquisizioni dei migliori ingegneri e informatici dai concorrenti a cifre al di là dell’immaginabile, e pure con metodi decisamente poco ortodossi: Mark Chen, a capo della ricerca di OpenAI, ha recentemente raccontato al podcast di Ashlee Vance che Mark Zuckerberg ha portato di recente zuppa fatta in casa ai ricercatori che voleva assumere per Meta.
