Attese ampiamente soddisfatte. Google non perde nemmeno un minuto e nel corso della Google I/O 2024, la conferenza di Big G per gli sviluppatori, svela i concorrenti diretti di OpenAI e di Microsoft. Sono due su tutti, anche se le novità sono davvero tante. La prima riguarda Project Astra. Si tratta di un nuovo concetto di chatbot, definito da Sundar Pichai, amministratore delegato di Google, come una sorta di assistente “universale”, che può rispondere a tutti e a tutti. Funziona in maniera molto semplice: si clicca sulla sua icona, idealmente dallo smartphone, e si chiede con testo o voce quello che si vuole, usando anche la fotocamera per far “vedere” all’IA cosa c’è intorno, per un contesto ulteriore. Tutto molto simile a quanto Meta ha realizzato con la ricerca multimodale dei Ray-Ban di seconda generazione, che negli USA beneficiano del potere di Meta AI per analizzare il mondo.

Non c’è tempo per rilassarsi in diretta dallo Shoreline Amphitheatre in California. Il secondo grosso annuncio è Veo, un’IA che trasforma il testo in video. In tal caso, il guanto di sfida è a Sora, la piattaforma di OpenAI che è già nelle mani di qualche regista di Hollywood. Veo promette di migliorare molti dei limiti a cui Sora, e company, hanno mostrato di andare incontro. Tra i principali la mancanza di coerenza nel movimento di persone e animali, soprattutto quando si sposta l’inquadratura. Poi la sincronizzazione dell’audio e la simulazione di alcuni effetti cinematografici, come il time-lapse e le riprese con i droni.

Ricerca con l’IA

“Ad oggi tutti i prodotti Google che superano i 2 miliardi di utenti usano le capacità di Gemini” dice Sundar Pichai. “Abbiamo investito nell’IA per più di un decennio, innovando nella ricerca, nei prodotti, nelle infrastrutture. È l’inizio di un grande cambiamento ma serve coraggio, oltre che responsabilità”.

L’Ad ha ricordato che oggi Gemini, la declinazione dell’intelligenza artificiale di Google per i consumatori, è presente in tutti i principali servizi dell’azienda. Partito come progetto sperimentale, a cerchio chiuso, ora gli utilizzi si ampliano per tutti gli sviluppatori. A partire dalla piattaforma che ha reso famosa Google, la ricerca. Gli utenti negli Stati Uniti possono accedere a “AI Overviews“, la nuova interfaccia con cui il chatbot riassume la risposta alla domanda scritta nel classico box superiore, prima dei classici siti web. Se si digita “come rimuovere una macchia di caffè dal tappeto?”, Gemini restituirà dei passaggi consigliati con ulteriori link di riferimento. La funzione arriverà anche in Italia nei prossimi mesi.

Ecco Project Astra

Ed ecco giunti alla capacità multimodale di Gemini. Puntando la fotocamera dello smartphone verso l’esterno, l’IA riconosce ciò che vede, in una sorta di assistente digitale tuttofare. Project Astra può essere usato in tempo reale e, secondo la società, in “qualsiasi occasione” per ottenere informazioni testuali e visive ovunque. In attesa che Project Astra diventi un’app globale, Google porterà in Gemini la funzionalità “Live“. Nei prossimi mesi “implementeremo Live per gli abbonati a Gemini Advanced, una nuova esperienza conversazionale mobile che sfrutta la nostra tecnologia vocale più avanzata per rendere più intuitive le conversazioni” precisa Sundar Pichai. “Con Gemini Live, potete parlare e scegliere tra una vasta gamma di voci naturali per le risposte”.

Gli AI Agents

Project Astra è figlio dei cosiddetti AI Agents, ovvero piccole intelligenze artificiali che imparano il comportamento delle persone per anticipare le loro richieste e coordinare le attività, anche su piattaforme differenti. Gli agenti sono costruiti sul modello di Gemini ed elaborano le informazioni in maniera veloce, salvando sul cellulare spezzoni di foto e video ripresi per creare un ecosistema famigliare all’utente, e riprenderli quando più servono per rispondere alle domande. Il tutto in maniera sicura e a difesa della privacy, senza mandare nulla in cloud.

Per un’esperienza ancora più personalizzati, arrivano anche i “Gem”, versioni personalizzate di Gemini. Gli sviluppatori potranno descrivere le loro necessità, Gemini esaminerà le istruzioni e creerà un assistente peculiare.

Questi sono i nuovi Google Glass?

Peraltro, in pochi si saranno accorti, che nel video qui sotto, Google ha silenziosamente mostrato un nuovo paio di Google Glass, che montano proprio Gemini per eseguire le capacità di ricerca multimodali.

Gemini in Google Foto

Un’altra applicazione che vedrà l’ingresso dell’intelligenza artificiale di Gemini è Google Foto. La barra di ricerca dove oggi è possibile digitare un termine relativo a immagini che si vogliono trovare sul servizio cloud, si trasforma in un vero box di conversazione naturale. Il tutto per ottenere contenuti specifici, anche contestuali. “Quando mia figlia ha imparato a nuotare?” è uno degli esempi forniti dalla compagnia per lanciare Ask Photos, che arriverà in estate per tutti gli utenti.

Tutte le migliorie di Gemini dipendono dal nuovo modello Gemini 1.5 Pro, che dispone di una finestra contestuale che parte da 1 milione di token – secondo Google la più grande per qualsiasi chatbot consumer a livello mondiale. Gemini Advanced, la declinazione più alta dell’IA, può cogliere il significato di documenti di dimensioni considerevoli, ad esempio PDF di 1500 pagine, oppure riassumere 100 email in pochi secondi. Presto sarà in grado di gestire contenuti video della durata di 1 ora. Aggiornato anche l’hardware che potenzia il calcolo dei modelli di intelligenza artificiale di Google. Trillium è il nome della sesta generazione di processore per Google Cloud, progettato per la gestione delle reti neurali che danno vita alle prestazioni di IA.

L’IA per Android

Gemini su Android è ancora atteso in Italia mentre negli Usa è già un’app da installare sul telefono. Partendo dai modelli di smartphone Google Pixel, presto Gemini permetterà di accedere a funzioni avanzate, come la possibilità di cerchiare sullo schermo un diagramma di matematica o un’equazione e ottenere i passaggi per risolvere il problema. Si tratta di un’estensione di quanto già attuato oggi con l’opzione “cerchia e cerca”, che ha debuttato a gennaio sui Galaxy S24.

Nella seconda metà del 2024, sui Pixel Gemini Nano avrà funzionalità multimodali complete: oltre alla semplice elaborazione degli input di testo, lo smartphone potrà anche comprendere più informazioni di contesto, come luoghi, suoni e linguaggio parlato. L’aggiornamento riguarderà anche la sicurezza digitale degli utenti. Secondo Google, durante un periodo di 12 mesi sono stati persi oltre mille miliardi di dollari a causa di frodi telefoniche. L’azienda sta dunque testando una nuova funzionalità che usa Gemini Nano per fornire avvisi in tempo reale durante una telefonata, se rileva schemi di conversazione comunemente associati a frodi. Ad esempio, si riceverà un avviso se un individuo che afferma di essere un rappresentante della banca chiederà di trasferire urgentemente fondi, effettuare un pagamento con una carta o comunicare informazioni personali come PIN o password. Questa protezione avviene interamente sul dispositivo, così le conversazioni restano private.

Da testo a foto e video

In campo multimediale, viene annunciato anche Imagen 3, che genera foto da testo. Secondo Google, Imagen 3 comprende meglio il linguaggio naturale e le intenzioni degli utenti, sia che si tratti di brevi descrizioni che di testi più lunghi. Ottimizzata anche la realizzazione di testi nelle grafiche, una delle principali pecche delle attuali soluzioni di intelligenza artificiale generativa aperte al pubblico.