Google I/O 2024

Google risponde a OpenAI e Microsoft con Project Astra e Veo (e abbiamo visto i nuovi Google Glass)

di |

La giornata di apertura della Google I/O 2024 parte con il botto con le IA da testo a video che sfidano Microsoft e OpenAI

 

Attese ampiamente soddisfatte. Google non perde nemmeno un minuto e nel corso della Google I/O 2024, la conferenza di Big G per gli sviluppatori, svela i concorrenti diretti di OpenAI e di Microsoft. Due su tutti, anche se le novità sono davvero tante. La prima riguarda Project Astra. Si tratta di un nuovo concetto di chatbot, definito da Sundar Pichai, amministratore delegato di Google, come una sorta di assistente “universale”, che può rispondere a tutto e a tutti. Funziona in maniera molto semplice: si clicca sulla sua icona, idealmente dallo smartphone, e si chiede con testo o voce quello che si vuole, usando anche la fotocamera per far “vedere” all’IA cosa c’è intorno, per un contesto ulteriore. Tutto molto simile a quanto Meta ha realizzato con la ricerca multimodale dei Ray-Ban di seconda generazione, che negli USA beneficiano del potere di Meta AI per analizzare il mondo.

Non c’è tempo per rilassarsi in diretta dallo Shoreline Amphitheatre in California. Il secondo grosso annuncio è Veo, un’IA che trasforma il testo in video. In tal caso, il guanto di sfida è a Sora, la piattaforma di OpenAI che è già nelle mani di qualche regista di Hollywood. Veo promette di migliorare molti dei limiti a cui Sora, e company, hanno mostrato di andare incontro. Tra i principali la mancanza di coerenza nel movimento di persone e animali, soprattutto quando si sposta l’inquadratura. Poi la sincronizzazione dell’audio e la simulazione di alcuni effetti cinematografici, come il time-lapse e le riprese con i droni.

Ricerca con l’IA

“Ad oggi tutti i prodotti Google che superano i 2 miliardi di utenti usano le capacità di Gemini” dice Sundar Pichai. “Abbiamo investito nell’IA per più di un decennio, innovando nella ricerca, nei prodotti, nelle infrastrutture. È l’inizio di un grande cambiamento ma serve coraggio, oltre che responsabilità”.

L’Ad ha ricordato che oggi Gemini, la declinazione dell’intelligenza artificiale di Google per i consumatori, è presente in tutti i principali servizi dell’azienda. Partito come progetto sperimentale, a cerchio chiuso, ora gli utilizzi si ampliano per tutti gli sviluppatori. A partire dalla piattaforma che ha reso famosa Google, la ricerca. Gli utenti negli Stati Uniti possono accedere a “AI Overviews“, la nuova interfaccia con cui il chatbot riassume la risposta alla domanda scritta nel classico box superiore, prima dei classici siti web. Se si digita “come rimuovere una macchia di caffè dal tappeto?”, Gemini restituirà dei passaggi consigliati con ulteriori link di riferimento. La funzione arriverà anche in Italia nei prossimi mesi.

Ecco Project Astra

Ed ecco giunti alla capacità multimodale di Gemini. Puntando la fotocamera dello smartphone verso l’esterno, l’IA riconosce ciò che vede, in una sorta di assistente digitale tuttofare. Project Astra può essere usato in tempo reale e, secondo la società, in “qualsiasi occasione” per ottenere informazioni testuali e visive ovunque. In attesa che Project Astra diventi un’app globale, Google porterà in Gemini la funzionalità “Live“. Nei prossimi mesi “implementeremo Live per gli abbonati a Gemini Advanced, una nuova esperienza conversazionale mobile che sfrutta la nostra tecnologia vocale più avanzata per rendere più intuitive le conversazioni” precisa Sundar Pichai. “Con Gemini Live, potete parlare e scegliere tra una vasta gamma di voci naturali per le risposte”.

Gli AI Agents

Project Astra è figlio dei cosiddetti AI Agents, ovvero piccole intelligenze artificiali che imparano il comportamento delle persone. Gli agenti sono costruiti sul modello di Gemini ed elaborano le informazioni in maniera veloce, salvando sul cellulare spezzoni di foto e video ripresi per creare un ecosistema famigliare all’utente, e riprenderli quando più servono per rispondere alle domande. Il tutto in maniera sicura e a difesa della privacy, senza mandare nulla in cloud.

Per un’esperienza ancora più personalizzati, arrivano anche i “Gem”, versioni personalizzate di Gemini. Gli sviluppatori potranno descrivere le loro necessità, Gemini esaminerà le istruzioni e creerà un assistente peculiare.

Questi sono i nuovi Google Glass?

Peraltro, in pochi si saranno accorti, che nel video qui sotto, Google ha silenziosamente mostrato un nuovo paio di Google Glass, che montano proprio Gemini per eseguire le capacità di ricerca multimodali.

Gemini in Google Foto

Un’altra applicazione che vedrà l’ingresso dell’intelligenza artificiale di Gemini è Google Foto. La barra di ricerca dove oggi è possibile digitare un termine relativo a immagini che si vogliono trovare sul servizio cloud, si trasforma in un vero box di conversazione naturale. Il tutto per ottenere contenuti specifici, anche contestuali. “Quando mia figlia ha imparato a nuotare?” è uno degli esempi forniti dalla compagnia per lanciare Ask Photos, che arriverà in estate per tutti gli utenti.

Alla base delle migliorie dell’IA c’è Gemini 1.5 Pro, che adesso gestisce da 1 milione di token per cogliere il significato di documenti anche di grandi dimensioni, ad esempio PDF di 1500 pagine, oppure riassumere 100 email in pochi secondi. Performance rese possibili da Trillium, TPU di nuova generazione, la sesta, che alimenta le reti neurali di Google Cloud.

L’IA per Android

Gemini su Android è ancora atteso in Italia mentre negli Usa è già un’app da installare sul telefono. Partendo dai modelli di smartphone Google Pixel, presto Gemini permetterà di accedere a funzioni avanzate, come la possibilità di cerchiare sullo schermo un diagramma di matematica o un’equazione e ottenere i passaggi per risolvere il problema. Si tratta di un’estensione di quanto già attuato oggi con l’opzione “cerchia e cerca”, che ha debuttato a gennaio sui Galaxy S24.

Da testo a foto e video

In campo multimediale, viene annunciato anche Imagen 3, che genera foto da testo. Capace di capire meglio il linguaggio naturale, il modello dovrebbe sia creare grafiche migliori che evitare quegli errori nella scrittura di testi che di norma interessano piattaforme simili. Accesso alla versione di prova per sviluppatori iscritti alla lista di attesa.