Previsioni

Intelligenza Artificiale a rischio: si stanno esaurendo dati e immagini di qualità su cui istruirla. La soluzione? I dati sintetici

di |

La previsione del gruppo di studiosi è che i dati linguistici di bassa qualità saranno esauriti tra il 2030 e il 2050 e i dati di immagine di bassa qualità tra il 2030 e il 2060. Ma le soluzioni ci sono e sono tutte percorribili.

L’intelligenza artificiale è diventato il tema più cool del dibattito internazionale e della percezione dell’opinione pubblica, non solo di quella specializzata.

A dispetto della popolarità raggiunta dal settore, si sta silenziosamente facendo strada l’idea che la crisi possa essere dietro l’angolo e a creare difficoltà a questa crescita inarrestabile dell’intelligenza artificiale possa essere la scarsità di nuovi dati. Sì proprio così. L’intelligenza artificiale, per crescere, ha bisogno continuo di nuovi dati, che rappresentano il suo insostituibile carburante.

In assenza di nuovi dati disponibili, potrebbero registrarsi rallentamenti nella crescita dei modelli di intelligenza artificiale, in particolare i modelli linguistici di grandi dimensioni, e ciò potrebbe persino alterare la traiettoria della rivoluzione dell’IA da molti auspicata.

Ecco perché i dati di alta qualità sono importanti per l’Intelligenza artificiale

Ma c’è un modo per affrontare il rischio? E perché una potenziale mancanza di dati è un problema, considerando l’immensa mole di dati presenti in internet?

Perché per addestrare algoritmi potenti, accurati servono dati di alta qualità. Ad esempio, ChatGPT è stato addestrato su 570 Gigabyte di dati di testo (libri, testi scritti per internet, Wikipedia, articoli ecc.), pari a circa 300 miliardi di parole.

Allo stesso modo, la diffusione di algoritmi stabili ed equilibrati (che è dietro molte app di generazione di immagini AI come DALL-E, Lensa e Midjourney) è stata possibile grazie ad addestramenti con strumenti affidabili come LIAON-5B, un dataset forte di 5,8 miliardi di accoppiamenti immagine-testo. Al contrario, è evidente che se un algoritmo viene addestrato su una quantità insufficiente di dati, produrrà output imprecisi o di bassa qualità.

Anche la qualità dei dati su cui si fonda la formazione è importante. I dati di bassa qualità come i post sui social media o le fotografie sfocate sono facili da reperire, ma non sono sufficienti per addestrare modelli di intelligenza artificiale ad alte prestazioni.

Il testo preso dalle piattaforme di social media, come in altri angoli del web, potrebbe essere di parte, marcato da pregiudizio, o potrebbe includere disinformazione o contenuti illegali che potrebbero essere replicati dal modello che si sta costruendo. Ad esempio, quando Microsoft ha cercato di addestrare il suo bot AI usando i contenuti di Twitter, si è ritrovato a creare output razzisti e misogini (“Twitter taught Microsoft’s AI chatbot to be a racist asshole in less than a day”) .

Questo è il motivo per cui gli sviluppatori di intelligenza artificiale cercano contenuti di alta qualità come testi di libri, articoli online, articoli scientifici, Wikipedia e alcuni contenuti web filtrati ed affidabili. L’Assistente Google, ad esempio, è stato addestrato  su 11.000 romanzi d’amore (Google swallows 11,000 novels to improve AI’s conversation) presi dal sito di self-publishing Smashwords, per renderlo più colloquiale ed amichevole.

Ma abbiamo abbastanza dati per alimentare gli algoritmi che vorremmo?

L’industria dell’intelligenza artificiale ha addestrato i sistemi di intelligenza artificiale prodotti su set di dati sempre più grandi, grazie a ciò abbiamo oggi modelli ad alte prestazioni come ChatGPT o DALL-E 3. Ma il problema, come abbiamo visto, è che gli stock di dati online prodotti in tempo reale stanno crescendo molto più lentamente dei set di dati già disponibili ed utilizzati per addestrare l’intelligenza artificiale.

Il primo grido di allarme è stato lanciato circa un anno fa nel paper “Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning” scritto da un gruppo di sei ricercatori in intelligenza artificiale (Pablo Villalobos, Jaime Sevilla, Lennart Heim, Tamay Besiroglu, Marius Hobbhahn e Anson Ho) dislocati in varie università in giro per il mondo (University of Aberdeen, MIT Computer Science & Artificial Intelligence Laboratory, Centre for the Governance of AI, University of Tubingen), ma raggruppati sotto le insegne di Epoch. Le loro affermazioni nascono dall’analisi dei flussi di dati creati nel corso del tempo: i dati di qualità non crescono di pari passo con l’impennata della produzione generale di dati e, da canto suo, l’intelligenza artificiale per crescere ha bisogno di dati di qualità.

La previsione del gruppo di studiosi è che i dati linguistici di bassa qualità saranno esauriti tra il 2030 e il 2050 e i dati di immagine di bassa qualità tra il 2030 e il 2060.

Un danno non da poco se si pensa che l’IA potrebbe contribuire per 15,7 trilioni di dollari all’economia mondiale entro il 2030, secondo Price Waterhouse Cooper (The Macroeconomic impact of artificial intelligence). E la carenza di dati di qualità potrebbe rallentare tale contribuzione di valore.

Dovremmo essere preoccupati?

Mentre gli elementi sopra descritti potrebbero allarmare più di qualche tecno-fan dell’IA, la situazione potrebbe non essere così brutta come apparentemente sembra. È vero, ci sono molte incognite non solo su come si svilupperanno i modelli di intelligenza artificiale in futuro, ma anche numerose incertezze e timori proprio su come affrontare il rischio della carenza di dati di qualità.

Una delle opportunità auspicate dagli sviluppatori di intelligenza artificiale è quella di migliorare gli algoritmi in modo che utilizzino in modo più efficiente i dati di cui si ha già disponibilità.

È inoltre probabile che nei prossimi anni gli sviluppatori saranno in grado di addestrare sistemi di intelligenza artificiale ad alte prestazioni, utilizzando meno dati e probabilmente minore potenza computazionale. La qual cosa aiuterebbe anche a ridurre i timori relativi agli effetti sull’ambiente derivano dallo sviluppo dell’intelligenza artificiale (The Green Dilemma: Can AI Fulfil Its Potential Without Harming the Environment?)

La soluzione? I dati sintetici…

Un’altra opzione è quella di utilizzare l’IA per creare “dati sintetici”, ovvero dati  appositamente generati in base alle esigenze di produzione degli algoritmi, su richiesta, nei volumi che occorrono e nelle forme necessarie e rispondenti alle specifiche formulate a monte (Synthetic Data Is About To Transform Artificial Intelligence). Diversi progetti stanno già utilizzando contenuti sintetici, con dati provenienti da servizi di generazione di dati come Mostly AI (The #1 synthetic data platform). E il processo è ormai avviato, come sottolineato dal Wall Street Journal (Fake It to Make It: Companies Beef Up AI Models With Synthetic Data)

Gli sviluppatori sono anche alla ricerca di contenuti al di fuori dello spazio online gratuito, come quello detenuto da grandi editori e repository off-line. Si pensi ai milioni di testi pubblicati prima di internet e non ancora presenti in rete. Resi disponibili in digitale, potrebbero fornire una nuova fonte di dati per i progetti di intelligenza artificiale in corso e futuri.

Oppure occorrerà usare le montagne di dati privati e di alta qualità di editori e creatori

Un altro punto cruciale, che sta registrando l’attenzione degli osservatori è la grande quantità di dati già digitalizzati, ma protetti, ovvero custoditi da paywall che non consentono l’accesso. L’editore News Corp, uno dei più grandi proprietari di contenuti di notizie al mondo (che ha gran parte dei suoi contenuti dietro un paywall) ha recentemente dichiarato che stava negoziando accordi di contenuti con gli sviluppatori di intelligenza artificiale (News Corp in negotiations with AI companies over content usage, CEO says). Una strada, questa, che potrebbe essere percorsa anche da tutti gli altri proprietari di contenuti online protetti.

Tali accordi costringerebbero le aziende di intelligenza artificiale a pagare per i dati di formazione necessari all’addestramento degli algoritmi, mentre finora questi dati sono stati per lo più raschiati via Internet gratuitamente.

I creatori di contenuti hanno protestato con alcune aziende come Microsoft, Open AI e Stability AI contro l’uso non autorizzato dei propri contenuti per addestrare i modelli di intelligenza artificiale. Essere remunerati per il loro lavoro, è la loro tesi, può aiutare a ripristinare parte dello squilibrio di potere che esiste tra i creativi e l’industria dei contenuti da un lato e le aziende di intelligenza artificiale dall’altro.

Anche in questo caso, si aprono strade nuove sino ad ora non battute. Occorre coraggio, visione e naturalmente creatività.