L'analisi

IA e fame di dati sintetici, un mercato globale da 1,8 miliardi di dollari entro il 2030

di |

La domanda di dati per allenare le intelligenze artificiali cresce seguendo il moltiplicarsi delle applicazioni in ogni ambito. Ecco perché molte aziende sfruttano i dati sintetici. Ma cosa sono? E a che servono? Ci potrebbero essere problemi di privacy?

Dati sintetici per alimentare le IA

L’intelligenza artificiale (IA) caratterizza una macchina nell’aumentare la propria capacità di ragionamento e apprendimento. Permette cioè ai sistemi di capire il proprio ambiente, di mettersi in relazione con quello che percepisce e di risolvere problemi, ma ha bisogno di dati, o già preparati e raccolti o ancora da raccogliere.

Si dice sempre che al mondo il flusso di dati è in costante aumento, sollevando anche problemi di tenuta della internet, ma a quanto pare le aziende che hanno bisogno di implementare le proprie soluzioni di IA lamentano spesso la mancanza di disponibilità di dati.

Secondo quanto riportato da Forbes, nel 2022 la maggior parte delle iniziative di intelligenza artificiale (nell’ordine del 60%-80%) non entra in produzione principalmente per mancanza di un volume adeguato di informazioni.

Per alimentare ed addestrare un sistema di AI, infatti, servono tantissimi dati, di buona qualità, affidabili, certi e non viziati da pregiudizi. Il limite che queste aziende si trovano ad affrontare sta nel fatto che i “dati veri” sono difficili da reperire, scarsi, viziati da errori, non utilizzabili per motivi di privacy, parziali o alterati dai bias di chi li ha sviluppati. Motivo per cui molte società si sono rivolte nel tempo ai cosiddetti “dati sintetici”.

Cosa sono e a che servono?

I synthetic data sono delle informazioni artificiali, nate come riproduzioni fedeli di quelle vere (di dataset del mondo reale), sia sotto il profilo matematico, sia statistico. I dati sintetici sono quindi creati “artificialmente” da sistemi di intelligenza artificiale, imitando il “mondo reale”.

Il loro utilizzo è ampio e crescente, soprattutto per far esercitare i software IA nelle più svariate applicazioni, dallo sviluppo di reti neurali alla medicina, dall’industria alla cybersecurity, dalla finanza alle assicurazioni, dall’energia alle telecomunicazioni, dall’agricoltura alla Pubblica Amministrazione, fino alla mobilità avanzata e al mondo del commercio e dei servizi.

Mercato mondiale dei dati sintetici

Prova ne è la crescita del mercato globale dei dati sintetici, che potrebbe raggiungere 1,8 miliardi di dollari entro il 2030, con un tasso medio annuo del +35% (Cagr 2022-2030).

A fine ottobre 2021 sono state diverse le operazioni di acquisizione di startup attive nel settore dei dati sentitici, come l’acquisto di AI Reverie da parte di Facebook, o l’acquisto di Syntonym da parte di Türk Telekom nello stesso periodo.

Secondo stime Gartner, il 60% dei dati utilizzati per lo sviluppo di progetti di IA e analytics sarà generato sinteticamente entro il 2024.

Sono già parecchie le grandi aziende che utilizzano questa soluzione, secondo un’analisi Clearbox AI e BearingPoint. John Deere impiega foto sintetiche per addestrare l’IA a riconoscere le piante infestanti in condizioni atmosferiche non ottimali. Amazon ricorre ai dati sintetici per il training di sistema di riconoscimento del linguaggio di Alexa. American Express impiega tali informazioni ai fini del riconoscimento delle transazioni fraudolente.

Altri impieghi crescenti dei synthetic data sono nell’addestramento dei sistemi di guida autonoma, nelle analisi relative all’ambito delle malattie ematologiche, nel metaverso che richiede simulazioni virtuali in 3D di ambienti di gioco, sociali e aziendali.

E la privacy? Che pericoli ci sono?

Come spiegato in un articolo pubblicato su dirittoaldigitale.com, un ulteriore vantaggio nell’utilizzo di questa tecnologia risiede nella protezione dei dati, dal momento che, in linea generale, appartiene a una di quelle tecniche atte a preservare la privacy degli interessati.

Eventualmente, un problema potrebbe essere relativo alla normativa in vigore, che può rendere talvolta difficile trattare i dati per lo sviluppo di software IA. Dunque, si legge nell’articolo, se le informazioni sintetiche sono considerate “sicure”, pertanto non riferibili a dati reali, resta da chiedersi se ci possa essere una effettiva correlazione tra il dato reale e quello sintetico.

È infatti necessario verificare sempre che l’impiego di tali dati sintetici, generati sulla base di un dataset contenente dati personali, garantisca una completa protezione delle informazioni personali per tutelare gli interessati in conformità con la normativa privacy.