il modello

Da OpenAI a Google, obbligo Ue di rendere pubblici i dati di addestramento degli LLM. Si parte dal 2 agosto

di |

Un passo decisivo per tutelare copyright, privacy e concorrenza, rafforzando i diritti dei cittadini e la trasparenza in un settore strategico per l’innovazione e la sovranità digitale europea.

Virkkunen: “Un passo importante verso un’AI affidabile e trasparente”

La Commissione europea ha ufficialmente pubblicato il modello vincolante per la disclosure obbligatoria dei dati di addestramento utilizzati nello sviluppo dei modelli di intelligenza artificiale generativa (genAI) di uso generale.
A differenza del Codice di condotta volontario, precedentemente promosso e concepito per fornire linee guida operative per l’attuazione delle disposizioni dell’AI Act, che entrerà in vigore il prossimo 2 agosto (senza deroghe), e promuovere l’innovazione responsabile e la tutela dei diritti individuali, questa misura è obbligatoria per tutti i fornitori di modelli che operano nel mercato unico europeo, indipendentemente dalla loro sede legale o dal fatto che siano open source.

La disposizione è prevista dall’articolo 53(1)(d) del Regolamento (UE) 2024/1689 (AI Act), entrato in vigore il 1° agosto 2024, e sarà applicabile dal 2 agosto 2025. I provider avranno quindi l’obbligo legale di rendere pubblicamente disponibile una sintesi sufficientemente dettagliata dei contenuti utilizzati per l’addestramento dei propri modelli.

Henna Virkkunen , Vicepresidente esecutiva per la Sovranità tecnologica, la sicurezza e la democrazia, ha dichiarato: “Il modello adottato oggi dalla Commissione rappresenta un altro passo importante verso un’AI affidabile e trasparente. Fornendo un documento di facile utilizzo, supportiamo i fornitori di modelli di AI generici nel conformarsi alla legge. In questo modo possiamo rafforzare la fiducia in questa tecnologia e sfruttarne appieno il potenziale a vantaggio dell’economia e della società“. 

Un’AI giusta per la trasparenza, i diritti e l’innovazione

L’obiettivo dichiarato dalla Commissione è a questo punto più che evidente: rafforzare la trasparenza nell’ecosistema dell’AI, tutelare i diritti fondamentali, garantire la protezione dei dati e sostenere una competizione più equa e aperta in un settore dominato da pochi grandi attori globali.

I modelli generici di AI vengono addestrati con grandi quantità di dati, ma sono disponibili solo informazioni limitate sulla loro origine. La sintesi pubblica fornirà una panoramica completa dei dati utilizzati per addestrare ognuno di essi, elencando le principali raccolte di dati e le altre fonti utilizzate.
Questo modello aiuterà inoltre i proprietari di diritti legittimi, come i titolari di diritti d’autore, ad esercitarli e tutelarli a norma di legge.

È una pietra miliare regolatoria che può avere ripercussioni a catena a livello mondiale”, si legge nella nota esplicativa allegata al modello che è stato diffuso da MLex.

La sintesi richiesta dovrà elencare le principali basi di dati utilizzate — inclusi dataset pubblici, licenze commerciali, contenuti web scraping e dati sintetici — e indicare le modalità di raccolta, le dimensioni, la tipologia dei contenuti (testo, immagini, audio, video) e le caratteristiche linguistiche e geografiche.
Per i provider più grandi, sarà obbligatorio indicare anche i domini web principali da cui è stato effettuato il web scraping.

Effetti internazionali e il nodo del copyright

Una delle implicazioni più rilevanti riguarda il copyright. La trasparenza sui dati d’addestramento, anche se non tecnicamente dettagliata ma “sufficientemente esaustiva” come richiesto dal Regolamento, permetterà ai titolari dei diritti (anche non europei) di verificare se e come le loro opere sono state utilizzate, facilitando l’eventuale esercizio di azioni legali o richieste di compensazione.

La norma si ricollega direttamente alla Direttiva (UE) 2019/790 sul diritto d’autore nel mercato digitale, rafforzando così la possibilità per gli autori di far valere i propri diritti fondamentali alla proprietà intellettuale e a un ricorso effettivo.

Privacy e dati personali sotto i riflettori della nuova normativa sull’AI

Oltre al copyright, la nuova normativa rafforza anche il diritto alla protezione dei dati personali, chiedendo ai provider di fornire informazioni, in forma aggregata, su eventuali dati raccolti tramite interazioni degli utenti con modelli e servizi. Questa misura si affianca — senza sostituirla — alle obbligazioni previste dal GDPR, garantendo un quadro di maggiore controllo da parte dei consumatori.

Impatti positivi per la concorrenza e la diversità culturale

La misura è anche un potente strumento per promuovere mercati più aperti e competitivi. La trasparenza obbligatoria renderà più difficile l’adozione di strategie di lock-in e abuso di posizione dominante.

Inoltre, facilitando l’analisi della diversità dei dati di addestramento, potrà aiutare a mitigare i rischi di bias linguistici e culturali, tutelando il diritto alla non discriminazione e alla pluralità linguistica sanciti dalla Carta dei diritti fondamentali dell’UE.

La vigilanza dell’AI Office, le sanzioni e le scadenze

A vigilare sarà l’AI Office, che potrà imporre sanzioni fino al 3% del fatturato mondiale annuo del provider o 15 milioni di euro, a seconda di quale importo sia maggiore, in caso di inadempienza.

Le scadenze principali previste dalla Commissione europea:

  • 2 agosto 2025: inizio dell’obbligo per tutti i nuovi modelli sul mercato UE;
  • 2 agosto 2026: inizio dei controlli da parte dell’AI Office;
  • 2 agosto 2027: termine ultimo per aggiornare le sintesi dei modelli immessi sul mercato prima del 2 agosto 2025.

Un precedente globale?

Questa iniziativa europea potrebbe diventare uno standard internazionale de facto, costringendo i principali attori globali — come OpenAI, Google, Meta, Anthropic, Amazon e Baidu — a rivelare informazioni cruciali anche per il mercato extra-UE.

Gli Stati Uniti, la Cina e altri blocchi potrebbero subire pressioni per armonizzare le loro regole o affrontare nuove battaglie legali transfrontaliere.
Proprio ieri il Presidente degli Stati Uniti, Donald Trump, ha presentato il nuovo Piano nazionale per l’AI, tutto rivolto allo sviluppo accelerato di questa tecnologia, senza regole o zavorre burocratiche che ne limitino la velocità, per vincere la competizione globale in questo settore con Ue e Cina.
Un via libera incondizionato alle Big Tech e un tentativo (che potrebbe andare anche a buon fine) di attrarre il maggior numero di investitori internazionali nell’AI americana.

La mossa di Bruxelles non è solo un esercizio di regolamentazione: è un atto politico e culturale che riafferma la centralità dell’etica digitale, della sovranità tecnologica e del diritto alla conoscenza. In un’epoca dominata da modelli opachi e centralizzati, l’Unione europea si propone come pioniere globale della trasparenza nell’IA.

Leggi le altre notizie sull’home page di Key4biz