GPT-5 risulta meno sicuro del suo predecessore, i nuovi test del CCDH
La nuova ricerca dal titolo “The Illusion of AI Safety” del Center for Countering Digital Hate (CCDH) ha condotto dei test di sicurezza su GPT-5, il nuovo modello linguistico multimodale di grandi dimensioni sviluppato da OpenAI, stavolta messo a confronto con il precedente GPT-4o su decine di prompt riguardanti argomenti sensibili e dannosi per la sicurezza mentale e fisica degli utenti.
I due modelli di intelligenza artificiale (AI) sviluppati da OpenAI sono stati messi a confronto su 120 prompt riguardanti autolesionismo, suicidio, disturbi alimentari e abuso di sostanze stupefacenti.
I risultati sono stati tutt’altro che rassicuranti.
GPT-5 ha prodotto contenuti nocivi in 63 delle 120 risposte (53%), rispetto alle 52 (43%) di GPT-4o. Inoltre, i risultati del test hanno evidenziato che GPT-5 ha incoraggiato il follow-up da parte degli utenti in 119 risposte su 120 (99%), rispetto a 11 su 120 (9%) per GPT-4o. Il nuovo modello ha anche risposto a richieste pericolose che GPT-4o aveva rifiutato, offrendo spesso informazioni dettagliate su metodi di autolesionismo, comportamenti alimentari disordinati e accesso a sostanze illegali.
Insomma, ChatGPT-5 potrebbe aumentare il rischio di risposte dannose, secondo i ricercatori del CCDH, nonostante le rassicurazioni dell’azienda in merito alle maggiori misure di sicurezza prese nel tempo, soprattutto dopo alcuni eventi drammatici che hanno visto l’AI avere un ruolo chiave in casi di suicidio.
Servono nuove regole per aumentare la sicurezza di ChatGPT
“OpenAI ha promesso agli utenti maggiore sicurezza, ma ha invece fornito un ‘aggiornamento’ che genera ancora più potenziali danni. Nel caso del sedicenne Adam Raine, morto suicida dopo aver ricevuto, a quanto pare, risposte dannose da ChatGPT, abbiamo visto come l’inazione abbia conseguenze tragiche. Le deboli affermazioni fatte da OpenAI in merito al lancio di GPT-5 dimostrano che, in assenza di regolamentazione, le aziende di intelligenza artificiale continueranno a barattare la sicurezza con le promesse di un impegno maggiore. Quante altre vite dovranno essere messe a rischio prima che si agisca responsabilmente?”, si chiede Imran Ahmed, CEO del Center for Countering Digital Hate.
Nel tragico caso dell’adolescente californiano Adam Raine, sembra che ChatGPT abbia ricevuto dal giovane qualcosa come 377 messaggi catalogati “autolesionisti”, senza nessun intervento decisivo da parte di OpenAI.
Cosa che lascia inevitabilmente pensare che sì sarebbe potuto evitare il peggio se ci fosse stato un sistema di allarme e sicurezza più efficace.
GPT-5 massimizza l’utilità: “Sei a rischio, ma andiamo avanti”
L’azienda, per sua natura, tende a perseguire la massima utilità e lo dimostrano i risultati dei test condotti dal CCDH, secondo cui il modello di GPT-5 incoraggia in maniera costante e massiva gli utenti “a continuare a interagire con la piattaforma”, anche in contesti che coinvolgono argomenti sensibili o potenzialmente dannosi.
Il sistema, stressato dai ricercatori durante i test, ha avvertito l’utente che si stava addentrando in un terreno “delicato”, forse inadatto alla sua età o più in generale “rischioso”, ma senza mai scoraggiare davvero nel proseguire.
L’analisi proposta dal CCDH segue quella dello scorso agosto, dal titolo enigmatico “Fake Friend”, che ha rivelato come lo stesso GPT-4o producesse contenuti non sicuri per account registrati da tredicenni già dopo appena pochi minuti d’interazione.
Nel documento si evidenziava, inoltre, il ruolo dell’AI nel favorire comportamenti pericolosi e la dipendenza emotiva che questi sistemi possono favorire negli utenti più vulnerabili, come spesso lo sono i ragazzini e gli adolescenti. 
Su ChatGPT 1,2 milioni di conversazioni legate a potenziali intenzioni di suicidio
Questa settimana, OpenAI ha condiviso i risultati di una ricerca condotta in collaborazione con oltre 170 esperti di salute mentale per aiutare ChatGPT a riconoscere in modo più chiaro e affidabile i segnali di disagio da parte dell’utente, rispondere con attenzione e guidare le persone verso un supporto concreto, riducendo del 65-80% le risposte dannose o non utili ad un corretto rapporto di interazione.
Circa lo 0,07% degli utenti di ChatGPT attivi in una determinata settimana ha mostrato segnali di disagio, aggiungendo che il suo chatbot AI è stato in grado di riconosce e rispondere neo modo corretto a queste conversazioni delicate.
Sebbene OpenAI sostenga che questi casi siano “estremamente rari”, stiamo comunque parlando di centinaia di migliaia di persone (circa 560.000), dato che ChatGPT ha recentemente raggiunto il record di 800 milioni di utenti attivi settimanali.
L’azienda stima inoltre che lo 0,15% degli utenti di ChatGPT abbia conversazioni che includono “indicatori espliciti di potenziali intenzioni di suicidi o piani di suicidi”. Anche qui, facendo due calcoli, siamo a 1,2 milioni di utenti settimanali.
Con la volontà di intensificare i controlli, l’azienda ha dichiarato di aver creato una rete di esperti in tutto il mondo per fornire consulenza: oltre 170 psichiatri, psicologi e medici di base che hanno esercitato in 60 Paesi.

 
            
 
                               
 
  
  
  
  
  
  
  
  
 