L’AI alla prova del comportamento umano, uno dei nostri aspetti più mutevoli. Lo studio su Nature
L’intelligenza artificiale (AI) ha fatto passi da gigante, anzi, possiamo dire che ormai corre come un gigante, quindi a falcate larghissime. Le sue applicazioni non si contano e soprattutto sono relative ad ogni campo dello scibile umano. Nella ricerca di modelli di AI sempre più avanzati, efficienti e veloci, il lavoro multidisciplinare è fondamentale, anche per affrontare i timori etici che accompagnano questo sviluppo accelerato della tecnologia più importante dei nostri tempi.
In uno studio appena pubblicato sulla prestigiosa rivista scientifica Nature, i ricercatori hanno cercato di capire e prevedere il comportamento umano usando un’intelligenza artificiale.
Per raggiungere questo a dir poco ambizioso risultato, è stato creato appositamente un nuovo modello di AI, chiamato Centaur, una sorta di “cervello artificiale” in grado di comportarsi come una persona reale in centinaia di esperimenti di psicologia.
L’idea alla base è semplice, ma potente: oggi l’AI riesce a fare bene una cosa alla volta (come giocare a scacchi o completare delle frasi). Gli esseri umani, invece, sono versatili: imparano, decidono, ricordano, si adattano a contesti diversi e in tempi anche molto brevi.
Gli scienziati si sono quindi chiesti: “Possiamo creare un’intelligenza artificiale che simuli la mente umana in modo ampio, non solo su un compito specifico, ma su tanti contesti diversi?”. La risposta che propongono è sì e si chiama “Centaur”, modello sviluppato partendo da Llama 3.1 da 70 miliardi di parametri (un LLM open-source sviluppato da Meta) e perfezionato tramite una tecnica chiamata QLoR.
Che cos’è “Centaur”
Centaur è un modello di intelligenza artificiale (simile a ChatGPT o altri “modelli linguistici”), ma con una differenza fondamentale: è stato allenato non solo su contenuti di testo, ma su “comportamenti umani reali”, raccolti in oltre 160 esperimenti psicologici.
In pratica, ai partecipanti venivano proposti giochi, test, scelte (es. “scegli tra due opzioni di lotteria”, “ricorda lettere viste allo schermo”, “decidi se fidarti di qualcuno”).
I ricercatori hanno trasformato questi esperimenti in frasi in linguaggio naturale e le hanno usate per “insegnare” a Centaur come pensano e agiscono le persone.
Il modello è stato allenato su Psych-101, un dataset inedito che raccoglie oltre 10 milioni di scelte fatte da persone reali, 160 esperimenti psicologici, 60.000 partecipanti e trascrizioni in linguaggio naturale di compiti cognitivi (per esempio: decisioni, memoria, apprendimento, ecc.).
Un’AI che pensa come una persona?
A quanto pare, dallo studio è emerso che Centaur riesce a prevedere con grande precisione le scelte che farebbe una persona in vari contesti, anche quando il compito cambia leggermente (es. cambiano i nomi o la storia di copertura dell’esperimento), o è completamente nuovo, come problemi logici o situazioni morali.
Ad esempio: se un test prevedeva che il partecipante dovesse scegliere tra due navicelle spaziali, Centaur si comportava in modo simile anche se la storia veniva all’improvviso cambiata in “tappeti volanti”. Ha capito il senso del compito, non solo la forma.
Per intencerci, quando Centaur viene “lasciato solo” a fare delle scelte (senza input umano), mostra comportamenti realistici, simili a quelli di veri partecipanti.
Ad esempio, alterna l’esplorazione (provare qualcosa di nuovo) con l’abitudine (scegliere ciò che ha funzionato prima), mostra incertezza o esitazione, “come le persone vere”, sottolineano i ricercatori.
Usando dati di risonanza magnetica (fMRI), i ricercatori hanno confrontato l’attività del cervello umano con quella di Centaur. Risultato: le “attivazioni interne” del modello AI assomigliano molto a quelle che si vedono nel cervello quando una persona prende decisioni o legge.
Qui si fa più ardua la comprensione dei risultati raggiunti dagli studiosi, sia nel test fMRI applicato all’AI, sia nei risultati. Secondo lo studio, quanto rilevato suggerisce che Centaur non solo “fa le cose giuste”, ma le fa in modo simile a come ragiona una persona.
Un’AI veramente cognitiva? Le osservazioni del professor Walter Quattrociocchi (La Sapienza)
Ma cosa significa questo studio per noi comuni mortali? Rappresenta sicuramente un salto di qualità nell’uso dell’intelligenza artificiale, perché non si tratta più solo di un modello che “completa testi” o “imita il linguaggio”, ma di un primo esempio di AI che simula la mente umana in senso ampio: memoria, decisione, apprendimento, logica, incertezza.
Un esempio concreto di intelligenza artificiale “cognitiva”, capace di comprendere e simulare il modo in cui gli esseri umani ragionano, decidono e agiscono.
Ma è davvero così? Secondo Walter Quattrociocchi, professore Ordinario di Informatica alla Sapienza Università di Roma e direttore del Center for Data Science and Complexity for Society, lo è a metà.
In un suo lungo commento sui social (è grazie al suo post che ho scoperto questa pubblicazione interessantissima), Quattrociocchi ha confermato l’esito della ricerca: “Il risultato, almeno nei limiti del framework, è notevole. Il modello supera i benchmark esistenti, generalizza su task mai visti prima, e — dettaglio rilevante — mostra una somiglianza strutturale crescente con l’attività cerebrale umana, misurata tramite fMRI (risonanza magnetica funzionale, che rileva l’attività cerebrale osservando il flusso sanguigno).
Il lavoro è ben costruito, non forza il messaggio. Mostra che, in un dominio formalizzato, un modello linguistico può diventare uno strumento predittivo efficace del comportamento umano”.
Risultati notevoli, “ma” …
Il professore, però, ha anche precisato che c’è un “ma”, fortunatamente aggiungiamo noi, perché le congiunzioni avversative ci aiutano a ragionare per davvero, soprattutto sulle tematiche più importanti del nostro tempo.
Rispetto ai risultati sopra commentati, “resta una distinzione netta”, ha spiegato Quattrociocchi: “predire una risposta non equivale a modellare il processo che la genera. Centaur non costruisce obiettivi, non forma uno stato interno, non pianifica. Associa contesto e output in modo statistico. Funziona perché opera su esempi ben formattati, dove la decisione è esplicita”.
“Il punto debole, in fondo, è questo: Centaur mostra dove funziona, ma dice poco su dove e perché fallisce. Nessuna caratterizzazione sistematica degli errori. Nessuna metrica di robustezza fuori distribuzione. È una performance forte, ma chiusa”, ha precisato il professore della Sapienza.
I limiti dello studio e di Centaur
In sintesi, possiamo dire, che Centaur stupisce e sorprende, ma tra le considerazioni da fare sicuramente dobbiamo ricordare che predire il comportamento umano (cioè azzeccare la risposta) non significa capire davvero come nasce quella risposta.
Il modello imita il comportamento, ma non è detto che comprenda il processo cognitivo sottostante, né che riesca a spiegare perché una persona ha fatto quella scelta.
Il dataset Psych-101 è stato molto ben strutturato, ma lavorare all’interno di un contesto “controllato” porta a risultati ambigui. Centaur non è stato testato su comportamenti complessi della vita reale, dove le decisioni sono ambigue, influenzate da emozioni, relazioni sociali o contesti ambigui.
Il modo in cui viene presentata una situazione (“framing”) cambia radicalmente la risposta. Le pressioni sociali, la cultura, le emozioni, il passato personale, in fondo, sono tutti fattori che alterano profondamente il comportamento di una persona. E’ molto probabile che qui Centaur fallirebbe nel suo compito.