Mappare le identità e le relazioni online: opinioni, desideri e atteggiamenti convertibili in bit e misurabili

di di Andrea Bernardini, Claudio Carpineto e Serena Ferrara (Fondazione Ugo Bordoni) |

Mondo


Social media

Ieri

Sono passati molti anni da quando l’utilizzo di Internet era un’attività riservata a pochi eletti. Le connessioni erano lente, le informazioni difficili da trovare. Si controllava una volta al giorno la posta elettronica e si facevano ricerche con un po’ di difficoltà utilizzando Yahoo! ed Altavista (Google ancora non esisteva).

Oggi Internet è alla portata di tutti e la sua terminologia è divenuta di uso comune. Youtube, Second Life e poi Facebook hanno incuriosito ed invogliato all’utilizzo della rete milioni di persone. Cosa si nasconde però dietro questo scambio continuo di informazioni tra le persone? Un tempo ci si connetteva solo per motivi di lavoro, adesso ci si scambia informazioni per decidere quale regalo fare, dove vedersi per un aperitivo o se la posologia di una medicina è giusta o sbagliata.

Le stesse persone che non rispondono ad un questionario telefonico o ad un’intervista per strada donano però inconsapevolmente migliaia di informazioni estremamente personali sulle proprie abitudini, le proprie idee ed i propri sogni. Molte volte infatti, per ignoranza o trascuratezza, ci si scorda che le informazioni che lasciamo su Internet non sono più nostre nel momento in cui vengono pubblicate: ciò vale, ad esempio, per la proprietà intellettuale degli account su Facebook o delle immagini caricate su Flickr. In altri casi vengono semplicemente indicizzate, condivise e ripubblicate tante di quelle volte che diventa impossibile fermarne la distribuzione.

A fine 2008 il settimanale francese Tigre,1 per attirare l’attenzione sui rischi connessi alla privacy, ha ricostruito gli ultimi anni di vita di una persona scelta a caso (Marc) basandosi solo sulle sue tracce lasciate online. Gusti, abitudini, persone frequentate e relazioni avute. Una descrizione così precisa che, sebbene fossero state omesse le informazioni personali, Marc vi si è riconosciuto benissimo ed ha anche tentato di bloccare la pubblicazione di questa inchiesta, ma inutilmente. Si trattava di informazioni di dominio pubblico e facilmente accessibili. Non servono strumenti particolari. Con pochi sforzi si può navigare in rete e ricostruire il profilo e le azioni di un persona. È noto, ad esempio, che i cacciatori di teste studiano in anticipo i profili dei candidati per un posto di lavoro semplicemente cercandoli su Facebook o in altri media sociali.

Anche i commenti e le opinioni espresse dai singoli consumatori su Internet sono stati recentemente messi a fuoco perché possono decretare il successo o il fallimento di nuovi prodotti, servizi, beni, ecc. Ormai sono a disposizione un insieme di strumenti che consentono di analizzare con una certa accuratezza i cosiddetti Consumer Generated Media (CGM) ovvero blog, forum, pagine web, messaggi Twitter, per scoprire le reazioni delle persone. A questo filone ci si riferisce di solito col termine “sentiment analysis” o “opinion mining“.

Sbrogliare la matassa delle reti sociali

Al giorno d’oggi, l’attenzione si sta spostando dall’analisi del singolo utente/azienda verso l’analisi di gruppi di utenti e sulle interconnessioni che hanno tra loro. La persona adesso viene analizzata in correlazione alla rete sociale che si è creata e dentro cui opera. Infatti le stesse connessioni che una persona stabilisce nella vita di tutti giorni, basate sulla sua indole, sul proprio carattere e sulla gestione dei rapporti personali, vengono replicate anche nel mondo delle reti sociali su Internet. La grossa differenza è che sul Web tutte queste informazioni sono mappabili, convertibili in bit e poi misurabili.

Diventa quindi possibili catalogare gli utenti in base ai loro comportamenti. Sono più veloci o più lenti nel reagire alle novità? E se qualcosa li interessa la condividono anche con gli altri? Si possono così distinguere i cosiddetti influencer o opinion leaders, personalità in grado di guidare gli altri, dai follower, personalità non dotate di iniziativa che spesso emulano gli altri.

Si tratta di concetti e metodologie di analisi che non sono nuovi nell’ambito dei media studies e delle teorie della comunicazione. Il concetto di opinion leader, ad esempio, nasce nell’ambito della ricerca sugli effetti delle comunicazioni di massa quando Katz e Lazarsfeld introducono il modello “two step flow of communication”,2 superando definitivamente l’idea che i mass media avessero effetti diretti sui comportamenti delle persone. Un modello che, sin dalle prime ricerche di Lazarsfeld, ha trovato applicazione negli studi sulla formazione delle opinioni politiche e delle scelte elettorali. In seguito, l’individuazione di un leader in una rete comportamentale ha trovato grande applicazione nel marketing, con l’obiettivo di analizzare il passaparola delle persone e l’impatto che esso poteva avere nello sviluppo di nuovi trend sul mercato.

Oggi, lo studio delle reti complesse è ormai ampiamente praticato nei diversi ambiti delle scienze sociali. Nel mondo del commercio si parla di previsioni di miliardi di dollari investiti in queste tecnologie per analizzare ed estrarre informazioni dalle reti sociali,3 con già circa un centinaio di prodotti di analisi disponibili sul mercato. Nel recente The 2010 International Conference on Advances in Social Networks Analysis and Mining (ASONAM) 4 sono state presentate varie tecniche impiegate nell’analisi delle rete sociali. Quelle più utilizzate sono la network analysis, il clustering dei dati e gli approcci che utilizzano entrambe le metodologie.

Le metodologie di network analysis si concentrano sugli aspetti di tipo comportamentale (behavioral network e preference propagation) cercando di individuare i primi N leader comportamentali (influencer) in grado di indirizzare le preferenze di gruppi molto più numerosi. In questi casi, ci sono da considerare diversi aspetti tra cui la somiglianza tra gli utenti, il loro grado di interconnessione, e la velocità di propagazione di un’opinione.5

Il clustering dei dati, invece, consiste nell’individuazione di relazioni di similarità tra i vari oggetti che compongono collezioni enormi di dati. Ad esempio, l’individuazione e la catalogazione di gruppi di estremisti attraverso i messaggi presenti nei loro siti web.6 I risultati presentati mostrano l’efficacia di queste tecniche nell’individuazione di varie sottocategorie (gruppi religiosi, anti abortisti, anti immigrati, nazionalisti etc…) all’interno dei gruppi analizzati. Un esempio di applicazione di questa metodologia è rintracciabile all’interno del progetto “Multilingual Event Extraction for Border Security Intelligence Gathering”, della Frontex7, ossia l’Agenzia europea per la gestione della cooperazione internazionale alle frontiere esterne degli Stati membri dell’Unione europea.8 Si tratta di un sistema ibrido di estrazione di eventi in grado di esplorare svariate fonti di informazioni multilingua e di aggregarle con algoritmi di clustering. Una delle prime applicazioni del sistema è stato un programma in grado di segnalare ogni potenziale crisi in giro per il mondo, con un tempo di latenza di soli dieci minuti. Un’altra applicazione molto utile del clustering è l’analisi degli argomenti più in voga su Twitter. Gli argomenti più dibattuti vengono condensati automaticamente in pochi temi senza bisogno di fare lunghe ricerche o leggere molti messaggi. Un esempio è il sistema TopicScoop.9 Le stesse tecniche si possono utilizzare per predire il successo di una canzone o di un film in base ai primi commenti degli utenti.10,11

In generale, si tratta di modelli per il supporto alle decisioni: essi agiscono nella forma di suggeritori che sulla base delle informazioni raccolte formulano ipotesi che poi vengono passate al vaglio di un controllore umano. Le applicazioni coprono moltissimi campi: fra i più attuali ci sono l’analisi delle reazioni della popolazione rispetto alle scelte politiche e gli indicatori che possono preannunciare rischi di terrorismo.

L’ubiquità delle applicazioni delle tecniche di clustering su Internet sta spingendo il mondo scientifico a migliorare la robustezza e l’accuratezza di tali tecniche. Questo tema viene studiato anche presso la Fondazione Ugo Bordoni, dove recentemente è stato messo a punto un metodo innovativo basato sull’assemblaggio dei risultati prodotti da diversi algoritmi di clustering. Questo metodo è stato applicato per creare un meta motore di ricerca a categorie per il Web.12

Un approccio che combina ambedue le metodologie lo si può trovare nel prodotto BlogPulse13 un “trend discovery system for blogs” che utilizza tecniche di apprendimento automatico combinate all’elaborazione del linguaggio naturale per mappare in tempo reale i più significativi blog della rete. Blogpulse è in grado di effettuare analisi a scalabilità variabile, concentrandosi di volta in volta su temi diversi e campioni di utenza diversa.

Il futuro

Il futuro per questo settore è sicuramente di grande interesse.

Dal punto di vista delle scienze sociali, sarebbe interessante capire se queste tecniche di analisi, che si avvalgono delle tecnologie dell’informazione, sono già entrate di diritto nelle metodologie della ricerca sociale e in che modo esse si integrano con le tecniche di analisi statistica tradizionale. In particolare, per ciò che attiene la sociologia della comunicazione, si intravedono grandi possibilità di applicazione nello studio delle interazioni simboliche attraverso i social network e dell’influenza che esse esercitano sulle scelte di consumo o di voto.

Intanto, il mercato industriale è già pronto a grandi investimenti per ottenere informazioni sempre più precise ed in tempo reale sulle opinioni, gli umori e i modi di influenzarsi reciprocamente delle persone.

Il prossimo passo sarà quello di aumentare via via il numero degli utenti e la grandezza delle reti sociali che si riescono ad analizzare. Il singolo perderà sempre più importanza e si inizierà a lavorare su segmenti di popolazione. Allo stesso tempo però bisognerà fare un bilancio dal punto di vista della privacy. Le persone potrebbero accorgersi che il conto da pagare per essere entrati nel mondo delle reti sociali ed aver usufruito di applicazioni e servizi gratuiti è stato salato.

Riferimenti:

1 – http://www.repubblica.it/2009/01/sezioni/esteri/francia-vita-giornale/francia-vita-giornale/francia-vita-giornale.html?ref=hpspr1

2 – Katz, E., & Lazarsfeld, P. (1955), Personal Influence, New York: The Free Press; Katz, Elihu (1973). The two-step flow of communication: an up-to-date report of an hypothesis. In Enis and Cox(eds.),Marketing Classics.

3 – http://www.economist.com/node/16910031

4 – http://asonam2010.hau.gr

5 – Esslimani, I. Brun, A. Boyer, A.LORIA, Detecting leaders in behavioral networks in Advances in Social Networks Analysis and Mining (ASONAM), 2010

6 – Xingqin Qi; Christensen, K.;Duval, R.;Fuller, E.;Spahiu, A.;Qin Wu;Cun-Quan Zhang, A Hierarchical Algorithm for Clustering Extremist Web Pages, in Advances in Social Networks Analysis and Mining (ASONAM), 2010

7 – www.frontex.europa.eu

8 – Jakub Piskorski, Multilingual Event Extraction for Border Security Intelligence Gathering, Joint Research center European Commission. http://asonam2010.hau.gr/Piskorski.aspx

9 – http://www.topicscoop.com

10 – Eldar Sadikov and Aditya Parameswaran and Petros Venetis, Predictor of Movie Success in ICWSM 2009, http://www.aaai.org/ocs/index.php/ICWSM/09/paper/viewPDFInterstitial/165/489

11 – Abel, F. Diaz-Aviles, E. Henze, N. Krause, D. Siehndel, P.Analyzing the Blogsphere for Predicting the Success of Music and Movie Products in Advances in Social Networks Analysis and Mining (ASONAM), 2010

12 – Claudio Carpineto, Gianni Romano. Optimal Meta Search Results Clustering, Proceedings of the 33rd Annual ACM SIGIR Conference, pp. 170-177, Geneva, Switzerland, July 2010

13 – Blogpulse, http://www.blogpulse.com