Accesso alle informazioni: il rischio privacy non deve rappresentare più un ostacolo allo sviluppo

Italia

Claudio Carpineto

Pubblichiamo di seguito un approfondimento dell’intervento di Claudio Carpineto al Convegno FUB ‘Servizi informativi e profilazione automatica dell’utente’ (13 febbraio, Roma).

L’accesso alle informazioni è diventato solo recentemente un fenomeno sociale ed economico formidabile, ma le sue radici tecniche sono più antiche. Già negli anni ’70 e ’80, ben prima che la fame di informazioni, intrattenimento e socializzazione via Internet contagiasse noi tutti, le ricerche in “information retrieval’ e intelligenza artificiale individuano alcuni principi di base e metodologie che ancora oggi presiedono al funzionamento dei motori di ricerca e dei sistemi per il filtraggio e la fornitura delle informazioni.

In un classico articolo del 1992 apparso sulle Communications of the ACM (“Information filtering and information retrieval: Two sides of the same coin?”) Nick Belkin e Bruce Croft postulano una dualità fra le due modalità principali di erogazione delle informazioni, quella di accesso (pull), in cui il sistema reperisce le informazioni d’interesse in risposta ad una interrogazione, e quella di filtraggio (push), in cui le informazioni vengono spedite ad un utente verosimilmente interessato a riceverle. Documenti, interrogazione e profilo d’utente sono rappresentati allo stesso modo, cioè mediante un vettore di termini pesati dove ciascun peso riflette l’importanza di quel termine nel documento (o interrogazione, o profilo), e la selezione dei documenti pertinenti ad una certa interrogazione o profilo viene ricondotta al “best matching” dei vettori corrispondenti.

È subito chiaro, però, che il metodo basato sul contenuto da solo non è sufficiente a selezionare i documenti pertinenti e a scartare quelli non pertinenti in modo accurato. Ciò è dovuto principalmente all’ambiguità del linguaggio naturale, che fa si che gli stessi concetti possano essere espressi in modo differente nei documenti e nella interrogazione (o profilo). Ma non bisogna neanche trascurare il fatto che il pieno soddisfacimento di un bisogno informativo, oltre che alla sua comprensione, è legato anche alla conoscenza di chi lo ha formulato e perché – ad esempio con un’interrogazione “flower” gli uomini vogliono di solito spedire fiori, le donne ordinare semi e piante da giardino. Il metodo basato sul contenuto è stato così progressivamente arricchito con altre informazioni di contesto, quelle personali in primis. utilizzate per tarare e raffinare il metodo di base oppure per dare luogo a funzioni di selezione dei documenti autonome da usare in combinazione con esso.

La personalizzazione dei risultati è diventata così uno dei tratti distintivi dell’accesso intelligente alle informazioni ed è stata studiata per anni, con alterne fortune, utilizzando anche la metafora degli agenti software. Una delle sue prime e più note incarnazioni è la tecnica di “relevance feedback”, in cui la funzione di selezione dei documenti viene modellata come un processo di apprendimento guidato dai giudizi di pertinenza sui risultati ritornati durante la fase di addestramento. In sostanza, il vettore della interrogazione (o del profilo) viene modificato ad ogni iterazione aumentando o diminuendo il peso dei suoi termini a seconda che quei termini siano presenti in documenti recuperati pertinenti oppure non pertinenti. Questa tecnica è stata utilizzata in vari modi, incluso il reperimento delle immagini, anche se in applicazioni prevalentemente di laboratorio. Il suo limite principale è che le informazioni di addestramento devono essere fornite esplicitamente dall’utente, mediante un’attività aggiuntiva al normale sforzo di ricerca e di solito poco gradita.

Oggi il tema della personalizzazione è ridiventato centrale, in parte perchè c’è stata una moltiplicazione di sorgenti informative che contengono esplicitamente o implicitamente le preferenze degli utenti, in parte grazie alla evoluzione degli strumenti per il rilevamento e l’estrazione automatica dei dati personali da dette sorgenti (come ad esempio le applicazioni per il “desktop search”). Contemporaneamente, sono state affinate le tecniche di apprendimento automatico e information retrieval che fanno leva sul possesso di dati personali, e la combinazione dei due fattori potrebbe quindi condurre ad un decisivo miglioramento delle prestazioni in termini di accuratezza e rispondenza dei risultati alle attese degli utenti.

Dal feedback esplicito di utente a quello implicito

Noi lasciamo le nostre impronte sui media che adoperiamo anche se spesso non ce ne accorgiamo. Quando visitiamo un sito, o facciamo un’interrogazione con un motore di ricerca, vengono trasmesse al server una serie di informazioni sulla identità della macchina che si è collegata e sui dati immessi e le operazioni eseguite ad ogni stadio dell’interazione col sistema. Utilizzando tali informazioni e strumenti come i cookies, la sessione dell’utente può essere ricostruita con un certo grado di approssimazione nella sua interezza, anche quando essa consiste di una serie di operazioni eseguite a distanza di tempo. A seconda del tipo di applicazione con la quale si interagisce, esiste tutta una gamma di azioni osservabili (tempo di lettura, riempimento di form, comandi di stampa, salva, scrolla, seleziona, copia e incolla, trova, aggiungi al bookmark, ecc.) che possono essere direttamente correlate con il grado di interesse dell’utente per il contenuto dell’elemento informativo in oggetto (parola, brano, documento, campo, pagina Web).

Un’altra miniera di informazioni personali è contenuta nel nostro computer; basti pensare ai documenti testuali, ai messaggi di posta elettronica, alle pagine Web nella memoria cache, ai bookmark preferiti. L’utilizzazione di queste informazioni presenta un vantaggio importante in termini di privacy e riservatezza rispetto al caso di monitoraggio dell’interazione, e cioè che le elaborazioni avvengono sul computer locale e quindi non rimangono tracce sui server.

Infine, una sorgente spesso indiretta ma sempre più importante e utile di informazioni personali è costituita dalle reti sociali digitali delle quali gli utenti fanno parte. In molti applicazioni di commercio elettronico (ad esempio Amazon) e del Web 2.0 (ad esempio “folksonomy” come Flickr, Facebook e del.icio.us) ci sono pattern informativi condivisi che scaturiscono da processi di collaborazione o interazione tra una molteplicità di utenti. In questi casi le informazioni e le preferenze espresse da ciascuno modellano implicitamente quelle delle altre persone con gusti simili.

Le tecniche di personalizzazione basate sul profilo di utente: trend di ricerca

Negli ultimi anni sono stati sviluppati una serie di sistemi prototipali per l’accesso alle informazioni sul Web che si richiamano esplicitamente ai paradigmi di personalizzazione delineati. Presso i Google Labs, è stata investigata la possibilità di utilizzare un profilo d’utente e di graduare la sua influenza sui risultati ottenuti senza il profilo, lungo uno spettro di combinazioni che vanno dalla personalizzazione totale all’assenza di personalizzazione. Un approccio più ambizioso ed invasivo, studiato soprattutto in ambiente Microsoft, si basa sull’analisi dei comportamenti dell’utente desunti dalle informazioni presenti sul suo computer: le ricerche antecedenti che ha fatto, i file memorizzati, con chi scambia messaggi di posta e su quale argomento. Anche l’accesso alle informazioni basato sulle reti sociali sta prendendo piede, da Eurekster al recentissimo e molto atteso Search Wikia.

Lo sviluppo di applicazioni personalizzate innovative è legato ad una serie di ricerche che sono attualmente in corso di svolgimento. Fra i filoni più promettenti vanno considerati il filtraggio collaborativo delle informazioni (“collaborative filtering”), l’apprendimento automatico di funzioni di ordinamento (“learning to rank”) e l’espansione automatica personalizzata dell’interrogazione (“personalized query expansion”). I lettori interessati possono approfondire questi tre temi utilizzando le relative schede di approfondimento disponibili sul sito della Fondazione Ugo Bordoni.

La personalizzazione è il PageRank del futuro?

Si noti che la personalizzazione non è l’unica tecnica disponibile per complementare la selezione delle informazioni sul Web basata sul contenuto. In effetti, il secondo criterio fondamentale per riuscire a filtrare ed ordinare in modo più efficace l’enorme quantità di pagine teoricamente pertinenti ad una interrogazione è basato sui link che collegano le pagine Web, a prescindere dal contenuto testuale delle pagine stesse. L’osservazione chiave è che certi siti Web sono oggettivamente più importanti o “popolari” di altri, e che un indice significativo della loro importanza è costituito dalla quantità e qualità delle pagine che puntano ad essi. PageRank, utilizzato da Google, è l’algoritmo più noto, anche se probabilmente non il migliore, per assegnare a ciascuna pagina un punteggio di questo tipo.

Negli ultimi anni il miglioramento dei sistemi per l’accesso alle informazioni ha riguardato soprattutto l’aumento della copertura e della velocità di aggiornamento degli indici, ma la logica di ricerca è rimasta sostanzialmente immutata. Non siamo ancora pronti per passare dai motori di ricerca ai motori di risposta, perché le tecniche basate sull’elaborazione del linguaggio naturale e sul Web semantico non sono ancora mature, mentre quelle basate sul rilevamento delle variabili ambientali legate al momento, al luogo e al tipo di dispositivo utilizzato hanno un ambito di applicazione ancora limitato. Probabilmente la personalizzazione è al momento la tecnica più promettente per costruire i sistemi di prossima generazione, anche se è ancora presto per dire che essa diventerà la PageRank del futuro.

Parallelamente, il miglioramento nelle tecnologie di personalizzazione può avviare la trasformazione dei motori di ricerca (o di risposta) in sistemi per la fornitura automatica di informazioni (“information supply”), specifiche per utenti e attività, in grado di intercettare il bisogno informativo di un utente prima che questo venga espresso. Questa evoluzione è stata postulata anche alla luce dell’affermazione di un analogo paradigma di fornitura mirata di informazioni e pubblicità in vari contesti specializzati quali il commercio elettronico, le reti sociali, i browser, le notizie, la posta elettronica e gli stessi motori di ricerca.

Privacy e servizi informativi personalizzati: una convivenza possibile

Il possesso di informazioni relative alle caratteristiche e ai gusti degli utenti pone senza dubbio un problema di privacy. Gli utenti temono che queste informazioni possano essere divulgate o trafugate o adoperate in modo improprio o dannoso. D’altra parte, essi apprezzano il fatto che un servizio personalizzato spesso si traduce in un risparmio di tempo e/o denaro. Questi desideri contrastanti hanno un peso variabile nelle persone. Alcuni indagini recenti hanno mostrato che esistono tre tipi di atteggiamento verso la privacy. Ci sono i fondamentalisti, che non vogliono correre rischi, i disinteressati, per i quali quello della eventuale violazione della privacy non costituisce un problema, e i pragmatici, i quali essenzialmente valutano costi e benefici. Queste tre classi sono all’incirca nella proporzione 1:1:2.

Indipendentemente dalla loro attitudine, bisogna considerare che la scelta delle persone in definitiva è dettata da una serie di considerazioni che riguardano le caratteristiche del servizio. Due fattori importanti sono il tipo di informazione e il valore del servizio. Alle persone non piace sicuramente mandare in giro il numero della propria carta di credito o i contatti personali, e sono anche generalmente restie a diffondere informazioni sugli acquisti che fanno o le interrogazioni che inviano ai motori di ricerca, mentre sono più disposte ad accettare l’eventualità che qualcuno possa venire a conoscenza dei loro hobby e stili di vita. La maggiore propensione ad accettare il rischio privacy dipende poi chiaramente dalla percezione dei benefici ricevuti nella fruizione del servizio, i quali dovrebbero essere sempre esplicitati in modo chiaro. Altri fattori che concorrono alla scelta dell’utente sono la consapevolezza dell’uso che verrà fatto delle informazioni personali, la possibilità di controllare e eventualmente correggere dette informazioni, e infine la fiducia nella correttezza e professionalità dell’erogatore di servizio e del suo sito Web.

Questi fattori dovrebbero essere considerati attentamente in fase di progettazione e realizzazione di un servizio personalizzato, perché il successo dello stesso dipenderà probabilmente dall’ottemperanza a questi principi. Già oggi alcuni siti di commercio elettronico pongono grande attenzione a questi aspetti. Un passo ulteriore e probabilmente decisivo è rappresentato dall’adozione di politiche sicure per la conservazione e gestione dei dati personali. Già oggi sono disponibili una serie di tecniche e altre sono in fase di studio che renderanno sempre più difficile risalire alla identità delle persone. Fra i meccanismi di protezione più efficaci si possono citare le tecniche di anonimizzazione e pseudonimizzazione, il trasferimento delle elaborazioni sul lato client (nei casi in cui non si tratta di gestire e analizzare preferenze e scelte di intere popolazioni di utenti) e l’adozione di modelli distribuiti per la protezione dei grandi archivi di dati personali multi-utente. Nel complesso si tratta di favorire una evoluzione in cui il rischio privacy non rappresenti più un ostacolo allo sviluppo e alla fornitura di servizi personalizzati ma piuttosto un vincolo e un incentivo per il loro miglioramento.

Consulta il profilo Who is Who di Claudio Carpineto

Leggi le altre notizie sull’home page di Key4biz

Per saperne di più: Facebook FUB Google MicroSoft Privacy

L'autore

Leggi anche