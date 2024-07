Nonostante il posizionamento come AI etica, anche Anthropic deve difendersi dalle accuse di web scraping, ossia di addestrare i suoi modelli, come il chatbot Claude, su dati non proprietari e senza alcun permesso.

Altro che piattaforma etica. Anche Anthropic, e sarebbe stato strano il contrario, viene accusata di addestrare la sua intelligenza artificiale prelevando dati dal web senza autorizzazione. La startup, che sviluppa il chatbot Claude AI, si è sempre voluta distinguere per un approccio trasparente al settore. Probabilmente le cose non stanno proprio così.

Anthropic è stata fondata da ex ricercatori di OpenAI con in testa un mantra: “sviluppare sistemi di intelligenza artificiale responsabili”. Tuttavia, Matt Barrie, CEO di Freelancer.com, accusa l’azienda con sede a San Francisco di essere “di gran lunga lo scraper più aggressivo” della sua piattaforma che raccoglie milioni di visite giornaliere. Altri editori condividono le preoccupazioni di Barrie sul fatto che Anthropic stia sovraccaricando i loro siti e ignorando le istruzioni di smettere di raccogliere contenuti in maniera dubbia. Il web scraping è una tecnica di estrazione automatizzata di dati da un sito. Di solito, i software utilizzati simulano la navigazione umana usando l’Hypertext Transfer Protocol o attraverso browser.

Cosa è successo ad Anthropic

Per Barrie, Freelancer.com ha ricevuto 3,5 milioni di visite da un web crawler collegato ad Anthropic in quattro ore. “Ed è circa cinque volte superiore rispetto alla seconda AI più usata al mondo” ha affermato Barrie. Le visite di un web crawler, in pratica un bot, servono a catturate le informazioni inserite nei portali ad eccezione delle pagine indicate dal file robots.txt,. Ebbene, come scrive il Financial Times, sia Anthropic cbe altre non prestano cura a tali istruzioni, continuando a recepire informazioni dai siti, utili ad addestrare i loro modelli. A giugno, Wired ha accusato un’altra azienda di intelligenza artificiale, Perplexity, di aver scansionato il suo sito web nonostante la presenza del Robots Exclusion Protocol, o robots.txt.

Ma non solo Freelancer: pare che sulla stessa falsariga di Barrie ci sia anche il portale di riparazioni tech iFixit, che accusa Anthropic delle stesse mosse anti-protocollo.

Questione etica

Negli ultimi due anni, il web scraping è aumentato drasticamente a causa della corsa all’intelligenza artificiale, causando nuovi costi per gli operatori di siti web. “I crawler AI ci hanno causato notevoli costi di larghezza di banda e hanno richiesto molto tempo per gestire gli abusi”, ha scritto Eric Holscher, co-fondatore del sito di hosting Read the Docs, in un post sul suo blog.

Anthropic ha creato alcuni dei chatbot più avanzati al mondo, rivaleggiando con ChatGPT di OpenAI, e si posiziona come un player etico. A differenza dei rivali, non ha annunciato pubblicamente partnership con editori o testate per l’addestramento dei modelli.

