All’insaputa degli utenti e di molte aziende, a quanto pare, alcune società di intelligenza artificiale prendono e utilizzano i dati pubblicati su siti e piattaforme social per alimentare linguaggi e informazioni
NELLA RETE DI VITTORIO – Prima Comunicazione, Settembre 2023
I sistemi di intelligenza artificiale generativa necessitano di quanti più dati possibili su cui addestrarsi. Più ne ottengono, meglio riescono a generare approssimazioni del modo in cui gli esseri umani suonano, guardano, parlano e scrivono. Più informazioni, anche contrastanti, hanno su un particolare argomento o dominio, più accurate saranno le informazioni che restituiscono. Internet fornisce enormi quantità di dati relativamente facili da reperire e da divorare tramite strumenti di web scraping e Api. Un processo di ingestione che non distingue tra opere protette da copyright, dati pubblici, dati personali o sensibili; se sono là fuori, li prende.
Ciò significa che, all’insaputa del singolo utente e, a quanto pare, di molte delle aziende i cui siti sono stati raschiati, alcune società prendono e utilizzano i dati pubblicati su siti e piattaforme social per alimentare linguaggi e informazioni dei domini di conoscenza dei grandi modelli linguistici artificiali che sviluppano. Dati che potrebbero essere stati pubblicati anni prima che esistessero queste società, fornite a un’azienda o a una piattaforma che richiedeva questi dati per uno scopo preciso (di fatto un contratto con l’utente) o, peggio, dati frutto del lavoro di professionisti o amatori alla ricerca di visibilità o di un’audience da monetizzare. Le politiche sulla privacy di molte aziende vengono aggiornate e modificate continuamente; alcune hanno linguaggi debitamente nebulosi proprio per consentire loro di usare questi dati.
All’inizio di settembre, per esempio, si è sviluppata la polemica sul cambio della privacy di Zoom; un utente di Hacker News ha notato che un aggiornamento dei termini e delle condizioni di Zoom a marzo sembrava essenzialmente dare all’azienda libero sfogo per assorbire voce, video e altri dati e inserirli nei sistemi di apprendimento automatico. I nuovi termini stabilivano che i clienti “acconsentono all’accesso, all’uso, alla raccolta, alla creazione, alla modifica, alla distribuzione, all’elaborazione, alla condivisione, alla manutenzione e all’archiviazione dei dati generati dal servizio da parte di Zoom” per scopi tra cui “apprendimento automatico o intelligenza artificiale (incluse formazione e messa a punto di algoritmi e modelli)”. La scoperta ha suscitato critiche e post di biasimo sui social media. La pressione ha costretto rapidamente Zoom a fare marcia indietro: il chief product officer, Smita Hashim, ha scritto un post sul blog pubblico aziendale dichiarando la capitolazione: “Non utilizzeremo contenuti audio, video o chat dei clienti per addestrare i nostri modelli di intelligenza artificiale senza il tuo consenso”. La società ha anche aggiornato i suoi termini per confermare la marcia indietro. Zoom è però già stata in grado di costruire prodotti basati su AI: a giugno l’azienda ha introdotto due funzionalità di generazione di testo per riassumere le riunioni e comporre email al riguardo.
Pochi giorni fa Alphabet è stata accusata in Rete di aver recuperato da Google Docs i dati su cui addestrare i suoi strumenti di intelligenza artificiale. La fonte della fuga di notizia (che ha scelto X per venire allo scoperto) ha affermato che Google “ha utilizzato documenti ed email di centinaia di milioni di utenti per addestrare la propria intelligenza artificiale, un uso che dura ormai da anni”. Alphabet afferma di non utilizzare i dati dei suoi prodotti Workspace gratuiti o aziendali, inclusi Gmail e Docs, per addestrare i suoi modelli di intelligenza artificiale generativa a meno che non abbia l’autorizzazione dell’utente. Ha però ammesso di addestrare alcune funzionalità di intelligenza artificiale di Workspace come controllo ortografico e Smart Compose utilizzando dati anonimizzati. Il consigliere generale di Alphabet, Halimah DeLaine Prado, ha affermato che “la legge americana supporta l’utilizzo delle informazioni pubbliche per creare nuovi usi vantaggiosi e non vediamo l’ora di confutare queste affermazioni infondate”.
L’elenco dettagliato delle fonti che Meta ha usato per il suo primo modello Llama fa riferimento a cose come ‘Common Crawl’, che è un archivio open source dell’intera Internet, nonché a siti come GitHub, Wikipedia e Stack Exchange, che sono anche enormi repository di informazione. (Meta non è stata così disponibile riguardo ai dati utilizzati per Llama 2 appena pubblicato). Tutte queste fonti possono contenere informazioni personali. OpenAI ammette di utilizzare dati personali per addestrare i suoi modelli, ma afferma di imbattersi in tali dati “incidentalmente” e di utilizzarli solo per migliorare “i nostri modelli”, invece di creare profili di persone per vendere loro annunci pubblicitari.
Se in Europa abbiamo agito per tempo nel campo della privacy digitale, negli Stati Uniti non hanno una legge federale sul tema. Il che fa parte del vantaggio competitivo americano nell’industria digitale, ma lascia i consumatori più esposti alla fame di dati rispetto alle persone nell’Ue (e anche gli europei che usano le piattaforme americane).
Il presidente Biden ha incoraggiato il Congresso ad approvare progetti di legge relativi all’intelligenza artificiale e molti membri del Congresso hanno affermato di voler fare lo stesso. Il Congresso, tuttavia, è notoriamente lento e ha fatto poco per regolamentare o proteggere i consumatori dalle piattaforme di social media, anche per motivi di lobby piuttosto aggressiva da parte delle tech company e dei loro investitori.