Written by 14:11 Media, Wired Italia

Come evitare la pesca a strascico dei dati per allenare l’intelligenza artificiale

di Vincenzo Tiani

wired_post

Di Vincenzo Tiani

Il 30 maggio il Garante italiano della protezione dei dati personali ha pubblicato una nota informativa sull’uso del web scraping per il training di sistemi di intelligenza artificiale generativa. Il documento non arriva a sorpresa essendo il frutto di una indagine conoscitiva con cui il Garante, a dicembre, chiedeva ai diversi stakeholder di offrire le loro osservazioni sul punto.

Ma mentre il recente documento del comitato dei garanti europei pubblicato qualche giorno fa offre alcuni spunti sulle attività di web scraping (la pesca a strascico di dati in rete) a opera delle aziende di AI per il loro training, quello del Garante fornisce alcuni suggerimenti per chi possiede dei siti internet, per tutelare i propri utenti dalle attività di estrazione di questi dati, in particolar modo quando si tratta di dati personali.

A chi spetta controllare

Ovviamente queste indicazioni dell’Autorità sono solo tali, restando sempre in capo al titolare del trattamento (il proprietario del sito) ogni valutazione concreta sul da farsi, caso per caso, visto che i siti e le piattaforme non sono tutti uguali. Il Garante, in questo caso, si concentra sulla responsabilità dei titolari del trattamento nel proteggere i dati personali dei propri utenti, anche quando questi sono pubblici. Il fatto che un dato sia pubblico non implica che le norme sulla protezione dei dati vengano meno, come dimostra la sanzione di 20 milioni di euro somministrata a Clearview AI, l’azienda che ha creato un enorme data base di volti, facendo, appunto, web scraping dai social media, per poi venderlo alle forze dell’ordine. E, se i dati biometrici come il volto godono di una tutela maggiore, anche gli altri dati personali non sono da meno ed è compito anche di chi gestisce un sito, fare in modo che l’estrazione di questi dati non sia alla portata di tutti.

Volendo dare una definizione del fenomeno, il Garante ci dice che “si parla di web scraping laddove l’attività di raccolta massiva ed indiscriminata di dati (anche personali) condotta attraverso tecniche di web crawling è combinata con un’attività consistente nella memorizzazione e conservazione dei dati raccolti dai bot per successive mirate analisi, elaborazioni ed utilizzi”. Il web scraping prevede dunque il salvataggio del contenuto, mentre il web crawling prevede solo la sua analisi, operata dai cosiddetti “spider” dei motori di ricerca, che non salvano il contenuto sui propri server ma lo indicizzano per fornire all’utente il risultato più in linea con la sua ricerca.

Il ruolo dell’intelligenza artificiale e le soluzioni

Se in alcuni casi il web scraping è usato in modo malevolo, anche in vista di attacchi informatici, in altri viene usato da ong e ricercatori per ottenere le prove di un uso malevolo di certi algoritmi, che le aziende non vorrebbero rendere noti. Nel nostro contesto guardiamo al web scraping come strumento cardine della creazione dei dataset necessari al training delle AI generative. Tali dataset possono essere sia esterni, come il noto Common Crawl, o in altri casi, possono costruirsi su dati già in possesso dell’azienda, come sta facendo Meta, che ha da poco modificato la sua privacy policy in tal senso.

Una delle soluzioni individuate dal Garante prevede, sempre post valutazione caso per caso, la creazione di aree riservate, con login e password. È ovvio che questa modalità renderebbe più difficoltosa, seppur non bloccandola in assoluto, l’indiscriminata estrazione di dati. Al tempo stesso, poiché la corretta applicazione delle norme sulla privacy è sempre un complicato esercizio di equilibrio tra diritti e principi diversi, si dovrà evitare di chiedere più dati di quelli necessari. Pertanto, creare un’area riservata non sarà la soluzione idonea a tutte le realtà.

L’altro accorgimento è quello di inserire una clausola nei termini e condizioni con un divieto di operare il web scraping. Tuttavia, trattandosi di una soluzione contrattuale e non tecnica, potrà solo operare come deterrente senza impedirne l’attuazione.

Dal punto di vista tecnico è poi possibile intervenire sul file robot.txt, che fornisce l’informazione se un sito possa essere oggetto di indicizzazione e scraping. Se fino a qualche mese fa funzionava solo per indicare a Google e agli altri motori di ricerca che un certo sito, o una sua parte, non dovevano essere indicizzati, da poco è possibile scegliere l’opt-out nei confronti di alcune società come Google (Google-Extended) e OpenAI (GPTBot) per evitare che le loro AI “si nutrano” dei propri contenuti. Ma questa soluzione non sembra essere la soluzione definitiva visto che non esiste ancora uno standard condiviso che consenta di bloccare qualsiasi attività di web scraping, senza dover indicare quale azienda in particolare si vuole bloccare. E chiaramente, uno strumento che dipende dalla buona volontà delle singole aziende, non costituisce una soluzione sostenibile.

Un altro strumento ausiliario è il monitoraggio attivo delle richieste al proprio sito per verificare non ci siano accessi anomali, così come avviene quando si vuole prevenire un attacco DDoS. Oppure si può limitare l’accesso dei bot al proprio sito con strumenti come il famigerato Captcha (con cui dobbiamo dimostrare di non essere un robot selezionando alcuni particolari in una foto o leggendo delle lettere stilizzate). Al momento sembra quindi non esserci un Santo graal, e sia il diritto che la tecnica sembrano restare indietro a limitare i danni, più che a impedirli. Ma internet è sempre stato un essere in continuo movimento, pertanto occorre essere fiduciosi che presto si troverà il giusto equilibrio.


Leggi su Wired Italia

Close