Come evitare la pesca a strascico dei dati per allenare l’intelligenza artificiale
12 Giugno 2024Governance dell’AI Act: il ruolo delle Autorità in Italia ed Europa
21 Giugno 2024di Gabriele Franco per Italian Tech
I sistemi di intelligenza artificiale richiedono grandi quantità di informazioni per essere addestrati e funzionare. Una dieta a base di dati, spesso difficili da recuperare in dosi sufficienti a soddisfare l’appetito degli algoritmi. Nel caso dell’IA generativa, quella capace di creare testi, immagini e video, si pesca allora nel mare di informazioni pubblicamente disponibili su internet. Una pesca a strascico, che prende il nome di web scraping, e che può catturare anche i dati personali pubblicati sui siti di società ed enti pubblici. Come difendersi in questi casi? La risposta arriva dal Garante privacy, che ha di recente pubblicato una nota dedicata proprio a web scraping e IA generativa.
Che cos’è il web scraping?
Parliamo dell’utilizzo di programmi automatizzati (bot) capaci di scansionare le pagine di siti web e social media per raccogliere, copiare e archiviare le informazioni lì pubblicate, come testi, immagini e video. Il termine “scraping” (in italiano, raschiare) evoca proprio la natura ampia e indiscriminata di questa raccolta di informazioni in rete, che possono poi essere utilizzate per diversi scopi, tra cui il training dell’IA.
Internet consente alle persone di reperire ogni tipologia di informazione pubblica, ma permette di fare altrettanto anche ai software, simulando la navigazione umana, sia pure con capacità di ricerca di gran lunga superiori. Ciò avviene, ad esempio, nel caso dei bot impiegati dai motori di ricerca, i web crawler, che scansionano continuamente la rete per raccogliere le informazioni contenute sui siti e indicizzarle.
Quando all’attività di mappatura e ricerca di dati tramite tecniche di web crawler si aggiunge l’estrazione e la conservazione, ad esempio in un database, delle informazioni raccolte, si parla di web scraping. Un esempio di servizi basati su questa tecnologia sono i siti che confrontano prezzi e tariffe.
...
Continua a leggere su Italian Tech