Il tema della sicurezza online è sempre più centrale, non solo per il mondo del lavoro, e quindi la sicurezza delle aziende, ma anche per la sfera privata, ovvero i dati personali. A tal proposito, sai cos’è il web scraping? Continua a leggere l’articolo per scoprirlo!
Cosa si intende per web scraping
In inglese “scrape” significa raschiare/grattare via: il web scraping è una tecnica informatica per estrarre contenuti e dati dalle pagine web per mezzo di programmi software precisi. È possibile applicarlo a tutti i tipi di dati e sebbene questa strategia di estrapolazione dati possa sembrare una pratica illecita, di fatto, non lo è. Quando un sito pubblica informazioni o dati online, come i prezzi dei prodotti, questi diventano pubblici e quindi disponibili per essere estratti dalla pagina web, ad esempio per fare un confronto tra i prezzi di uno stesso prodotto presente su più siti. L’attività di scraping è ampiamente utilizzata da molte aziende e professionisti del settore, che la utilizzano per analisi, tendenze, ricerche di mercato, statistiche e così via.
Potrebbe interessarti anche: 3 opportunità digital che le PMI dovrebbero cogliere
Al tempo stesso però, quando i dati che vengono raccolti sono di tipo personale o di proprietà intellettuale, lo scraping diventa malevolo perché, benché siano dati pubblicati online, non sono destinati all’utilizzo da parte del pubblico e quindi non è possibile estrarli legalmente, ma, anzi si va incontro a sanzioni.
Web scraping e IA
Se da un lato l’intelligenza artificiale ha dato modo di automatizzare diverse fasi, introdurre nuovi algoritmi e quindi migliorare e rendere più efficace questa tecnica, dall’altro si rischia una raccolta indiscriminata di dati personali e opere protette da copyright, essenziali per alimentare l’IA.
A questo proposito, ad esempio, se pensiamo al fatto che sui siti online si trovano centinaia di migliaia di libri, non è difficile constatare che l’intelligenza artificiale ha automaticamente estrapolato informazioni e dati da contenuti protetti dal diritto d’autore.
Potrebbe interessarti anche: Come difenderti dalle truffe basate sull’intelligenza artificiale
Proprio in relazione ai dati personali soggetti a web scraping, Il Garante della privacy ha stilato un documento con tutte le informazioni utili per difendere la privacy dei propri dati, soggetti all’allenamento dell’intelligenza artificiale generativa. I dati personali, infatti, devono essere trattati ai sensi del General Data Protection Regulation o GDPR, che prevede dei requisiti molto stringenti sulla raccolta e trattamento. Tra le indicazioni suggerite per arginare il problema del web scraping abbiamo:
- La creazione di aree protette, impostate sul sito per limitare l’accesso ai dati sensibili a chi è registrato.
- L’inserimento di specifiche clausole anti-scraping nei termini di servizio del sito
- Il monitoraggio del traffico web per individuare eventuali flussi anomali
- Adottare strumenti specifici che distinguono i bot dagli utenti umani.
Dunque, sebbene il web scraping sia uno strumento utile e potente, può rivelarsi anche una minaccia per la protezione dei dati. È quindi una sfida importante provare a bilanciare la tutela dei diritti con il continuo progresso e l’innovazione.
Potrebbe interessarti anche: Arriva la fine dei Cookie di terze parti su Google