Loading AI tools
tecnica informatica di estrazione di dati da un sito web per mezzo di programmi software Da Wikipedia, l'enciclopedia libera
Il web scraping (detto anche web harvesting o web data extraction) è una tecnica informatica di estrazione di dati da un sito web per mezzo di programmi software. Di solito, tali programmi simulano la navigazione umana nel World Wide Web utilizzando l'Hypertext Transfer Protocol (HTTP) o attraverso browser, come Internet Explorer o Mozilla Firefox.
Strettamente correlato all'indicizzazione dei siti Internet, tale tecnica è attuata mediante l'uso di bot dalla maggior parte dei motori di ricerca. D'altro canto, il web scraping si concentra di più sulla trasformazione di dati non strutturati presenti in Rete, di solito in formato HTML, in metadati che possono essere memorizzati e analizzati in locale in un database. Il web harvesting è altresì affine alla web automation, che consiste nella simulazione della navigazione umana in Rete attraverso l'uso di software per computer.
Esistono metodi utilizzati da alcuni siti web per prevenire il web scraping, come ad esempio rilevare e impedire ai bot la visualizzazione delle loro pagine. Per aggirare il problema esistono sistemi di web scraping che si affidano a tecniche come DOM parsing, Computer Vision e natural language processing per simulare la navigazione web umana. Grazie a queste tecniche è possibile raccogliere i contenuti delle pagine web per l'analisi offline.[1] Può essere usato per confrontare prezzi online, monitorare dati meteorologici, rilevare modifiche in un sito internet, nella ricerca scientifica, per il web mashup e il web data integration.
Il web scraping è il processo tramite cui si estraggono o si collezionano dati nel World Wide Web e, una volta ottenuti questi dati, possono essere utilizzati per diversi scopi. Le tecniche utilizzabili dipenderanno dai mezzi e dalle risorse a disposizione. Si parte da soluzioni dette "ad-hoc", che richiedono l'intervento dell'uomo per selezionare le informazioni utili, fino ad arrivare a sistemi completamente automatizzati, che attraverso il machine learning sgravano l'utente da alcuni compiti.
Nemmeno la miglior tecnica di web scraping può a volte rimpiazzare l'esame dell'occhio umano e il copia e incolla manuale. Per certi casi questa è l'unica soluzione possibile, visto che alcune pagine web impediscono la raccolta automatica di dati.
Esistono svariati software e tool che sono in grado di riconoscere automaticamente la struttura di una pagina web, senza che sia necessario alcun intervento umano per l'estrazione dei dati. Alcuni di questi software sono in grado di estrarre informazioni direttamente dalle API.
Svariati siti web sono costituiti da pagine web generate automaticamente. La fonte da cui queste pagine ricavano informazioni sono per lo più grandi database. I dati di categorie simili tra loro vengono organizzate in pagine o template comuni, per essere reperite con maggior facilità. I software che permettono tramite la rilevazione dei template l'estrazione di dati dello stesso tipo prendono il nome di wrapper.
Utilizzando una combinazione di machine learning e computer vision si stanno sviluppando tecniche che permettono di analizzare ed estrarre dati da pagine web seguendo modelli simili. Esse quindi simuleranno il comportamento di un utente in carne ed ossa. In questa maniera il lavoro richiesto ai software di web scraping verrà ridotto e si otterranno informazioni più pertinenti.
Per modificare o ispezionare una pagina web, vengono analizzati gli script lato client, che successivamente verranno organizzati in un DOM tree. DOM è utilizzato principalmente per recuperare informazioni da documenti con una strutturazione non standard, cioè dove gli elementi vengono trovati in modo casuale
Infine (attraverso un browser web completo) sarà possibile interrogare e recuperare informazioni dall'albero.
Nella maggior parte delle pagine web sono presenti annotazioni semantiche (o markup) e metadati che possono essere facilmente reperiti e utilizzati per trovare frammenti di dati specifici. Questo potrebbe essere un semplice caso di DOM parsing se i metadati sono incorporati solamente nella pagina web. In caso contrario le annotazioni organizzate in diversi livelli vengono archiviate e gestite separatamente dalle pagine web, in modo tale che gli scraper possano recuperare le istruzioni e i dati da questo livello prima di eseguire lo scraping delle pagine.
Ci sono diverse compagnie che hanno sviluppato piattaforme verticali specifiche per la raccolta. Essi creano e monitorano una moltitudine di bot per specifiche verticali, senza "human in the loop" (nessun coinvolgimento umano diretto), e senza lavoro relativo ad un sito specifico. La robustezza della piattaforma è misurata tramite la qualità delle informazioni che reperisce (numero di campi) e dalla sua scalabilità (quanto velocemente può scalare da centinaia a migliaia di siti). Questa scalabilità viene utilizzata nella maggior parte delle volte per indirizzare la lunga coda di siti che gli aggregatori comuni trovano complicati o troppo laboriosi per la raccolta dei contenuti.
Approccio semplice ma efficace per estrarre informazioni dalle pagine web. Può essere usato tramite il comando "grep" da riga di comando nei sistemi UNIX o attraverso le funzioni di expression-matching comuni dei linguaggi di programmazione (per esempio Perl o Python).
Il web scraping è una tecnica che permette l'estrazione di informazioni dai siti web; spesso include la trasformazione di dati non strutturati di pagine web in database per l'analisi o il riutilizzo del contenuto. Il riutilizzo può essere sfruttato sul sito web dove abbiamo reperito le informazioni o per operazioni commerciali. Nella maggior parte dei casi, i bot, che costituiscono il 46% del traffico web, sono implementati da individui per eseguire il web scraping ad un ritmo molto più elevato rispetto a quello che potrebbero mai avere gli umani.
Attraverso l'analisi delle principali piattaforme e servizi di web scraping, Distil Networks ha sottolineato come la democratizzazione del web scraping permetta agli utenti di rubare senza problemi informazioni sensibili sul web.
"Se i tuoi contenuti possono essere visualizzati sul Web, possono essere 'raschiati'" (originale: "If your content can be viewed on the web, it can be scraped")[2]
Il 38% delle aziende che si dedicano al web scraping lo fa per ottenere contenuti. Poiché grazie alla mole di dati facilmente acquisibile è possibile effettuare una vasta gamma di operazioni come, il confronto prezzi, il monitoraggio dei dati meteorologici e svariate ricerche. I servizi di Web scraping costano solo 3,33 $ all'ora. In media un progetto di web scraping costa all'incirca 135 $. Il web scraper medio guadagna 58000 $ all'anno, mentre lavorando in un'azienda medio-grande specializzata nel web scraping si può arrivare fino a 128000 $ all'anno.[3]
L'amministratore di un sito web può utilizzare vari metodi per rallentare o fermare un bot. Alcuni di questi sono:
Questi sono alcuni dei software o tool disponibili per personalizzare le soluzioni di web scraping:
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.