Il web harvesting è il processo mediante il quale un software specializzato raccoglie dati da Internet e li inserisce in file per un utente finale. Svolge una funzione simile, ma più avanzata, alle attività svolte da un motore di ricerca. Conosciuto anche come Web scraping, il Web harvesting offre all’utente l’accesso automatizzato alle informazioni su Internet che i motori di ricerca non possono elaborare perché può aggirare il codice HTML. I tre principali tipi di Web harvesting riguardano il contenuto, la struttura e l’utilizzo del Web.
La raccolta di contenuti Web comporta l’estrazione di informazioni estraendo dati sia dai risultati della pagina di ricerca sia da una ricerca più approfondita del contenuto nascosto all’interno delle pagine Web. Queste informazioni aggiuntive sono spesso oscurate dai motori di ricerca perché oscurate dal codice HTML. Il processo esegue la scansione delle informazioni in modo simile a come farebbero gli occhi umani, scartando i caratteri che non formano frasi significative per estrarre elementi utili.
Piuttosto che cercare contenuti, la raccolta della struttura Web raccoglie dati sul modo in cui le informazioni sono organizzate in aree specifiche di Internet. I dati raccolti forniscono un prezioso feedback dal quale è possibile apportare miglioramenti in aree quali l’organizzazione e il recupero delle informazioni. È un modo per affinare la struttura stessa del Web.
La raccolta dell’utilizzo del Web tiene traccia dei modelli di accesso generali e dell’utilizzo personalizzato da parte degli utenti del Web. Analizzando l’utilizzo del Web, la raccolta può aiutare a fare chiarezza sul comportamento degli utenti. Questo è un altro modo per migliorare la funzione del Web, ma a livello dell’utente finale. Può aiutare i progettisti a migliorare le interfacce utente dei loro siti Web per la massima efficienza. Il processo fornisce anche informazioni sul tipo di informazioni che gli utenti cercano e su come cercano di trovarle, dando così un’idea di come i contenuti dovrebbero essere sviluppati in futuro.
Raccogliendo dati di testo e immagine da file HTML e immagini, la raccolta Web può eseguire una scansione Web più complessa che approfondisce ogni documento. Analizza anche i collegamenti che puntano a quel contenuto per determinare se le informazioni hanno importanza e pertinenza su Internet. Ciò fornisce un quadro più completo di come le informazioni si riferiscono e influenzano il resto del Web.
Le aziende utilizzano la raccolta Web per una vasta gamma di scopi. Può essere un modo efficace per raccogliere dati da analizzare. Alcuni dei set di dati più comuni compilati sono informazioni sui concorrenti, elenchi di diversi prezzi di prodotti e dati finanziari. I dati possono essere raccolti anche per analizzare il comportamento dei clienti.