Che cos'è un crawler Web?

Un web crawler è un programma automatizzato relativamente semplice, o script, che scansiona metodicamente o “striscia” attraverso le pagine Internet per creare un indice dei dati che sta cercando; questi programmi sono generalmente realizzati per essere utilizzati una sola volta, ma possono essere programmati anche per un utilizzo a lungo termine. Ci sono diversi usi per il programma, forse il più popolare è quello dei motori di ricerca che lo utilizzano per fornire ai navigatori siti web pertinenti. Altri utenti includono linguisti e ricercatori di mercato o chiunque cerchi informazioni da Internet in modo organizzato. I nomi alternativi per un web crawler includono web spider, web robot, bot, crawler e indicizzatore automatico. I programmi crawler possono essere acquistati su Internet o da molte aziende che vendono software per computer e i programmi possono essere scaricati sulla maggior parte dei computer.

Utilizzi comuni

Ci sono vari usi per i web crawler, ma essenzialmente un web crawler può essere utilizzato da chiunque cerchi di raccogliere informazioni su Internet. I motori di ricerca utilizzano spesso i web crawler per raccogliere informazioni su ciò che è disponibile nelle pagine web pubbliche. Il loro scopo principale è quello di raccogliere dati in modo che quando i navigatori di Internet immettono un termine di ricerca sul loro sito, possano fornire rapidamente al navigatore siti web pertinenti. I linguisti possono utilizzare un web crawler per eseguire un’analisi testuale; cioè, possono setacciare Internet per determinare quali parole sono comunemente usate oggi. I ricercatori di mercato possono utilizzare un web crawler per determinare e valutare le tendenze in un determinato mercato.

La scansione del Web è un metodo importante per raccogliere dati e tenere il passo con Internet in rapida espansione. Ogni giorno viene continuamente aggiunto un vasto numero di pagine Web e le informazioni cambiano continuamente. Un web crawler è un modo per i motori di ricerca e altri utenti di assicurarsi regolarmente che i loro database siano aggiornati. Esistono numerosi usi illegali dei web crawler, come l’hacking di un server per ottenere più informazioni di quelle fornite liberamente.

Come funziona?
Quando il crawler Web di un motore di ricerca visita una pagina Web, “legge” il testo visibile, i collegamenti ipertestuali e il contenuto dei vari tag utilizzati nel sito, come i meta tag ricchi di parole chiave. Utilizzando le informazioni raccolte dal crawler, un motore di ricerca determinerà quindi di cosa tratta il sito e indicizzerà le informazioni. Il sito web viene quindi incluso nel database del motore di ricerca e nel suo processo di ranking delle pagine.
I crawler Web possono operare solo una volta, ad esempio per un particolare progetto una tantum. Se il suo scopo è a lungo termine, come nel caso dei motori di ricerca, i web crawler possono essere programmati per esaminare periodicamente Internet per determinare se ci sono stati cambiamenti significativi. Se un sito sta vivendo un traffico intenso o difficoltà tecniche, lo spider può essere programmato per notarlo e rivisitare il sito di nuovo, si spera dopo che i problemi tecnici si sono placati.