I motori di ricerca sono fondamentalmente algoritmi informatici che aiutano gli utenti a trovare le informazioni specifiche che stanno cercando. Quelli diversi funzionano in modi specifici diversi, ma utilizzano tutti gli stessi principi di base.
La prima cosa che i motori di ricerca devono fare per funzionare è creare un database locale, fondamentalmente, di Internet. Le prime versioni indicizzavano solo parole chiave e titoli delle pagine, ma quelle contemporanee indicizzano tutto il testo di ogni pagina, così come molti altri dati sulla relazione di quella pagina con altre pagine, e in alcuni casi tutti o parte dei media disponibile anche sulla pagina I motori di ricerca devono indicizzare tutte queste informazioni in modo da poter eseguire ricerche su di esse in modo efficiente, piuttosto che dover girare su Internet ogni volta che viene inviata una query di ricerca.
I motori di ricerca creano questi database eseguendo scansioni periodiche di Internet. Le prime versioni spesso richiedevano l’invio di pagine per eseguirne la scansione, ma ora la maggior parte delle pagine viene trovata seguendo i collegamenti da altre pagine. Quelli che vengono chiamati robot o spider, programmi per computer creati per indicizzare le pagine, passano da una pagina all’altra, registrando tutti i dati sulla pagina e seguendo ogni collegamento a nuove pagine. Diversi motori di ricerca aggiornano i loro indici a intervalli diversi, a seconda del numero di spider che scansionano costantemente e della velocità di scansione di questi spider, con alcuni che si fanno strada attraverso Internet ogni giorno o due, e altri solo facendo un aggiornamento periodico ogni settimana o mese.
Mentre il ragno attraversa queste pagine, registra le parole che trova sulle pagine. Prende appunti su quante volte appare ogni parola, se le parole sono ponderate in determinati modi, magari in base a dimensioni, posizione o markup HTML, e decide quanto siano pertinenti le parole in base ai collegamenti che arrivano alla pagina e nel contesto generale della pagina.
I motori di ricerca devono quindi pesare il valore di ogni pagina e il valore di ogni pagina per le parole che appaiono su di essa. Questa è la parte più difficile, ma anche la più importante. Al livello più semplice potrebbe semplicemente tenere traccia di ogni parola sulla pagina e registrare quella pagina come pertinente per le ricerche con quella parola chiave. Tuttavia, ciò non sarebbe di grande aiuto per la maggior parte degli utenti, poiché ciò che si desidera è la pagina più pertinente per la query di ricerca. Quindi motori diversi escogitano modi diversi di ponderare l’importanza.
Gli algoritmi utilizzati dai vari motori di ricerca sono ben protetti, per impedire alle persone di creare pagine specificamente per ottenere un ranking migliore, o almeno per limitare il grado in cui possono farlo. Questa differenza è il motivo per cui motori diversi producono risultati diversi per gli stessi termini. Google potrebbe determinare che una pagina è il miglior risultato per un termine di ricerca e Ask potrebbe determinare che la stessa pagina non è nemmeno tra le prime 50. Tutto questo è basato solo su come valutano i link in entrata e in uscita, la densità delle parole chiave che trovano importante, come valutano il diverso posizionamento delle parole e qualsiasi numero di fattori minori.
La tendenza più recente nei motori di ricerca, e probabilmente il futuro della ricerca in generale, è quella di passare dalle ricerche basate su parole chiave alle ricerche basate su concetti. In questa nuova forma di ricerca, invece di limitare la ricerca alle parole chiave inserite dal ricercatore, il programma cerca di capire cosa significano quelle parole chiave, in modo da poter suggerire pagine che potrebbero non includere la parola esatta, ma che sono comunque di attualità per il ricerca. Questo è ancora un campo in via di sviluppo, ma finora sembra avere un grande potenziale per rendere le ricerche più pertinenti, rendendo il Web un luogo ancora più facile per trovare esattamente quello che stai cercando.