Il deep web è la parte di Internet che è al di fuori dei metodi di ricerca standard. Un motore di ricerca standard trova le pagine Web visualizzando una singola pagina e facendo clic su tutti i collegamenti. Ciò consente loro di estendersi da una singola pagina come una gigantesca ragnatela, trovando una pagina dopo l’altra attraverso il collegamento. Questo processo cattura solo una frazione delle pagine che esistono su Internet; enormi quantità di dati sono completamente non classificati per uno dei tanti motivi. Queste pagine non appariranno mai in un motore di ricerca standard e sono, quindi, invisibili alla maggior parte degli utenti web.
Il web di superficie è la parte di Internet con cui la maggior parte degli utenti ha familiarità. Questa parte contiene le pagine Web e i servizi Web standard che la maggior parte degli utenti conosce. Il deep web è composto da informazioni di cui solo parti specifiche degli utenti di Internet sono a conoscenza o hanno accesso. Il deep web è enorme rispetto al surface web; nell’anno 2000, era quasi 50 volte più grande della rete di superficie.
Il motivo per cui esiste il deep web è principalmente dovuto alle limitazioni sui motori di ricerca. Poiché i motori di ricerca guardano attraverso i link, non sono in grado di accedere a determinati tipi di pagine web. Queste pagine non entrano mai nel sistema e, quindi, non vengono mai indicizzate. Quando un utente cerca una di queste pagine, non la troverà mai, in quanto il motore di ricerca non ne registra l’esistenza o il mancato accesso.
Esistono diversi tipi di pagina che sono difficili o impossibili da indicizzare per un motore di ricerca. Le pagine Web dinamiche e basate su database sono praticamente impossibili, poiché richiedono input specifici per esistere. Queste pagine web vengono create sul posto, spesso tramite l’input dell’utente. Poiché una pagina dinamica non esiste finché non è necessaria, i motori di ricerca la ignorano perché non sanno cosa chiedere.
Le pagine web private o recintate costituiscono un’altra grande porzione del deep web. Poiché queste pagine richiedono credenziali o informazioni di accesso e il motore di ricerca non ha nessuna delle due, è bloccato l’accesso alle informazioni dall’altra parte del login. Anche con questo problema, alcuni siti basati sull’accesso fanno parte del web di superficie. Il sito Web prevede disposizioni speciali per consentire ai motori di eseguire ricerche nelle sue pagine. Questo è comune tra le pagine che hanno una registrazione aperta e vogliono generare traffico aggiuntivo.
Un’altra grande porzione del deep web è costituita da siti web non collegati o soggetti a restrizioni. Queste pagine non contengono alcun collegamento a risorse esterne o bloccano attivamente i collegamenti esistenti. Ciò impedisce ai motori di ricerca di imbattersi nella pagina, quindi non viene mai aggiunta a nessun elenco. Questo era comune tra le pagine Web personali, ma i cambiamenti nell’uso moderno del Web hanno reso la maggior parte delle pagine personali collegate e indicizzate.