La web profunda es la parte de Internet que está fuera de los métodos de búsqueda estándar. Un motor de búsqueda estándar encuentra páginas web al abrir una sola página y hacer clic en todos los enlaces. Esto les permite extenderse desde una sola página como una telaraña gigante, encontrando página tras página a través de enlaces. Este proceso solo captura una fracción de las páginas que existen en Internet; Grandes cantidades de datos están completamente sin clasificar por una de muchas razones. Estas páginas nunca aparecerán en un motor de búsqueda estándar y, por lo tanto, son invisibles para la mayoría de los usuarios de la web.
La superficie web es la parte de Internet con la que la mayoría de los usuarios están familiarizados. Esta parte contiene las páginas web y los servicios web estándar que la mayoría de los usuarios conocen. La deep web se compone de información que solo una parte específica de los usuarios de Internet conocen o también tienen acceso. La red profunda es enorme en comparación con la superficie; en el año 2000, era casi 50 veces más grande que la red superficial.
La razón por la que existe la deep web se debe principalmente a las limitaciones de los motores de búsqueda. Cuando los motores de búsqueda miran a través de enlaces, no pueden acceder a ciertos tipos de páginas web. Estas páginas nunca ingresan al sistema y, por lo tanto, nunca se indexan. Cuando un usuario busca una de estas páginas, nunca la encontrará, ya que el motor de búsqueda no registra su existencia o no pudo acceder a ella.
Hay varios tipos de páginas diferentes que son difíciles o imposibles de indexar para un motor de búsqueda. Las páginas web dinámicas y basadas en bases de datos son prácticamente imposibles, ya que requieren una entrada específica para existir. Estas páginas web se crean en el lugar, a menudo a través de la entrada del usuario. Dado que una página dinámica no existe hasta que se necesita, los motores de búsqueda la omiten porque no saben qué pedir.
Las páginas web privadas o cerradas constituyen otra gran parte de la deep web. Dado que estas páginas requieren credenciales o información de inicio de sesión y el motor de búsqueda no tiene ninguno, no puede acceder a la información en el otro lado del inicio de sesión. Incluso con este problema, algunos sitios basados en inicio de sesión forman parte de la superficie web. El sitio web establece disposiciones especiales para permitir que los motores busquen en sus páginas. Esto es común entre las páginas que tienen registro abierto y desean generar tráfico adicional.
Otra gran parte de la deep web está formada por sitios web no vinculados o restringidos. Estas páginas no poseen enlaces a recursos externos ni bloquean activamente los enlaces existentes. Esto evita que los motores de búsqueda se topen con la página, por lo que nunca se agrega a ningún listado. Esto solía ser común entre las páginas web personales, pero los cambios en el uso moderno de la web han hecho que la mayoría de las páginas personales estén vinculadas e indexadas.