Los buscadores tradicionales sólo ofrecen acceso a una pequeña parte de lo que existe online, es la Web superficial o visible. El resto, la Web profunda o invisible, es un amplio banco de información ubicado en catálogos, revistas digitales, blogs, contenido de sitios que solicitan un login (aunque sea gratuito) y otros tipos de contenido que no aparecen entre los resultados de una búsqueda convencional.
La Web Superficial comprende todos aquellos sitios cuya información puede ser indexada por los
robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta
en sus formularios de búsqueda.
Las características principales de los sitios de la Web visible son:
- información no contenida en bases de datos
- de libre acceso
- no se requiere un proceso de registro para acceder a la información.
- formada por páginas Web estáticas en su mayoría (con URL fija y accesibles desde otro enlace).
Web invisible describe toda la información disponible en Internet que no se recupera buscando en los buscadores convencionales. Suele ser información almacenada y accesible mediante bases de datos.
Parte de la información es "invisible" a los robots de los buscadores convencionales, ya que los
resultados se generan como respuesta a una pregunta directa mediante páginas dinámicas (ASP,
PHP, etc.), páginas que no tienen una URL fija y que se construyen en el mismo instante de la consulta (temporales) y que desaparen una vez cerrada la consulta.
Sherman y Price clasifican en 4 grupos los contenidos invisibles en la Web:
- La Web opaca está compuesta por archivos que no están incluidos en los índices de los buscadores porque no todas las páginas de un sitio se indizan, no se indizan a la suficiente velocidad, se limitan el número de resultados o bien hay documentos sin enlaces a él desde otros documentos y no encontrandose indizados por tanto.
- La Web privada consiste en las páginas Web no indizadas por estar protegidas por contraseñas, contienen un campo “noindex” para evitar que el buscador pueda indizar la parte correspondiente al cuerpo de la página.
Los dueños de la información que contienen deciden no dejarla disponible.
- La Web propietaria incluye aquellas páginas en las que es necesario registrarse para tener
acceso al contenido, ya sea de forma gratuita o mediante pago.
- La Web realmente invisible se compone de páginas que no pueden ser indizadas por
limitaciones técnicas de los buscadores, programas ejecutables y archivos comprimidos,
páginas generadas dinámicamente, información almacenada en bases de datos relacionales, no
extraible a menos que se realice una petición específica.
Para encontrar información en la Web Profunda pueden usarse una serie de recursos de búsqueda:
Por último, hay una parte de la Web denominada Dark Web que es aquella que sólo puede ser recorrida mediante navegadores específicos como Tor que permiten navegar de forma anónima en la Web. En la Web de DeepWebTech, hablan de pasada sobre la Dark Web.
Un saludo.


