El contenido de Internet se asemeja a un iceberg. Hay una parte que asoma a la superficie y que es fácilmente accesible a través de los buscadores, encabezados por Google. Pero existe una web profunda, hasta 500 veces mayor, que escapa a los robots de búsqueda, en ella se encuentra la información de numerosas bases de datos especializadas. A pesar de que los buscadores cada vez son más hábiles a la hora de recuperar todo tipo de documentos, los más interesantes para los investigadores, una gran parte de la web sigue siendo invisible a primera vista.
¿Qué es la Red Invisible?
Los buscadoresson la puerta de entrada al vasto océano de información que existe en Internet. Sin embargo, no todos los contenidos de la Red son objeto de una simple búsqueda en los directorios o robots (como Google) que rastrean las páginas web automáticamente. Así, la ‘Web Invisible’ o ‘Web Profunda’ está formada por todos los documentos a los que no se puede acceder a través de directorios y los enlaces que ofrecen los resultados de los buscadores convencionales.
Todo el ejército de ‘arañas’ (motores de búsqueda) que recorren Internet para fichar su contenido palabra a palabra y relacionarlo con una dirección (URL) no consigue indexar más que una pequeña parte de toda la Red, priorizando el contenido más popular (más visitado), comercial o escrito en lenguas mayoritarias. Gracias a buscadores especializados(temáticos) y metabuscadores se cubren estas zonas de sombra, pero siempre dentro de la ‘Internet visible’.
Pero todavía queda una inmensa parte oculta, aquella que contiene según los expertos hasta 500 veces más información que la disponible a través de los buscadores. Esa zona menos accesible de Internet está formada básicamente por:
- El contenido de las bases de datos a las que se puede acceder a través de la Red, que almacenan información sólo recuperable a través de búsquedas en la propia base de datos (sin poder acudir a cada registro de manera individual desde un enlace en otra página o un buscador al uso).
- Todo lo que no es texto (archivos multimedia, gráficos, programas…) o los documentos creados con formatos distintos al lenguaje común en Internet (HTML).
La producción de información aumenta a un ritmo vertiginosoy gran parte de ella se almacena en un formato u otro. “El saber total de la Antigüedad custodiado en la Biblioteca de Alejandría”, escribe José Antonio Millán, “se ha calculado en 0,8 terabytes (un terabyte equivale a un millón de megabytes), y los veinte millones de libros de la Biblioteca del Congreso de Estados Unidos ocuparían (sin contar sus ilustraciones) 20 terabytes”. Según los datos del estudiocon el que BrightPlanet trató de medir la profundidad de la web, la parte de Internet fuera del alcance de los buscadores convencionales contendría cerca de 550.000 millones de documentos (7.500 terabytes de información), frente a los 1.000 millones (19 terabytes) de la ‘web superficial’.
Aunque la parte accesible de la web ha aumentado sustancialmente desde que se publicó el informe (en 2000) -la Universidad de California (Berkeley) estimó que la superficie de la web contenía unos 167 terabytesen 2002 y sólo Google indexa ya más de 5.000 millones de páginas -, también lo ha hecho el área menos visible (a un ritmo mayor, según BrightPlanet), a medida que se crean nuevas bases de datos o crecen y se digitalizan las ya existentes. En 2002 la Web profunda sumaba 91.850 terabytes.
La gran competencia entre los buscadores ha redundado en el desarrollo de tecnologías más avanzadas, que consiguen escarbar cada vez más en la Internet invisible. A través de los buscadores se localizan bases de datos especializadas o se accede a apartados específicos para recuperar noticias, imágenes, mapas, artículos para comprar, etc., a la vez que se aceptan más formatos distintos al estándar de la web, el HTML.
Por qué es invisible
Existen dos motivos fundamentales que explican por qué el contenido de Internet no está incluido en directorios o no es registrado por los motores de búsqueda: las barreras técnicas que impiden el acceso y la elección de los propios buscadores a la hora de excluir algunos tipos de páginas web.
Páginas inaccesibles para los robots de búsqueda.
Las bases de datos de los buscadores son generadas por robots que navegan por Internet escudriñando en el contenido de páginas estáticas, que para ser indexadas deben estar enlazadas desde otras páginas; si no existe un enlace a una página determinada, el robot no la puede ver. Estas arañas que alimentan las bases de datos tampoco pueden registrar el contenido de las páginas a las que no pueden entrar, o bien porque requieren teclear algo (una palabra de acceso, por ejemplo) o bien porque es preciso elegir entre varias opciones para llegar al contenido.
De la incapacidad de los motores de búsqueda para penetrar en ciertas páginas nacen dos tipos de páginas invisibles.
- Los contenidos de bases de datos especializadas, dependiendo del número de páginas estáticas que contengan. Los resultados devueltos al efectuar una búsqueda en una base de datos se presentan normalmente mediante páginas dinámicas, es decir, páginas que se generan cada vez que se realiza una búsqueda y no se guardan en ningún sitio. Los robots no pueden encontrar las páginas que muestran el contenido de estas bases de datos.
- Las páginas de pago o cualquiera que requiera registro previo (usuario y contraseña) para acceder a su contenido no son accesibles para los robots y, por tanto, no se encuentran a través de los buscadores convencionales.
Páginas excluidas por los propios buscadores.
Algunas páginas estáticas son visibles y fácilmente clasificables para las arañas de búsqueda, aunque en ocasiones puedan ser invisibles por razones de autocensura de los buscadores (por motivos técnicos o políticos). Los directorios clasifican y jerarquizan una pequeña parte del contenido de Internet, pero también los motores de búsqueda, que rastrean la Red periódicamente excluyen ciertas páginas web para no saturar sus enormes bases de datos y hacer las búsquedas más rápidas y eficientes.
Tanto las bases de datos como los robots de los buscadores están optimizados para manejar HTML, el lenguaje estándar de la Web. Algunos buscadores excluyen de sus resultados las páginas que están en otros formatos, bien porque son inusuales, bien porque los usuarios las solicitan con poca frecuencia. Asimismo, las páginas sin texto (imágenes, por ejemplo) son omitidas en los buscadores generales (no hay ninguna palabra que buscar), aunque casi todos los importantes han desarrollado un apartado especial para localizar imágenes.
También los buscadores han hecho esfuerzos para localizar páginas en diversos formatos, como flash, shockwave o documentos de Word, Excel o presentaciones de PowerPoint. Google, por ejemplo, introdujo paulatinamente búsquedas sobre documentos PDF y otros formatos , que se pueden encontrar de manera específica mediante la búsqueda avanzada. También ofrece búsquedas especialesdentro de determinadas categorías.
Bucear en las profundidades
La información de la Web profunda no es realmente invisible, pues más de la mitad se encuentra en bases de datos especializadas y hasta el 95% es pública, no sujeta a cuotas o suscripciones. Lo que ocurre es que al no estar al alcance de los buscadores tradicionales requiere del usuario un esfuerzo adicional para localizarla, o del conocimiento de las herramientas y directorios específicamente creados para bucear en el abismo de la Red.
Quizá lo primero que se pregunten muchos usuarios es qué se les ha perdido dentro de la Web profunda, especialmente aquellos satisfechos con los resultados ofrecidos por potentes y cada vez más completos buscadores como Google. Pero puede que el mero hecho de saber que existe hasta un 80% de contenido en Internet más allá del accesible desde los buscadores convencionales baste para apelar a la curiosidad de más de uno, aunque es cierto que ahondar en bases de datos de sitios gubernamentales, publicaciones científicas o librerías sea más una tarea para investigadores o profesores y alumnos no contentos con la cantidad ni calidad de los resultados generados por las bases de datos alimentadas por robots de búsqueda.
En cualquier caso, dentro de lo que se conoce como Internet invisible o profunda se encuentra todo tipo de contenidos de interés general:
- Toda la información o datos susceptibles de formar parte de una base de datos o directorio, como las guías telefónicas y páginas amarillas, listados de profesionales, anuncios clasificados, definiciones de diccionarios, leyes, patentes, artículos de tiendas o subastas online, etc.
- La información reciente que cambia de forma dinámica: noticias, ofertas de empleo, ofertas de vuelos u hoteles, información de los mercados (cotizaciones)…
Afortunadamente, existen en Internet numerosos recursos para localizar lo que la Red misma oculta a simple vista. De entrada, es fácil encontrar bases de datos sobre las que realizar búsquedas después, a través de la mayoría de los directorios generales, cuyo máximo exponente de entre los editados por humanos es el Open Directory Project. Sin embargo, existen otros directorios de especial interés para el ámbito académico como Librarians Index, AcademicInfoo Infomine, la gran mayoría en inglés, idioma responsable de un buen porcentaje del contenido de la Red.
También se puede utilizar cualquier buscador generalista para localizar bases de datos, simplemente añadiendo “bases de datos” al término de deseado. Así, al buscar en Google “bases de datos de medicina” se accede fácilmente a la recopilación de la biblioteca virtual en salud o a la de la Universidad Rey Juan Carlos; o tecleando “bases de datos en español” podremos acceder a los directorios de la UNEDo de fisterra.com.
Además, existen directorios especialmente destinados a recuperar información ‘invisible’, como The Invisible Web Directory, nacido para acompañar al libro The Invisible Web: Uncovering Information Sources Search Engines Can’t See, uno de cuyos autores es también responsable de Direct Search. Y buscadores especializados en información científica y bases de datos, como ScirusCompletePlanet, IncyWincy, ProFusion(antes Invisibleweb.com) y, en español, internetinvisible.com.
Pero sin duda la puerta de entrada para la zona oculta de Internet son los sitios web especializados que reúnen en el mismo lugar varios directorios, información, buscadores y bases de datos especializadas, entre los que están The Dark Hiding Places, Beyond Google: The Invisible Web, Library Support Staff.com, Deep Web Research o el weblog The Invisible Web gateway.