domingo, 18 de octubre de 2015

¿QUÉ ES UNA WEB SUPERFICIAL Y UNA WEB PROFUNDA?



Para entender a qué nos referimos con estos dos tipos de webs debemos saber antes que si queremos buscar bien en la red disponemos de más alternativas que los tradicionales buscadores. Si nos limitásemos únicamente a ellos, estaríamos consultando solamente una mínima parte de la información a la que tenemos acceso. Es lo que se llama WEB SUPERFICIAL o VISIBLE. Ésta es de libre acceso a todos los usuarios, no se necesita registrarse previamente y su contenido no está compilada en una base de datos. La mayoría de ellas tiene acceso desde una URL fija, desde otro enlace u otra página web.

Pero, como decimos, tenemos otra forma de conseguir gran cantidad de información que a menudo no conocemos ni utilizamos. Es la que se recoge en la WEB PROFUNDA O INVISIBLE y que no podemos localizar a través de un buscador convencional porque al pertenecer a una base de datos es "invisible" a sus robots. De modo que para conseguirla debemos preguntar directamente a páginas dinámicas (ASP, PHP, etc.), que no tienen una URL fija, sino que se construyen en el mismo instante (temporales) para desaparecer tras realizar la consulta. Son de cuatro tipos:

1. OPACA: Sus archivos podrían estar incluidos en los índices de los buscadores, pero no lo están por:

- Extensión de la indexación: No todas las páginas de un sitio son indexadas simplemente por un motivo de economía.
- Frecuencia de la indexación: La información se incrementa a diario y los buscadores no tienen la capacidad de actualizarla a ese ritmo.
- Número máximo de resultados visibles: Generalmente el número de documentos mostrados es limitado (entre 200 y 1000).
- URL desconectadas: Actualmente los documentos aparecen ordenados según el número de referencias que aparecen en otros. Un documento sin un link desde otro no puede encontrarse porque no está indexado.

2. PRIVADA: También podrían estar en los buscadores pero generalmente suelen ser de escasa utilidad y, al ser dueños de la información, la excluyen deliberadamente por:

- Las páginas están protegidas por contraseñas.
- Contienen un archivo “robots.txt” para evitar ser indizadas.
- Contienen un campo “noindex” para evitar que se pueda indexar la parte del cuerpo de la página.

3. PROPIETARIA: Hay que registrarse para acceder al contenido, gratuitamente o pagando por ello.

4. REALMENTE INVISIBLE: No pueden indexarse por limitaciones técnicas de los buscadores, programas ejecutables y archivos comprimidos; páginas generadas dinámicamente (que se crean a partir de datos introducidos por el propio usuario) o información almacenada en bases de datos relacionales que no puede conseguirse sin una petición específica.

Algunas herramientas útiles de búsqueda de web profunda son:

- Virtual Library: Se considera el catálogo más antiguo en la web.
- Infoplease: Con más de 57.000 artículos ordenados por términos o áreas de conocimiento.
- DeepWebTech Con cinco motores de búsqueda sobre ciencia, medicina y negocios.
- TechXtra Sobre ingeniería, matemáticas e informática.


2 comentarios:

  1. Enhorabuena Susana! Está perfecto, información relevante, clara y amena de leer. Además, la imagen que has elegido y la estética del blog me encantan. Es un 10 =)

    ResponderEliminar
  2. Hola Susa!!
    Un gusto visitar tu primer blog... y descubrir como va creciendo semana a semana.
    Espero que el curso esté cumpliendo las expectativas que planteabas en tu primera entrada.
    Saludos y nos seguimos leyendo.
    Cristina
    Equipo Docente

    ResponderEliminar