sábado, 21 de noviembre de 2015

La Web Profunda, esa gran desconocida

Hola a tod@s, el artículo de hoy se corresponde con el tema de la Web Superficial y la Web Profunda.

Los buscadores tradicionales sólo ofrecen acceso a una pequeña parte de lo que existe online, es la Web superficial o visible. El resto, la Web profunda o invisible, es un amplio banco de información ubicado en catálogos, revistas digitales, blogs, contenido de sitios que solicitan un login (aunque sea gratuito) y otros tipos de contenido que no aparecen entre los resultados de una búsqueda convencional.


Deep Web

La Web Superficial comprende todos aquellos sitios cuya información puede ser indexada por los
robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta
en sus formularios de búsqueda.
Las características principales de los sitios de la Web visible son:
  • información no contenida en bases de datos 
  • de libre acceso 
  • no se requiere un proceso de registro para acceder a la información. 
  • formada por páginas Web estáticas en su mayoría (con URL fija y accesibles desde otro enlace).

Web invisible describe toda la información disponible en Internet que no se recupera buscando en los buscadores convencionales. Suele ser información almacenada y accesible mediante bases de datos.
Parte de la información es "invisible" a los robots de los buscadores convencionales, ya que los
resultados se generan como respuesta a una pregunta directa mediante páginas dinámicas (ASP,
PHP, etc.), páginas que no tienen una URL fija y que se construyen en el mismo instante de la consulta (temporales) y que desaparen una vez cerrada la consulta.

Sherman y Price clasifican en 4 grupos los contenidos invisibles en la Web:

-  La Web opaca está compuesta por archivos que no están incluidos en los índices de los buscadores porque no todas las páginas de un sitio se indizan, no se indizan a la suficiente velocidad, se limitan el número de resultados o bien hay documentos sin enlaces a él desde otros documentos y no encontrandose indizados por tanto.

-  La Web privada consiste en las páginas Web no indizadas por estar protegidas por contraseñas, contienen un campo “noindex” para evitar que el buscador pueda indizar la parte correspondiente al cuerpo de la página.
Los dueños de la información que contienen deciden no dejarla disponible.

-  La Web propietaria incluye aquellas páginas en las que es necesario registrarse para tener
acceso al contenido, ya sea de forma gratuita o mediante pago.

-  La Web realmente invisible se compone de páginas que no pueden ser indizadas por
limitaciones técnicas de los buscadores, programas ejecutables y archivos comprimidos,
páginas generadas dinámicamente, información almacenada en bases de datos relacionales, no
extraible a menos que se realice una petición específica.

Para encontrar información en la Web Profunda pueden usarse una serie de recursos de búsqueda:

Por último, hay una parte de la Web denominada Dark Web que es aquella que sólo puede ser recorrida mediante navegadores específicos como Tor que permiten navegar de forma anónima en la Web. En la Web de DeepWebTech, hablan de pasada sobre la Dark Web.

Un saludo.



domingo, 15 de noviembre de 2015

Herramientas de búsqueda avanzada en buscadores web

Hola a tod@s.

En este artículo vamos a ver cuáles son las estrategias que podemos utilizar para realizar búsquedas más precisas y eficaces en los buscadores web.



Lo primero a destacar es que la mejor manera de obtener buenos resultados en nuestras búsquedas de información en Internet es seleccionar las palabras claves correctas, ya que de ellas dependen completamente los resultados obtenidos.
Las buscadores permiten relacionar dos o más palabras claves y frases mediante operadores.

Operadores booleanos:

El operador AND (Y) o el signo + delante de las palabras claves, indican que las páginas deben incluir todos los términos indicados, independientemente del orden, para aparecer en nuestra búsqueda.

El operador OR (O) permite obtener registros con alguno de los términos indicados. Se trata de un o excluyente, sólo aparece uno de los términos en los resultados.
El espacio en blanco en cambio funciona como un o incluyente, ambas expresiones pueden ser posibles al mismo tiempo.

El operador NOT o el signo – (guión medio) delante de las palabras claves, las excluye de la búsqueda.

Los operadores booleanos pueden combinarse para obtener búsquedas complejas.

Otros operadores:

asterísco *  sustituye una cadena de caracteres.
interrogación ? sustituye un solo carácter en esa posición
entrecomillado “” para una frase exacta
arroba @ para buscar etiquetas sociales.
almohadilla # busca temas de tendencias.
dos puntos sin espacios .. busca valores en un rango

Al hacer búsquedas con operadores, no se deben añadir espacios entre el operador y los términos de búsqueda.

Algunos operadores especiales son:

define: permite obtener la definición de una palabra.
site:   permite obtener resultados dentro de uno o de varios sitios o dominios.
link:   permite obtener páginas que apunten a un determinado sitio.
related: permite encontrar sitios similares a una URL que conocemos.
allintitle: permite realizar una búsqueda por título
info:    muestra información acerca de un sitio web determinado.

Búsqueda avanzada:

La Búsqueda avanzada de Google ofrece muchas opciones para realizar búsquedas complejas y obtener resultados más precisos y útiles.
Puede accederse a ella a través de la dirección

http://www.google.es/advanced_search


Para resumir, mediante diferentes opciones a elegir permite formar búsquedas complejas mucho más difíciles de obtener mediante el uso de operadores.

En el siguiente vídeo podemos ver una muestra de cómo utilizar la búsqueda avanzada en Google.

Observaremos que utilizando estos operadores y mediante la búsqueda avanzada de Google (al igual que en otros buscadores) conseguimos resultados mucho más precisos y útiles para las necesidades que han motivado nuestra búsqueda. Son herramientas muy potentes que bien utilizadas, pueden ahorrarnos mucho tiempo en nuestras búsquedas.
Un saludo.

Las 5 herramientas básicas de búsqueda de información en Internet

Hola a tod@s, trataremos hoy de las 5 herramientas básicas de búsqueda en Internet:
buscadores, metabuscadores, directorios, guías y software especializado.
Vamos a verlas una por una.

BUSCADORES: es la primera herramienta básica. Usa un software especial para localizar e indexar automáticamente las páginas Web, incluyendo también todos los documentos referenciados en ellas.


Buscadores Web
Imagen de Danard Vincente


Tienen 4 partes principales: un robot, un motor de indexación, los índices y un motor de búsqueda.

El robot se encarga de recorrer la Web obteniendo información relevante, de cada una de las páginas que visita.

El motor de indexación analiza y condensa la información obtenida para organizarla y presentarla a los usuarios.
La indexación suele hacerse por palabras claves (lo más común) o por conceptos.

Los índices o ficheros inversos se construyen mediante estructuras de datos en las cuales se asocia una palabra a una lista de documentos relacionados con ella.

El motor de búsqueda se encarga de procesar las consultas recibidas por los usuarios, recorriendo los índices, buscando los términos relacionados con la consulta y obteniendo los identificadores de los documentos. Los ordena de forma jerárquica y muestra al usuario los resultados obtenidos.

METABUSCADORES:  son servidores web que  realizan búsquedas en los índices de un gran número de buscadores y/o directorios, eliminan los duplicados y nos presentan un resumen de los resultados  obtenidos, ordenados por relevancia.
A veces nos indican cuál ha sido el buscador de origen de la información.

Su principal ventaja es ampliar el ámbito de las búsquedas que realizamos.

DIRECTORIOS:  en ellos se organiza la información por medio de categorías y subcategorías que registran las direcciones (URL) y una pequeña descripción de los diferentes sitios que han sido indexados.

GUÍAS: están compuestas por páginas de recursos web organizadas por áreas del dominio de diversos especialistas y entidades académicas que asumen la tarea de elaborarlas.
Estos directorios anotados suelen ser de gran calidad ya que la selección de recursos es muy cuidadosa y su actualización frecuente.

SOFTWARE: lo instalamos en nuestro ordenador y funciona junto a los navegadores. Añade nuevas funciones, como el manejo de conceptos para la recuperación de la información.




Terminamos aquí nuestro recorrido por estas 5 herramientas básicas de búsqueda en Internet.

Un saludo y hasta el próximo artículo.

viernes, 9 de octubre de 2015

Infoxicarse o no infoxicarse...vaya cuestión

¿Qué es la infoxicación? 
Una de las fuentes de referencia básica que encontramos es Alfons Cornella, quien en 2003 publicó el libro Infoxicación.

Según el propio autor, la definición de infoxicación es la siguiente:
La infoxicación es el exceso de información. Es, pues, lo mismo que el information overload. Es estar siempre "on", recibir centenares de informaciones cada día, a las que no puedes dedicar tiempo. Es no poder profundizar en nada, y saltar de una cosa a la otra. Es el "working interruptus". Es el resultado de un mundo en donde se prima la exhaustividad ("todo sobre") frente a la relevancia ("lo más importante").
Puedes encontrar más información en su web:  alfonscornella.com
 La expresión information overload fue acuñado en 1970 por Alvin Toffler en su libro Future Shock. Como vemos, la discusión viene de lejos.


La infoxicación Jesús Martínez 

Antes de la Web lo difícil era encontrar información relevante para la tarea que buscábamos; había que recurrir a enciclopedias más o menos actualizadas, a bibliotecas y a libros de texto.

Tras la llegada de la Web todo esto cambió; de repente aparecieron cientos de páginas web en las que encontrar información, luego fueron miles de páginas, cientos de miles y millones…

Actualmente lo difícil es discernir qué es útil e interesante, hay que cribar la información para quedarnos con lo que nos resulta relevante. Tenemos blibliotecas online, blogs, foros, redes sociales, MOOCs, academias virtuales,…

Para alguien deseoso de aprender es un paraíso, el problema es por dónde empezar. Como siempre, la solución debe comenzar por esforzarnos en cultivar nuestro espíritu crítico, ¿qué hay de interesante en esta nueva información que he recibido?, ¿puede serme útil?, ¿cuándo me será útil?

Los marcadores de nuestro navegador pueden quedarse cortos para almacenar toda la información interesante que vamos acumulando. No es de extrañar que hayan aparecido nuevas herramientas para gestionar los marcadores (symbaloo, diigo, delicious,…), para filtrar los correos que recibimos (por ejemplo, la separación automática que gmail hace de los correos recibidos en las pestañas Principal, Social y Promociones, aparte por supuesto de la carpeta de Spam).

Una herramienta que vengo aplicando desde hace mucho tiempo en mi cuenta de Gmail es el uso de etiquetas y filtros para seleccionar el correo entrante y clasificarlo en función de su procedencia o de su contenido. No es una panacea universal pero ayuda a mantener más ordenados los correos recibidos.

Un nuevo concepto surge: la curación de contenidos (un barbarismo por anglicismo acuñado por profesionales del mundo del marketing). Hay que filtrar, analizar y guardar los contenidos valiosos.

Se impone revisar de tiempo en tiempo lo que hemos guardado, para analizar lo que ya no nos sirve o está desfasado o simplemente ha desaparecido (enlaces rotos). Es un proceso continuo, incesante pero sin duda enriquecedor.

Como puede verse, el tema da para mucho y no es fácil evitar infoxicarse. Al menos podemos aplicar medidas que permitan que la “enfermedad” no nos afecte en demasía.

Para terminar os dejo un enlace a un vídeo de Isaac Asimov (1988) en el que hablaba sobre el futuro de la educación, previendo lo que después sería la Web (que no surgió hasta 1993). Un visionario sin duda.

Un saludo y hasta el próximo artículo.