Hay vida más allá de Google: Diseñando WauSearch

Manuel Blázquez Ochando. Investigador y desarrollador del buscador web WauSearch

Manuel Blázquez Ochando. Investigador y desarrollador del buscador web WauSearch

Cada día millones de personas recurren a los motores de búsqueda para resolver la mayor parte de sus necesidades de información. Buscadores como Google, Yahoo o Bing son los más populares en occidente, pero no son los únicos. Otros buscadores como Yandex o Baidu han logrado asentar el sector idiomático ruso y chino, convirtiéndolos en la referencia de la región euroasiática, compitiendo directamente con los proveedores occidentales. El gran potencial económico que supone el negocio de la recuperación de información en Internet ha convertido el desarrollo de buscadores en un área de investigación estratégica para muchos países, universidades y empresas vinculadas con el sector de las tecnologías de la información, que han detectado una oportunidad de negocio en el desarrollo de motores de búsqueda especializados.

De esta forma, buscadores semánticos como Wolfram Alpha, estadísticos como Zanran, de patentes como Google Patents, de personas como Pipl o buscadores colaborativos como Blippex están describiendo un nuevo horizonte, en el que lo importante es crear un buscador personalizado, capaz de resolver las necesidades de información concretas y acotadas a una determinada área, rasgo o característica intrínseca. La última tendencia en esta línea de progresión es el desarrollo de buscadores basados en la privacidad del usuario, también conocidos como buscadores discretos. En esta categoría se encuadra Duck Duck Go, conocido por representar una alternativa a Google, tras el escándalo de las revelaciones de Edward Snowden, en las que se ponía en tela de juicio la privacidad de la información y navegación de los usuarios. Ello supuso un punto de inflexión, que provocó que muchos profesionales de la información, reflexionaran y se dieran cuenta de la necesidad de crear más alternativas a los principales buscadores, dicho de otra forma, una mayor diversificación que permita hacer honor al lema “Don´t be evil”.

Resultados obtenidos por WauSearch

El proyecto WauSearch tiene su origen en estas reflexiones. Es necesario crear alternativas a los principales buscadores, que ofrezcan una visión complementaria, capaz de armonizar la visión de un Documentalista, con la de un usuario medio. Un buscador debe asegurar la privacidad de las consultas del usuario, no desvelar el origen de las mismas ni relacionar o cruzar sus datos para terceros. Una alternativa debe favorecer métodos de filtrado y consulta fáciles de utilizar, que permitan proporcionar resultados cada vez más precisos. Sería ideal que los métodos de ordenación y ranking de resultados fueran más cualitativos y menos dependientes de las cuestiones comerciales. En resumen, un buscador que pueda competir por originalidad. Con las premisas del diseño, comenzó una fase de investigación que abordaría diversos puntos clave: 1) Crear programas Webcrawler capaces de actuar de forma coordinada para indexar la web y proporcionar resultados de forma inmediata. 2) La capacidad para complementar los resultados obtenidos con los resultados de otros buscadores. 3) La concreción de métodos de búsqueda avanzada predefinidos fáciles de integrar en el buscador y fáciles de comprender y utilizar por el usuario. 4) La capacidad para exportar la información de las páginas de resultados. 5) Las medidas para mantener la privacidad a salvo sin comprometer la capacidad de análisis de la experiencia del usuario.

Ejemplo de búsqueda de catálogos bibliográficos de la Biblioteca Nacional de España (http://mblazquez.es/wp-content/uploads/screenshoot06.png)

El desarrollo de programas Webcrawler, no resultaba novedoso, ya que había sido trabajado en años anteriores con la experiencia del Programa Mbot. De hecho WauSearch emplea esta tecnología para rastrear de forma sectorial la web consultada por el usuario y proporcionar resultados complementarios a los que Google suministra en sus páginas de resultados. Esta capacidad para complementar los resultados de terceros buscadores, se concibió como una función esencial. Hay que tener en cuenta que la falta de medios y financiación han limitado y condicionado el desarrollo de WauSearch y ello implica necesariamente la inclusión de fuentes de información provenientes de la competencia. Aunque pueda parecer paradójico una forma de dirigir el rastreo del Webcrawler Mbot hacia un sector concreto de la Web consiste en re-rastrear los resultados proporcionados por diversos buscadores entre los que se encuentra Google, Yahoo y Bing. Cuando un usuario consulta WauSearch, está buscando en estos tres buscadores que proporcionan resultados que son reutilizados a su vez por Mbot, para ampliar y complementar las informaciones obtenidas, generando un nuevo ranking o método de ordenación. Este método permite aprovechar toda la información disponible sobre una consulta dada, garantizando más resultados y más información. Ello permite afirmar, de acuerdo a las mediciones efectuadas, que aproximadamente se proporciona un 20% más de resultados. Pero más importante incluso que la propia recuperación, fue diseñar un método de interacción que facilitara al usuario la consulta avanzada, tanto con operadores convencionales, como no convencionales. En este sentido, se permite refinar la búsqueda de acuerdo al título de la web, sobre el texto principal, la dirección o enlace de la página, en un dominio o sitio web específico, por formato, en los enlaces recopilados de un sitio web y por proximidad de términos. Además incorpora la posibilidad de mostrar resultados no presentes en Google, para facilitar la distinción de los contenidos inéditos o menos visibles.

Por otra parte, también incluye como novedad el apartado búsquedas preparadas, con las que el usuario puede realizar búsquedas profesionales sin necesidad de conocer operadores especiales, en diversas áreas y temáticas, como la web de la administración pública de entre más de 180 países, búsquedas en redes sociales, en fuentes de información científica y búsqueda de canales de sindicación. En relación a la capacidad de mantener la privacidad del usuario, WauSearch no almacena cookies, ni cabeceras de datos que contengan información sensible del usuario, que permitan identificar su dirección IP con las consultas que está realizando, manteniendo de esta forma a salvo su anonimato. Además, WauSearch emplea un sistema Proxy para enmascarar la IP del propio servidor, aportando una capa extra de seguridad. Para completar el pliego de especificaciones, WauSearch introduce una característica que inexplicablemente no se encuentra disponible en la mayoría de los buscadores. Se trata de la posibilidad de exportar los resultados página por página en distintos formatos, opción que muchos usuarios echaban en falta para poder procesar la ingente cantidad de información que los buscadores pueden llegar a verter.

Exportación de resultados

Exportación de resultados

Puede afirmarse, que el proyecto WauSearch representa un avance técnico de la Documentación, al lograr adaptar un Webcrawler experimental a las tareas cooperativas de recuperación de información. Añadido a lo anterior, la capacidad de consultar y recuperar los resultados de otros buscadores de forma automática, evitando todos los inconvenientes e impedimentos de seguridad que éstos plantean. Y finalmente el avance en relación a la forma de representar las opciones de refinamiento, filtrado y consultas prediseñadas que facilitan la construcción de consultas complejas, proporcionando resultados descargables libremente.

Desde el punto de vista de la investigación, WauSearch permite por primera vez tener control efectivo sobre un buscador de la Web “con mayúsculas”, sobre el que se pueden realizar todo tipo de experimentos destinados a la mejora y desarrollo de mejores motores de búsqueda, métodos de posicionamiento, ranking de resultados, ponderación de las consultas, refinamiento de rastreo web e interfaz de usuario con una relación de coste/eficacia difícil de igualar. Dicho de otra forma, WauSearch no sólo proporciona un servicio público, libre y alternativo a Google, sino que resulta una plataforma de pruebas que está íntegramente bajo control, como si de un laboratorio virtual se tratara. Por ejemplo WauSearch permite la modificación del algoritmo de ordenación de los resultados que a su vez establece un peso a los elementos y términos clave detectados en los textos de los documentos y páginas web. De esta forma es posible identificar cuáles son los mejores valores para cada tipo de consulta o cada caso, generando estadísticas que permiten una comparativa cronológica de estas variables.

WauSearch de la mano de su creador

WauSearch de la mano de su creador

Por tanto a la pregunta ¿Qué puede aportar la Documentación a los buscadores? Podría ser resuelta de forma simple. La Documentación y en particular los profesionales de la información con conocimientos en tecnologías, pueden aportar una visión centrada en el usuario y en las necesidades de organización y representación de la información, basada en la lógica de la consulta y su perfeccionamiento. Este tipo de proyectos permiten justificar la importancia del sector para aportar nuevas ideas, valor añadido y métodos alternativos que ayuden a hacer más asequible una Web cada más expansiva. En cuanto al futuro del buscador WauSearch, se tiene prevista su actualización e implementación de mejoras, de forma progresiva. Por ejemplo un interfaz mejorado con un “diseño responsive” capaz de adaptarse a distintas resoluciones de pantalla de distintos dispositivos, una mejora de los métodos de refinamiento y filtrado, compatibilidad con otras versiones de navegadores web e integración del buscador en otros sistemas de información actualmente en desarrollo.

Pero no todo en WauSearch es perfecto. Aún debe ser mejorado y sobre todo requiere inversión y de una comunidad de desarrolladores e investigadores que estén verdaderamente comprometidos con el proyecto. Este aspecto es particularmente difícil de lograr, ya que aún es necesario concienciar sobre la importancia de adaptar los planes de estudio, asignaturas y número de créditos a la realidad del futuro de la Documentación, que necesariamente pasa por las nuevas tecnologías de la información. Considero que una comunidad consistente y unida por WauSearch puede impulsar más si cabe el proyecto original y dar una mayor autonomía de funcionamiento al buscador, una mayor riqueza conceptual y en definitiva una herramienta para todos.

Referencias

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

* Se requiere casilla de verificación RGPD

*

I agree