Nuevo buscador del Web Bulma basado en htDig


El nuevo buscador de WebBulma es el
htDig y permite buscar no sólo en el contenido de los artículos, sino también
en los mensajes de las listas de correo de Bulma y los comentarios de los
lectores. [ACTUALIZACIÓN] Además, como DaniRC no podía encontrar un artículo por problemas de acentos mal puestos ;-), modificamos el programa, los diccionarios y las reglas para que los ignore en la generación de índices y búsquedas.

Desde el día 10 de marzo lo hemos puesto en marcha con
Guillem Cantallops en forma experimental y ahora ya está a pleno funcionamiento. El buscador es el htDig y lo hemos configurado para que
interprete las palabras en castellano, palabras típicas informáticas en inglés
y las principales derivaciones de las palabras raíces, por ejemplo:
fichero-ficheros, limitar-limite-limites-limitamos-.. etc. Es muy potente,
hasta inclusive está configurado para que trabaje con sinónimos de palabras
técnicas, por ejemplo: IDSN-RDSI, mail-email-emilio, fichero-ficheros,
etc.
 
El buscador actualiza su base de datos cada madrugada y
genera unas bases de datos con índices por palabras y los punteros a cada
página web. De esta forma la búsqueda es muy rápida y asigna pesos (los )
dependiendo de la aparición de las palabras. Cinco Tuxes indican el máximo.
Para poder asignar pesos correctos, hemos reorganizado las
páginas web para que defina como título de la página al título de la noticia y
el META “information” es el resumen de la misma. Por lo que desde ahora es muy
importante poner buenos títulos y resúmenes para que los artículos aparezcan
correctamente ordenados. Eso no sólo beneficiará a nuestro buscador, sino
también a todos los buscadores.
Y ya que el buscador también funciona con los mensajes a las
listas, estaría bien que los subjects fuesen del tema del mail, así
facilitaremos la vida a todos.
Las configuraciones y base de datos que usamos están
disponibles en:

Modificación para el castellano/español
Los ejecutables que están son el resultado de unas pequeñas modificaciones al String.cc y htString.h paraque ignore los acentos. Los diccionarios y reglas espa~nol.* también están modificados para ignorar acentos y no expandir en tantas palabras derivadas.
Los ejecutables son directamente usables con los diccionarios de los enlaces anteriores. El que quiera los diffs de los fuentes del htDig, que se ponga en contacto con nosotros en la lista Bulmailing (ver enlace en la página).
En cuanto lo termine de escribir, pondré una guía para
escribir las noticias y hacer que aparezcan primeros en las herramientas de
búsqueda.
–ricardo

Este post ha sido traido de forma automatica desde https://web.archive.org/web/20140625063149/http:/bulma.net/body.phtml?nIdNoticia=558 por un robot nigromante, si crees que puede mejorarse, por favor, contactanos.


Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.