lunes, 27 de agosto de 2012

Buscador semántico Hakia


Hakia es un buscador semántico, y con búsqueda semántica se refiere a un "proceso utilizado para mejorar la búsqueda por Internet mediante el uso de datos de las redes semánticas para desambiguar las consultas y el texto de la web con la finalidad de encontrar los resultados más relevantes en relación a la demanda del usuario." (colaboradores de Wikipedia 2012)

¿Cómo funciona Hakia?

  1. Crawling: El primer paso es establecer los sitios con información confiable recomendados por bibliotecarios. Estos se separan en distintos tópicos y también según BD (bases de datos).
  2. Feeds: Además de esto hakia se alimenta de Noticias, ciertos Blogs, y BD.
  3. Análisis de Páginas y Puntuación: Luego de la recolección se analiza las páginas usando ciertos algoritmos semánticos y se realiza un test de lenguaje, se comprueba si es objetable el contenido, los links y el texto, la calidad de los links y la calidad del contenido. Una vez puntuada el sitio se procede a extraer párrafos y se los guarda en una BD.
  4. QDEXing: El algoritmo de hakia revisa las páginas línea por línea extrayendo todas las posibles consultas que se puedan realizar. Una vez realizado este proceso se realiza un análisis morfológico que transforma las sentencias en consultas generales y se establece que tan bien esa sentencia representa el contenido de la página completa. Con esto realizado se  extraen los conceptos claves de la página y así se puntúa las diferentes consultas
  5. QDEX Storage: Una vez realizado el QDEXing en cada página se comparan las consultas con obvias coincidencias entre varias de ellas, entonces se guarda en un archivo QDEX las distintas consultas con las referencias a las páginas según la puntuación antes establecida.

Este proceso se realiza offline, el objetivo sería realizarlo On-line

En este video están los procesos mejor detallados pero lastimosamente solo está en ingles.


Cuando se busca con Hakia lo que en realidad sucede es:

Se analiza la pregunta, haciendo la comparación con una larga lista de preguntas ya establecidas, (Cómo, Cuando, Porqué). Se analiza semánticamente la consulta y se asocian los términos claves con sus sinónimos u otras acepciones y gracias a las tablas hash se establece donde se encuentra las páginas en el QDEX Storage, entonces se retorna todas las páginas que estén acorde a la consulta y extrae párrafos relevantes, por último un algoritmo analiza estos párrafos y la consulta, y los despliega según la relevancia que tengan. Las sentencias relevantes se verán señaladas en cada párrafo desplegado.


Consultas en Hakia



Los tipos de consultas en Hakia estan dividas en 3 grupos, Surface Semantics, Deep Semantics y Regular Search.

Surface semantics contiene 3 apartados. Web, que es una búsqueda general en la Web. News solo busca en apartados de noticias. Blog limita la búsqueda a ciertos blogs escogidos.

Deep Semantics es una búsqueda más especializada y se restringe mucho más que las otras 2. Pubmed es una base de datos especializada en datos médicos. Credible se refiere a información de fuentes confiables, por ejemplo wikipedia. Galleries retorna un perfil completo sobre la búsqueda y lo asocia por categorias, por ejemplo si se busca Barack Obama tenemos como resultado su web oficial, y como categorías biografía y línea temporal,  premios y logros, discursos y frases, blogs y sitios de fans, noticias y entrevistas, etc.

Regular Search es una búsqueda que se especializa en un solo tipo de contenido por ejemplo se puede buscar solo imágenes, videos o tweets.








Video sobre el funcionamiento de Hakia, lastimosamente solo hay en ingles


Crítica
Hakia es uno de los búscadores semánticos más completos que funcionan hoy en día, aun esta de lejos de estar completo (sigue en versión beta) pero si observamos las búsquedas de Deep Semantics nos damos cuenta lo increíble que resultaría si el proceso se pudiese aplicar a la web entera, sobre todo ver los resultados de Galleries me han sorprendido muchísimo, con el ejemplo de Hugo Chavez quede más que satisfecho.

Ahora el problema es que, como se detallo en los pasos anteriores, se debe analizar completamente las páginas línea por línea lo cual lleva una increíble cantidad de tiempo y recursos, por esto sería necesaria la colaboración de muchas personas y compañias para que se pudiese llevar a cabo, pero como se sabe  los buscadores son un negocia y hay mucha competencia entre los grandes (google, bing, yahoo), esto dificulta el sueño de llegar a una web semántica.

En cualquier caso si los algoritmos semánticos mejoran, en combinación con los sistemas de etiquetado, y aportes de la comunidad se llegaran a optimizar las búsquedas enormemente, esperemos que hakia sea un primer paso para esto.

No hay comentarios:

Publicar un comentario