Hakia es un buscador semántico, y con búsqueda
semántica se refiere a un "proceso
utilizado para mejorar la búsqueda por Internet mediante el uso de
datos de las redes semánticas para desambiguar las
consultas y el texto de la web con la finalidad de
encontrar los resultados más relevantes en relación a la demanda del usuario." (colaboradores de
Wikipedia 2012)
¿Cómo funciona Hakia?
- Crawling: El primer paso es establecer los sitios con información confiable recomendados por bibliotecarios. Estos se separan en distintos tópicos y también según BD (bases de datos).
- Feeds: Además de esto hakia se alimenta de Noticias, ciertos Blogs, y BD.
- Análisis de Páginas y Puntuación: Luego de la recolección se analiza las páginas usando ciertos algoritmos semánticos y se realiza un test de lenguaje, se comprueba si es objetable el contenido, los links y el texto, la calidad de los links y la calidad del contenido. Una vez puntuada el sitio se procede a extraer párrafos y se los guarda en una BD.
- QDEXing: El algoritmo de hakia revisa las páginas línea por línea extrayendo todas las posibles consultas que se puedan realizar. Una vez realizado este proceso se realiza un análisis morfológico que transforma las sentencias en consultas generales y se establece que tan bien esa sentencia representa el contenido de la página completa. Con esto realizado se extraen los conceptos claves de la página y así se puntúa las diferentes consultas
- QDEX Storage: Una vez realizado el QDEXing en cada página se comparan las consultas con obvias coincidencias entre varias de ellas, entonces se guarda en un archivo QDEX las distintas consultas con las referencias a las páginas según la puntuación antes establecida.
Este
proceso se realiza offline, el objetivo sería realizarlo On-line
En este video
están los procesos mejor detallados pero lastimosamente solo está en ingles.
Cuando se
busca con Hakia lo que en realidad sucede es:
Se analiza la pregunta, haciendo la comparación
con una larga lista de preguntas ya establecidas, (Cómo, Cuando, Porqué). Se analiza
semánticamente la consulta y se asocian los términos claves con sus sinónimos u
otras acepciones y gracias a las tablas hash se establece donde se encuentra
las páginas en el QDEX Storage, entonces se retorna todas las páginas que estén
acorde a la consulta y extrae párrafos relevantes, por último un algoritmo
analiza estos párrafos y la consulta, y los despliega según la relevancia que
tengan. Las sentencias relevantes se verán señaladas en cada párrafo
desplegado.
Consultas en Hakia
Los tipos de consultas en Hakia estan dividas
en 3 grupos, Surface Semantics, Deep Semantics y Regular Search.
Surface semantics contiene 3 apartados. Web,
que es una búsqueda general en la Web. News solo busca en apartados de
noticias. Blog limita la búsqueda a ciertos blogs escogidos.
Deep Semantics es una búsqueda más especializada
y se restringe mucho más que las otras 2. Pubmed es una base de datos especializada
en datos médicos. Credible se refiere a información de fuentes confiables, por
ejemplo wikipedia. Galleries retorna un perfil completo sobre la búsqueda y lo
asocia por categorias, por ejemplo si se busca Barack Obama tenemos como
resultado su web oficial, y como categorías biografía y línea temporal, premios y logros, discursos y frases, blogs y
sitios de fans, noticias y entrevistas, etc.
Regular Search es una búsqueda que se
especializa en un solo tipo de contenido por ejemplo se puede buscar solo
imágenes, videos o tweets.
Video sobre el
funcionamiento de Hakia, lastimosamente solo hay en ingles
Crítica
Hakia es uno de los búscadores semánticos más
completos que funcionan hoy en día, aun esta de lejos de estar completo (sigue
en versión beta) pero si observamos las búsquedas de Deep Semantics nos damos
cuenta lo increíble que resultaría si el proceso se pudiese aplicar a la web
entera, sobre todo ver los resultados de Galleries me han sorprendido
muchísimo, con el ejemplo de Hugo
Chavez quede más que satisfecho.
Ahora el problema es que, como se detallo en
los pasos anteriores, se debe analizar completamente las páginas línea por
línea lo cual lleva una increíble cantidad de tiempo y recursos, por esto sería
necesaria la colaboración de muchas personas y compañias para que se pudiese
llevar a cabo, pero como se sabe los
buscadores son un negocia y hay mucha competencia entre los grandes (google,
bing, yahoo), esto dificulta el sueño de llegar a una web semántica.
En cualquier caso si los algoritmos semánticos
mejoran, en combinación con los sistemas de etiquetado, y aportes de la
comunidad se llegaran a optimizar las búsquedas enormemente, esperemos que
hakia sea un primer paso para esto.