Borja Ramirez Borja Ramirez

Via este post del blog Jeff’s Search Engine Caffe doy con la presentación de Jeff Dean de Google en el pasado WSDM 2009 (Web Search & Data Mining) celebrado en Barcelona. Es muy técnica, habla mucho de como ha crecido Google en infraestructura desde el 1999 hasta el 2009. Habla de arquitectura de índices (docs + queries), encoding, sistemas de caché, crawling vs indexing, etc..Para todos los lectores “técnicos” en búsqueda & Information Retrieval recomiendo la lectura.

Googles keynote WSDN09

Googles keynote WSDN09

Como nota final, resaltaría tres de los challenges o retos que Jeff resalta:

1) Continuously improving translation quality & large-scale systems work to deal with larger and more
complex language models.

2) Building retrieval systems that efficiently deal with ACLs that vary widely in size

3) algorithms/techniques for improved extraction of structured information from unstructured/semi-structured sources

Podeis ver el video completo de la presentación desde aquí.

Os suena todo esto verdad? Nosotros desde Colbenson, estamos trabajando muy duro en el punto 3 de extracción de entidades (el punto dos de gestionar la seguridad de los documentos ya lo controlamos gracias a la tecnología IDOL Server de Autonomy :)). El futuro de la búsqueda pasa por Exploratory Search el cual se respalda en entidades extraidas de información no estructurada.