Buscar, sugerir y personalizar

Todo lo relacionado con el problema de localización de información y datos (texto, audio, video) ya sea generada en ámbito empresarial, social o institucional.

Archive for 'Autonomy'

El mercado de Enterprise Search se ha transformado, ha cambiado definitivamente. El proyecto de buscador corporativo como lo conocíamos ha dejado de ser un proyecto estratégicamente clave dentro de la empresa, ahora la estrategia de búsqueda, analítica y procesado de datos corporativos se ha convertido en el caballo de batalla de toda organización que quiera ser competitiva. Lo importante no es ofrecer una pagina con 10 resultados, ahora se trata de empujar el contenido a los clientes y empleados según sus intereses, bien sea a través de un cajón de texto libre o bien sea según la navegación, perfil, departamento, histórico de compras, grupo de contactos, etc.. del usuario en cuestión.


Los proyectos de búsqueda son ahora mucho más especializados. El foco de los proyectos ha dejado de ser la tecnología, ahora todo se enfoca en la experiencia de usuario y en generar valor bottom-line (incrementar ventas, conversión campañas, minimizar costes atención usuario, etc..). Los que nos dedicamos a este mundillo de la búsqueda y procesado de datos estamos de enhorabuena, entramos en una fase llena de nuevos retos y oportunidades:

- El concepto Enterprise Search está caduco. El reto de las empresas ya no es poder buscar en sus múltiples repositorios de información, sino procesar datos para que sean más encontrables, accesibles, contextualizables y personalizables a su negocio y sus clientes.

- El mercado de búsqueda Empresarial se ha fragmentado. Por un lado los big players (Microsoft Fast, Autonomy, IBM, etc..) se están posicionando fuertes en proyectos Enterprise de plataforma integral de datos (ECM + DCM+ Business Intelligence + Search…) y por otro lado vemos mucha diversificación y especialización de otras empresas con productos verticales para eCommerce, Medios, eDiscovery, etc, y horizontales como Customer Service, sistemas de recomendación, personalización, etc.

- Como consecuencia de esta fragmentación de mercado Gartner ha decidido eliminar el Magic Quadrant para Enterprise Search y ahora produce un simple MarketScope. Esto ha dado mucho que hablar, recomiendo la lectura de este debate en el grupo de LinkedIn de Enterprise Search.

- La tecnología ha dejado de ser un diferenciador en los proyectos de búsqueda. La gran mayoría de fabricantes ofrecen las mismas funcionalidades en sus productos, los cuales son ya casi una “commodity”. El factor de éxito de un proyecto de búsqueda no es la tecnología sino los conocimientos del integrador y su capacidad para sacar el máximo rendimiento al producto y saber adaptarlo al negocio (datos corporativos vs expectativas usuarios).

“ The other side of the argument was that companies are no longer will to pay big money for key word retrieval.” Stephen Arnold, Beyond Search, “Enterpire Search: Baloney Six Ways, like Herring”

-Las empresas ya no están dispuestas en invertir entre 200.000 y 500.000€ en implantar un buscador corporativo para que devuelva un listado de 10 resultados. Las tres grandes empresas en este área (Microsoft Fast, Autonomy y Endeca) ya lo han notado en sus cuentas de resultados y buscan nuevos nichos.

- La irrupción de tecnología de búsqueda Open Source ha sido espectacular, una autentica revolución, y ha actuado como un gran catalizador de cambios en el mercado de ES. La estabilidad, madurez y adaptabilidad de esta tecnología ha hecho que muchas empresas se hayan decantado por sustituir su actual plataforma de búsqueda sobre software comercial por soluciones libres como Lucene/Solr (The Guardian, Biblioteca Nacional, etc).

- Por otro lado, la diversificación del mercado ha propiciado una nueva ola de productos Open Source empaquetizados y especializados como LucidWorks Enterprise, SearchBroker, etc.

- Open Source Search no es futuro, sino presente. Analistas como IDC así lo advierten. La propuesta de valor de soluciones abiertas de búsqueda son principalmente “ rapid time-to-market, high-level functionality, flexibility and customization, low entry-level cost”. Lo curioso es que no es una cuestión puramente económica: las empresas no solamente están cansadas de incurrir en gastos de licencias, sino que demandan transparencia, escalabilidad y una comunidad con la cual compartir experiencias para adaptar dicho sistema a sus necesidades.

En el siguiente post de la mutación del Enterprise Seacrh hablaremos de la ubicuidad del buscador dentro de la empresa, y de los proyectos en los que se emplea.

Post publicado en colbenson.es.

By @borja_ramirez

Guardiola no es el único que habla de feeling estos días, tras quitarse de un plumazo a Etoo. La semana pasada leí por lo menos tres o cuatro artículos sobre Sentiment Analysis, uno en el New York Times, otros dos en El Pais, La red comercializa tus sentimientos y Mi empresa vigila atentamente tu blog, etc..Es evidente que el rollito de extraer feelings de datos en Internet está de moda. Software que no solo monitoriza, sino interpreta y te dice que es lo que la web social dice de ti y tus productos. Pero ojo, esto no es nuevo, Autonomy sin ir mas lejos lleva hablando de Meaning-Based Computing por lo menos cuatro años…

Luego hoy me despierto con el ultimo post del blog de Colbenson, que habla del proyecto de clasificación automática de incidencias y tras conversar con las personas del equipo técnico sobre los retos que han tenido que superar para lograr indices altos de éxito, me han venido a la cabeza todos estos articulos más las conversaciones que he mantenido en distintos foros (en el blog de Netoraton, K-Government, Estrategia Digital, Busqueda Empresarial, etc..) sobre la “extracción” de significado o la capacidad de interpretar un pedazo de texto e inferir un “sentimiento” que el software tiene a día de hoy.

Entiendo y respeto que cada cual tiene su perspectiva sobre el tema. Mi visión desde un prisma técnico, tras unos cuantos años como consultor en proyectos de procesado de texto no estructurado, como son los de búsqueda, categorización y personalización de información, es que se está avanzando mucho pero aun es sumamente complejo automatizar procesos que “entiendan” el significado de un texto y realicen acciones sobre el mismo de manera desatendida. Esto por supuesto no quiere decir que este tipo de proyecto no deba abordarse, sino todo lo contrario, todo lo que quiero decir es que aun debemos de contemplar escenarios donde los procesos automáticos de extracción de sentido de un texto deben ser supervisados y analizados por personas expertos en la materia. Me preguntaban el otro día en uno de estos debates, ¿que es mejor un analista con una herramienta de “sentyment analysis” o sin ella? pues verdaderamente la respuesta no es sencilla, si la herramienta es muy muy muy buena, no hay duda! pero si en cambio el analista se va a pasar más tiempo ordenando y desordenando ideas dentro de la herramienta quizás hubiese ahorrado su tiempo observando de manera manual las 10-15-20 fuentes que desea monitorizar y extraer sus propias conclusiones.

A ver, como apasionado de las tecnologías que soy, está claro que yo tiro por investigar, diagnosticar y personalizar algún producto hacia las necesidades de una empresa, bien sea para clasificar incidencias o para determinar el sentido o efecto que una campaña de marketing ha tenido en las redes sociales, pero simplemente quiero advertir del peligro que estos proyectos contraen si la percepción del cliente no es la idónea a la hora de asumir expectativas.

Jews = NOT (alcohol + salt)

Jews = Cause of Aids


Continuar leyendo…

Borja Ramirez Borja Ramirez

Via este post del blog Jeff’s Search Engine Caffe doy con la presentación de Jeff Dean de Google en el pasado WSDM 2009 (Web Search & Data Mining) celebrado en Barcelona. Es muy técnica, habla mucho de como ha crecido Google en infraestructura desde el 1999 hasta el 2009. Habla de arquitectura de índices (docs + queries), encoding, sistemas de caché, crawling vs indexing, etc..Para todos los lectores “técnicos” en búsqueda & Information Retrieval recomiendo la lectura.

Googles keynote WSDN09

Googles keynote WSDN09

Como nota final, resaltaría tres de los challenges o retos que Jeff resalta:

1) Continuously improving translation quality & large-scale systems work to deal with larger and more
complex language models.

2) Building retrieval systems that efficiently deal with ACLs that vary widely in size

3) algorithms/techniques for improved extraction of structured information from unstructured/semi-structured sources

Podeis ver el video completo de la presentación desde aquí.

Os suena todo esto verdad? Nosotros desde Colbenson, estamos trabajando muy duro en el punto 3 de extracción de entidades (el punto dos de gestionar la seguridad de los documentos ya lo controlamos gracias a la tecnología IDOL Server de Autonomy :)). El futuro de la búsqueda pasa por Exploratory Search el cual se respalda en entidades extraidas de información no estructurada.

Borja Ramirez Borja Ramirez

Para los que estais interesados en el mercado de eDiscovery, esta entrevista a Nicole Eagan, Chief Marketing Officer de Autonomy, realizada la semana pasada en el LegalTech 09 de Nueva York os puede interesar. Su impresión en cuanto a las tendencias de mercado en el area de Information Governance son: Audio eDiscovery (integrar contenidos de audio como llamadas telefónicas y mensajes de voz en los procesos de eDiscovery) y por otro lado a tendencia al Unified Storage y Archiving, es decir, la centralización de dispositivos para la preservación de datos corporativos (mensajería, voz, documentación, etc..). Pueden escuchar la entrevista en audio desde aqui.

Borja Ramirez Borja Ramirez

Autonomy lanza un nuevo modulo específico para la validación de procesos de búsqueda: Autonomy Introduces Industry First Search Process Validation Module to Ensure Defensible Search. Este módulo, parte de su nueva estrategia de eDiscovery, permite a las empresas certificar y validar ante un jurado que la búsqueda de datos dentro de la empresa ha sido correcta y exhaustiva.

Este año vamos a oir hablar mucho sobre Search Forensics, Search Validation, y todos estos nuevos “conceptos” derivados de eDiscovery; particularmente, toda eta marejada informativa procederá sobre todo del otro lado del Atlantico, lamentablemente en España las empresas no moverán un dedo hasta que la legislación que rija los procedimientos de almacenamiento, auditoria, minería, ect de datos corporativos se endurezca. Aqui podeis ver más sobre como va a afectar el eDiscovery a las empresas españolas.

Borja Ramirez Borja Ramirez

Esta semana, tras más de un año desde la adquisición de FAST, Microsoft empieza a enseñar sus cartas en el área Enterprise Search. Muchos de nosotros nos preguntábamos como iban a posicionarse en el mercado, como iban a integrar la gama de productos FAST sobre tecnología Linux, como diferenciarse de su actual solución de búsqueda Sharepoint, etc…Pues bien, de momento Microsoft ha anunciado que va a hacer un release de dos soluciones de búsqueda “low-cost”. Es decir, Microsoft se mete de lleno en la pelea de gallinero contra el GSA de Google, ambos productos por debajo de los 2.000€ (con sus limitaciones en numero de documentos, seguridad, etc..). Aun queda por saber la propuesta de Microsoft para proyectos corporativos de infraestructura de acceso y procesado de contenidos.

Con este comunicado, es evidente la segmentación en el area de Enterprise Search:

- “Low Cost” Enterprise Search: Site Search & (limited) intranet search. Este mercado ofrece respuestas a las empresas que requieren poner un cajón de búsqueda en su sitio Web o incluso en su Intranet (behind-the-firewall search), aunque con evidentes limitaciones, como la disponibilidad de seguridad no-mapeada. En este campo juegan Google GSA, Microsoft Search Server, Autonomy IDOL Lite o Ultraseek, soluciones Open Source como Lucene o SOLR, etc…

- Enterprise Search & Content Processing: Aquí la propuesta es diferente, no solo se trata de búsqueda, se trata de procesar contenidos, tratarlos, extraer entidades, analítica de texto, etc…como solución global de acceso a contenidos dentro de una empresa. También permiten a las empresas auditar sus contenidos, como las soluciones de eDiscovery, soluciones de almacenamiento y minería de datos, acceso a contenidos multimedia (audio & video), clusterización, etc..Los players en este campo son Autonomy, Vivisimo, Endeca, Exalead, etc… Suponemos que Microsoft también se posicionará en este campo una vez integre el software noruego que compró el año pasado.


Continuar leyendo…

Angel Maldonado Angel Maldonado

Anuncio Autonomy: AUTONOMY CORPORATION PLC ANNOUNCES AGREEMENT TO ACQUIRE INTERWOVEN, INC. FOR AN AGGREGATE CONSIDERATION OF APPROX. US$775 MILLION

Anuncio Interwoven: Interwoven announces definitive agreement to be aquired by Autonomy

Iremos comentando más pronto…

Borja Ramirez Borja Ramirez

Muchos de vosotros (clientes, lectores, compañeros, etc) me preguntáis a menudo acerca de fuentes de información, tales como foros de debate, blogs y demás sobre búsqueda empresarial. Me acabo de encontrar con un post de uno que suelo seguir en esta materia hablando de esto precisamente, y me he animado a ello:

Foros & Grupos (funcionales y técnicos):

- El grupo de Yahoo Search_Dev es un foro bastante dinámico. Los posts suelen ser bastante técnicos pero  recomiendo su seguimiento, puesto que siempre surge algo interesante.  Una de las ventajas es que no es muy biased hacia ningun producto en concreto; es decir, existen posts tanto de GSA, como de Autonomy, Endeca, FAST y todos los demás fabricantes. Obviamente predominan más unos productos que otros, pero al igual que su penetración en el mercado. De hecho, existe otro grupo Yahoo dedicado exclusivamente a tecnologia Autonomy. Uno de los moderadores de este foro es Miles Kehoe.

- Grupo IT Tool Box dispone también foros técnicos de Autonomy , Sharepoint, Opentext, etc.. los cuales está moderados por gente con mucha experiencia en este mundillo, algunos de ellos conocidos nuestros desde nuestros primeros pasos allá por el 2003.

- Grupo LinkedIn Enterprise Search Professionals para los que esteis conectados en esta cada dia más popular red social profesional. Alli nos podreis encontrar a algunos de nosotros.

Blogs de interés:

- Uno de los activos es el blog Steven Arnold Beyond Search en el que habla continuamente de todos los fabricantes en este nicho de busqueda dentro de la empresa o como la define el search-behind-the-firewall.

- Otra fuente interesante es CMS Watch, donde analizan el mercado, comercializan infomres, etc..

- Entreprise Search Practice Blog de Gilbane Group (analistas de mercado al igual que CMS, Forrester, Gartner, etc..), pero especializados en este area tecnologico en particular.

- El blog de NIE no es muy activo pero merece la pena. Recomiendo los newsletters sobre Enterprise Search de la misma empresa New Idea Engineering.

- The Nosiy Channel tambien es un blog que merece la pena seguir de cerca.

- El blog oficial de Google Enterprise lo podeis encontrar aqui. Habla bastante sobre otros temas como Google Docs y otras apps, pero de vez en cuando tratan el tema de enterprise search. Sinceramente me sorprende de Google, que no apuesten de manera más agresiva en marketing y desarrollo prodcuto del GSA.

- MSN tambien toca temas de buscadores de empresa en su blog oficial.

- Aqui teneis el blog de otro fabricante de software de busqueda empresaril Vivisimo, se llama Search Done Right.

- como vereis, lamentablemente, la seleccion de blogs que he realizado son en inglés. En castellano, podemos leer el blog de Colbenson ;-), un interesante blog acerca del mundillo de buscadores dentro de la empresa, donde asiduamente escribo.

Bueno, creo que estos son los principales, luego ha bastantes más, pero con una inclinación más hacia SEO y serach en la web, o search engine marketing.

Seguro que se me escapa alguno, osea que por favor comentadnos si conoceis algun blogs, informes, etc., que merezca la pena!

Borja Ramirez Borja Ramirez

Como continuación a la interesante entrada de Angel y tras haber participado personalmente en el internacionalmente publicitado proyecto del Servicio Extremeño de Salud al que hace mención, me permito añadir una serie de comentarios.

El principal valor obtenido tras la implantación de tecnología de búsqueda para la asistencia en la prescripción médica ha sido el de alertar al facultativo en el mismo momento de dar de alta una receta que uno o varios de los fármacos prescritos pueden causar un riesgo (leve/moderado/grave o muy grave)en el paciente.  El propio sistema puede de manera indirecta minimizar el riesgo de una prescripción desafortunada en un paciente.

El propio sistema realiza en tiempo real una serie de consultas cruzadas entre datos procedentes de bases de datos externas de fármacos, como por ejemplo el BOT del Consejo Gral. de Colegios Farmacéuticos, Guía Terapéutica GPT, etc.. y los propios datos del paciente (edad, sexo, alergias, histórico de tratamientos, etc..) con el fin de identificar “incompatibilidades” en la prescripción. El sistema trata de verificar que los fármacos que pretenden ser prescritos no van a interactuar de manera negativa entre si y/o con el paciente;  en caso de detectar cualquier situación de riesgo, el sistema genera las siguientes alertas automaticamente:


Continuar leyendo…

Borja Ramirez Borja Ramirez

Una presentación interesante por parte de Novak Spivack, CEO y fundador de Radar Networks, acerca de la web semantica.  Su discurso tiene tintes comerciales, en linea con el producto estrella de su start-up Twine, pero me parece interesante el debate que plantea: ¿es preferible ordenar y acceder a la información de manera semántica (en base a su significado) utilizando tagging y otras herramientas “sociales” tipo 2.0, o es mejor un approach probabilístico hacia el problema como otras tecnologias tipo Google o Autonomy, tambien apoyadas por suspuesto por elementos de social ware?

Food for thought.

Nova Spivack at The Next Web Conference 2008 from Boris Veldhuijzen van Zanten on Vimeo.

Creative Commons License
Esta obra está bajo una licencia de Creative Commons.
Powered by WordPress | Theme design based on "Corporate" by Ori Pearl