Este articulo de S. Arnold de Beyond Search acerca de la guerra de precios entre Microsoft y Google por servicios de email corporativo me ha hecho reflexionar:
Microsoft has recently stepped up efforts to sells its online applications as Google intensifies its efforts to replace Exchange/Outlook and IBM Lotus Notes on desktops. Earlier this month, it dropped its prices by up to 50% on Exchange Online. Companies using or migrating to Exchange Online include GlaxoSmithKline, with 110,000 seats, and Aon, with 36,000 seats.
Es evidente, nosotros ya lo vemos cada vez más, que las empresas están perdiendo el miedo a externalizar servicios, en ocasiones tan críticos como el correo corporativo. Gmail de repente ya no es una locura para una empresa.
¿cuanto tiempo van a tardar las empresas en contratar el software de búsqueda empresarial en modo SaaS? Ya tenemos muchos ejemplos de que la tendencia es la de contratar la búsqueda como un servicio y no como un proyecto de implantación.
¿que opinais?
Via este post del blog Jeff’s Search Engine Caffe doy con la presentación de Jeff Dean de Google en el pasado WSDM 2009 (Web Search & Data Mining) celebrado en Barcelona. Es muy técnica, habla mucho de como ha crecido Google en infraestructura desde el 1999 hasta el 2009. Habla de arquitectura de índices (docs + queries), encoding, sistemas de caché, crawling vs indexing, etc..Para todos los lectores “técnicos” en búsqueda & Information Retrieval recomiendo la lectura.
Como nota final, resaltaría tres de los challenges o retos que Jeff resalta:
1) Continuously improving translation quality & large-scale systems work to deal with larger and more
complex language models.2) Building retrieval systems that efficiently deal with ACLs that vary widely in size
3) algorithms/techniques for improved extraction of structured information from unstructured/semi-structured sources
Podeis ver el video completo de la presentación desde aquí.
Os suena todo esto verdad? Nosotros desde Colbenson, estamos trabajando muy duro en el punto 3 de extracción de entidades (el punto dos de gestionar la seguridad de los documentos ya lo controlamos gracias a la tecnología IDOL Server de Autonomy :)). El futuro de la búsqueda pasa por Exploratory Search el cual se respalda en entidades extraidas de información no estructurada.
Esta es la pregunta que muchos os preguntais y que nosotros tratamos de responder con más o menos acierto. La respuesta es muy simple: DEPENDE!!! Pero no depende tanto del producto que se utilice (Autonomy, FAST, Google, etc..), sino de la calidad de las fuentes que se deseen indexar! Depende de la calidad de los datos (i.e. metadatos) (más que del propio volumen de datos), depende de los requisitos funcionales (se requiere categorizar, extraer entidades, hipervincular datos entre si, introducir enlaces destacados, geo-posicionar contenidos, etc..), depende de la necesidades de seguridad (i.e. ¿existen permisos de lectura y usuarios a nivel de documento?), depende de las expectativas en el ranking de resultados y del tuning final del sistema, depende de las necesidades de arquitectura (i.e. no es lo mismo satisfacer 5 QPS que hacerlo para 80), etc…Un proyecto de implantación de un buscador empresarial puede ir desde un mes hasta unos 6 meses. Si todo está pensado y en su sitio al principio del proyecto, por ejemplo los datos están limpios, el interfaz diseñado (i.e. página de resultados, etc..), los escenarios de uso maquetados, etc…el proyecto se puede hacer en 2 semanas, pero si todos estos asuntos están áun verdes al inicio, el proyecto se demora. Lo que sí es verdaderamente fundamental para el éxito de su proyecto es trabajar con expertos en proyectos de búsqueda empresarial para que hagan las preguntas oportunas al principio del proyecto y no al final, cuando se haya metido la pata.
Aqui en el grupo de LinkedIn de Enterprise Search teneis diversas respuestas a esta pregunta por algunos expertos en este tipo de proyectos.
Rarely, if ever, can you drop in a search engine, index the content and expect the user to be satisfied with the out-of-box results. Deployment is an iterative process of tuning the relevancy, massaging the data, reindexing, testing, repeating.
What can drag out the deliverable, and something often overlooked in the preliminary stages of an implementation are the acceptance requirements. Nailing these down at the start is key – sample queries, expected responses, indexing times, QPS requirements, navigation constructs ( categorization, entity extraction, etc..)….
… I’m sorry , I realize this hasn’t answered the question, but it reminds me of the question posed to the Sales guy : ” How much does a search engine cost?” His response, ” How long is a piece of string?”.
Llevo tratando de escribir acerca de servicios SaaS por lo menos 3 meses, creo que ha llegado el momento ;)
Algunos de vosotros (cada día menos) os preguntareis que es SaaS. Bien, las siglas SaaS corresponden a Software as a Service, es decir software bajo demanda o software como servicio web. En otras palabras, se refiere a software en la nube que puedes utilizar con tu navegador y conexión a Internet; por ejemplo Gmail es un servicio SaaS de email. Pero ojo, SaaS no es lo mismo que ASP. ASP era principalmente un modelo de financiación, y fracasó entre otras razones porque las aplicaciones que servía no eran nativas Web, como lo son a día de hoy.
Bueno, tras esta breve intro, vamos al ajo: cada día son más los clientes que nos preguntan: ¿abordo mi proyecto de buscador de empresa internamente (i.e. comprar licencias e implantarlas) o “alquilo” el sistema en modo SaaS? Existen varios criterios que deben considerarse para tomar este tipo de decisión: de carácter económico (¿es más barato alquilar SaaS que un proyecto de implantación a medio plazo?), de seguridad (¿donde va a residir la documentación privada de la empresa?), de mantenimiento y administración de sistemas (¿que garantías me da un sistema sobre el cual no tengo control directo?), de disponibilidad o tiempos de puesta en marcha, etc.. que voy a intentar exponer en las siguientes lineas.
Por supuesto, no existe una formula mágica, la decisión correcta depende de muchos factores (proveedor, tecnología, calidad servicio, etc.) pero la realidad es que para un proyecto de búsqueda empresarial en particular, los indices de adopción en modo SaaS ya son del 57%, según este informe de eConsultancy. Como este informe bien indica, el uso de SaaS es diferente según la tecnología, por ejemplo esta tendencia es aún más pronunciada en proyectos de gestión de contenidos (CMS) (59%), o incluso en email Archiving (77%), y lógicamente no es tan recurrente por ejemplo en aplicativos de productividad como Office. El efecto “cloud computing” todavía no es una realidad es nuestras clásicas aplicaciones de cliente pesado como Office (Outlook, Word, etc..), pero tiempo al tiempo.
Autonomy lanza un nuevo modulo específico para la validación de procesos de búsqueda: Autonomy Introduces Industry First Search Process Validation Module to Ensure Defensible Search. Este módulo, parte de su nueva estrategia de eDiscovery, permite a las empresas certificar y validar ante un jurado que la búsqueda de datos dentro de la empresa ha sido correcta y exhaustiva.
Este año vamos a oir hablar mucho sobre Search Forensics, Search Validation, y todos estos nuevos “conceptos” derivados de eDiscovery; particularmente, toda eta marejada informativa procederá sobre todo del otro lado del Atlantico, lamentablemente en España las empresas no moverán un dedo hasta que la legislación que rija los procedimientos de almacenamiento, auditoria, minería, ect de datos corporativos se endurezca. Aqui podeis ver más sobre como va a afectar el eDiscovery a las empresas españolas.
Tras el anuncio de los dos productos de búsqueda low-cost de Microsoft (Search Server and Search Server Express), la empresa de Redmond desvela su roadmap de Enterprise Search al completo. De momento anuncian que van a garantizar soporte para los actuales clientes de FAST por un periodo mínimo de 10 años, tambien anuncian que van a seguir soportando plataformas UNIX, Linux y Windows ;-), y van a mantener al equipo comercial “sobreviviente” de FAST y sus actuales distribuidores VAR para su futura comercialización. Su precio de lista actual es de 25.000$ por servidor. Toda la información será presentada formalmente en el Fast Forward 09 en la Vegas.
No obstante aun quedan muchas dudas por despejar, debido al solapamiento evidente funcional entre varios de sus productos. Como bien lo describe la gente de Enterprisesearchblog.com:
Some questions remain. For example, Microsoft Search Server qualifies as a pretty decent search technology, and its crawler can fetch data from intranet sites. ESP for SharePoint provides some exciting Enterprise Search 2.0 capabilities including faceted search, powerful search federation, and a wide variety of connectors, and for companies that need the capability can get it now.
What will the upgrade path be to migrate from ESP for SharePoint to FAST Search for SharePoint? How will they be positioned versus Search Server?
Esta semana, tras más de un año desde la adquisición de FAST, Microsoft empieza a enseñar sus cartas en el área Enterprise Search. Muchos de nosotros nos preguntábamos como iban a posicionarse en el mercado, como iban a integrar la gama de productos FAST sobre tecnología Linux, como diferenciarse de su actual solución de búsqueda Sharepoint, etc…Pues bien, de momento Microsoft ha anunciado que va a hacer un release de dos soluciones de búsqueda “low-cost”. Es decir, Microsoft se mete de lleno en la pelea de gallinero contra el GSA de Google, ambos productos por debajo de los 2.000€ (con sus limitaciones en numero de documentos, seguridad, etc..). Aun queda por saber la propuesta de Microsoft para proyectos corporativos de infraestructura de acceso y procesado de contenidos.
Con este comunicado, es evidente la segmentación en el area de Enterprise Search:
- “Low Cost” Enterprise Search: Site Search & (limited) intranet search. Este mercado ofrece respuestas a las empresas que requieren poner un cajón de búsqueda en su sitio Web o incluso en su Intranet (behind-the-firewall search), aunque con evidentes limitaciones, como la disponibilidad de seguridad no-mapeada. En este campo juegan Google GSA, Microsoft Search Server, Autonomy IDOL Lite o Ultraseek, soluciones Open Source como Lucene o SOLR, etc…
- Enterprise Search & Content Processing: Aquí la propuesta es diferente, no solo se trata de búsqueda, se trata de procesar contenidos, tratarlos, extraer entidades, analítica de texto, etc…como solución global de acceso a contenidos dentro de una empresa. También permiten a las empresas auditar sus contenidos, como las soluciones de eDiscovery, soluciones de almacenamiento y minería de datos, acceso a contenidos multimedia (audio & video), clusterización, etc..Los players en este campo son Autonomy, Vivisimo, Endeca, Exalead, etc… Suponemos que Microsoft también se posicionará en este campo una vez integre el software noruego que compró el año pasado.
Este post de Colbenson requiere una reflexión. Nos habla sobre como todos nosotros, habituales usuarios de buscadores Web como Google, nos hemos habituado a ignorar los elementos de publicidad, y nos hemos vuelto inmunes a todo lo que rodea una lista de resultados. Nuestro foco de atención se dirige directamente al primer resultado; todo lo demás es redundante. El equipo de Colbenson reitera las conclusiones de un estudio de eye tracking sobre Google Adwords con datos de sus clientes. La imagen de abajo muestra los resultados de dicho estudio.
Muchas empresas comienzan a “esconder” o mejor dicho a integrar resultados “predefinidos” y asociados a determinadas palabras clave (lease enlaces patrocinados) entre los propios resultados de una búsqueda, debido a este efecto de inmunidad que provocan los Adwords de Google. Esto comienza a ser una practica común en los buscadores de empresa (tanto en los internos de INternet como en los externos para cliente) e incluso en los de algunas instituciones públicas.
¿Que opinais al respecto? ¿creeis que cuando un resultado procede de un enlace, el usuario debería de ser notificado? Todo un tema para debate…
I post below my comments re:enterprise search software in the cloud, say in SaaS mode, taken from the LinkedIn Enterprise Search Proffessionals Group. If you´re not yet subscribed, I highly recommend doig so.
Interesting conversation….my answer re: cloud based search is that it is a good fit for site search, but not so good for intranet search. Nevertheless, all enterprise search software companies will be obliged to offer their product line in a SaaS basis in order to be competitive in the near future.
I´ve read all your comments with great detail, and I agree with most of you in the sense that an enterprise search through a SaaS or IaaS approach shows many pros or cons…my personal take on this is that most site search projects will tend to live in the cloud very soon, and in the other hand most corporate “behind-the-firewall” search projects will tend to be managed and hosted internally. Some of you have already highlighted the underlying criteria for hosting corporate access infrastructures internally (internal compliance re: corporate data hosting, not being able to have all security control settings such as direct synch-ups with user directories & doc ACLs living outside the company, having control over indexing processes, scaling hw when needed, fault tolerance, etc..), these are too many hurdles to cross for an internal secured access platform to be externalized to the cloud.
Muchos de vosotros (clientes, lectores, compañeros, etc) me preguntáis a menudo acerca de fuentes de información, tales como foros de debate, blogs y demás sobre búsqueda empresarial. Me acabo de encontrar con un post de uno que suelo seguir en esta materia hablando de esto precisamente, y me he animado a ello:
Foros & Grupos (funcionales y técnicos):
- El grupo de Yahoo Search_Dev es un foro bastante dinámico. Los posts suelen ser bastante técnicos pero recomiendo su seguimiento, puesto que siempre surge algo interesante. Una de las ventajas es que no es muy biased hacia ningun producto en concreto; es decir, existen posts tanto de GSA, como de Autonomy, Endeca, FAST y todos los demás fabricantes. Obviamente predominan más unos productos que otros, pero al igual que su penetración en el mercado. De hecho, existe otro grupo Yahoo dedicado exclusivamente a tecnologia Autonomy. Uno de los moderadores de este foro es Miles Kehoe.
- Grupo IT Tool Box dispone también foros técnicos de Autonomy , Sharepoint, Opentext, etc.. los cuales está moderados por gente con mucha experiencia en este mundillo, algunos de ellos conocidos nuestros desde nuestros primeros pasos allá por el 2003.
- Grupo LinkedIn Enterprise Search Professionals para los que esteis conectados en esta cada dia más popular red social profesional. Alli nos podreis encontrar a algunos de nosotros.
Blogs de interés:
- Uno de los activos es el blog Steven Arnold Beyond Search en el que habla continuamente de todos los fabricantes en este nicho de busqueda dentro de la empresa o como la define el search-behind-the-firewall.
- Otra fuente interesante es CMS Watch, donde analizan el mercado, comercializan infomres, etc..
- Entreprise Search Practice Blog de Gilbane Group (analistas de mercado al igual que CMS, Forrester, Gartner, etc..), pero especializados en este area tecnologico en particular.
- El blog de NIE no es muy activo pero merece la pena. Recomiendo los newsletters sobre Enterprise Search de la misma empresa New Idea Engineering.
- The Nosiy Channel tambien es un blog que merece la pena seguir de cerca.
- El blog oficial de Google Enterprise lo podeis encontrar aqui. Habla bastante sobre otros temas como Google Docs y otras apps, pero de vez en cuando tratan el tema de enterprise search. Sinceramente me sorprende de Google, que no apuesten de manera más agresiva en marketing y desarrollo prodcuto del GSA.
- MSN tambien toca temas de buscadores de empresa en su blog oficial.
- Aqui teneis el blog de otro fabricante de software de busqueda empresaril Vivisimo, se llama Search Done Right.
- como vereis, lamentablemente, la seleccion de blogs que he realizado son en inglés. En castellano, podemos leer el blog de Colbenson ;-), un interesante blog acerca del mundillo de buscadores dentro de la empresa, donde asiduamente escribo.
Bueno, creo que estos son los principales, luego ha bastantes más, pero con una inclinación más hacia SEO y serach en la web, o search engine marketing.
Seguro que se me escapa alguno, osea que por favor comentadnos si conoceis algun blogs, informes, etc., que merezca la pena!