Angel Maldonado
Las redes sociales amplifican, conectan y nos hacen llegar información sin necesitar que la busquemos. Emplear redes sociales y seguir Blogs via RSSs en Internet reduce nuestro consumo de buscadores generalistas, dinamiza y enriquece los procesos de información.
Por primera vez, Twitter representa un riesgo importante al crecimiento de Google (Lew Moorman).
Las redes sociales reducen nuestro consumo de buscadores y otros puntos de acceso a Internet.
Aquí documento mis experiencias sobre twitter que me han llevado a pensar esto:
Sin realizar una sola búsqueda he encontrado los pedazos más valiosos de información, he dado con información directamente relacionada con mis intenciones de búsqueda más retantes.
Via este post del blog Jeff’s Search Engine Caffe doy con la presentación de Jeff Dean de Google en el pasado WSDM 2009 (Web Search & Data Mining) celebrado en Barcelona. Es muy técnica, habla mucho de como ha crecido Google en infraestructura desde el 1999 hasta el 2009. Habla de arquitectura de índices (docs + queries), encoding, sistemas de caché, crawling vs indexing, etc..Para todos los lectores “técnicos” en búsqueda & Information Retrieval recomiendo la lectura.
Como nota final, resaltaría tres de los challenges o retos que Jeff resalta:
1) Continuously improving translation quality & large-scale systems work to deal with larger and more
complex language models.2) Building retrieval systems that efficiently deal with ACLs that vary widely in size
3) algorithms/techniques for improved extraction of structured information from unstructured/semi-structured sources
Podeis ver el video completo de la presentación desde aquí.
Os suena todo esto verdad? Nosotros desde Colbenson, estamos trabajando muy duro en el punto 3 de extracción de entidades (el punto dos de gestionar la seguridad de los documentos ya lo controlamos gracias a la tecnología IDOL Server de Autonomy :)). El futuro de la búsqueda pasa por Exploratory Search el cual se respalda en entidades extraidas de información no estructurada.
En este blog hemos hablado con asiduidad sobre la necesidad de los medios en buscar soluciones, muchas de ellas tecnológicas, para sobrevivir en un mundo digital. Mientras todos hablamos de como los medios locales deben reconvertirse al mundo digital, este artículo de Jonathan Weber de New West, un nuevo medio “local” digital estadounidense ofrece una visión práctica, simplista y efectiva:
We have a very active photo group on Flickr, and get great feature photography from that. We mostly use Google for fact-checking – not fool-proof, but it works. We use Twitter and Facebook and RSS to push our stories out into the world. We do great video-driven stories when we can, and happily link to others’ videos. In fact, we happily link to a lot of stuff, sometimes in combination with our own reporting and sometimes not. We have lively comment threads, which we manage with as light a hand as we can and which are often additive to the stories in addition to being entertaining. We have very active event calendars in our local markets - separate from our main sites but well-integrated, and with a dedicated editor. We’re experimenting with a new social media site in Missoula, and we’ll see where that goes.
Otros conceptos interesantes que introduce son los local blogs, ofrecer nuevos modelos de publicidad híbridos digital + eventos locales (New West experience) para los anunciantes, el uso de widgets externos para mejorar y enriquecer la experiencia de usuario, etc.. la verdad es que recomiendo la lectura de este post a todos nuestros lectores de Medios.
Yo soy de los que pienso que hay que ABRIR la información y explotar multiples canales para buscar rentabilidad: redistribuir contenidos por otros canales como redes sociales, blogs, microblogs, mapas, videos, TV sobre IP, etc…hay que facilitar la reutilización de contenidos, poner facilidades y no trabas!. Ahí está la rentabilidad! lo del pago por contenido is part of the past!
Estoy deseoso de ver los resultados de estos grandes ejemplos de reutilizacion de contenidos, la Open Platform del The Guardian, y el TimesPeople API de NY Times.
Me quedo con este comentario de Juan Varela: “Es la ecuación de casi todos los medios con futuro: más acceso y menos restricciones, más audiencia y mercado distribuido.”
Esta es la pregunta que muchos os preguntais y que nosotros tratamos de responder con más o menos acierto. La respuesta es muy simple: DEPENDE!!! Pero no depende tanto del producto que se utilice (Autonomy, FAST, Google, etc..), sino de la calidad de las fuentes que se deseen indexar! Depende de la calidad de los datos (i.e. metadatos) (más que del propio volumen de datos), depende de los requisitos funcionales (se requiere categorizar, extraer entidades, hipervincular datos entre si, introducir enlaces destacados, geo-posicionar contenidos, etc..), depende de la necesidades de seguridad (i.e. ¿existen permisos de lectura y usuarios a nivel de documento?), depende de las expectativas en el ranking de resultados y del tuning final del sistema, depende de las necesidades de arquitectura (i.e. no es lo mismo satisfacer 5 QPS que hacerlo para 80), etc…Un proyecto de implantación de un buscador empresarial puede ir desde un mes hasta unos 6 meses. Si todo está pensado y en su sitio al principio del proyecto, por ejemplo los datos están limpios, el interfaz diseñado (i.e. página de resultados, etc..), los escenarios de uso maquetados, etc…el proyecto se puede hacer en 2 semanas, pero si todos estos asuntos están áun verdes al inicio, el proyecto se demora. Lo que sí es verdaderamente fundamental para el éxito de su proyecto es trabajar con expertos en proyectos de búsqueda empresarial para que hagan las preguntas oportunas al principio del proyecto y no al final, cuando se haya metido la pata.
Aqui en el grupo de LinkedIn de Enterprise Search teneis diversas respuestas a esta pregunta por algunos expertos en este tipo de proyectos.
Rarely, if ever, can you drop in a search engine, index the content and expect the user to be satisfied with the out-of-box results. Deployment is an iterative process of tuning the relevancy, massaging the data, reindexing, testing, repeating.
What can drag out the deliverable, and something often overlooked in the preliminary stages of an implementation are the acceptance requirements. Nailing these down at the start is key – sample queries, expected responses, indexing times, QPS requirements, navigation constructs ( categorization, entity extraction, etc..)….
… I’m sorry , I realize this hasn’t answered the question, but it reminds me of the question posed to the Sales guy : ” How much does a search engine cost?” His response, ” How long is a piece of string?”.
Via el blog de Mark Logic doy con esta presentación de Christine Conners de Dow Jones, uno de los medios lideres en EEUU parte de News Corp, sobre el uso de tecnologías semánticas. En particular me gusta el modelo de enriquecimiento “semántico” de contenidos que propone: Asses > Design > Build > Maintain. Principalmente te viene a decir que comienzas por una architectura de la información con un esquema de atributos fijo, el cual se va enriqueciendo dinámicamente mediante la extracción de entidades (“indexación inteligente” que etiqueta nombres de lugares, personajes, categorías o nodos de taxonomías, etc), y cada día más con componenttes sociales como son comentarios, analítica de uso, etc…Esto refleja nuestro espíritu de que un contenido es el eje de una conversación que se enriquece de manera dinámica con todas las interacciones “sociales” que lo rodean.
¿No os resulta curioso que una editorial tenga una Directora de tecnologías semánticas?
Este articulo de John Batelle, gurú en esto de buscadores como Google, me ha hecho reflexionar, pero paradójicamente aun más los comentarios que el post ha suscitado entre sus lectores. John habla del cambio en las pautas de uso de internet que todos estamos adoptando, de la rapidez con la que muchos de nosotros nos hemos lanzado a conversar en multitud de sitios Web, micro-blogs, redes sociales, etc..de repente hemos pasado de ser consumidores de información a contribuidores, ahora hablamos de lo que estamos haciendo en este momento, lo que se nos pasa por la cabeza, compartimos un post que nos gusta, opinamos sobre las ultimas elecciones, etc..pero ¿que quiere decir todo esto? ahora yo si quiero buscar información sobre algo de actualidad, no lo busco en Google, lo busco en Twitter, porque no me interesa tanto la noticia, sino lo que la gente comenta sobre la misma ahora mismo, y sobre todo la gente que a mi me interesa.
Esto muchos lo llaman Social Search, y otros simplemente dicen que Search se queda corto, porque ahora en vez de buscar escucho a la gente que yo quiero escuchar. ¿Ahora entendéis porque Google está que se caga con Facebook y Twitter, y Facebook con Twitter a la misma vez? La puerta de acceso a Internet ya no es Google sino mis contactos (tanto redes sociales como Facebook, LinkedIn, etc..) como los blogs y microblogs de la gente que sigo. Una cosa es evidente, Google tiene muchos retos por delante como poder rastrear y facilitar búsqueda en tiempo real y también acceder a páginas personales protegidas como son las de Facebook o LinkedIn por ejemplo. Entonces ¿como van a ser capaces de decirme lo que dice la gente?, pero bueno eso es otro tipo de conversación y debate sobre The Future of Search…(solo quiero lanzar otro dato más para los más escépticos ;), el numero de visitas en este blog procedentes de Twitter desde que abrí una cuenta (http://twitter.com/borja_ramirez) está creciendo como la espuma y en un futuro cercano estoy seguro que igualará o superará a las visitas orgánicas de buscadores como Google. Este dato es demoledor!).
¡Vivimos tiempos apasionantes!
Llevo tratando de escribir acerca de servicios SaaS por lo menos 3 meses, creo que ha llegado el momento ;)
Algunos de vosotros (cada día menos) os preguntareis que es SaaS. Bien, las siglas SaaS corresponden a Software as a Service, es decir software bajo demanda o software como servicio web. En otras palabras, se refiere a software en la nube que puedes utilizar con tu navegador y conexión a Internet; por ejemplo Gmail es un servicio SaaS de email. Pero ojo, SaaS no es lo mismo que ASP. ASP era principalmente un modelo de financiación, y fracasó entre otras razones porque las aplicaciones que servía no eran nativas Web, como lo son a día de hoy.
Bueno, tras esta breve intro, vamos al ajo: cada día son más los clientes que nos preguntan: ¿abordo mi proyecto de buscador de empresa internamente (i.e. comprar licencias e implantarlas) o “alquilo” el sistema en modo SaaS? Existen varios criterios que deben considerarse para tomar este tipo de decisión: de carácter económico (¿es más barato alquilar SaaS que un proyecto de implantación a medio plazo?), de seguridad (¿donde va a residir la documentación privada de la empresa?), de mantenimiento y administración de sistemas (¿que garantías me da un sistema sobre el cual no tengo control directo?), de disponibilidad o tiempos de puesta en marcha, etc.. que voy a intentar exponer en las siguientes lineas.
Por supuesto, no existe una formula mágica, la decisión correcta depende de muchos factores (proveedor, tecnología, calidad servicio, etc.) pero la realidad es que para un proyecto de búsqueda empresarial en particular, los indices de adopción en modo SaaS ya son del 57%, según este informe de eConsultancy. Como este informe bien indica, el uso de SaaS es diferente según la tecnología, por ejemplo esta tendencia es aún más pronunciada en proyectos de gestión de contenidos (CMS) (59%), o incluso en email Archiving (77%), y lógicamente no es tan recurrente por ejemplo en aplicativos de productividad como Office. El efecto “cloud computing” todavía no es una realidad es nuestras clásicas aplicaciones de cliente pesado como Office (Outlook, Word, etc..), pero tiempo al tiempo.