Skip to main content
European Commission logo
español español
CORDIS - Resultados de investigaciones de la UE
CORDIS
CORDIS Web 30th anniversary CORDIS Web 30th anniversary
Contenido archivado el 2024-06-18

Ultra-Scalable and Ultra-Efficient Integrated and Visual Big Data Analytics

Article Category

Article available in the following languages:

Combinación de bases de datos operacionales y analíticas en una sola plataforma

El proyecto LEANBIGDATA, financiado por la Unión Europea, ha creado una plataforma de datos masivos («Big Data») capaz de reducir el coste del análisis de datos a la mitad y llevar a cabo este proceso en tiempo real.

El proyecto, bajo dirección española, tiene como finalidad permitir a las empresas aprovechar mucho mejor sus datos masivosutilizando muchos menos recursos. LEANBIGDATA ha desarrollado una plataforma ultraeficiente y muy escalable para administrar datos masivos. Las grandes empresas y organizaciones procesan cantidades de datos que crecen sin parar. A menudo, sin embargo, las técnicas que utilizan para ello son ineficientes y consumen muchos recursos. Por lo general, las organizaciones utilizan dos bases de datos: una para los datos operacionales y otra como almacén de datos. Para analizar los datos, deben copiarlos de la primera a la segunda y, teniendo en cuenta la velocidad a la que los datos quedan obsoletos, esto se debe hacer con regularidad, normalmente una vez al día. La preparación y el mantenimiento de este proceso, que se conoce como extracción-transformación-carga (ETL), son costosos. Ricardo Jiménez, coordinador técnico de LEANBIGDATA y director ejecutivo y cofundador de LeanXcale, empresa creada para comercializar los resultados principales del proyecto, afirma que «este proceso representa entre el 75 % y el 80 % del coste del análisis de datos». Además, los análisis de datos masivosse suelen realizar por lotes, en lugar de hacerlo en tiempo real, así que los usuarios no pueden reaccionar rápidamente a cualquier evento. Dos por el precio de uno El equipo de LEANBIGDATA ha diseñado una solución arquitectónica que ofrece las dos vertientes, operacional y analítica, en una, lo cual aumenta la eficiencia de forma muy notable. Se ha creado un sistema de gestión transaccional que se escala linealmente hasta volúmenes muy elevados, lo cual permite que la parte operacional de la base de datos soporte la carga analítica. Se han creado tres nuevos sistemas de gestión. El primero es un almacén de datos de valores clave, una especie de tecnología NoSQL que se utiliza para almacenar los datos de la base de datos combinada. El segundo es un sistema de procesamiento de eventos complejos que permite transmitir datos de eventos en tiempo real. El tercero es un motor de consultas SQL distribuido que puede aprovechar varios ordenadores para realizar una sola consulta. «Esto significa que es posible responder a una consulta en un tiempo de respuesta en línea, que es el tiempo que un usuario típico estaría dispuesto a esperar», señala el Dr. Jiménez. El equipo ha probado la tecnología mediante estudios de casos, como el estudio del estado de ánimo de los votantes en las elecciones españolas y estadounidenses mediante el análisis de sus tweets en tiempo real. Este estudio mostró la evolución de las opiniones y, además, permitió a los analistas ver qué había detrás de estas opiniones, por ejemplo mediante el análisis de las palabras que se utilizaban con mayor frecuencia. «Cuando estalló el escándalo de los correos electrónicos, se podía utilizar el sistema para ver cuántos tweets hacían referencia a la reputación de Clinton», explica el Dr. Jiménez. «No pretendíamos predecir los resultados, pero hubiésemos podido aportar información útil a los analistas». En una segunda prueba, realizada en Italia, se utilizaron las huellas dejadas por la gente en las redes sociales para elaborar perfiles de clientes y ayudar a los bancos a detectar casos de fraude de identidad. Análisis empresarial en tiempo real El equipo de LEANBIGDATA confía en que su plataforma unificada pueda abordar las distintas necesidades relativas a la manipulación de datos en grandes organizaciones. Podría reducir el coste del análisis de datos a la mitad evitando la necesidad de configurar y mantener ETL. «La posibilidad de realizar análisis empresarial en tiempo real permitirá a los negocios ser mucho más ágiles», explica el Dr. Jiménez. LeanXcale, establecida por la institución principal de LEANBIGDATA, la Universidad Politécnica de Madrid, planea su lanzamiento comercial en otoño de 2017 y ya está preparando pruebas del concepto con bancos, empresas de telecomunicaciones, grandes minoristas y empresas tecnológicas de viajes.

Palabras clave

LEANBIGDATA, bases de datos SQL, gestión de datos masivos, Big Data, almacén de datos de valores clave, procesamiento de eventos complejos, base de datos operacional, almacén de datos, análisis en tiempo real

Descubra otros artículos del mismo campo de aplicación