Reduciendo la incertidumbre de los datos

Un grupo de investigadores de la Unión Europea ha desarrollado sistemas de datos que utilizan el razonamiento estadístico y probabilístico para reducir la incertidumbre. El proyecto ayudó a unificar estos métodos con bases de datos convencionales, en parte mediante el desarrollo de algoritmos escalables y distintas herramientas nuevas.

Economía digital

Existen aplicaciones de software diversas que deben gestionar y tomar decisiones con datos con niveles elevados de incertidumbre. Aunque algunas herramientas pueden llenar los vacíos hasta cierto punto, por lo general estas herramientas son simplistas y limitadas. El proyecto «Heisendata - towards a next-generation uncertain-data management system» (HEISENDATA), financiado por la Unión Europea, tenía como finalidad mejorar esta situación. El equipo del proyecto pretendía diseñar y construir nuevos sistemas de bases de datos probabilistas (PDBS) que admitiesen modelos estadísticos y el razonamiento probabilístico además de las estructuras de base de datos convencionales. El proyecto pretendía abordar los retos que implica esta nueva unión, los cuales incluían el rediseño de los componentes claves del sistema. HEISENDATA tuvo una andadura de cuatro años, hasta el mes de febrero de 2014. El trabajo del proyecto abarcó tres ramas principales: nuevas sinopsis de datos probabilísticos para optimización de consultas, nuevos algoritmos y arquitecturas de PDBS y algoritmos y herramientas escalables. Las sinopsis de datos implicaron definir y crear algoritmos para construir histogramas. Para distintas métricas de errores, los nuevos algoritmos generaban histogramas óptimos o casi óptimos y sinopsis de ondículas. A continuación, el trabajo del proyecto introdujo histogramas probabilísticos que permitían representar con mayor precisión las características de incertidumbre de los datos. Además, el equipo abordó problemas relacionados con el texto no estructurado con unidades de información estructurada. Las soluciones ampliaron un modelo de extracción de información (EI) de los mejores disponibles, mediante el desarrollo de dos enfoques para las consultas. La eficacia y la eficiencia de los enfoques se comparó con conjuntos de datos de la vida real. El resultado fue un conjunto de reglas para elegir los algoritmos adecuados de inferencia bajo distintas condiciones, lo cual dio lugar a mejoras de hasta un factor 10 en la velocidad. El proyecto también diseñó un marco para escalar cualquier algoritmo de resolución de entidades y demostró la eficacia de dicho marco. Otros trabajos ayudaron a integrar la línea de proceso de EI con el procesamiento de consultas probabilístico. HEISENDATA halló nuevos métodos estadísticos para procesar datos con grados elevados de incertidumbre e integró los métodos en estructuras convencionales de bases de datos. El trabajo abordó un tema de interés para los sectores académico y comercial.