Reduciendo la incertidumbre de los datos
Existen aplicaciones de software diversas que deben gestionar y tomar decisiones con datos con niveles elevados de incertidumbre. Aunque algunas herramientas pueden llenar los vacíos hasta cierto punto, por lo general estas herramientas son simplistas y limitadas. El proyecto «Heisendata - towards a next-generation uncertain-data management system» (HEISENDATA), financiado por la Unión Europea, tenía como finalidad mejorar esta situación. El equipo del proyecto pretendía diseñar y construir nuevos sistemas de bases de datos probabilistas (PDBS) que admitiesen modelos estadísticos y el razonamiento probabilístico además de las estructuras de base de datos convencionales. El proyecto pretendía abordar los retos que implica esta nueva unión, los cuales incluían el rediseño de los componentes claves del sistema. HEISENDATA tuvo una andadura de cuatro años, hasta el mes de febrero de 2014. El trabajo del proyecto abarcó tres ramas principales: nuevas sinopsis de datos probabilísticos para optimización de consultas, nuevos algoritmos y arquitecturas de PDBS y algoritmos y herramientas escalables. Las sinopsis de datos implicaron definir y crear algoritmos para construir histogramas. Para distintas métricas de errores, los nuevos algoritmos generaban histogramas óptimos o casi óptimos y sinopsis de ondículas. A continuación, el trabajo del proyecto introdujo histogramas probabilísticos que permitían representar con mayor precisión las características de incertidumbre de los datos. Además, el equipo abordó problemas relacionados con el texto no estructurado con unidades de información estructurada. Las soluciones ampliaron un modelo de extracción de información (EI) de los mejores disponibles, mediante el desarrollo de dos enfoques para las consultas. La eficacia y la eficiencia de los enfoques se comparó con conjuntos de datos de la vida real. El resultado fue un conjunto de reglas para elegir los algoritmos adecuados de inferencia bajo distintas condiciones, lo cual dio lugar a mejoras de hasta un factor 10 en la velocidad. El proyecto también diseñó un marco para escalar cualquier algoritmo de resolución de entidades y demostró la eficacia de dicho marco. Otros trabajos ayudaron a integrar la línea de proceso de EI con el procesamiento de consultas probabilístico. HEISENDATA halló nuevos métodos estadísticos para procesar datos con grados elevados de incertidumbre e integró los métodos en estructuras convencionales de bases de datos. El trabajo abordó un tema de interés para los sectores académico y comercial.
Palabras clave
Incertidumbre de datos, sistemas de datos, gestión de datos, sistemas de bases de datos probabilísticos