Réduire l'incertitude sur les données

Une équipe de l'UE a conçu des systèmes de données qui utilisent un raisonnement statistique et probabiliste pour réduire les incertitudes. Le projet a contribué à unifier de telles méthodes avec des bases de données classiques, en partie en développant des algorithmes évolutifs et divers nouveaux outils.

Économie numérique

Nombreux sont les programmes qui doivent gérer et prendre des décisions à partir de données largement incertaines. Certains outils sont capables de combler les lacunes dans une certains mesure, mais ils sont généralement simplistes et limités. Le projet HEISENDATA («Heisendata - towards a next-generation uncertain-data management system»), financé par l'UE, visait à améliorer cette situation. L'équipe comptait concevoir et réaliser de nouveaux systèmes de bases de données probabilistes (PDBS), soutenant des modèles statistiques et un raisonnement probabiliste, outre leur structure de base de données classique. Le projet visait les difficultés d'une telle union, y compris la révision de composants clés du système. Il a duré 4 ans, jusqu'en février 2014. Les travaux du projet ont porté sur trois domaines principaux, de nouveaux synopsis de données probabilistes pour optimiser les requêtes, de nouveaux algorithmes et architectures de PDBS, et des outils et algorithmes évolutifs. Les synopsis de données ont consisté à définir et créer des algorithmes pour réaliser des histogrammes. Pour diverses valeurs d'erreurs, les nouveaux algorithmes ont construit des histogrammes et des synopsis par ondelettes, optimaux ou presque. La poursuite des travaux a conduit à introduire des histogrammes probabilistes, donnant une représentation plus exacte des caractéristiques de l'incertitude des données. L'équipe s'est aussi intéressée aux problèmes associés au texte non structuré mais contenant des portions d'information structurée. Les solutions trouvées ont élargi un modèle bien connu d'extraction des informations en développant deux approches pour les requêtes. Les chercheurs ont comparé l'efficacité des requêtes à l'aide d'ensembles de données réelles. Ceci a conduit à un ensemble de règles pour choisir les algorithmes d'inférence appropriés selon les conditions, améliorant la vitesse d'un facteur 10. Le projet a aussi conçu un cadre d'évolutivité de chaque algorithme de résolution d'entité générique, et démontré l'efficacité du cadre. D'autres travaux ont permis d'intégrer le processus d'extraction des données avec le traitement des requêtes probabilistes. Le projet HEISENDATA a conçu de nouvelles méthodes statistiques pour traiter les données à incertitude élevée, et intégré ces méthodes dans des structures de bases de données classiques. Ces travaux sont intéressants pour les universités comme pour les secteurs commerciaux.