Évaluation de méthodes de fouille automatique de texte

L'importance grandissante de la collecte automatique d'informations pour le bon fonctionnement des organisations modernes entraîne un développement continu d'outils spécifiquement conçus pour l'annotation des données textuelles. Destiné aux experts de ce domaine, dont la fonction principale est la révision manuelle du balisage, le système de Parménide a été mis au point en tant qu'alternative attrayante à l'annotation des données textuelles.

Économie numérique

Le système de Parménide a été conçu pour prendre en charge l'ensemble du processus de fouille automatique de texte, du recueil de documents à l'application de techniques de fouille automatique de texte, en passant par l'extraction d'informations et l'annotation sémantique. Fonctionnant à base d'ontologies, il comporte un système de gestion des ontologies et des outils d'extraction de nouveaux concepts et relations, en plus des fonctions de stockage de documents et de données. Même si le système de Parménide permet la prise en charge de l'ensemble du processus de fouille automatique de texte, les utilisateurs peuvent également n'utiliser qu'une partie des fonctions disponibles en fonction de la tâche qu'ils souhaitent réaliser. Lors du projet PARMENIDES, et en parallèle au développement du système lui-même, un cadre d'évaluation a été mis au point en collaboration avec les utilisateurs. L'objectif ultime de cette initiative des partenaires du projet PARMENIDES était double. Tout d'abord, ils ont souhaité effectuer une évaluation complète de l'architecture système en fonction de l'utilisateur et déterminer dans quelle mesure cette architecture répond aux besoins de l'utilisateur. En deuxième lieu, le cadre général mis en place pour le système de Parménide devait être réutilisable afin de permettre l'évaluation de systèmes similaires. En particulier, l'outil ROTE (Relative ordering tool ou outil de classement relatif) a servi à créer un modèle de qualité d'évaluation paramétré. Celui-ci a été conçu à l'université de Genève afin d'aider les utilisateurs à préciser l'importance relative des différentes caractéristiques de qualité et mesures associées. Cet outil permet aux utilisateurs de classer n'importe quel nombre de caractéristiques de qualité en les comparant par paires. Par exemple, un utilisateur peut estimer qu'il doit obligatoirement disposer d'un système de gestion des ontologies et d'une fonction de création et de maintenance de celles-ci. Néanmoins, les performances des outils spécialement consacrés à l'acquisition de nouveaux concepts sont généralement considérées comme moins importantes que la qualité du système de gestion en elle-même. Un tel cadre d'évaluation pour un système de fouille automatique de texte étendu et complexe a permis la mise au point d'un modèle de qualité contenant plus de 180 critères de mesure. C'est cette complexité du modèle de qualité qui a initialement entraîné le développement de l'outil ROTE. Cependant, avant de pouvoir évaluer ses avantages d'ensemble, de nouveaux tests sur d'autres systèmes plus ou moins complexes sont nécessaires.

Ontology driven Temporal Text Mining on Organisational Data for Extracting Temporal Valid Knowledge

Évaluation de méthodes de fouille automatique de texte

Découvrir d’autres articles du même domaine d’application

Partager cette page

Télécharger