Die Bewertung von Verfahren zum Text Mining
Das Parmenides-System wurde so konzipiert, dass es den gesamten Text Mining-Prozess unterstützt - von der Dokumentenerfassung durch Informationsextrahierung und semantische Annotation bis hin zur Anwendung von Data Mining-Verfahren. Das System auf ontologischer Basis umfasst neben Funktionen zum Dokumenten- und Data-Warehousing ein Ontologie-Managementsystem und Tools zur Extrahierung neuer Konzepte und Verbindungen. Das Parmenides-System kann zwar den gesamten Text Mining-Prozess unterstützen, die Nutzer können jedoch aus den verfügbaren Funktionen auch bloß diejenigen auswählen, die für die auszuführende Aufgabe erforderlich sind. Während der Laufzeit des PARMENIDES-Projekts und parallel zur Entwicklung des Systems an sich wurde zusammen mit den Nutzern ein Bewertungsrahmen entwickelt. Das ultimative Ziel dieser von den PARMENIDES-Projektpartnern ausgeführten Aufgabe bewegte sich in zwei verschiedene Richtungen. Zunächst wollten diese eine komplette nutzerorientierte Bewertung der Systemarchitektur vornehmen und untersuchen, wie gut dieses den Anforderungen des Nutzers entspricht. Zum anderen sollte der für das Parmenides-System aufgestellte allgemeine Rahmen auch für die Bewertung ähnlicher Systeme einsetzbar sein. Insbesondere kam das Relative Ordering Tool (ROTE) zur Entwicklung eines parametrisierten Qualitätsmodells zu Bewertungszwecken zum Einsatz. Dieses wurde an der Université de Genève entworfen, um den Nutzern die Spezifizierung des relativen Einflusses verschiedener Qualitätsmerkmale und der damit verbundenen Metriken zu erleichtern. Das Tool erlaubt den Nutzern die Gliederung einer beliebigen Anzahl an Qualitätsmerkmalen über einen paarweisen Vergleich. So kann ein Nutzer beispielsweise sowohl ein Ontologie-Managementsystem als auch die Möglichkeit, Ontologien aufzustellen und zu verwalten, als obligatorisch erachten. Dennoch kann die Leistung spezieller Tools zur Erarbeitung neuer Konzepte als weniger wichtig als die Qualität des Managementsystems charakterisiert werden. Ein solcher Bewertungsrahmen für ein umfassendes und komplexes Text Mining-System bildete die Grundlage für ein Qualitätsmodell, das mehr als 180 Metriken umfasst. Diese Komplexität des Qualitätsmodells führte ursprünglich zur Entwicklung des ROTE-Tools. Bevor jedoch seine Vorteile insgesamt abgeschätzt werden können, muss das System weiter für andere Systeme mit unterschiedlicher Komplexität getestet werden.