Von Daten zu Wissen
'Datenexplosion' ist vielleicht das bedeutendste Merkmal der Wissenschaft zu Beginn des dritten Jahrtausends. Von der Teilchenphysik zur Molekularbiologie, von der Neurologie zur Astronomie, nahezu alle Bereiche der experimentellen Wissenschaft erfahren eine ungekannte Steigerung von Menge und Komplexität verfügbarer Daten. In diesen Datenbanken findet sich eine Unmenge wissenschaftlicher Erkenntnisse, die mithilfe hochentwickelter Geräte und äußerst leistungsfähiger Informationstechnologie gesammelt wurden. Im Rahmen des CINQ-Projektes wurde ein innovativer Ansatz für die Analyse einer derart umfassenden Datenmenge verfolgt, die an sich keine Informationen darstellt und nur schwer zu verwalten ist. Für die Unterstützung der Informationsabfrage wurden intelligente Datamining-Algorithmen entwickelt, um Wissensartefakte zu gewinnen, die eine kompakte und semantisch umfangreiche Darstellung der heterogenen Rohdaten ermöglichen. Auf der Suche nach einer engeren Integration von Daten und Wissensartefakten in den Daten haben die CINQ-Projektpartner das Konzept induktiver Datenbanken genutzt. Bei induktiven Datenbanken können herkömmliche Abfragen für den Zugriff und die Bearbeitung von Daten verwendet werden, während induktive Abfragen die Ermittlung von Mustern wie häufig zusammen auftretenden Elementen und zugehörigen Regeln ermöglichen. Die Informationsabfrage in induktiven Datenbanken ist somit ein erweiterter Abfragevorgang, der vom Analytiker durch Angabe gesuchter Daten oder Muster gesteuert werden kann. Die Bestimmung einer geeigneten Abfragesprache war eines der Ziele des CINQ-Projektes, das jetzt im aktuellen, als Teil des sechsten Forschungsrahmenprogrammes geförderten, IQ-Projekts weiter verfolgt wird. Es wurde zwar Arbeit in den Einsatz von Musterabfragen für die Informationsabfrage in Webseiten investiert, die Hauptaufmerksamkeit des CINQ-Projektes galt jedoch der wissenschaftlichen Herausforderung einer funktionalen Genomik. Die meisten verfügbaren Analysetechniken für die Genexpression von Daten basieren auf Cluster-Algorithmen, die versuchen, Gengruppen zu ermitteln, deren Expression unterschiedlichen biologischen Situationen entspricht. Da deren biologische Gültigkeit fragwürdig ist, wurden untersuchende Datamining-Algorithmen vorgeschlagen, die in den gesammelten Daten anhand serieller Analyse der Genexpression (Serial Analysis Of Gene Expression, SAGE) oder aus DNA-Mikroarrays beschreibende Regeln suchen.