Maschinelle Lernverfahren zur Abstimmung der Behandlung auf spezifische Tumorcharakteristika

Auf der Suche nach neuen Biomarkern für Brustkrebs führte das Projekt PredAlgoBC Daten aus der EU und den Vereinigten Staaten zusammen, um letztlich neue, personalisierte Therapiemöglichkeiten zu entwickeln.

Digitale Wirtschaft

Gesundheit

In der Krebsforschung und Onkologie verlagert sich der Schwerpunkt zunehmend weg von Standardtherapien hin zu patientenspezifischen Strategien, die der Heterogenität von Tumorerkrankungen besser gerecht werden. Bei Brustkrebs besteht immer das Risiko einer Rezidivierung durch Metastasenbildung, was auch auf die mangelhafte Datenlage zu patientenspezifischen Tumorcharakteristika zurückgeht. Und obwohl die Erfolgsquote von Erstlinientherapien bei Brustkrebs mit etwa 90 % recht hoch ist, sinkt die Überlebensrate auf 27 % ab, sobald der Tumor metastasiert. Mit umfassenden wissenschaftlichen Datenbanken soll dieses Problem nun gelöst werden, da so spezifische Tumorcharakteristika (potenzielle Biomarker) mit patientenspezifischen Behandlungsreaktionen abgeglichen werden können. Da die Datenbanken aber erst im Aufbau sind, sind für die klinische Praxis noch zu wenige Biomarkersignaturen verfügbar. „Hier spricht man vom ‚Fluch der Dimensionalität‘, erklärt Agnes Basseville, Forscherin am französischen Krebsforschungsinstitut ICO (Institut de Cancérologie de l’Ouest) und Koordinatorin von PredAlgoBC (Machine Learning Prediction for Breast Cancer Therapy), einem über die Marie-Skłodowska-Curie-Maßnahmen finanzierten Projekt. „Demnach besteht ein Missverhältnis zwischen der großen Menge gemessener Charakteristika und zu geringen Patientenzahlen, und unter solchen Bedingungen sind ML-Algorithmen (maschinelles Lernen), mit denen Biomarkerdaten in der Regel analysiert werden, kaum anwendbar.“ PredAlgoBC kombiniert nun verschiedenste mathematische Ansätze mit detaillierten biologischen Analysen, damit, so hofft Basseville, die von den Algorithmen gelieferten Informationen für die klinische Anwendung genutzt werden können. „Im Wesentlichen liegen dem Projekt zwei öffentliche Datenbanken zugrunde: die Datenbanken GEO (Vereinigte Staaten) und ENA (EU). So konnten wir Daten von mehr als 4 000 Menschen erfassen, die an Brustkrebs erkrankt sind, sowie entsprechende Follow-up-Daten. Durch Kombination von Datensätzen erreicht man eine hinreichend hohe statistische Aussagekraft, um sich einen umfassenden Überblick über die Tumorkomplexität zu verschaffen. Allerdings waren einige Daten (RNA-Sequenzdaten) erst auf Antrag und nach sechsmonatiger Bearbeitungszeit zugänglich, sodass wir aus Zeitgründen auf diese Daten verzichteten.“

Durchbruch bei Hormontherapien

Der erstellte Datensatz wurde zweigeteilt. Der erste war die Vorlage für den Algorithmus, damit er das Ergebnis einer Therapie besser prognostizieren kann. Mit dem zweiten Datensatz wurde die prädiktive Leistung des Projektmodells getestet. „So können wir Modellprognosen mit bekannten Reaktionen abgleichen, um die Genauigkeit unserer Modelle zu prüfen“, erklärt Basseville. Für jedes Modell wurden die Variablen entsprechend ihrer Relevanz für die Gesamtprognose klassifiziert. Variablen mit höchster Relevanz können dann als potenzielle Biomarker getestet werden. Obwohl die Prognosen bislang zu ungenau für die klinische Praxis sind, identifizierte die Arbeitsgruppe anhand dieser Klassifizierung bestimmte Faktoren der neuronalen Entwicklung, die wichtigen Einfluss auf die Tumorentstehung haben und dazu führen können, dass Hormontherapien nicht anschlagen. Dieser Zusammenhang war bislang nicht eindeutig geklärt und ist eine der wichtigsten Entdeckungen. Ein weiteres Projektergebnis ist die Anwendung eines Deep-Learning-Algorithmus zur Erstellung virtueller Patientenkohorten, was vor allem die Übermittlung von Patientendaten vereinfacht, die allerdings streng anonymisiert sind und keine Hinweise auf tatsächliche Personen liefern. Die im Rahmen des Projekts entdeckten Biomarker werden demnächst in einem von unabhängiger Seite geprüften Fachartikel präsentiert, gefolgt von den erstellten Datensätzen, mit denen Bassevilles Arbeitsgruppe die Biomarker weiter validieren will. „Als nächstes wollen wir eruieren, wie sich diese Komponenten mit ICO-Tools im klinischen Einsatz bewerten lassen, um den Test mit routinemäßigen Assays wie PCR oder Immunhistochemie durchführen zu können. Mit dem geeigneten klinischen Test können die Patientendaten dann retrospektiv mittels ICO analysiert werden, um zu prüfen, ob unsere neuen Marker Entscheidungshilfen bei patientenspezifischen Hormontherapien sein können“, schließt Basseville. Dieser Prozess jedoch, der auch eine Studie zur optimalen Nutzung der Biomarker als neue therapeutische Zielstrukturen umfasst, kann noch mehrere Jahre dauern.