Forschungsprojekte
Joint Projects

Unsere Mitglieder sind an einer Vielzahl spannender Forschungsprojekte im Bereich Minds, Media, Machines beteiligt. Hier stellen wir nur einige der jüngsten Kooperationsprojekte vor. Für weitere Informationen folgen Sie bitte den jeweiligen Links und besuchen Sie unsere Mitgliederseite.

Seed-Grants

MMM unterstützt regelmäßig die gemeinsamen Bemühungen seiner Mitglieder, ihr Netzwerk an Kooperationen innerhalb des Forschungsbereichs sowie die Nachhaltigkeit in der MMM-Forschung auszubauen.

Research Stories

Für einen tieferen Einblick in die Forschungsthemen von MMM lohnt sich das Gespräch mit unseren Mitgliedern. An dieser Stelle haben wir kürzlich beispielhaft Prof. Marvin Wright interviewt, der uns zahlreiche interessante Fragen beantworten konnte. Wir danken ihm für das Gespräch!

 

© Fotowerk Ganzer Berg

Prof. Marvin Wright: An der Schnittschnelle zwischen KI und Epidemiologie

Durch die Digitalisierung unseres Alltags, aber auch Dank wichtiger technischer Innovationen in der medizinischen Forschung wie z.B. in der Bildgebung, nimmt die Menge an Gesundheitsdaten massiv und stetig zu. Dies bietet fantastische Chancen, Krankheiten in Zukunft besser zu verstehen und sehr viel schneller und sicherer zu erkennen. Aufgrund ihrer Struktur, Größe oder Komplexität sind diese Daten jedoch mit herkömmlichen Methoden der Datenverarbeitung oft schwer zu analysieren. KI-Methoden wie maschinelles Lernen bergen hier großes Potenzial. Gleichzeitig sind die Ergebnisse und Modelle maschineller Lernverfahren jedoch oft nur schwer erklär- und interpretierbar.
Prof. Dr. Marvin Wright ist Professor für Maschinelles Lernen in der Statistik an der Universität Bremen und Leiter der Emmy Noether-Nachwuchsgruppe „Beyond Prediction – Statistical Inference with Machine Learning“ am Leibniz-Institut für Präventionsforschung und Epidemiologie – BIPS. Er forscht an der Entwicklung und Interpretierbarkeit maschineller Lernverfahren, um Gesundheitsdaten in Zukunft besser nutzen zu können.

Anfangs war es sehr stressig. Ich glaube das sagt jeder, der eine neue Professur anfängt, allein schon, weil ganz viele neue Aufgaben und neue Verantwortungen auf einen zukommen: Viele Dinge, wie zum Beispiel die Vorbereitung von Lehrveranstaltungen, bedeuten gerade zu Beginn besonders viel Arbeit. In ganz viele andere Aufgaben muss man auch erst hereinwachsen. Dazu kommt noch, dass mein Anfang in der Corona-Zeit lag. Ich habe drei kleine Kinder und die Betreuung war nicht immer zuverlässig. Jede Woche musste man erstmal schauen: wie plant man eigentlich die Woche? Wenn beide Eltern arbeiten, ist es herausfordernd Kinderbetreuung und Arbeit zu vereinen.

Aber aufregend ist es natürlich auch, viele Sachen das erste Mal zu tun und neue Aufgaben zu bekommen. Durch die Emmy Noether-Förderung habe ich die Möglichkeit, sehr selbstständig und unabhängig zu forschen. Selbst zu forschen ist mir wichtig. Und damit meine ich wirklich, selbst zu programmieren, mir Konzepte zu überlegen und Lösungen zu entwickeln.
Im Arbeitsalltag liegen die Hauptaufgaben in der Forschung, der Betreuung der Promovierenden und in der Lehre, auch wenn ich durch meine Kooperationsprofessur zwischen der Universität Bremen und dem BIPS eine reduzierte Lehrverpflichtung habe.

Das Besondere an einer Kooperationsprofessur ist, dass man gemeinsam von einer Universität und einem außeruniversitären Forschungsinstitut berufen wurde und dann an beiden Einrichtungen arbeitet: Mein Hauptarbeitsort ist das außeruniversitäre Institut, in meinem Fall das Leibniz-Institut BIPS. Hier forsche ich hauptsächlich. Ich arbeite auch an der Uni. Dort habe ich alle Rechte und Pflichten eines normalen Universitätsprofessors. Das heißt, ich habe das Recht, mich an der Universität in Lehre, Kommissionen und Prüfungsausschüssen.

Einerseits fühle ich mich hier am BIPS sehr wohl. Mir gefällt, dass wir so nah an der Anwendung in den Gesundheitswissenschaften sind, aber trotzdem methodische Forschung machen können. Über das BIPS hinaus und besonders in Bezug auf Minds, Media, Machines finde ich am Standort Bremen schön, dass so viel zusammengearbeitet wird. Ich beteilige mich zum Beispiel an der Initiative „AI in Health“ und dem „AI Center in Healthcare“. Hier arbeiten verschiedene außeruniversitäre und universitäre Partner gemeinsam an einem Thema. Die gute Zusammenarbeit hat nicht nur etwas mit der Größe des Standorts zu tun, sondern vor allem auch mit seiner Kultur. Durch die erfolgreiche Zusammenarbeit des BIPS mit der Uni und seinen WSPs MMM (und Health) ist es uns gelungen, die DFG KI-Forschungsgruppe Lifespan AI einzuwerben. Durch diese Forschungsgruppe durften wir meine Brückenprofessur einrichten.

Grundsätzlich ist im Umgang mit Gesundheitsdaten natürlich der Datenschutz eine große Herausforderung. Es geht um personenbezogene Daten, die den Menschen selbst gehören. Diese sollte man nicht einfach komplett öffentlich machen, sondern schützen. Es gibt aber auch einen Trade-off: Wenn man zu strenge Datenschutzanforderungen hat, dann kann das die Forschung bremsen. So kommt man eventuell nicht so schnell zu Erkenntnissen oder man kann Daten aus verschiedenen Quellen nicht zusammenbringen. In Deutschland ist es zum Beispiel typisch, dass verschiedene Datenquellen keine „Unique Identifier“ (deutsch: eindeutige Bezeichner) haben. Ein solcher Identifier würde es erlauben, anonymisierte Krankenkassendaten mit ebenfalls anonymisierten Impfdaten zu verknüpfen. Da man aber nicht weiß, welche Impfdaten zu welchen Krankenkassendaten gehören, können etwaige statistische Zusammenhänge mit diesen Daten auch nicht untersucht werden.

Eine weitere große Herausforderung ist die Zeit. In Lifespan AI wollen wir uns sehr lange Zeiträume anschauen. Die meisten Standardmethoden sind aber für eine Momentaufnahme gemacht, in der es keinen Faktor „Zeit“ gibt, sondern mit der man zu einem bestimmten Zeitpunkt eine Vorhersage für die Zukunft machen will. Außerdem sind die meisten Methoden, die den Faktor „Zeit“ berücksichtigen, häufig für sehr kleinschrittige, kurze Zeitintervalle, über eine vergleichsweise kurze Zeit optimiert. Aktienkurse wären ein typisches Beispiel für so eine Zeitreihe.

Wenn wir nun eine Studie durchführen, die über 20 Jahre läuft, sieht dies vollkommen anders aus. Aus solchen Studien bekommen wir zum Beispiel alle zwei Jahre Daten zu den Personen. In Lifespan AI wollen wir jedoch einen Schritt weiter gehen und Modellierungen über die gesamte Lebensspanne erstellen. Es gibt nur sehr wenige Studien über die gesamte Lebensspanne. Um eine breite Datenbasis nutzen zu können, führen wir diese Studien zusammen. Damit haben wir aber auch verschiedene Datenquellen, die ganz unterschiedliche Dinge messen. Auch wenn die gleichen Dinge gemessen werden, passiert dies teilweise auf anderem Wege oder mit anderen Geräten. Dann kommen neue Messverfahren dazu, andere fallen mit der Zeit weg. Das alles zu berücksichtigen erfordert viele methodische Weiterentwicklungen.

Ich glaube, grundsätzlich wird es immer mehr Daten geben. Ein Problem dabei ist, dass viele Daten ursprünglich für andere Zwecken erhoben wurden. Jetzt möchten wir sie aber für die Gesundheitsforschung nutzen. Wenn mein Mobilgerät meine Bewegungen erfasst, dann ist es erst mal unklar, ob diese Erfassung der Bewegung überhaupt ähnlich präzise, wie die Messung im Labor ist, um beispielsweise den Energieverbrauch des Körpers zu schätzen. Ein anderes Beispiel sind Krankenkassendaten. Oft wurden diese zu Abrechnungszwecken und nicht zu Forschungszwecken erhoben, sodass viele für die Forschung relevante Informationen dort entweder gar nicht enthalten sind oder es zumindest schwierig ist, sie abzuleiten. Wir müssen uns also bei Projekten wie Lifespan AI darauf vorbereiten, dass viele der Daten nicht aus kontrollierten Studien kommen. Aktuell ist es so, dass einerseits die Bereitschaft zur Teilnahme an gesundheitswissenschaftlichen Studien rückläufig ist, aber andererseits viele Leute im Alltag ihre Gesundsheitsdaten leichtfertig an Google, Apple und Co. herausgeben, indem sie einfach auf „Ja, akzeptieren“ klicken. Wie wir z.B. bei der Corona Warn-App sehen konnten, sind viele Menschen durchaus bereit, ihre Daten zu spenden, wenn sie (a) erkennen, dass die Spenden ihnen selbst und anderen zugutekommen, (b) die Nutzung der Daten transparent und gemacht wird und verständlich ist, und sie (c)  Zugriff auf alle Komponenten (wie z.B. den Code) haben. Ich glaube, eine hilfreiche Komponente für die Forschung könnte sein, den Menschen hier entgegenzukommen und auch die Forschungsprozesse im Bereich der Gesundheitswissenschaft so weit wie möglich zu digitalisieren. Hier sollten wir helfen, ein Bewusstsein dafür zu schaffen, an wen man als Nutzer oder Patient Daten spenden kann, was mit diesen Daten passiert und von wem sie tatsächlich verantwortungsvoll genutzt werden.

Das ist unser Kernthema. Wir schauen uns Vorhersagemodelle an mit dem Ziel zu verstehen, wie sie eigentlich zu ihrer Vorhersage kommen. Dann versuchen wir, noch einen Schritt weiterzugehen und zu klären, wie eine Krankheit entsteht und welche die Risikofaktoren sind, die zu ihrer Entstehung führen. Dafür gibt es ganz viele verschiedene Methoden.

Die wichtigste Frage, die häufig unterschätzt wird, ist aber vielleicht: Was möchte ich wem eigentlich erklären und was erwarte ich von der Erklärung? Erklärbarkeit ist kein Selbstzweck. Es ist etwas vollkommen anderes, ob eine Bank ihrem Kunden erklären will oder muss, warum ein Kredit abgelehnt wurde, als wenn einem Patienten erklärt werden soll, wie ein genetischer Marker mit einer Krankheit zusammenhängt. Es kann sein, dass man dafür die gleichen Methoden verwendet. Es kann aber auch gut sein, dass man vollkommen unterschiedliche Methoden braucht. Daher ist sehr wichtig, dass man erstmal damit anfängt zu fragen: „Welche Frage möchte ich eigentlich beantworten?“, und dann dazu passende Methoden entweder auswählt oder neu entwickelt.

Meine Professur heißt ja ‚Maschinelles Lernen in der Statistik‘. Und lustigerweise sind das zwei Begriffe, die sehr unterschiedlich ankommen. Wenn ich sage, ich mache Statistik oder Biostatistik, dann denken viele Leute an Sportstatistiken oder daran, Tabellen zu erstellen, also ganz trocken und langweilig. Wenn man also auf die Frage ‚Und was machst du so?‘ mit ‚Statistik‘ antwortet, dann ist das sehr gut geeignet, wenn man nicht über die Arbeit reden will (lacht). Aber bei Maschinellem Lernen ist aktuell eher das Gegenteil der Fall. Besonders in letzter Zeit ist es ein typisches Missverständnis, dass „Maschinelles Lernen“ oft mit großen Sprachmodellen wie ChatGPT gleichgesetzt wird – die Fragen gehen jetzt also häufig in diese Richtung. Andere denken bei Maschinellem Lernen zuerst an Robotik, die ja auch in MMM eine wichtige Rolle spielt. Die wenigsten kommen aber auf die Idee, dass man damit so etwas machen kann, wie Krankheitsursachen basierend auf Gesundheitsdaten zu untersuchen

Ich würde mir gerade für den Gesundheitsbereich wünschen, dass die Technologien vor allem für Forschungszwecke genutzt werden und dass diese Art der Nutzung grundsätzlich unterstützt und nicht eingeschränkt oder gar verhindert wird. Gleichzeitig muss man hier jedoch besonders mit unternehmerischen Interessen aufpassen. Auf der anderen Seite entwickeln Unternehmen häufig sehr hilfreiche Verfahren, beispielsweise KI-Verfahren, die die Heilungschancen für Krebs verbessern können. Dies sollte meiner Meinung nach nicht weg-reguliert werden, sondern im Gegenteil die Forschung und auch die Anwendung unterstützt werden.
In anderen Bereichen gibt es wiederum bestimmte KI-Anwendungen, die meiner Meinung nach unbedingt reguliert werden sollten. Nehmen wir zum Beispiel Nachrichten, die auf das persönliche Interesse zugeschnitten werden. Das führt dazu, dass die Nachrichten, die man bekommt, so personalisiert sind, dass sie entweder nur das bereits bestehende eigene Meinungsbild unterstützen oder, noch schlimmer, gezielt ein Meinungsbild suggeriert werden kann. Die Lösung liegt meiner Meinung nach aber nicht in der Begrenzung der Modelle, zum Beispiel auf eine bestimmte Anzahl an Parametern. Stattdessen sollte man auch wieder von der Anwendung her überlegen, im Prinzip ähnlich wie bei der Erklärbarkeit: Was möchte ich eigentlich verhindern? Man sollte also versuchen, gezielt zu regulieren. Ganz allgemein KI zu regulieren, wird nicht funktionieren.