Zum Inhalt springen
Logo CDS und DAViS Blog

Computational and Data Science Blog

Ist Künst­li­che In­tel­li­genz der neue Su­per­dok­tor?

Ich habe mir diesen Winter eine Grippe eingefangen. Kurzerhand habe ich ChatGPT meine Symptome beschrieben und gefragt, was ich machen soll. Die Antwort: Meine Symptome beobachten, mich ausruhen und Flüssigkeit zu mir nehmen. Falls das Fieber länger als drei Tage anhält oder plötzlich Atemnot auftritt, soll ich einen Arzt oder eine Ärztin aufsuchen. Klingt vernünftig und hat auch für mich funktioniert. Doch bei einer Grippe scheint das noch eine harmlose Frage zu sein - wie sieht es mit ernsten Szenarien aus, zum Beispiel bei der Früherkennung von Tumoren?

Was bringt uns Künstliche Intelligenz in der Medizin?

Zur Frage, ob Künstliche Intelligenz (KI) auch in der Medizin ihre Anwendung findet, schreibt die Verbindung der Schweizer Ärztinnen und Ärzte (FMH):     

Der Einzug von künstlicher Intelligenz in der Medizin erschliesst für die Tätigkeit von Ärztinnen und Ärzten interessante Perspektiven. [...] Künstliche Intelligenz dürfte das Denken und Handeln der Ärzteschaft in den kommenden Jahren tiefgreifend verändern. [...] Mit Hilfe von KI soll es gelingen, alle Prozesse entlang der Patient Journey sinnvoll und zweckmässig weiterzuentwickeln und zu verbessern.

Jedoch wird hier definitiv nicht von ChatGPT die Rede sein, sondern speziell entwickelte Question-Answering Systeme, die genau darauf trainiert sind, in einzelnen Bereichen der Medizin hervorragende Diagnosen zu erstellen.

Unter Question-Answering Systeme versteht man Applikationen, die in natürlicher Sprache gestellte Fragen analysieren und diese zu beantworten versuchen.

Wir haben uns mit einem solchen System befasst, das darauf trainiert wurde, Erkrankungen im unteren Verdauungstrakt zu erkennen. Im Jahr 2023 hat das Forschungsteam Thai et. al. ein solches System gebaut und damit eine ausgeschriebene Challenge von ImageCLEF gewonnen. Ihre KI erreichte eine Genauigkeit von 87%. Das bedeutet, dass es fast 9 von 10 Fragen einer Ärztin richtig beantworten konnte. Zu gut, um wahr zu sein?

Schauen wir uns das Modell genauer an. Der Arzt oder die Ärztin gibt dem System ein Bild, das bei einer Untersuchung generiert wurde und wählt eine zu beantwortende Frage aus, wie zum Beispiel «Are there any abnormalities in the image?” (auf Deutsch: «Gibt es Auffälligkeiten im Bild?»). Das Bild und die Frage werden mit den Embeddings (Vektordastellungen von Bild und Text) eines Vision Transformer, respektive eines Language Transformer, in Vektoren umgewandelt. Vision Transformer sind KI-Modelle, welche auf die Bilderkennung trainiert sind.

Menschen können jedoch keine Informationen aus diesen Vektoren herauslesen. Um die Frage zu beantworten, benötigen wir also noch ein neuronales Netz, das darauf trainiert wurde, die richtigen Informationen aus den Vektor-Embeddings zu kombinieren und daraus die wahrscheinlichste Antwort zu berechnen.

Modell-Architektur (Thai et al.)

Vom KI-Modell zur Anwendung mit Paul dem Kraken

Bevor das System eingesetzt werden kann, gibt es einige Fragen. Zum Beispiel:

  1. Ist das KI-System fair gegenüber Patient:innen? Es kann schliesslich sein, dass es zwar im Schnitt 87% der Diagnosen korrekt stellt, aber für einzelne Patient:innengruppen nur sehr schwache Ergebnisse erzeugt. Ein Szenario wäre hier, dass das System nur mit den Daten männlicher Patienten trainiert wurde und in solchen Fällen zwar gute Antworten liefert, jedoch Daten einer weiblichen Patientin falsch auswertet.
  2. Wer haftet, wenn das KI-System eine falsche Diagnose stellt? Noch gibt es keine umfängliche Rechtsgrundlage oder internationale Richtlinien für den Einsatz von KI in der Medizin.
  3. Wie transparent ist das System? Wie kann nachvollzogen werden, warum die KI eine bestimmte Entscheidung getroffen hat? Wir erinnern uns an Paul den Kraken, der im Jahr 2010 erfolgreich alle 10 WM-Spiele Deutschlands vorhergesagt hat. Das bedeutet natürlich nicht, dass der Kraken ein wahrer Fussballexperte war und zum neuen Trainer der Schweizer Nationalmannschaft genannt sollte.

Vertrauen stärken und KI-Resultate verbessern

Ein Anhaltspunkt, um ein System transparenter zu gestalten und Vertrauen zu stärken, ist die Reproduzierbarkeit. Würde jemand das Experiment mit Paul dem Kraken nachbauen, so gehen wir davon aus, dass er wahrscheinlich nicht nochmal alle 10 WM-Spiele richtig vorhersagen würde, da er schlichtweg keinen Bezug zu den Spielen hat. Wir können allerdings beobachten, dass der Kraken zufällig richtig liegt. Ein Experiment muss also reproduzierbar sein, um zu beweisen, dass richtige Ergebnisse nicht nur Zufälle sind.

Um die Reproduzierbarkeit des ursprünglichen Modells zu prüfen, haben wir das Gewinner-System nachgebaut. Damit haben wir beweisen können, dass ein ähnliches Resultat auch von anderen Systemen erzeugt werden kann. Der Datensatz, mit dem das System trainiert wurde, wurde von ImageCLEF zur Verfügung gestellt. Die Bilder führten wir ausserdem vor dem Training durch ein selbst nachgebautes Preprocessing, in dem Lichtreflexionen und schwarze Ränder entfernt wurden. Die Embeddings der verwendeten Modelle (BERT für den Text und BEiT für die Bild-Embeddings) sind auf Huggingface verfügbar.

Resultat: 86.6% der Erkrankungen im Verdauungstrakt werden erkannt

Das nachgebaute Modell erreichte eine Genauigkeit von 86.6% - sehr nahe am ursprünglichen Ergebnis. Die Abweichung von 0.4% erklären wir damit, dass die Daten zufällig stratifiziert wurden. Das heisst, dass für die Tests zufällig Bilder aus dem Datensatz entnommen wurden, die dem Modell beim Lernen nicht zur Verfügung standen. Am Ende berechneten wir mit der Hilfe dieser “neuen” Datenpunkte die Genauigkeit. Da der Datensatz des zweiten Modells dadurch nicht mit dem des ersten ident war, sind kleine Unterschiede aufgetreten. Diese sind allerdings zu erwarten.

Zudem kann es sein, dass das Preprocessing des zweiten Modells nicht exakt nachgebaut wurde. Thai et al. haben zwar beschrieben, wie sie das Preprocessing durchgeführt haben, den Quellcode und die genauen Parameter wurden jedoch nicht zur Verfügung gestellt.

Des Weiteren haben wir uns gefragt, was passiert, wenn wir die Embeddings des Vision-Transformer durch neuere Modelle austauschen. Anstatt dem BEiT wurden also zwei aktuellere Modelle, das DINOv2 und das AIMv2, eingesetzt und erneut trainiert. Sowohl DINOv2 als auch AIMv2 beschreiben sich selbst als “State of the Art Feature Extraction Models”. Die Resultate zeigen beim DINOv2 eine Genauigkeit von 85% und beim AIMv2 nur 77%. Damit scheinen die neuen Architekturen nicht besser zu sein - zumindest das DINOv2 kann mithalten.

KI in der Anwendung: Unser Modell im Einsatz?

Geschafft. Wir haben dem Modell geholfen, transparenter zu werden, indem wir unabhängig vom Entwickle:innenrteam dessen Genauigkeit validiert haben. Können wir nun unser Modell einsetzen?

Leider ist das nicht so einfach. Damit ein System tatsächlich eingesetzt werden kann, braucht es mehr als nur eine Metrik. Die FMH stellt zum Beispiel zehn Anforderungen an eine KI, damit diese verwendet werden darf.  Punkt 6 ist dabei: “Dem KI-System muss eine «Gebrauchsanleitung» für Ärztinnen und Ärzte beiliegen.” Wir hingegen haben nur über Commandozeilen mit dem Modell interagiert. Für die Anwendung in einem Spital ist das schlicht zu umständlich. Anders ausgedrückt: Das Modell funktioniert, ist aber für Fachpersonen noch nicht nutzbar gestaltet. Auch Punkt 4: “Das KI-System muss regelmässig überprüft werden, und es sind unverzüglich Korrekturen vorzunehmen, wenn sich solche aufgrund der Überprüfung als geboten erweisen.” stellt Probleme dar. Wie kann das System gewartet und regelmässig geprüft werden? Dazu wären heikle Patient:innendaten nötig, die nicht ohne weiteres schnell gesammelt werden können.

Ausserdem funktioniert unser System derzeit nur in einer abgekapselten Umgebung gut. Viel wichtiger als dessen Genauigkeit ist jedoch, wie sich der Verlauf der Patient:innen, also der «Patient Outcome» verändert. Denn letztendlich möchten wir nicht nur sagen können, dass wir es besser gewusst haben, sondern auch das Leben der Patienten verbessern.

Mit dieser Arbeit haben wir einen kleinen Baustein dazu beigetragen, solche Systeme in die Praxis zu bringen. Die Modelle scheinen vielversprechend und sollten weiter untersucht werden, allerdings nicht nur von Datenspezialist:innen, sondern in Zusammenarbeit mit Fachspezialist:innen und möglichen künftigen Anwender:innen.

Unbegrenzte Karrieremöglichkeiten in Informatik, Data Science und Computersimulation?

Jetzt zum Studium Computational and Data Science anmelden!

Anzahl Kommentare 0
Kommentare