Large Language Models werden mit riesigen Mengen an Text angelernt und bestehen medizinische Examen. Daher stellten sich Forschende nun die Frage, ob die Medizin-Chatbots auch im Krankenhaus bestehen könnten. Sie testeten dafür die Open-Source-KI Llama 2. Dass es sich um eine Open-Source-KI handelt ist wichtig, da man sich nur hier sicher sein kann, dass die KI nicht genau mit den Daten gefüttert wurde, mit denen man sie letztlich testen möchte. Auch bei einem möglichen Einsatz im Krankenhaus ist dieser Faktor essenziell, damit nicht alle Krankenhäuser am Ende von einer Firma abhängig ist, die ihre Daten beliebig ändern kann oder möglicherweise insolvent geht, weil es nicht rentabel ist.
Unverlässliche Diagnosen
Im Test zeigte sich jedoch, dass zum jetzigen Zeitpunkt die Bots noch nicht dafür geeignet sind, verlässliche Diagnosen zu stellen. Im Test nutzten die Forschenden anonymisierte Daten von Patienten einer Klinik aus den USA. Ausgewählt wurden 2400 Fälle, die mit Bauchschmerzen in die Notaufnahme kamen. Die KI erhielt die gleichen Informationen wie Ärztinnen und Ärzte vor Ort, von der Krankengeschichte über Blutwerte bis zu den Bildgebungsdaten. Die Fallbeschreibung endete mit einer von vier Diagnosen und einem Behandlungsplan.
Die KI konnte die realen Abläufe des Krankenhauses nachspielen und musste basierend auf den Informationen selbst entscheiden, ob beispielsweise ein Blutbild in Auftrag gegeben wird und darauf basierend weitere Entscheidungen fällen bis es bereit ist, eine Diagnose zu stellen. Das Ergebnis: Keines der Programme forderte immer alle entsprechenden Untersuchungen an. Sie ignorierten Richtlinien und ordneten teilweise Behandlungen an, die für Patientinnen und Patientin schädlich gewesen wären. Es zeigte sich sogar, je mehr Informationen die Large Language Models erhielten, desto ungenauer wurde die Diagnose.
Ärzt:innen vs. KI
Im zweiten Teil verglich die Forschungsgruppe die Diagnosen der KI mit denen von vier Ärztinnen und Ärzten. Während die realen Behandler in 89 Prozent der Fälle richtig lagen, kam das beste Large Language Model gerade mal auf 73 Prozent. In einem Extremfall erkannte eine KI sogar nur 13 Prozent der Gallenblasenentzündungen.
Dabei fehlt es den Programmen an Konstanz. Die Diagnose hing in manchen Fällen davon ab, in welcher Reihenfolge die Fall-Informationen eingegeben wurden. Je nach Prompt unterschieden sich die Ergebnisse ebenfalls: verlangte man eine „Main Diagnosis“, eine „Primary Diagnosis“ oder eine „Final Diagnosis“ änderte sich die Diagnose trotz gleichbleibender Informationen. Im Krankenhausalltag sind diese Begriffe jedoch austauschbar.
Auch wenn die Chatbots momentan noch keine sicheren Diagnosen stellen können, sehen die Forschenden nicht, dass dies in der Zukunft nicht doch der Fall sein kann. Sie haben die Testumgebung öffentlich gemacht, um allen Interessierten den Test eines Large Language Models im Klinikkontext zu ermöglichen. Sie eignen sich möglicherweise dafür, um Fälle zu diskutieren. Doch die Möglichkeiten und Limitationen sollten stets berücksichtigt werden.
Quelle: idw
Artikel teilen