„Chat GPT für Ärzte: Wenn die KI die Diagnose stellt“
Von uns bewertet am 23. April 2026
Veröffentlicht von: hessenschau.de
Ein KI-basiertes Assistenzsystem soll Ärztinnen und Pflegern kompetente Antworten zu vielen ihrer Fragen im Praxisalltag geben. Der Beitrag der Hessenschau erklärt, um welche Art von Fragen es sich handelt, ohne deutlich zu machen, wie gut das System funktioniert. Der Text spricht Risiken an und erklärt, wie die Entwicklung finanziert wurde. Eine fehlerhafte Aussage einer Entwicklerin bleibt leider unwidersprochen.
Zusammenfassung
Der Artikel der Hessenschau des Hessischen Rundfunks berichtet über ein KI-basiertes Assistenzsystem, das Ärztinnen, Pfleger oder Krankenschwestern zu medizinischen Fragestellungen zu Rate ziehen können. Zwar wird deutlich, welche Fragestellungen die Anwendungen beantworten könnte, wie gut sie das macht, bleibt indes offen. Risiken und negativen Effekte werden mehrfach thematisiert. Zwar wird darauf verwiesen, mit welchen Daten das Sytem trainiert wurde, ob es indes zu Verzerrungen kommt und wie mit fragwürdigen Studien umgegangen wird, erfahren Leser:innen nicht. Der Text geht weder auf Kosten noch auf Alternativen ein, macht aber die begrenzte Verfügbarkeit deutlich. Das System wird durch zwei unabhängige Experten eingeordnet und die Finanzierungsquellen werden genannt. Ethische Aspekte und die Datenschutz-Problematik werden zumindest kurz thematisiert. Eine fehlerhafte Aussage einer Entwicklerin wird nicht hinterfragt. Der insgesamt interessante und nicht mehr ganz aktuelle Text ist verständlich und vermenschlicht die KI nicht.
+++ Hinweis: Diese Bewertung wurde im Rahmen eines Studentenseminars des Lehrstuhls Wissenschaftsjournalismus als Proof of Concept erstellt. +++
Die Kriterien
1. Die POSITIVEN EFFEKTE sind ausreichend und verständlich dargestellt (NUTZEN).
Es werden viele Beispiele dafür genannt, in welchen Situationen die KI im Arbeitsalltag einer Klink oder einer medizinischen Praxis helfen könnte. Der Nutzen wird jedoch nicht quantifiziert. Für Leser:innen wäre es zum Beispiel spannend gewesen, zu erfahren, wie viel Zeit Ärzte mithilfe dieser App einsparen können. Beim Nutzen hätte man auch die Fehlerquote von Ärzt:innen mit denen der KI vergleichen können, um herauszustellen, ob und wie viel besser die KI im Vergleich zum Menschen ist. Im Text wird leider auch nicht ersichtlich, warum die konkreten Angaben zum Nutzen der Anwendung fehlen. Daher werten wir, wenn auch knapp „nicht erfüllt“.
2. Die NEGATIVEN EFFEKTE werden angemessen berücksichtigt (RISIKEN)
Der Beitrag geht mehrfach auf mögliche Risiken der Anwendung ein und benennt diese aus verschiedenen Blickwinkeln. Auch im Vorspann heißt es auch schon, wenn auch sehr allgemein: „Ganz ohne Risiko ist das nicht“.
Im Artikel geben zum Beispiel die Entwickler:innen an, dass ca. ein Prozent der Entscheidungen ein Risiko mit sich bringen können, ohne dies jedoch genauer zu spezifizieren. Außerdem werden Bedenken der unabhängigen Experten genannt und es wird aus einer Empfehlung des deutschen Ethikrats zitiert.
Der Text geht auch auf das Risiko von Halluzinieren ein, was zunächst gut ist. Die Gründerin wird indes mit dem Satz zitiert: „‘Der Unterschied zu ChatGPT ist, dass Halluzinieren ausgeschlossen wird‘, betont Rödel. Denn die KI beziehe sich ausschließlich auf einen kuratierten Datensatz, der aus 2,5 Millionen Einzeldokumenten bestehe.“ Die Aussagen sind indes in dieser Form nicht korrekt (siehe Kriterium Fakten). Alles in allem werten wir daher das Kriterium nur „knapp erfüllt“, da wir den Fehler im Kriterium Fakten werten.
3. Es wird ausreichend auf TRAININGSDATEN eingegangen?
Zum Thema Trainingsdaten heißt es im Artikel etwas schwammig: „Denn die KI beziehe sich ausschließlich auf einen kuratierten Datensatz, der aus 2,5 Millionen Einzeldokumenten bestehe. Darunter seien die offiziellen Leitlinien, die Ärzte auch ohne KI in ihrem Alltag für Diagnosen heranziehen, sowie Fachliteratur.“ Hier hätte es mehr Informationen gebraucht, aus denen ersichtlich wird, welche Fachliteratur etwa ausgeschlossen wurde (z.B. bezogen auf den Evidenzgrad und die Aussagekraft) und wie z.B. mit Informationen der Pharmafirma, die ja auch an der Finanzierung beteiligt ist, umgegangen wird.
Auch bleibt unklar, ob das Large Language Model ausschließlich mit dem begrenzten Datensatz trainiert wurde, oder ob es zuvor schon mit anderen Daten ein Pre-Training durchgeführt hat, was möglicherweise zu Verzerrungen beitragen könnte.
Wir werten daher „knapp nicht erfüllt“.
4. Es werden ALTERNATIVE Anwendungen vorgestellt.
Ob es alternative Systeme gibt, die z.B. auch ohne KI funktionieren, können Leser:innen nur erahnen, wenn es heißt, dass „die App als eine der ersten zur Unterstützung klinischer Entscheidungen zugelassen“ wurde.
5. Es wird klar, ob eine KI-Anwendung VERFÜGBAR und ZUGÄNGLICH ist.
Es wird erklärt, dass die Anwendung erst kürzlich zugelassen wurde (ohne dies indes genauer zu erläutern). Außerdem wird erwähnt, dass die Anwendung für Ärzte gedacht ist und besonders für junge Ärzte bei der Einschätzung seltener Fälle eine Hilfestellung sein kann. Ob man die App schon herunterladen kann, wird nicht explizit erklärt. Aus der Information, dass es sich noch um Pilotsysteme handelt, können sich Leser:innen jedoch erschließen, dass die App noch nicht für alle verfügbar ist.
6. Die KOSTEN werden in angemessener Weise berücksichtigt.
Der Beitrag geht nicht auf die Kosten der Anwendung ein.
Da die App bereits zugelassen ist, ist davon auszugehen, dass die Entwickler:innen auch Angaben zu den Kosten machen können. Tatsächlich finden sich auf der Website von „Prof. Valmed“ die Preise für unterschiedliche Abonnement-Modelle, so kostet das Jahres-Abo zum Beispiel 365,00 Euro.
7. Der Beitrag ordnet die QUALITÄT der Belege/der TESTDATEN ein.
Im Text wird weder über Studien, die die Qualität der KI-Anwendung untersucht haben, noch über die Testdaten, die sich aus der Entwicklung der Anwendung ergeben haben, gesprochen. Es wird nur allgemein erläutert, dass solche Systeme „ausgiebig getestet werden“ müssten.
Falls es keine Belege oder Testdaten gibt, hätte der Artikel auch das deutlich herausstellen können. Außerdem heißt es, die Anwendung sei offiziell zugelassen worden: „Kürzlich wurde die App als eine der ersten zur Unterstützung klinischer Entscheidungen zugelassen, (…).“ Offen bleibt, was die Zulassungsvoraussetzungen waren, und welche Parameter getestet wurden. Damit bleibt offen, wie gut das belegt ist, was behauptet wird.
8. Es werden UNABHÄNGIGE EXPERTEN oder QUELLEN genannt.
Im Beitrag werden zusätzlich zu den beiden Entwickler:innen der Anwendung zwei unabhängige Experten zitiert, Christoph Hoog Antink, Leiter des Lehrstuhls für Künstliche Intelligente Systeme der Medizin an der TU Darmstadt und Christian Sommerbrodt vom Hessischen Hausärzteverband. Die beiden erscheinen als Experten geeignet und es ist auch sinnvoll, einen Experten aus der Forschung und einen Experten mit eher praktischer Perspektive zu wählen. Außerdem wird aus der Stellungnahme des Ethikrates zu Künstlicher Intelligenz in der Medizin zitiert und diese auch verlinkt.
9. Es werden, falls vorhanden, INTERESSENKONFLIKTE und die FINANZIERUNG thematisiert.
Im Beitrag wird erklärt, dass die KI-Anwendung vom „AI Quality and Testing Hub“, vom Land Hessen, vom Bundesverband Deutscher Neurologen und vom Pharmaunternehmen Sanofi finanziert wurde. Dass der Artikel auf den offensichtlichen Interessenkonflikt, den die Firmengründer haben, eingeht, wird nicht erwartet. Gibt man die Namen der Experten in Kombination mit Sanofi oder Prof. Valmed in die Suchmaschine ein, lassen sich keine offensichtlichen Interessenkonflikte erkennen.
10. Der Beitrag liefert eine EINORDNUNG der Thematik in einen Kontext (Neuheit, Datenschutz/-verwendung Ethik).
Der Beitrag geht durch das Zitat aus der Stellungnahme des Ethikrates explizit auf ethische Bedenken gegenüber der besprochenen Anwendung ein. Allerdings werden diese von den beiden unabhängigen Experten schnell wieder abgewiegelt. „Datenschutz-Bedenken“ werden im letzten Absatz kurz erwähnt, hier wäre eine genauere Einordnung interessant gewesen, da die Gesundheitsdaten von Patient:innen grundsätzlich sehr sensible Daten sind. Beim Aspekt „Neuheit“ könnte der Beitrag noch genauer herausarbeiten, was die „neue“ Anwendung von bisherigen unterscheidet. Eine kurze Recherche ergibt, dass zum Beispiel das Deutsche Ärzteblatt bereits 2018 über die Anwendung von KI-Diagnosetools berichtet hat. Ganz neu ist die Idee also nicht. Außerdem heißt es im Artikel selbst, dass die Anwendung eine der ersten dieser Art ist, die vom hessischen Digitalministerium zugelassen wurde. Hier wird also grundsätzlich deutlich, warum diese Anwendung besonders ist, gleichzeitig zeigt dies aber auch, dass es eben nicht die einzige neue ihrer Art ist. Die besprochene Anwendung wird grundsätzlich in den Kontext eingeordnet und die Aspekte Ethik, Datenschutz und Neuheit werden grundsätzlich berücksichtigt. Da es aber ein paar kleine Kritikpunkte gibt, wird das Kriterium nur als „knapp erfüllt“ gewertet.
11. Der Beitrag gibt die wesentlichen Daten und Fakten korrekt wieder (FAKTENTREUE).
Die Informationen aus dem Beitrag stimmen mit den Informationen aus der Pressemitteilung und der Stellungnahme des Ethikrates überein. Jedoch ist uns ein erheblicher Faktenfehler aufgefallen: Die Gründerin des Valmed-Startups wird wie folgt zitiert: „‘Der Unterschied zu Chat GPT ist, dass Halluzinieren ausgeschlossen wird‘, betont Rödel.“ Als Begründung wird angeführt: „Denn die KI beziehe sich ausschließlich auf einen kuratierten Datensatz, der aus 2,5 Millionen Einzeldokumenten bestehe. Darunter seien die offiziellen Leitlinien, die Ärzte auch ohne KI in ihrem Alltag für Diagnosen heranziehen, sowie Fachliteratur. Die Quellen seien in der Antwort verlinkt und in der App nachlesbar.“
Nach unseren Recherchen ist es extrem unwahrscheinlich, dass Halluzinieren ausgeschlossen werden kann. Unsere Nachfrage bei der Firma ergab daher auch, dass dies bei der Anwendung auch nicht völlig ausgeschlossen werden kann. Die Anwendung habe eine „extrem niedrige Halluzinationsrate“, „der sogenannte Sicherheitsindex liege aktuell bei 0,26 Prozent, was bedeutet, dass nur in 0,26 Prozent der Antworten eine potenziell risikobehaftete oder halluzinatorische Aussage enthalten ist, die relevant für Diagnose oder Therapie sein könnte.“
Auch ist die Begründung, dass Halluzinieren aufgrund des begrenzten, kuratierten Datensatzes ausgeschlossen werden könne, fehlerhaft. Um die Rate des Halluzinierens abzumildern, gibt es verschiedene Techniken und Eingriffe, die nichts mit der Begrenztheit des Datensatzes zu tun haben, denn diese tragen nur einen kleinen Teil zur Problematik bei.
Da es sich um eine wichtige Aussage zur Fehlerhaftigkeit der Anwendung handelt, werten wir das Kriterium als „nicht erfüllt“.
12. Der Beitrag geht über eine Pressemitteilung/das Pressematerial hinaus (JOURNALISTISCHE EIGENLEISTUNG).
Der Beitrag geht klar über die Informationen der Pressemitteilung hinaus, es wurden zusätzliche Interviews mit den beiden Entwicklern geführt. Außerdem erfordern die Zitate der beiden unabhängigen Experten und die Informationen aus der Stellungnahme des Ethikrates eine weitere Recherche und journalistische Eigenleistung.
13. Ein Beitrag vermittelt ein Thema interessant und attraktiv (ATTRAKTIVITÄT DER DARSTELLUNG).
Die Überschrift verspricht leider etwas mehr von der Anwendung als nachher im Artikel berichtet wird, denn die KI stellt nicht die Diagnose. Im Teaser wird durchaus eingeräumt, dass es auch Probleme mit der KI-Anwendung gibt. Die KI wird im Beitragsbild und auch im Text weitgehend nicht vermenschlicht. Lediglich der Name „Prof. Valmed“ vermenschlicht die KI. Auf diese Bezeichnung kann im Text jedoch nicht verzichtet werden, da es der Name der KI-Anwendung ist. Der Beitrag ist sprachlich angemessen gestaltet. Die Gliederung mit Zwischenüberschriften trägt dazu bei, dass der Text übersichtlich und ansprechend wirkt. Bei dem Foto zu Beginn handelt es sich nur um ein Symbolbild, das als solches gekennzeichnet ist, es passt aber grundsätzlich zum Thema des Beitrags.
14. Der Beitrag ist für ein Laienpublikum verständlich (VERSTÄNDLICHKEIT).
Der Beitrag ist klar formuliert und übersichtlich strukturiert. Fachwörter werden vermieden. Außerdem wird deutlich, welche Rolle die KI in der besprochenen Anwendung einnimmt, und um welche Art von KI (in diesem Fall ein Large Language Modell) es sich handelt. Das Kriterium kann daher als „erfüllt“ gewertet werden.
15. Das THEMA ist AKTUELL, RELEVANT und/oder UNGEWÖHNLICH. (THEMENAUSWAHL).
Der Artikel basiert auf einem Audio-Beitrag einer regionalen Nachrichtenseite, der neun Tage zuvor erschienen war, der wiederum rund neun Tage nach der Pressemitteilung zur Zulassung der App veröffentlicht worden war. Damit ist die Aktualität nur bedingt erfüllt, während andere Medien bereits ein oder zwei Tage nach der Pressemitteilung berichtet haben.
Relevanz erhält der Beitrag dadurch, dass es sich um eine App eines hessischen Startups handelt, die als eine der ersten ihrer Art zugelassen wurde, und vom Land Hessen mitfinanziert wurde. Wir werten „knapp erfüllt“.