Es ist allgemein bekannt, dass generative KI-Tools manchmal zu Halluzinationen neigen, aber der allgemeine Konsens ist, dass sie heute viel zuverlässiger sind als in der Vergangenheit. Eine umfassende aktuelle Analyse hat jedoch gezeigt, dass das Gegenteil der Fall ist, was ein größeres Problem darstellt, als man zunächst annehmen könnte.
Immer mehr Menschen nutzen KI-Tools in ihrem Alltag, wobei viele sie inzwischen eindeutig als Nachfolger klassischer Suchmaschinen wie Google sehen. Sie neigen auch dazu, den Antworten von Chatbots bei der Arbeit volle Anerkennung zu schenken. Dies kann jedoch unvorhergesehene Folgen haben. Halluzinationen sind nach wie vor ein ernstes Problem, das aber von den Nutzern im Allgemeinen eher auf die leichte Schulter genommen wird, da sie dazu neigen, es zu ignorieren.
NewsGuard, das auf die Bewertung und Analyse von Nachrichten- und Informationsseiten spezialisiert ist, hat die 10 generativen KI-Tools mit der größten Nutzerbasis untersucht. Die endgültige Studie wurde vor kurzem veröffentlicht, mit schockierenden Ergebnissen. Sechs von zehn Chatbots haben sich im Vergleich zum Vorjahr verschlechtert, und es gibt sogar einen Neuling in der Liste, so dass sechs von neun tatsächlich schlechter abschneiden als im Vorjahr.
"Die zehn besten KI-basierten Tools lieferten wiederholt falsche Informationen zu den von uns untersuchten Themen, wobei mehr als ein Drittel - 35 Prozent - der Nachrichtenbeiträge in der Umfrage vom August 2025 etwas Falsches enthielten, verglichen mit nur 18 Prozent der Antworten mit Fehlern im August 2024", so NewsGuard.
Die mangelnde Verbesserung der Zuverlässigkeit der Antworten ist an sich schon verheerend genug, aber die Tatsache, dass dieses Ausmaß an Qualitätsverschlechterung in einer unabhängigen Analyse zu sehen ist, zeichnet ein sehr schlechtes Bild von diesen Tools. Ein erheblicher Teil der Fehler ist darauf zurückzuführen, dass diese Tools jetzt viel stärker auf Echtzeitinformationen angewiesen sind. NewsGuard wies darauf hin, dass vor einem Jahr 31 % der Fragen von den Tools nicht beantwortet wurden, weil keine Daten vorlagen, während sie jetzt alles beantworten, nur nicht gut.
Darüber hinaus, so die Forscher, wird die Zuverlässigkeit der Dienste auch dadurch stark beeinträchtigt, dass sie häufig immer wieder auf der Grundlage falscher Informationen antworten. Nur in sehr wenigen Fällen ist es ihnen gelungen, eine frühere falsche Antwort zu korrigieren. Problematisch ist laut NewsGuard auch die Zunahme globaler Desinformationsaktivitäten, die generative Tools nicht richtig einschätzen und adressieren bzw. von vornherein ausschließen können. Der Rückgang der Anzahl vertrauenswürdiger Quellen verschlechtert die Leistung von Chatbots.
Letztes Jahr lag Gemini an erster Stelle, aber jetzt ist es nach einem deutlichen Rückgang an zweiter Stelle, und Claude ist an erster Stelle, weil es die Leistung des letzten Jahres erreicht hat. Das Instrument Anthropic verfehlte nur 10 %, und im August 2024 hatte es immer noch nur 10 % falsche Antworten, während Gemini von 6,67 % auf 16,67 % abrutschte.
Grok belegte den dritten Platz, gleichauf mit You.com, das 33 % seiner Antworten falsch abgab. Copilot und Mistral schnitten ebenfalls gut ab und gaben 36 % ihrer Antworten falsch an, während ChatGPT und Meta mit 40 % daneben lagen, was sich schrecklich anhört.
Angeblich arbeiten die Unternehmen daran, Chatbots genauer und zuverlässiger in ihren Antworten zu machen, aber nur sehr wenige davon wurden durch Live-Tests für NewsGuard unterstützt. Die Aussichten sind nicht gut, und angesichts der Tatsache, dass der Einsatz von Chatbots wahrscheinlich dazu führen wird, dass mehr und mehr Fehlinformationen auftauchen, wird dies sicherlich nach hinten losgehen.