Gemini unter Beschuss: Googles KI generiert Millionen Fehlinformationen stündlich

Gemini in der Kritik: Googles KI generiert Millionen falsche Antworten pro Stunde

Eine aktuelle Untersuchung deckt erhebliche Schwachstellen in Googles KI-gestützten Suchzusammenfassungen auf. Seit einiger Zeit präsentiert der Tech-Gigant bei Suchergebnissen primär KI-generierte Übersichten, die jedoch aufgrund ihrer mangelhaften Zuverlässigkeit zunehmend in die Kritik geraten.

Studie enthüllt alarmierende Fehlerquote

Die New York Times führte gemeinsam mit dem KI-Unternehmen Oumi eine umfassende Analyse durch, die belegt, dass Googles System das Problem falscher Informationen im Internet sogar noch verstärkt. Für den Test wurde das KI-Frage- und Antwortmodell Simple QA von OpenAI eingesetzt, das mehr als 4000 Fragen zur Faktenprüfung nutzt.

Die Ergebnisse zeigen: Während Googles KI Gemini im Jahr 2025 noch in 85 Prozent aller Fälle korrekte Antworten lieferte, verbesserte sich die Trefferquote nach dem Update auf Version 3.0 auf 91 Prozent. Diese Zahl klingt zunächst positiv, doch bei näherer Betrachtung offenbart sich ein gravierendes Problem.

—

Breites Pickt-Banner — kollaborative Einkaufslisten-App für Telegram

Rund jede zehnte KI-Antwort ist falsch, was angesichts der immensen Anzahl täglicher Suchanfragen zu Millionen fehlerhaften Informationen führt. Bei der schieren Menge an Nutzeranfragen summiert sich diese Fehlerquote zu einem besorgniserregenden Ausmaß an Fehlinformationen.

Google wehrt sich gegen Kritik

Der Technologiekonzern widerspricht den Ergebnissen der Studie und relativiert deren Aussagekraft. Google argumentiert, das verwendete Simple-QA-Tool bilde nicht die realen Suchanfragen der Nutzer ab. Das Unternehmen verweist stattdessen auf ein eigenes System namens Simple QA verified, das mit weniger, aber gezielteren Fragen arbeite.

Auf Nachfrage der Technologie-Website Arstechnica.com erklärte Google zudem, dass für jede Suchanfrage das jeweils am besten geeignete KI-Modell zum Einsatz komme. Die Technologie basiere somit nicht auf einem einzelnen Sprachmodell. Interne Berichte deuten jedoch darauf hin, dass aus Kostengründen vor allem die einfacheren Flash-Modelle am häufigsten verwendet werden.

Google gibt für seine verschiedenen KI-Modelle Genauigkeiten zwischen 60 und 80 Prozent an – Werte, die deutlich unter den in der Studie gemessenen 91 Prozent liegen und somit die Diskrepanz zwischen internen und externen Bewertungen verdeutlichen.

Konkrete Fehlerbeispiele belegen Probleme

Die Untersuchung dokumentierte zahlreiche konkrete Fehlleistungen des Gemini-Systems. Bei der Frage, wann das ehemalige Wohnhaus von Bob Marley zum Museum umgewandelt wurde, nutzte Gemini Quellen, die die Frage gar nicht beantworteten. Das System landete schließlich über Wikipedia bei einem falschen Datum, obwohl die Plattform selbst widersprüchliche Angaben enthielt.

Ein weiteres Beispiel betraf die Aufnahme des weltberühmten Cellisten Yo Yo Ma in die Hall of Fame für klassische Musik. Gemini antwortete hier fälschlicherweise, eine solche Einrichtung existiere überhaupt nicht – eine Aussage, die sich bei minimaler Recherche als eindeutig falsch erwies.

Ob die Studie endgültige Aussagen über die Qualität von Googles KI-Systemen erlaubt, bleibt wissenschaftlich umstritten. Dennoch zeigt sie deutlich, dass Nutzer KI-generierten Antworten nicht blind vertrauen sollten. Die Untersuchung unterstreicht die Notwendigkeit kritischer Medienkompetenz im Umgang mit künstlicher Intelligenz.

Die Diskussion um die Zuverlässigkeit von KI-gestützten Suchfunktionen gewinnt angesichts der zunehmenden Verbreitung dieser Technologien stetig an Bedeutung. Experten fordern transparente Qualitätsstandards und unabhängige Überprüfungsmechanismen, um die Verbreitung von Fehlinformationen einzudämmen.