Neue Studie zeigt, dass KI Schwierigkeiten beim Lesen von analogen Uhren und bei der Berechnung von Kalendertagen hat

Neue Forschung hat eine Reihe von Aufgaben identifiziert, die Menschen mühelos bewältigen, bei denen künstliche Intelligenz (KI) jedoch Schwierigkeiten hat – insbesondere das Ablesen von Analoguhren und das Ermitteln des Wochentags für ein gegebenes Datum. Obwohl KI in der Lage ist, Code, Bilder, menschenähnlichen Text zu generieren und sogar Prüfungen mit unterschiedlichem Erfolg zu bestehen, interpretiert sie häufig die Positionen der Zeiger falsch und scheitert an grundlegender Kalenderarithmetik. Die Studie wurde auf der International Conference on Learning Representations (ICLR) 2025 vorgestellt und auf dem Preprint-Server arXiv veröffentlicht (noch nicht peer-reviewed). Sie hebt bedeutende Lücken in der Fähigkeit der KI hervor, Aufgaben zu bewältigen, die Menschen bereits früh im Leben gemeistert haben. Lead-Autor Rohit Saxena von der Universität Edinburgh betonte, dass diese Schwächen adressiert werden müssen, damit KI effektiv in zeitkritischen und realen Kontexten wie Terminplanung, Automatisierung und assistiven Technologien eingesetzt werden kann. Die Forscher testeten verschiedene multimodale große Sprachmodelle (MLLMs)—darunter Meta’s Llama 3. 2-Vision, Anthropic’s Claude-3. 5 Sonnet, Google’s Gemini 2. 0 und OpenAI’s GPT-4o—mit einem eigens erstellten Datensatz aus Uhr- und Kalenderbildern. Die Modelle konnten die Uhrzeiten oder die Wochentage für Beispiel-Daten in über der Hälfte der Fälle nicht korrekt bestimmen, mit Genauigkeitsraten von nur 38, 7 % bei Uhren und 26, 3 % bei Kalenderaufgaben. Saxena erklärte, dass die schwache Fähigkeit der KI, Uhren zu lesen, auf ihrem Mangel an räumlichem Denken beruht – Aufgaben, die das Erkennen überlappender Zeiger, das Messen von Winkeln und die Interpretation verschiedener Uhrendesigns, wie römische Ziffern oder stilisierte Zifferblätter, erfordern. Ein Bild als Uhr zu erkennen ist für KI einfacher als es genau abzulesen.
Ebenso verhalten sich große Sprachmodelle bei Berechnungen nicht nach Algorithmen, sondern vorhersagen Outputs basierend auf Mustern in den Trainingsdaten. Das führt zu inkonsistentem und nicht regelbasiertem Denken, was die hohen Fehlerraten bei datumsbezogener Arithmetik erklärt. Diese Studie trägt zu den wachsenden Belegen bei, dass die Art des „Verstehens“ von KI grundsätzlich vom menschlichen Denken abweicht. KI ist dort erfolgreich, wo ausreichend Trainingsbeispiele vorhanden sind, doch bei abstraktem Denken und Generalisierung, insbesondere bei Aufgaben, die Wahrnehmung mit präziser Logik verbinden, zeigt sie Schwächen. Zudem erschwert begrenzte Trainingsdaten zu selteneren Phänomenen wie Schaltjahren die Leistung, da die KI keine notwendigen Konzepte miteinander verknüpfen kann. Die Ergebnisse unterstreichen die Notwendigkeit reichhaltigerer, gezielter Datensätze und einer Neubewertung der Fähigkeit von KI, logisches und räumliches Denken zu integrieren. Sie heben auch die Risiken hervor, sich bei komplexen Aufgaben übermäßig auf KI-Ergebnisse zu verlassen. Saxena betonte die Bedeutung rigoroser Tests, Fallback-Mechanismen und oftmals menschlicher Aufsicht, wenn KI mit Wahrnehmung und exakter Logik beauftragt wird.
Brief news summary
Neue Forschungen, präsentiert auf der International Conference on Learning Representations 2025, heben erhebliche Grenzen aktueller KI-Modelle wie Metas Llama 3.2-Vision, Anthropic’s Claude-3.5 Sonnet, Google’s Gemini 2.0 und OpenAI’s GPT-4o hervor. Trotz jüngster Fortschritte haben diese Modelle Schwierigkeiten mit Aufgaben, die für Menschen einfach sind, wie das Ablesen von Analoguhrzeiten und das Bestimmen von Wochentagen anhand von Daten. Die Studie ergab, dass diese Modelle Uhrzeiten nur in 38,7 % der Fälle korrekt interpretierten und Kalenderdaten nur in 26,3 %, was ihre Abhängigkeit von Mustererkennung statt tatsächlichem Denkvermögen unterstreicht. Unter Leitung von Rohit Saxena von der University of Edinburgh zeigt die Forschung, dass KI-Systeme zwar Objekte präzise erkennen können, bei komplexen räumlichen und logischen Denkaufgaben jedoch deutliche Herausforderungen haben, insbesondere bei ungewöhnlichen Ereignissen wie Schaltjahren. Die Ergebnisse betonen die Notwendigkeit neuer Schulungsansätze, die logische und räumliche Denkfähigkeiten integrieren, und warnen vor einer Überabhängigkeit von KI bei Aufgaben, die präzise Berechnungen erfordern. Letztlich verdeutlicht die Studie fundamentale Unterschiede zwischen menschlicher Kognition und KI-Mustererkennung und plädiert für eine umfassende Validierung sowie menschliche Überwachung in zeitkritischen Anwendungen in der realen Welt.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!

Nvidia erhält einen KI-Schub, Meta stößt auf ein …
Der nächste Schauplatz im AI-Wettlauf ist nicht Peking – sondern Riad, zumindest laut Wedbush.

Der öffentliche Zugang zum Internet ist ein Engpa…
Laut Austin Federa, Mitbegründer und CEO von DoubleZero – ein Projekt, das sich auf die Entwicklung von Hochgeschwindigkeits-Glasfaserkommunikationsleitungen für Blockchains konzentriert – ist die öffentliche Internetinfrastruktur die Hauptursache für Geschwindigkeits- und Leistungsengpässe bei Hochdurchsatz-Blockchain-Netzwerken.

Shoosmiths belohnt die Einführung von KI mit eine…
Zu Beginn des letzten Monats kündigte die britische Kanzlei Shoosmiths mit 1500 Mitarbeitern einen Bonuspool von einer Million Pfund an, der unter den Mitarbeitern verteilt werden sollte, wenn sie gemeinsam das KI-Tool Copilot von Microsoft in ihre Arbeitsabläufe integrieren.

JP Morgan führt erste tokenisierte Staatsanleihen…
JP Morgan hat seine erste Transaktion auf einer öffentlichen Blockchain abgeschlossen, was auf das wachsende Engagement des Finanzriesen im Web3-Ökosystem hinweist.

KI-Chips sind die neuen ‚Währung der Welt‘, da si…
© 2025 Fortune Media IP Limited.

Zentralbanken erforschen Blockchain, um die Geldp…
Zentralbanken beginnen zu untersuchen, wie programmierbare Blockchain-Technologien die Durchführung der Geldpolitik transformieren könnten.

Das Star-Wars-Highlight der KI-Spezialeffekte war…
Wenn die Führung von Disney es so will, werden wir von endlosen Neustarts, Fortsetzungen und Spin-offs aus dem Star-Wars-Universum überflutet, bis die Sonne irgendwann explodiert.