lang icon German
Auto-Filling SEO Website as a Gift

Launch Your AI-Powered Business and get clients!

No advertising investment needed—just results. AI finds, negotiates, and closes deals automatically

April 27, 2025, 9:48 a.m.
14

Neue Studie schlägt zeitbasierte Metrik zur Bewertung der KI-Leistung bei komplexen Aufgaben vor

Wissenschaftler haben eine neue Methode entwickelt, um künstliche Intelligenz (KI)-Systeme zu bewerten, basierend darauf, wie schnell sie menschliche Leistungen bei komplexen Aufgaben übertreffen oder konkurrieren können. Während KI im Allgemeinen bei Textvorhersagen und Faktenwissenaufgaben hervorragend ist, haben sie Schwierigkeiten bei aufwendigeren Projekten wie remote Führungsunterstützung. Um den KI-Fortschritt besser zu messen, schlug eine aktuelle Studie vor, die Leistung von KI zu bewerten, indem man die Dauer der von der KI zu erledigenden Aufgaben mit der Zeit vergleicht, die Menschen dafür benötigen. Die am 30. März auf der Preprint-Plattform arXiv veröffentlichte Studie, die noch nicht peer-reviewed ist, zeigt, dass die Bewertung der Aufgabenlänge ein nützlicher Ansatz ist, um die Fähigkeiten von KI einzuschätzen. Die Forscher vom Model Evaluation & Threat Research (METR) erklärten, dass KI-Agenten oft Schwierigkeiten haben, längere Folgehandlungen aufrechtzuerhalten, anstatt einzelne Einzelschritte zu lösen. Ihre Ergebnisse zeigten, dass KI-Modelle bei Aufgaben, die Menschen in weniger als vier Minuten erledigen, fast 100 % Erfolg hatten, während die Erfolgsrate bei Aufgaben, die mehr als vier Stunden beanspruchen, auf 10 % sank. Ältere KI-Modelle schnitten bei längeren Aufgaben schlechter ab als die neuesten Versionen. Die Studie betonte außerdem, dass sich die maximale Länge der Aufgaben, die allgemeine KI zuverlässig bewältigen kann, in den letzten sechs Jahren etwa alle sieben Monate verdoppelt hat. Für die Studie testete das Team verschiedene KI-Modelle, darunter Sonnet 3. 7, GPT-4, Claude 3 Opus und ältere GPT-Versionen, an einer Reihe von Aufgaben, von einfachen Zwei-Minuten-Aufträgen wie Faktenabfragen bei Wikipedia bis hin zu mehrstündigen Expertenaufgaben wie das Schreiben von CUDA-Kernels oder das Beheben subtiler Bugs in PyTorch. Sie nutzten Tools wie HCAST, das 189 Autonomie-Softwareaufgaben in den Bereichen maschinelles Lernen, Cybersicherheit und Softwareentwicklung anbietet, sowie RE-Bench, das sieben anspruchsvolle, offene Aufgaben im Bereich maschinelles Lernen enthält, die an menschliche Experten benchmarkiert wurden. Zusätzlich bewerteten die Forscher Aufgaben nach „Unordnung“, was die Komplexität in der Wirklichkeit widerspiegelt, etwa die Notwendigkeit zur Koordination bei gleichzeitigen Aktivitäten. Sie entwickelten auch Software-atomare Aktionen (SWAA), das einfache Einzelschritt-Aufgaben von einer bis 30 Sekunden Dauer sind, die anhand der realen Abschlusszeiten menschlicher METR-Mitarbeiter verglichen wurden. Insgesamt zeigte die Studie, dass die „Aufmerksamkeitsspanne“ von KI sich rapide verbessert.

Bei Fortsetzung dieses Trends prognostizierten die Forscher, dass KI bis 2032 das Äquivalent eines Monats menschlicher Softwareentwicklung automatisieren könnte. Dieser Benchmark könnte zu einem besseren Verständnis der sich entwickelnden Fähigkeiten von KI beitragen und eine bedeutende Messgröße für absolute Leistung darstellen, anstatt nur relative Fähigkeiten zu vergleichen. Experten sehen in dieser neuen Bewertungsmethode großes Potenzial. Sohrob Kazerounian, ein renommierter KI-Forscher bei Vectra AI, hält die Messung der KI anhand der Zeit, die Menschen für Aufgaben benötigen, für eine nützliche Proxy bei der Bewertung von Intelligenz und Allgemeinfähigkeit. Er erläuterte, dass kein einzelner Messwert die Intelligenz vollständig erfassen könne, längere Aufgaben zunehmend fehleranfällig würden und dass solche Timing-Messungen mit den komplexen menschlichen Problemen übereinstimmten, die KI zu lösen versucht. Eleanor Watson, Mitglied des IEEE und KI-Ethikingenieurin an der Singularity University, teilte diese Einschätzung und nannte den Parameter „wertvoll und intuitiv“, da er die komplexe Realität widerspiegle und die Fähigkeit der KI, kohärentes, zielgerichtetes Verhalten aufrechtzuerhalten, im Gegensatz zu traditionellen Tests mit kurzen, isolierten Herausforderungen widerspiegle. Neben der Einführung dieses Messwerts unterstreicht die Studie die schnelle Weiterentwicklung der Fähigkeiten von KI-Systemen, längere Aufgaben zu bewältigen, was auf das Aufkommen von generalistischen KI-Agenten in Kürze hinweist. Watson prognostiziert, dass KI bis 2026 zunehmend ganze Tage oder Wochen umspannende Aufgaben statt kurzer, eng definierter Challenges übernehmen wird. Diese Entwicklung könnte es KI ermöglichen, bedeutende Teile der beruflichen Arbeitslast zu übernehmen – Kosten zu senken, Effizienz zu steigern und den Menschen Raum für Kreativität, Strategie und zwischenmenschliche Aktivitäten zu lassen. Für Verbraucher könnte sich KI von einfachen Assistenten zu verlässlichen persönlichen Managern entwickeln, die in der Lage sind, komplexe Aufgaben über längere Zeiträume mit minimaler Aufsicht zu überwachen – etwa Reiseplanung, Gesundheitsüberwachung und Finanzportfoliomanagement. Watson schlägt vor, dass während spezialisierte KI-Tools in Nischengebieten bleiben, mächtige generalistische KI-Agenten, die flexibel zwischen verschiedenen Aufgaben wechseln können, die dominierenden Akteure sein werden, indem sie Fachkenntnisse in breitere Arbeitsabläufe integrieren. Diese Entwicklungen dürften in den kommenden Jahren sowohl den Alltag als auch die berufliche Praxis grundlegend verändern.



Brief news summary

Wissenschaftler haben eine neuartige Methode entwickelt, um die Fähigkeiten von KI zu bewerten, indem sie die Dauer vergleichen, die KI-Systeme erfolgreich Aufgaben bewältigen können, im Verhältnis zu Menschen. Während KI bei kurzen, einfachen Aufgaben wie Textvorhersagen außergewöhnlich gut abschneidet, steht sie vor Herausforderungen bei längeren, komplexen Aktivitäten wie der Fernassistenz für Führungskräfte. Mithilfe von Werkzeugen wie HCAST und RE-Bench haben Forscher verschiedene KI-Modelle in einem breiten Spektrum von Aufgaben getestet, von schnellen Faktenfragen bis hin zu detaillierten Programmieraufträgen, wobei Software-Atomare Aktionen (SWAA) verwendet wurden, um menschliche Aufgabendurchlaufzeiten zu benchmarken. Die Ergebnisse zeigen, dass KI bei Aufgaben unter vier Minuten nahezu perfekte Genauigkeit erreicht, aber bei mehr als vier Stunden deutliche Leistungseinbußen erleidet. Die Studie hebt schnelle Fortschritte in den Aufmerksamkeits-Spannen der KI hervor und prognostiziert, dass KI bis 2032 in der Lage sein könnte, die komplette Monatsarbeit an Softwareentwicklung zu automatisieren. Experten sehen diese zeitbasierte Bewertung als eine einfache Metrik, um das nachhaltige, zielgerichtete Verhalten von KI zu messen. Die Forschung erwartet die Entwicklung von Generalisten-KI-Agenten bis 2026, die in der Lage sind, vielfältige, langwierige Aufgaben zu bewältigen, was potenziell die Arbeitsplätze und das tägliche Leben revolutionieren könnte, indem sie große Arbeitslasten mit minimaler Aufsicht neben spezialisierten KI-Systemen managen.
Business on autopilot

AI-powered Lead Generation in Social Media
and Search Engines

Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment

Language

Content Maker

Our unique Content Maker allows you to create an SEO article, social media posts, and a video based on the information presented in the article

news image

Last news

The Best for your Business

Learn how AI can help your business.
Let’s talk!

May 8, 2025, 12:03 a.m.

Robinhood führt blockchain-basierten Handel für U…

Analyse Robinhoods jüngste Ankündigung, eine blockchain-basierte Plattform für den Handel mit US-Vermögenswerten in Europa zu starten, hat auf den Finanzmärkten, insbesondere im Kryptowährungssektor, beträchtliches Interesse geweckt

May 7, 2025, 11:11 p.m.

Apple plant, KI-basierte Suche in Safari zu integ…

Apple prüfe „aktiv die Umstrukturierung“ des Safari-Webbrowsers auf ihren Geräten, um KI-gestützte Suchmaschinen zu priorisieren, berichtete Bloomberg News am Mittwoch.

May 7, 2025, 10:26 p.m.

Vertrauenswürdige Inter-Anbieter-Vereinbarungen i…

Eine aktuelle Studie hat einen neuartigen, datenschutzfreundlichen Hybrid-Blockchain-Rahmen vorgestellt, der darauf abzielt, die Sicherheit und Flexibilität bei Vereinbarungen zwischen Anbietern innerhalb von 6G-Netzwerken zu verbessern.

May 7, 2025, 9:42 p.m.

Trump-Regierung wird die globalen Exportbeschränk…

Die Trump-Regierung hat Pläne angekündigt, eine im Biden-Ärger eingeführte Regelung zur Einschränkung und Überarbeitung der Exportkontrolle für fortschrittliche Künstliche Intelligenz (KI)-Chips zurückzunehmen und neu zu gestalten.

May 7, 2025, 9 p.m.

Integral bringt Banken-FX-Daten auf die Blockchai…

Die Partnerschaft zwischen Pyth Network, einem dezentralen Daten-Feed-Anbieter, und Integral, einem globalen Infrastrukturanbieter für Währungsmärkte, ermöglicht es institutionellen Devisen (FX)-Datenpipelines, durch Nutzung der Backend-Infrastruktur von Integral on-chain gebracht zu werden.

May 7, 2025, 7:56 p.m.

Microsoft wird die Senatoren dazu auffordern, die…

Am 8.

May 7, 2025, 7:24 p.m.

Coinbase und Riot Games treten öffentlichkeitswir…

Coinbase hat eine mehrjährige strategische Partnerschaft mit Riot Games bekannt gegeben und positioniert sich damit als exklusiver Kryptowährungsaustausch und Blockchain-Technologiepartner für die globalen E-Sport-Events des Entwicklers.

All news