News
>
Új tanulmány időalapú mutatót javasol az MI teljesítményének értékelésére összetett feladatok esetén

April 27, 2025, 9:48 a.m.

Új tanulmány időalapú mutatót javasol az MI teljesítményének értékelésére összetett feladatok esetén

Brief news summary

A tudósok új módszert dolgoztak ki az AI-képességek értékelésére, amely során összehasonlítják, hogy mennyi ideig képes az AI rendszerek sikeresen végrehajtani feladatokat az emberekkel. Míg az AI kiválóan teljesít rövid, egyszerű feladatokon, mint például szöveg-előrejelzés, nehézségekkel küzd összetettebb, hosszabb távú tevékenységeknél, mint például a távoli végrehajtói asszisztencia. Az olyan eszközök, mint a HCAST és a RE-Bench, lehetővé tették a kutatók számára, hogy különböző AI-modelleket értékeljenek számos feladaton, a gyors ténykérdésektől a részletes programozási feladatokig, az SWAA (szoftver atomikus műveletek) segítségével mérve az emberi feladatvégzés idejét. Az eredmények azt mutatják, hogy az AI szinte tökéletes pontossággal képes elvégezni a feladatokat kevesebb mint négy perc alatt, de négy órán túl jelentős teljesítményromlás tapasztalható. A tanulmány rámutat arra, hogy az AI figyelmi képességei gyorsan fejlődnek, és előrejelzi, hogy 2032-re az AI teljes körűen automatizálhat egy hónapnyi szoftverfejlesztési munkát. A szakértők ezt az időalapú értékelést egyszerű mérőszámnak tartják az AI tartós, céltudatos viselkedésének mérésére. A kutatás szerint 2026-ig kifejleszthetők általános célú AI ügynökök, amelyek képesek különböző, hosszú távú feladatokat kezelni, ezzel forradalmasítva a munkahelyeket és a mindennapi életet, mivel minimális felügyelet mellett képesek kezelni jelentős munkaterheket, versenyezve a speciális AI rendszerekkel.

A tudósok új módszert alakítottak ki a mesterséges intelligencia (MI) rendszerek értékelésére, amely azt vizsgálja, milyen gyorsan képesek túlszárnyalni vagy kihívóként jelen lenni az emberi képességekkel összetett feladatokban. Bár az MI-k általában kiválóak szöveg-előrejelzésben és tényszerű tudás feladatokban, nehézséget okoz nekik összetettebb projektek elvégzése, például távoli vezetői asszisztensként való működés. A jobb mérés érdekében egy friss kutatás javasolta, hogy az MI teljesítményét azzal értékeljük, összehasonlítva, meddig tart nekik egy feladat elvégzése az emberi időhöz képest. A március 30-án közzétett, még nem peer-reviewed preprint oldalon az arXiv-en megjelent tanulmány rámutatott arra, hogy a feladatok hosszát mérő értékelés hasznos módszer lehet az MI képességeinek feltérképezésében. A Model Evaluation & Threat Research (METR) kutatócsoport szakértői elmagyarázták, hogy az MI ügynökök számára általában nehezebb hosszabb műveletsorozatok végrehajtása, mint az egyes lépések megoldása. Eredményeik szerint az MI modellek majdnem 100%-ban sikerrel jártak azokban a feladatokban, amelyek kevesebb mint négy percet vettek igénybe az emberek számára, azonban a siker aránya 10%-ra csökkent, ha a feladat több mint négy órát vett igénybe. Az idősebb MI-modellek gyengébben teljesítettek hosszabb feladatok esetén, mint a legújabb verziók. A tanulmány rámutatott arra, hogy az általános MI-k által megbízhatóan elvégezhető maximális feladathossz körülbelül megkétszereződött minden héten az elmúlt hat évben. A kutatók többféle MI modellt teszteltek – köztük a Sonnet 3. 7-et, GPT-4-et, Claude 3 Opust és régebbi GPT-verziókat – különböző feladatokon, a kétperces egyszerű feladatoktól, mint például tények keresése Wikipedia-n, egészen a több órás szakmai kihívásokig, mint CUDA magok írása vagy finomhangolt hibák javítása PyTorch-ban. Eszközöket használtak, mint például a HCAST, amely 189 autonóm szoftverfeladatot kínál gépi tanulás, kiberbiztonság és szoftverfejlesztés területeken, valamint a RE-Bench, amely hét kihívást jelentő nyílt végű gépi tanulási mérnöki feladattal dolgozik, összehasonlítva emberi szakértőkkel. Emellett a kutatók a feladatok „zűrösségét” is értékelték, ami a valós életbeli összetettséget tükrözi, például az, hogy több párhuzamos tevékenység koordinálását igényli. Kifejlesztettek egy szoftveres atomikus műveleteket (SWAA), amelyek egylépéses feladatok, 1-től 30 másodpercig tartanak, és METR alkalmazottak által mért emberi végrehajtási időkkel benchmarkoltak. Összességében a tanulmány kimutatta, hogy az MI „figyelmi szakszája” gyorsan javul.

Ennek a tendenciának a kibővítésével a kutatók előrejelzik, hogy 2032-re az MI képes lehet automatikusan elvégezni egy hónapnyi emberi szoftverfejlesztői munkát is. Ez a mérőszám jobban segíthet megérteni az MI fejlődő képességeit, és nem csupán relatív tudás szintjén, hanem abszolút teljesítményként mérheti azokat. A szakértők ezt az új értékelési módszert ígéretesnek tartják. Sohrob Kazerounian, a Vectra AI ismert MI-kutatója szerint az, hogy az MI-t az emberi feladat-elvégzési idő alapján értékeljük, hasznos közvetítő mérőszám lehet az intelligenciára és az általános képességekre. Hozzátette, hogy egyetlen mérőszám sem ragadja meg teljesen az intelligenciát, a hosszabb távon végzett feladatok esetében pedig hibázhatnak, ugyanakkor ez a timing-alapú mérés összhangban van azokkal a komplex problémákkal, amelyeket az MI-nek meg kell oldania. Eleanor Watson, az IEEE tagja és az AI etikai mérnöke a Singularity University-től szintén hasonló véleményt osztott meg, és azt nevezte az együttműködő mérőszámnak „értékesnek és intuitívnak”, mert tükrözi a való életbeli összetettséget és az MI képeségét a koherens, cél-orientált viselkedés fenntartására, ellentétben a hagyományos rövid, izolált kihívásokat vizsgáló tesztekkel. A tanulmány nemcsak e mérőszám bevezetését hangsúlyozza, hanem az MI rendszerek képességének gyors fejlődését is, ami a generalista MI-ügynökök kialakulásának közeljövőbeli lehetőségét jelzi. Watson előrejelzése szerint 2026-ra az MI egyre inkább különböző feladatokat fog kezelni, amelyek egész napokra vagy hetekre szólnak, nem csak rövid, szűk feladatokra. Ez a fejlődés lehetővé teheti, hogy az MI jelentős részt vállaljon a szakmai feladatokból, csökkentve a költségeket, növelve a hatékonyságot, és lehetővé téve az emberi kreativitásra, stratégiára és interperszonális tevékenységekre való koncentrálást. A fogyasztók számára az MI áttörhet a egyszerű asszisztensek szintjén, és megbízható személyes ügynökké válhat, aki képes komplex felelősségek irányítására – például utazásszervezés, egészségügyi monitorozás és pénzügyi portfólió menedzsment hosszabb időtartamon át, minimális felügyelettel. Watson szerint bár a specializált MI-eszközök megmaradnak majd bizonyos szűk területeken, a hatalmas tudással rendelkező általános MI-ügynökök, amelyek rugalmasan közlekednek a feladatok között, dominálni fognak, integrálva a szakértői képességeket az átfogóbb munkafolyamatokba. Ezek a fejlesztések alapvetően fogják átformálni mind a mindennapi életet, mind a szakmai gyakorlatot a következő években.

News source

Watch video about

Új tanulmány időalapú mutatót javasol az MI teljesítményének értékelésére összetett feladatok esetén

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Dec. 22, 2025, 1:22 p.m.

AIMM: Mesterséges Intelligencia-alapú keretrendsz…

AIMM: Innovatív MI-alapú keretrendszer a társadalmi média által befolyásolt részvénypiaci manipulációk felismerésére A mai gyorsan változó részvénykereskedelmi környezetben a közösségi média kiemelkedő erővé vált a piaci dinamika alakításában

Dec. 22, 2025, 1:16 p.m.

Kizárólagos: A Filevine megszerezte a Pincites-t,…

A jogi technológiai céget, a Filevine-t felvásárolta a Pincites-t, egy mesterséges intelligencián alapuló szerződés-átíró céget, ezzel erősítve pozícióját a vállalati és tranzakciós jog területén, és előmozdítva AI-központú stratégiáját.

Dec. 22, 2025, 1:16 p.m.

AI hatása a SEO-ra: A keresőmotor-optimalizálási …

Mesterséges intelligencia (MI) gyorsan átalakítja a keresőmotor-optimalizálás (SEO) területét, innovatív eszközöket és új lehetőségeket nyújtva a digitális marketingesek számára stratégiájuk finomhangolására és jobb eredmények elérésére.

Dec. 22, 2025, 1:15 p.m.

Előrelépések a deepfake felismerésében az AI-alap…

A mesterséges intelligencia fejlődése alapvető szerepet játszik az információk félretájékoztatás elleni küzdelemben, mivel lehetővé teszi fejlett algoritmusok létrehozását, amelyek képesek felismerni a deepfake-eket – olyan manipulált videókat, ahol az eredeti tartalom módosítva vagy helyettesítve van, hamis ábrázolásokat létrehozva, melyek célja a nézők megtévesztése és félrevezető információk terjesztése.

Dec. 22, 2025, 1:14 p.m.

Az 5 legjobb MI-alapú értékesítési rendszer, amel…

Az MI növekedése átformálta az értékesítést, mivel a hosszadalmas ciklusokat és a manuális követő lépéseket gyors, automatizált rendszerek váltották ki, amelyek működnek 24/7.

Dec. 22, 2025, 1:12 p.m.

Legújabb mesterséges intelligencia és marketing h…

Az mesterséges intelligencia (MI) és marketing gyorsan változó világában a legújabb jelentős fejlemények alakítják az iparágat, új lehetőségeket és kihívásokat egyaránt hozva.

Dec. 22, 2025, 9:22 a.m.

Az OpenAI jobb profitmarzsokat lát az üzleti érté…

A publikáció szerint a vállalat növelte „számítási margóját”, ami egy belső mutató, és azt jelzi, hogy mekkora része a bevételnek marad fenn az összes működési költség levonása után a fizető felhasználók vállalati és fogyasztói termékeit illetően.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today

Új tanulmány időalapú mutatót javasol az MI teljesítményének értékelésére összetett feladatok esetén

Brief news summary

News source

Watch video about

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Content Maker

Last news

AIMM: Mesterséges Intelligencia-alapú keretrendszer a közösségi média részvénypiaci manipulációjának felismerésére

A Filevine megszerzi az AI-alapú szerződésjavaslatokat készítő Pincites céget, hogy bővítse jogi technológiai terjeszkedését

Hogyan forradalmasítja a mesterséges intelligencia a digitális marketingesek SEO-stratégiáit

The Best for your Business

Hot news

AIMM: Mesterséges Intelligencia-alapú keretrendsz…

Kizárólagos: A Filevine megszerezte a Pincites-t,…

AI hatása a SEO-ra: A keresőmotor-optimalizálási …

Előrelépések a deepfake felismerésében az AI-alap…

Az 5 legjobb MI-alapú értékesítési rendszer, amel…

Legújabb mesterséges intelligencia és marketing h…

Az OpenAI jobb profitmarzsokat lát az üzleti érté…

AI Company

Sales

Marketing

Új tanulmány időalapú mutatót javasol az MI teljesítményének értékelésére összetett feladatok esetén

Brief news summary

News source

Watch video about

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator. Let’s make a post or video and publish it on any social media — ready?

Content Maker

Last news

AIMM: Mesterséges Intelligencia-alapú keretrendszer a közösségi média részvénypiaci manipulációjának felismerésére

A Filevine megszerzi az AI-alapú szerződésjavaslatokat készítő Pincites céget, hogy bővítse jogi technológiai terjeszkedését

Hogyan forradalmasítja a mesterséges intelligencia a digitális marketingesek SEO-stratégiáit

The Best for your Business

Hot news

AIMM: Mesterséges Intelligencia-alapú keretrendsz…

Kizárólagos: A Filevine megszerezte a Pincites-t,…

AI hatása a SEO-ra: A keresőmotor-optimalizálási …

Előrelépések a deepfake felismerésében az AI-alap…

Az 5 legjobb MI-alapú értékesítési rendszer, amel…

Legújabb mesterséges intelligencia és marketing h…

Az OpenAI jobb profitmarzsokat lát az üzleti érté…

AI Company

Your News is ready

Your article is ready

Generating video takes longer than text.

Join our community of experts

Reasons why you should be part of the experts community

Welcome to Neuron Expert!

Check your email

Launch Your AI-Powered Business

AI Marketing Across All Social Media

AI Sales Manager + CRM

Support

Content Maker

Topic

Specify the topic (Optional)

Link (Optional)

Learn how to craft press releases, create unique social media posts, write SEO-optimized articles for websites, and produce videos, all from a single source

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?