lang icon En
April 27, 2025, 9:48 a.m.
1804

Új tanulmány időalapú mutatót javasol az MI teljesítményének értékelésére összetett feladatok esetén

Brief news summary

A tudósok új módszert dolgoztak ki az AI-képességek értékelésére, amely során összehasonlítják, hogy mennyi ideig képes az AI rendszerek sikeresen végrehajtani feladatokat az emberekkel. Míg az AI kiválóan teljesít rövid, egyszerű feladatokon, mint például szöveg-előrejelzés, nehézségekkel küzd összetettebb, hosszabb távú tevékenységeknél, mint például a távoli végrehajtói asszisztencia. Az olyan eszközök, mint a HCAST és a RE-Bench, lehetővé tették a kutatók számára, hogy különböző AI-modelleket értékeljenek számos feladaton, a gyors ténykérdésektől a részletes programozási feladatokig, az SWAA (szoftver atomikus műveletek) segítségével mérve az emberi feladatvégzés idejét. Az eredmények azt mutatják, hogy az AI szinte tökéletes pontossággal képes elvégezni a feladatokat kevesebb mint négy perc alatt, de négy órán túl jelentős teljesítményromlás tapasztalható. A tanulmány rámutat arra, hogy az AI figyelmi képességei gyorsan fejlődnek, és előrejelzi, hogy 2032-re az AI teljes körűen automatizálhat egy hónapnyi szoftverfejlesztési munkát. A szakértők ezt az időalapú értékelést egyszerű mérőszámnak tartják az AI tartós, céltudatos viselkedésének mérésére. A kutatás szerint 2026-ig kifejleszthetők általános célú AI ügynökök, amelyek képesek különböző, hosszú távú feladatokat kezelni, ezzel forradalmasítva a munkahelyeket és a mindennapi életet, mivel minimális felügyelet mellett képesek kezelni jelentős munkaterheket, versenyezve a speciális AI rendszerekkel.

A tudósok új módszert alakítottak ki a mesterséges intelligencia (MI) rendszerek értékelésére, amely azt vizsgálja, milyen gyorsan képesek túlszárnyalni vagy kihívóként jelen lenni az emberi képességekkel összetett feladatokban. Bár az MI-k általában kiválóak szöveg-előrejelzésben és tényszerű tudás feladatokban, nehézséget okoz nekik összetettebb projektek elvégzése, például távoli vezetői asszisztensként való működés. A jobb mérés érdekében egy friss kutatás javasolta, hogy az MI teljesítményét azzal értékeljük, összehasonlítva, meddig tart nekik egy feladat elvégzése az emberi időhöz képest. A március 30-án közzétett, még nem peer-reviewed preprint oldalon az arXiv-en megjelent tanulmány rámutatott arra, hogy a feladatok hosszát mérő értékelés hasznos módszer lehet az MI képességeinek feltérképezésében. A Model Evaluation & Threat Research (METR) kutatócsoport szakértői elmagyarázták, hogy az MI ügynökök számára általában nehezebb hosszabb műveletsorozatok végrehajtása, mint az egyes lépések megoldása. Eredményeik szerint az MI modellek majdnem 100%-ban sikerrel jártak azokban a feladatokban, amelyek kevesebb mint négy percet vettek igénybe az emberek számára, azonban a siker aránya 10%-ra csökkent, ha a feladat több mint négy órát vett igénybe. Az idősebb MI-modellek gyengébben teljesítettek hosszabb feladatok esetén, mint a legújabb verziók. A tanulmány rámutatott arra, hogy az általános MI-k által megbízhatóan elvégezhető maximális feladathossz körülbelül megkétszereződött minden héten az elmúlt hat évben. A kutatók többféle MI modellt teszteltek – köztük a Sonnet 3. 7-et, GPT-4-et, Claude 3 Opust és régebbi GPT-verziókat – különböző feladatokon, a kétperces egyszerű feladatoktól, mint például tények keresése Wikipedia-n, egészen a több órás szakmai kihívásokig, mint CUDA magok írása vagy finomhangolt hibák javítása PyTorch-ban. Eszközöket használtak, mint például a HCAST, amely 189 autonóm szoftverfeladatot kínál gépi tanulás, kiberbiztonság és szoftverfejlesztés területeken, valamint a RE-Bench, amely hét kihívást jelentő nyílt végű gépi tanulási mérnöki feladattal dolgozik, összehasonlítva emberi szakértőkkel. Emellett a kutatók a feladatok „zűrösségét” is értékelték, ami a valós életbeli összetettséget tükrözi, például az, hogy több párhuzamos tevékenység koordinálását igényli. Kifejlesztettek egy szoftveres atomikus műveleteket (SWAA), amelyek egylépéses feladatok, 1-től 30 másodpercig tartanak, és METR alkalmazottak által mért emberi végrehajtási időkkel benchmarkoltak. Összességében a tanulmány kimutatta, hogy az MI „figyelmi szakszája” gyorsan javul.

Ennek a tendenciának a kibővítésével a kutatók előrejelzik, hogy 2032-re az MI képes lehet automatikusan elvégezni egy hónapnyi emberi szoftverfejlesztői munkát is. Ez a mérőszám jobban segíthet megérteni az MI fejlődő képességeit, és nem csupán relatív tudás szintjén, hanem abszolút teljesítményként mérheti azokat. A szakértők ezt az új értékelési módszert ígéretesnek tartják. Sohrob Kazerounian, a Vectra AI ismert MI-kutatója szerint az, hogy az MI-t az emberi feladat-elvégzési idő alapján értékeljük, hasznos közvetítő mérőszám lehet az intelligenciára és az általános képességekre. Hozzátette, hogy egyetlen mérőszám sem ragadja meg teljesen az intelligenciát, a hosszabb távon végzett feladatok esetében pedig hibázhatnak, ugyanakkor ez a timing-alapú mérés összhangban van azokkal a komplex problémákkal, amelyeket az MI-nek meg kell oldania. Eleanor Watson, az IEEE tagja és az AI etikai mérnöke a Singularity University-től szintén hasonló véleményt osztott meg, és azt nevezte az együttműködő mérőszámnak „értékesnek és intuitívnak”, mert tükrözi a való életbeli összetettséget és az MI képeségét a koherens, cél-orientált viselkedés fenntartására, ellentétben a hagyományos rövid, izolált kihívásokat vizsgáló tesztekkel. A tanulmány nemcsak e mérőszám bevezetését hangsúlyozza, hanem az MI rendszerek képességének gyors fejlődését is, ami a generalista MI-ügynökök kialakulásának közeljövőbeli lehetőségét jelzi. Watson előrejelzése szerint 2026-ra az MI egyre inkább különböző feladatokat fog kezelni, amelyek egész napokra vagy hetekre szólnak, nem csak rövid, szűk feladatokra. Ez a fejlődés lehetővé teheti, hogy az MI jelentős részt vállaljon a szakmai feladatokból, csökkentve a költségeket, növelve a hatékonyságot, és lehetővé téve az emberi kreativitásra, stratégiára és interperszonális tevékenységekre való koncentrálást. A fogyasztók számára az MI áttörhet a egyszerű asszisztensek szintjén, és megbízható személyes ügynökké válhat, aki képes komplex felelősségek irányítására – például utazásszervezés, egészségügyi monitorozás és pénzügyi portfólió menedzsment hosszabb időtartamon át, minimális felügyelettel. Watson szerint bár a specializált MI-eszközök megmaradnak majd bizonyos szűk területeken, a hatalmas tudással rendelkező általános MI-ügynökök, amelyek rugalmasan közlekednek a feladatok között, dominálni fognak, integrálva a szakértői képességeket az átfogóbb munkafolyamatokba. Ezek a fejlesztések alapvetően fogják átformálni mind a mindennapi életet, mind a szakmai gyakorlatot a következő években.


Watch video about

Új tanulmány időalapú mutatót javasol az MI teljesítményének értékelésére összetett feladatok esetén

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Dec. 22, 2025, 1:22 p.m.

AIMM: Mesterséges Intelligencia-alapú keretrendsz…

AIMM: Innovatív MI-alapú keretrendszer a társadalmi média által befolyásolt részvénypiaci manipulációk felismerésére A mai gyorsan változó részvénykereskedelmi környezetben a közösségi média kiemelkedő erővé vált a piaci dinamika alakításában

Dec. 22, 2025, 1:16 p.m.

Kizárólagos: A Filevine megszerezte a Pincites-t,…

A jogi technológiai céget, a Filevine-t felvásárolta a Pincites-t, egy mesterséges intelligencián alapuló szerződés-átíró céget, ezzel erősítve pozícióját a vállalati és tranzakciós jog területén, és előmozdítva AI-központú stratégiáját.

Dec. 22, 2025, 1:16 p.m.

AI hatása a SEO-ra: A keresőmotor-optimalizálási …

Mesterséges intelligencia (MI) gyorsan átalakítja a keresőmotor-optimalizálás (SEO) területét, innovatív eszközöket és új lehetőségeket nyújtva a digitális marketingesek számára stratégiájuk finomhangolására és jobb eredmények elérésére.

Dec. 22, 2025, 1:15 p.m.

Előrelépések a deepfake felismerésében az AI-alap…

A mesterséges intelligencia fejlődése alapvető szerepet játszik az információk félretájékoztatás elleni küzdelemben, mivel lehetővé teszi fejlett algoritmusok létrehozását, amelyek képesek felismerni a deepfake-eket – olyan manipulált videókat, ahol az eredeti tartalom módosítva vagy helyettesítve van, hamis ábrázolásokat létrehozva, melyek célja a nézők megtévesztése és félrevezető információk terjesztése.

Dec. 22, 2025, 1:14 p.m.

Az 5 legjobb MI-alapú értékesítési rendszer, amel…

Az MI növekedése átformálta az értékesítést, mivel a hosszadalmas ciklusokat és a manuális követő lépéseket gyors, automatizált rendszerek váltották ki, amelyek működnek 24/7.

Dec. 22, 2025, 1:12 p.m.

Legújabb mesterséges intelligencia és marketing h…

Az mesterséges intelligencia (MI) és marketing gyorsan változó világában a legújabb jelentős fejlemények alakítják az iparágat, új lehetőségeket és kihívásokat egyaránt hozva.

Dec. 22, 2025, 9:22 a.m.

Az OpenAI jobb profitmarzsokat lát az üzleti érté…

A publikáció szerint a vállalat növelte „számítási margóját”, ami egy belső mutató, és azt jelzi, hogy mekkora része a bevételnek marad fenn az összes működési költség levonása után a fizető felhasználók vállalati és fogyasztói termékeit illetően.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today