A tudósok új módszert alakítottak ki a mesterséges intelligencia (MI) rendszerek értékelésére, amely azt vizsgálja, milyen gyorsan képesek túlszárnyalni vagy kihívóként jelen lenni az emberi képességekkel összetett feladatokban. Bár az MI-k általában kiválóak szöveg-előrejelzésben és tényszerű tudás feladatokban, nehézséget okoz nekik összetettebb projektek elvégzése, például távoli vezetői asszisztensként való működés. A jobb mérés érdekében egy friss kutatás javasolta, hogy az MI teljesítményét azzal értékeljük, összehasonlítva, meddig tart nekik egy feladat elvégzése az emberi időhöz képest. A március 30-án közzétett, még nem peer-reviewed preprint oldalon az arXiv-en megjelent tanulmány rámutatott arra, hogy a feladatok hosszát mérő értékelés hasznos módszer lehet az MI képességeinek feltérképezésében. A Model Evaluation & Threat Research (METR) kutatócsoport szakértői elmagyarázták, hogy az MI ügynökök számára általában nehezebb hosszabb műveletsorozatok végrehajtása, mint az egyes lépések megoldása. Eredményeik szerint az MI modellek majdnem 100%-ban sikerrel jártak azokban a feladatokban, amelyek kevesebb mint négy percet vettek igénybe az emberek számára, azonban a siker aránya 10%-ra csökkent, ha a feladat több mint négy órát vett igénybe. Az idősebb MI-modellek gyengébben teljesítettek hosszabb feladatok esetén, mint a legújabb verziók. A tanulmány rámutatott arra, hogy az általános MI-k által megbízhatóan elvégezhető maximális feladathossz körülbelül megkétszereződött minden héten az elmúlt hat évben. A kutatók többféle MI modellt teszteltek – köztük a Sonnet 3. 7-et, GPT-4-et, Claude 3 Opust és régebbi GPT-verziókat – különböző feladatokon, a kétperces egyszerű feladatoktól, mint például tények keresése Wikipedia-n, egészen a több órás szakmai kihívásokig, mint CUDA magok írása vagy finomhangolt hibák javítása PyTorch-ban. Eszközöket használtak, mint például a HCAST, amely 189 autonóm szoftverfeladatot kínál gépi tanulás, kiberbiztonság és szoftverfejlesztés területeken, valamint a RE-Bench, amely hét kihívást jelentő nyílt végű gépi tanulási mérnöki feladattal dolgozik, összehasonlítva emberi szakértőkkel. Emellett a kutatók a feladatok „zűrösségét” is értékelték, ami a valós életbeli összetettséget tükrözi, például az, hogy több párhuzamos tevékenység koordinálását igényli. Kifejlesztettek egy szoftveres atomikus műveleteket (SWAA), amelyek egylépéses feladatok, 1-től 30 másodpercig tartanak, és METR alkalmazottak által mért emberi végrehajtási időkkel benchmarkoltak. Összességében a tanulmány kimutatta, hogy az MI „figyelmi szakszája” gyorsan javul.
Ennek a tendenciának a kibővítésével a kutatók előrejelzik, hogy 2032-re az MI képes lehet automatikusan elvégezni egy hónapnyi emberi szoftverfejlesztői munkát is. Ez a mérőszám jobban segíthet megérteni az MI fejlődő képességeit, és nem csupán relatív tudás szintjén, hanem abszolút teljesítményként mérheti azokat. A szakértők ezt az új értékelési módszert ígéretesnek tartják. Sohrob Kazerounian, a Vectra AI ismert MI-kutatója szerint az, hogy az MI-t az emberi feladat-elvégzési idő alapján értékeljük, hasznos közvetítő mérőszám lehet az intelligenciára és az általános képességekre. Hozzátette, hogy egyetlen mérőszám sem ragadja meg teljesen az intelligenciát, a hosszabb távon végzett feladatok esetében pedig hibázhatnak, ugyanakkor ez a timing-alapú mérés összhangban van azokkal a komplex problémákkal, amelyeket az MI-nek meg kell oldania. Eleanor Watson, az IEEE tagja és az AI etikai mérnöke a Singularity University-től szintén hasonló véleményt osztott meg, és azt nevezte az együttműködő mérőszámnak „értékesnek és intuitívnak”, mert tükrözi a való életbeli összetettséget és az MI képeségét a koherens, cél-orientált viselkedés fenntartására, ellentétben a hagyományos rövid, izolált kihívásokat vizsgáló tesztekkel. A tanulmány nemcsak e mérőszám bevezetését hangsúlyozza, hanem az MI rendszerek képességének gyors fejlődését is, ami a generalista MI-ügynökök kialakulásának közeljövőbeli lehetőségét jelzi. Watson előrejelzése szerint 2026-ra az MI egyre inkább különböző feladatokat fog kezelni, amelyek egész napokra vagy hetekre szólnak, nem csak rövid, szűk feladatokra. Ez a fejlődés lehetővé teheti, hogy az MI jelentős részt vállaljon a szakmai feladatokból, csökkentve a költségeket, növelve a hatékonyságot, és lehetővé téve az emberi kreativitásra, stratégiára és interperszonális tevékenységekre való koncentrálást. A fogyasztók számára az MI áttörhet a egyszerű asszisztensek szintjén, és megbízható személyes ügynökké válhat, aki képes komplex felelősségek irányítására – például utazásszervezés, egészségügyi monitorozás és pénzügyi portfólió menedzsment hosszabb időtartamon át, minimális felügyelettel. Watson szerint bár a specializált MI-eszközök megmaradnak majd bizonyos szűk területeken, a hatalmas tudással rendelkező általános MI-ügynökök, amelyek rugalmasan közlekednek a feladatok között, dominálni fognak, integrálva a szakértői képességeket az átfogóbb munkafolyamatokba. Ezek a fejlesztések alapvetően fogják átformálni mind a mindennapi életet, mind a szakmai gyakorlatot a következő években.
Új tanulmány időalapú mutatót javasol az MI teljesítményének értékelésére összetett feladatok esetén
AIMM: Innovatív MI-alapú keretrendszer a társadalmi média által befolyásolt részvénypiaci manipulációk felismerésére A mai gyorsan változó részvénykereskedelmi környezetben a közösségi média kiemelkedő erővé vált a piaci dinamika alakításában
A jogi technológiai céget, a Filevine-t felvásárolta a Pincites-t, egy mesterséges intelligencián alapuló szerződés-átíró céget, ezzel erősítve pozícióját a vállalati és tranzakciós jog területén, és előmozdítva AI-központú stratégiáját.
Mesterséges intelligencia (MI) gyorsan átalakítja a keresőmotor-optimalizálás (SEO) területét, innovatív eszközöket és új lehetőségeket nyújtva a digitális marketingesek számára stratégiájuk finomhangolására és jobb eredmények elérésére.
A mesterséges intelligencia fejlődése alapvető szerepet játszik az információk félretájékoztatás elleni küzdelemben, mivel lehetővé teszi fejlett algoritmusok létrehozását, amelyek képesek felismerni a deepfake-eket – olyan manipulált videókat, ahol az eredeti tartalom módosítva vagy helyettesítve van, hamis ábrázolásokat létrehozva, melyek célja a nézők megtévesztése és félrevezető információk terjesztése.
Az MI növekedése átformálta az értékesítést, mivel a hosszadalmas ciklusokat és a manuális követő lépéseket gyors, automatizált rendszerek váltották ki, amelyek működnek 24/7.
Az mesterséges intelligencia (MI) és marketing gyorsan változó világában a legújabb jelentős fejlemények alakítják az iparágat, új lehetőségeket és kihívásokat egyaránt hozva.
A publikáció szerint a vállalat növelte „számítási margóját”, ami egy belső mutató, és azt jelzi, hogy mekkora része a bevételnek marad fenn az összes működési költség levonása után a fizető felhasználók vállalati és fogyasztói termékeit illetően.
Launch your AI-powered team to automate Marketing, Sales & Growth
and get clients on autopilot — from social media and search engines. No ads needed
Begin getting your first leads today