A különbség az OpenAI o3 mesterséges intelligencia modelljének első- és harmadik fél által végzett tesztjei eredményei között kérdéseket vet fel a vállalat átláthatóságának és a modellértékelési gyakorlatoknak kapcsolatban. Amikor az OpenAI 2023 decemberében bemutatta az o3-at, azt állította, hogy a modell helyesen tud válaszolni a FrontierMath nevű kihívást jelentő matematikai feladatok több mint 25%-ára. Ez az eredmény messze felülmúlta a versenytársakat – a második legjobb modell mindössze körülbelül 2%-ban volt pontos a FrontierMath problémák megoldásában. “Ma minden elérhető kínálat kevesebb mint 2%-ot ér el a FrontierMath feladataiból, ” mondta Mark Chen, az OpenAI kutatási igazgatója egy élő közvetítés során. “Belső teszteken azt látjuk, hogy az o3 agresszív tesztelési időszakban, több számítási kapacitással, képesek vagyunk meghaladni a 25%-ot. ” Ez azonban valószínűleg egy felső határt reprezentált, amit az o3 egyik olyan változata ért el, amelyhez több számítási erőforrást használtak a nyilvánosan kiadott modellhez képest. Az Epoch AI kutatóintézet, amely a FrontierMath-ot fejlesztette, pénteken közzétett független benchmark eredményeket az o3-ra. Megállapították, hogy az o3 körülbelül 10%-os eredményt ért el, jelentősen elmaradva az OpenAI által közölt legmagasabb állításaitól. Ez nem feltétlenül jelent félrevezetést az OpenAI részéről. Az OpenAI decemberben publikált benchmark eredményei alacsonyabb pontszámot mutattak, ami összhangban áll Epoch megállapításaival. Az Epoch emellett megjegyezte, hogy tesztelési környezetük különbözött, és egy frissebb FrontierMath kiadást használtak az értékelésekhez. “Az eredményeink és az OpenAI eredményei közötti különbség oka lehet az is, hogy az OpenAI egy erősebb belső háttérrel végzett értékelést végzett, több teszti számítási kapacitást alkalmazott, vagy mert ezek az eredmények egy másik FrontierMath-készletből származnak (a 180 problémás verzió a frontiermath-2024-11-26-ban szemben a 290 problémás verzióval a frontiermath-2025-02-28-private-ben), ” magyarázta az Epoch. Egy X platformon, az ARC Prize Alapítvány által közzétett bejegyzésben, mely egy előzetes változatot tesztelt, az nyilvános o3 modellt “egy másik modellnek” nevezte, “amely chat/termékhasználatra van hangolva, ” összhangban Epoch megfigyeléseivel. “Az összes kiadott o3 számítási szint kisebb, mint az a verzió, amelyet mi [benchmarkoltunk], ” tette hozzá az ARC Prize.
Általában a nagyobb számítási kapacitású modellek jobb benchmark eredményeket hoznak. Wenda Zhou, az OpenAI technikai munkatársa az egyik múlt heti élő közvetítésben arról beszélt, hogy az o3 gyártási változata “inkább a való életbeli felhasználási esetekhez optimalizált, ” gyorsabb, mint a decemberi bemutató változat, ami potenciálisan eredményezhet “eltéréseket” a benchmark eredményekben. “[O]lyan [optimalizációkat] végeztünk, hogy a [modellt] költséghatékonyabbá és általánosságban hasznosabbá tegyük, ” mondta Zhou. “Még mindig reméljük, és úgy gondoljuk, hogy ez egy sokkal jobb modell […] Nem kell majd olyan sokáig várnod, mikor választ kérsz, ez pedig fontos ezeknél a [ típusú] modelleknél. ” Azonban az tény, hogy a nyilvánosan elérhető o3 modell elmarad az eredeti teszteléseknél elért eredményektől, lényegében nem számít – mivel az OpenAI o3-mini-high és o4-mini modellei felülmúlják az o3-at a FrontierMath teszteken, és a vállalat hamarosan egy sokkal erősebb változatot, az o3-pro-t tervezi bevezetni. Mindezek ellenére ez az eset hangsúlyozza, hogy az AI-összehasonlításokat óvatosan kell kezelni – különösen akkor, ha vállalatok saját szolgáltatásaikat reklámozzák. A benchmark-ügyek egyre gyakoribbá váltak az AI szakterületén, ahogy a beszállítók versenyeznek a figyelemért és a felhasználókért új modellekkel. 2023 januárjában az Epoch kritikával illette az OpenAI finanszírozásának késleltetését a o3 bejelentése előtt. Sok FrontierMath tudományos közreműködő nem tudott az OpenAI részvételéről, amíg azt nyilvánosan nem hozták nyilvánosságra. Nemrég Elon Musk xAI cége is vádban állt, mert félrevezető benchmark diagramokat tett közzé saját AI modellje, a Grok 3 számára. Emellett a Meta az év elején beismerte, hogy eltérő modellverziókra vonatkozó benchmark eredményeket közölt, mint amellyel a fejlesztők számára elérhetővé tette. 2023. február 28-i állás szerint: Frissítés 16:21 PT: Hozzáadva Wenda Zhou, az OpenAI technikai munkatársa múlt heti élő közvetítéséből származó kommentjei.
Eltérések az OpenAI o3 AI modelljeinek tesztjeiben felvetik az átláthatóság kérdéseit
A kongresszusi demokráták komoly aggodalmukat fejezték ki azzal kapcsolatban, hogy az Egyesült Államok hamarosan a fejlett chipek értékesítésével kezdhet egyik legfontosabb geopolitikai riválisának.
Tod Palmer, a KSHB 41 riportere, aki a sportüzletet és kelet-Jackson Megyét fedezi, az Independence Városi Tanácsának működésén keresztül értesült erről a jelentős projektről.
A mesterséges intelligencia (MI) alkalmazása videoválszegyelmben frontvonalbeli téma lett a döntéshozók, technológiai szakértők, civil jogvédők és a közvélemény körében.
Valószínűleg nem lesz hosszú életű az Incention nevének megjegyzése, mivel valószínűleg nem fog ismét eszébe jutni ezután.
2025 éve trükkösnek bizonyult a marketingesek számára, mivel a makrogazdasági változások, a technológiai újítások és a kulturális hatások drasztikusan átalakították az iparágat.
AI-alapú SEO cégek várhatóan egyre fontosabbá válnak 2026-ban, növelve az elköteleződési arányokat és javítva a konverziókat.
A mesterséges intelligencia fejlődése radikálisan átalakítja a videótartalom tömörítését és streamingelését, jelentősen javítva a videó minőségét és a nézői élményt.
Launch your AI-powered team to automate Marketing, Sales & Growth
and get clients on autopilot — from social media and search engines. No ads needed
Begin getting your first leads today