lang icon En
April 20, 2025, 8:55 p.m.
1703

Eltérések az OpenAI o3 AI modelljeinek tesztjeiben felvetik az átláthatóság kérdéseit

Brief news summary

Az OpenAI o3 AI modellje átláthatósági aggályokat váltott ki a FrontierMath benchmarkon mutatott ellentmondásos teljesítményeredmények miatt. Az OpenAI állította, hogy az o3 több mint 25%-ban megoldott nehéz matematikai feladatokat, jelentősen felülmúlva a versenytársakat, akik kevesebb mint 2%-os pontossággal dolgoztak. Azonban az Epoch AI által végzett független tesztek pontossága közelebb állt a 10%-hoz, ami jobban egyezik az OpenAI óvatos nézőpontjával közölt becslésekkel. Ez a különbség abból adódik, hogy az OpenAI belső értékelései során egy nagyobb, erősebb verziójú o3-at használtak, mely több számítási erőforrást igényelt, míg a nyilvánosan elérhető modell kisebb és gyorsaságra van optimalizálva, ami csökkentett teljesítményt eredményez. Mind az ARC Prize Foundation, mind az OpenAI munkatársai elismerték ezeket a méretbeli és hangolási különbségeket. Az o3-mini-high és o4-mini típusú újabb modellek mutatnak javulást, de a helyzet rámutat arra, hogy óvatosnak kell lenni az AI-benchmarkokkal kapcsolatos állításokkal, különösen a promóciós célokra tett kijelentésekkel. Hasonló átláthatósági problémák sújtották más AI fejlesztőket is, mint például az Epoch, xAI és a Meta, hangsúlyozva az AI iparágban továbbra is fennálló kihívásokat.

A különbség az OpenAI o3 mesterséges intelligencia modelljének első- és harmadik fél által végzett tesztjei eredményei között kérdéseket vet fel a vállalat átláthatóságának és a modellértékelési gyakorlatoknak kapcsolatban. Amikor az OpenAI 2023 decemberében bemutatta az o3-at, azt állította, hogy a modell helyesen tud válaszolni a FrontierMath nevű kihívást jelentő matematikai feladatok több mint 25%-ára. Ez az eredmény messze felülmúlta a versenytársakat – a második legjobb modell mindössze körülbelül 2%-ban volt pontos a FrontierMath problémák megoldásában. “Ma minden elérhető kínálat kevesebb mint 2%-ot ér el a FrontierMath feladataiból, ” mondta Mark Chen, az OpenAI kutatási igazgatója egy élő közvetítés során. “Belső teszteken azt látjuk, hogy az o3 agresszív tesztelési időszakban, több számítási kapacitással, képesek vagyunk meghaladni a 25%-ot. ” Ez azonban valószínűleg egy felső határt reprezentált, amit az o3 egyik olyan változata ért el, amelyhez több számítási erőforrást használtak a nyilvánosan kiadott modellhez képest. Az Epoch AI kutatóintézet, amely a FrontierMath-ot fejlesztette, pénteken közzétett független benchmark eredményeket az o3-ra. Megállapították, hogy az o3 körülbelül 10%-os eredményt ért el, jelentősen elmaradva az OpenAI által közölt legmagasabb állításaitól. Ez nem feltétlenül jelent félrevezetést az OpenAI részéről. Az OpenAI decemberben publikált benchmark eredményei alacsonyabb pontszámot mutattak, ami összhangban áll Epoch megállapításaival. Az Epoch emellett megjegyezte, hogy tesztelési környezetük különbözött, és egy frissebb FrontierMath kiadást használtak az értékelésekhez. “Az eredményeink és az OpenAI eredményei közötti különbség oka lehet az is, hogy az OpenAI egy erősebb belső háttérrel végzett értékelést végzett, több teszti számítási kapacitást alkalmazott, vagy mert ezek az eredmények egy másik FrontierMath-készletből származnak (a 180 problémás verzió a frontiermath-2024-11-26-ban szemben a 290 problémás verzióval a frontiermath-2025-02-28-private-ben), ” magyarázta az Epoch. Egy X platformon, az ARC Prize Alapítvány által közzétett bejegyzésben, mely egy előzetes változatot tesztelt, az nyilvános o3 modellt “egy másik modellnek” nevezte, “amely chat/termékhasználatra van hangolva, ” összhangban Epoch megfigyeléseivel. “Az összes kiadott o3 számítási szint kisebb, mint az a verzió, amelyet mi [benchmarkoltunk], ” tette hozzá az ARC Prize.

Általában a nagyobb számítási kapacitású modellek jobb benchmark eredményeket hoznak. Wenda Zhou, az OpenAI technikai munkatársa az egyik múlt heti élő közvetítésben arról beszélt, hogy az o3 gyártási változata “inkább a való életbeli felhasználási esetekhez optimalizált, ” gyorsabb, mint a decemberi bemutató változat, ami potenciálisan eredményezhet “eltéréseket” a benchmark eredményekben. “[O]lyan [optimalizációkat] végeztünk, hogy a [modellt] költséghatékonyabbá és általánosságban hasznosabbá tegyük, ” mondta Zhou. “Még mindig reméljük, és úgy gondoljuk, hogy ez egy sokkal jobb modell […] Nem kell majd olyan sokáig várnod, mikor választ kérsz, ez pedig fontos ezeknél a [ típusú] modelleknél. ” Azonban az tény, hogy a nyilvánosan elérhető o3 modell elmarad az eredeti teszteléseknél elért eredményektől, lényegében nem számít – mivel az OpenAI o3-mini-high és o4-mini modellei felülmúlják az o3-at a FrontierMath teszteken, és a vállalat hamarosan egy sokkal erősebb változatot, az o3-pro-t tervezi bevezetni. Mindezek ellenére ez az eset hangsúlyozza, hogy az AI-összehasonlításokat óvatosan kell kezelni – különösen akkor, ha vállalatok saját szolgáltatásaikat reklámozzák. A benchmark-ügyek egyre gyakoribbá váltak az AI szakterületén, ahogy a beszállítók versenyeznek a figyelemért és a felhasználókért új modellekkel. 2023 januárjában az Epoch kritikával illette az OpenAI finanszírozásának késleltetését a o3 bejelentése előtt. Sok FrontierMath tudományos közreműködő nem tudott az OpenAI részvételéről, amíg azt nyilvánosan nem hozták nyilvánosságra. Nemrég Elon Musk xAI cége is vádban állt, mert félrevezető benchmark diagramokat tett közzé saját AI modellje, a Grok 3 számára. Emellett a Meta az év elején beismerte, hogy eltérő modellverziókra vonatkozó benchmark eredményeket közölt, mint amellyel a fejlesztők számára elérhetővé tette. 2023. február 28-i állás szerint: Frissítés 16:21 PT: Hozzáadva Wenda Zhou, az OpenAI technikai munkatársa múlt heti élő közvetítéséből származó kommentjei.


Watch video about

Eltérések az OpenAI o3 AI modelljeinek tesztjeiben felvetik az átláthatóság kérdéseit

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Dec. 25, 2025, 1:36 p.m.

Demokraták arra figyelmeztetnek, hogy Trump jóváh…

A kongresszusi demokráták komoly aggodalmukat fejezték ki azzal kapcsolatban, hogy az Egyesült Államok hamarosan a fejlett chipek értékesítésével kezdhet egyik legfontosabb geopolitikai riválisának.

Dec. 25, 2025, 1:33 p.m.

függetlenségi tisztségviselők fel vannak készülve…

Tod Palmer, a KSHB 41 riportere, aki a sportüzletet és kelet-Jackson Megyét fedezi, az Independence Városi Tanácsának működésén keresztül értesült erről a jelentős projektről.

Dec. 25, 2025, 1:31 p.m.

Mesterséges intelligencia alapú videómegfigyelés …

A mesterséges intelligencia (MI) alkalmazása videoválszegyelmben frontvonalbeli téma lett a döntéshozók, technológiai szakértők, civil jogvédők és a közvélemény körében.

Dec. 25, 2025, 1:25 p.m.

Az Incention egy kétségbeesett próbálkozás arra, …

Valószínűleg nem lesz hosszú életű az Incention nevének megjegyzése, mivel valószínűleg nem fog ismét eszébe jutni ezután.

Dec. 25, 2025, 1:23 p.m.

Az 2025 öt legfontosabb marketing sztorija: vámok…

2025 éve trükkösnek bizonyult a marketingesek számára, mivel a makrogazdasági változások, a technológiai újítások és a kulturális hatások drasztikusan átalakították az iparágat.

Dec. 25, 2025, 1:17 p.m.

Mesterséges intelligencia-alapú SEO cégek növekvő…

AI-alapú SEO cégek várhatóan egyre fontosabbá válnak 2026-ban, növelve az elköteleződési arányokat és javítva a konverziókat.

Dec. 25, 2025, 9:43 a.m.

Az AI-alapú videó tömörítési technikák javítják a…

A mesterséges intelligencia fejlődése radikálisan átalakítja a videótartalom tömörítését és streamingelését, jelentősen javítva a videó minőségét és a nézői élményt.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today