News
>
OpenAI o3 tehisintellekti mudeli võrdluste lahknevused tekitavad läbipaistvusküsimusi

April 20, 2025, 8:55 p.m.

OpenAI o3 tehisintellekti mudeli võrdluste lahknevused tekitavad läbipaistvusküsimusi

Võrdluse erinevus OpenAI o3 tehisintellekti mudeli esimese ja kolmanda osapoole võrdlusuuringute tulemuste vahel on tekitanud küsimusi ettevõtte läbipaistvuse ja mudelite hindamise tavade kohta. Kui OpenAI tegi detsembris o3 kasutusele võtte, väidetavalt suudab mudel õigesti vastata veidi üle neljandiku FrontierMathi, väljakutsuva matemaatikamõistluskomplekti, küsimustest. See punktisumma ületas konkurente märkimisväärselt—järgmise parima mudeli vastas vaid umbes 2% FrontierMathi ülesannetest korrektselt. “Täna on kõigil saadavatel pakkumistel vähem kui 2% [ FrontierMathil], ” teatas OpenAI peaarendustegevuse direktor Mark Chen otseülekandes. “Me näeme [siseselt], et o3 agressiivsete testaegsete arvutussättedega suudame saavutada üle 25%. ” Kuid see number tõenäoliselt tähendas ülemist piiri, saavutatuna versiooniga o3, mis toetas suuremat arvutusvõimsust kui mudel, mille OpenAI avalikustas eelmisel nädalal. Epoch AI, uurimisinstituut, mis on vastutav FrontierMathi eest, avaldas reedel sõltumatud võrdlusuuringute tulemused o3 jaoks. Nad leidsid, et o3 skooris umbes 10%, mis on märkimisväärselt madalam OpenAI kõrgeimast väidust. See ei tähenda tingimata OpenAI pettust. Detsebris avaldatud OpenAI võrdlussaavutused näitasid madalaimat piiri, mis oli kooskõlas Epoch’i leidudega.

Epoch märkis ka teste seadistuste erinevust ning nende kasutust uuemast FrontierMathi versioonist hindamisteks. “Meie tulemustes ja OpenAI omades võib olla erinevus, kuna OpenAI hindas tõenäoliselt tugevama sisese struktuuri abil, kasutades rohkem testaega arvutusressursse, või sellepärast, et neid tulemusid räägitakse erinevast FrontierMathi alamkogumist (180 probleemi frontiermath-2024-11-26 versus 290 probleemi frontiermath-2025-02-28-private), ” selgitas Epoch. X-i postituses ARC Prize Foundation, mis testis pre-release’i o3 versiooni, väidetakse, et avalik o3-mudel “on erinev mudel […] mille eesmärk on chat/tootefunktsionaalsus, ” mis ühtib Epoch’i tähelepanekutega. “Kõik avaldatud o3 arvutuskihtide versioonid on väiksemad kui meie võrdluses kasutatud versioon, ” lisas ARC Prize. Üldiselt toodab suurem arvutusressurss paremaid tulemusi võrdlussteetidel. OpenAI tehnikatöötaja Wenda Zhou mainis otseülekandes eelmisel nädalal, et tootmise versioon o3 on “paremini optimeeritud reaalse maailma kasutusjuhtudeks” ning kiirem kui detsembris demonstreeritud versioon, mis võib põhjustada võrdlus tulemuste “erinevusi. ” “[W]e’ve tehtud [optimeerimisi], et muuta mudel [võrreldes] kulutasakadsemaks [ja] kasulikumaks üldiselt, ” ütles Zhou. “Me loodame siiski, et—me arvame veel—see on palju parem mudel […] Sa ei pea nii kaua ootama, kui küsid vastust, mis on tõeline asi selliste [tüüpide] mudelite puhul. ” Sellegipoolest on fakt, et avalikult avaldatud o3 ei vasta OpenAI algsetele testitulemustele, küllalt arutlusobjekt, kuna OpenAI o3-mini-high ja o4-mini mudelid ületavad o3 tulemusi FrontierMathil ning ettevõte plaanib peagi välja lasta veel võimsama versiooni, o3-pro. Kuid see juhtum rõhutab, et tehisintellekti võrdlusandmeid tuleks vaadata ettevaatlikult—eriti olukorras, kus need pärinevad ettevõtetelt, kes turundavad oma teenuseid. Võrdlusuuringute “vaidlusi” on AI valdkonnas üha rohkem, kuna müüjad konkureerivad uudiste ja kasutajate tähelepanu nimel uute mudelitega. Jaanuaris sai Epoch kriitikat, kuna ta peitis OpenAI rahastuse avalikustamise, kuni oli teade o3 kohta. Paljud FrontierMathi akadeemilised koostööpartnerid ei teadnud OpenAI osalemisest enne, kui see teavitati avalikult. Hiljuti süüdistati Elon Muski xAI-d eksitavate võrdluspiltide avaldamises oma AI-mudeli Grok 3 jaoks. Lisaks tunnustas Meta selle kuu alguses, et nad reklaamisid võrdlusnäitajaid teise mudeli versiooni kohta, mis ei olnud sama, mida nad pakkusid arendajatele. Uuendatud kell 16. 21 PPA-s: lisatud kommentaarid OpenAI tehniku Wenda Zhou kohta eelmisel nädalal otseülekandes.

News source

Brief news summary

OpenAI o3 tehisintellekti mudel on tekitanud läbipaistvuse osas murekohti, kuna tulemustes FrontierMath lähteülesandel esines vastuolusid. OpenAI väitis, et o3 lahendas üle 25% keerulistest matemaatikaprobleemidest, mille tulemusena ületati oluliselt konkurentide tulemusi, mille täpsus oli alla 2%. Kuid sõltumatud testid, mida tegi Epoch AI, näitasid täpsust umbes 10%, mis on kooskõlas OpenAI ettevaatliku avaliku hinnanguga. See erinevus tekib seetõttu, et OpenAI sisemised hindamised kasutavad suuremat ja võimsamat o3 versiooni koos suurema arvutusressursiga, samal ajal kui avalikult avaldatud mudel on väiksem ja optimeeritud kiiruse jaoks, mis vähendab tulemust. Nende suuruse ja seadistuse erinevused on tunnustanud nii ARC Põhjapreemia Sihtasutus kui ka OpenAI töötajad. Uuemad mudelid, nagu o3-mini-high ja o4-mini, näitavad parendusi, kuid olukord rõhutab skepsise vajadust AI lähteülesannete väidete suhtes, eriti reklaamimaterjalides. Sarnased läbipaistvuse probleemid on mõjutanud ka teisi AI arendajaid, nagu Epoch, xAI ja Meta, rõhutades jätkuvaid väljakutseid AI tööstuses.

Business on autopilot

AI-powered Lead Generation in Social Media
and Search Engines

Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment

Language

Learn how AI can help your business.
Let’s talk!

Hot news

July 6, 2025, 2:15 p.m.

Mis on plokiahel? Läbipaistmatu arvepidamise süst…

Kõige paremini tuntud kui tehnoloogia, mis toetab Bitcoin'i, on blockchain ning see hakkab kujunema usalduseta, manipuleerimisvastase süsteemina, millel on potentsiaali muuta رفlütsektorid alates rahandusest kuni tervishoiu lõpuni.

July 6, 2025, 2:13 p.m.

„Murderbot”: Tehisintellekt, mis ei hooli inimest…

Mitmeteljate, et filmid, mis uurivad masinajuhtimise potentsiaali, nagu Blade Runner, Ex Machina, I, Robot ja paljud teised, on üldiselt käsitlenud sellise teadlikuoleku tekkimist vältimatu nähtusena.

July 6, 2025, 10:17 a.m.

Robinhood käivitab Euroopa jaoks kihilise 2 ploki…

Robinhoodi laienemine reaalmaailma varade (RMAd) suunas kiireneb, kuna digitaalne maakler avab tokeniseerimisele keskenduva taseme-2 plokiahela ja käivitab aktsiatokenite kauplemise kasutajatele Euroopa Liidus.

July 6, 2025, 10:15 a.m.

BRICS-i juhid tõstavad esile andmekaitse vajaduse…

BRICS’i riigid—Brasiilia, Venemaa, India, Hiina ja Lõuna-Aafrika Vabariik—on üha arvukamalt kõnelema kunstliku intelligentsi (KI) pakutavatest väljakutsetest ja võimalustest.

July 6, 2025, 6:40 a.m.

Tehisintellekt ja kliimamuutused: Keskkonnamõju e…

Viimastel aastatel on tehnoloogia ja keskkonnateaduse ühendamine võimaldanud välja töötada innovatiivseid strateegiaid kliimamuutuste kiireloomulike väljakutsete lahendamiseks.

July 6, 2025, 6:32 a.m.

Stabilcoinide ümbermõtestamine: kuidas valitsused…

Viimase kümnendi jooksul on krüptovaluuta kiirelt arenenud, alguse saanud skeptitsismist tsentraliseeritud võimu suhtes.

July 5, 2025, 2:21 p.m.

Miks räägivad kõik SoundHound AI aktsiast?

Peamised punktid SoundHound pakub iseseisvat tehisintellekti häälplatvormi, mis teenindab mitmeid tööstusi ning mille sihtrühm on koguturu (TAM) väärtus 140 miljardit dollarit

All news

Launch Your AI-Powered Business and get clients!

OpenAI o3 tehisintellekti mudeli võrdluste lahknevused tekitavad läbipaistvusküsimusi

News source

Brief news summary

AI-powered Lead Generation in Social Media
and Search Engines

I'm your Content Manager, ready to handle your first test assignment

Content Maker

Last news

plokiahelatehnoloogia: julgeoleku, läbipaistvuse ja detsentraliseerimise revolutsioon, mis ületab bitcoini

Murderbot: Unikaalne ulmevõte tehisintellekti autonoomiast ja masinate teadvusest

Robinhood käivitab tokeniseeritud aktsiate kauplemise ja Layer-2 plokiahela Euroopa Liidus

The Best for your Business

Learn how AI can help your business.
Let’s talk!

Hot news

Mis on plokiahel? Läbipaistmatu arvepidamise süst…

„Murderbot”: Tehisintellekt, mis ei hooli inimest…

Robinhood käivitab Euroopa jaoks kihilise 2 ploki…

BRICS-i juhid tõstavad esile andmekaitse vajaduse…

Tehisintellekt ja kliimamuutused: Keskkonnamõju e…

Stabilcoinide ümbermõtestamine: kuidas valitsused…

Miks räägivad kõik SoundHound AI aktsiast?

Sales

Marketing

Launch Your AI-Powered Business and get clients!

OpenAI o3 tehisintellekti mudeli võrdluste lahknevused tekitavad läbipaistvusküsimusi

News source

Brief news summary

AI-powered Lead Generation in Social Media and Search Engines

I'm your Content Manager, ready to handle your first test assignment

Content Maker

Last news

plokiahelatehnoloogia: julgeoleku, läbipaistvuse ja detsentraliseerimise revolutsioon, mis ületab bitcoini

Murderbot: Unikaalne ulmevõte tehisintellekti autonoomiast ja masinate teadvusest

Robinhood käivitab tokeniseeritud aktsiate kauplemise ja Layer-2 plokiahela Euroopa Liidus

The Best for your Business

Learn how AI can help your business. Let’s talk!

Hot news

Mis on plokiahel? Läbipaistmatu arvepidamise süst…

„Murderbot”: Tehisintellekt, mis ei hooli inimest…

Robinhood käivitab Euroopa jaoks kihilise 2 ploki…

BRICS-i juhid tõstavad esile andmekaitse vajaduse…

Tehisintellekt ja kliimamuutused: Keskkonnamõju e…

Stabilcoinide ümbermõtestamine: kuidas valitsused…

Miks räägivad kõik SoundHound AI aktsiast?

Your News is ready

Your article is ready

Generating video takes longer than text.

Join our community of experts

Reasons why you should be part of the experts community

Welcome to Neuron Expert!

Launch Your AI-Powered Business

Auto-Filling SEO Website as a Gift

AI Marketing Across All Social Media

AI Sales Manager + CRM

Support

Content Maker

Topic

Specify the topic (Optional)

Link (Optional)

Learn how to craft press releases, create unique social media posts, write SEO-optimized articles for websites, and produce videos, all from a single source

AI-powered Lead Generation in Social Media
and Search Engines

Learn how AI can help your business.
Let’s talk!