Auto-Filling SEO Website as a Gift

Launch Your AI-Powered Business and get clients!

No advertising investment needed—just results. AI finds, negotiates, and closes deals automatically

April 20, 2025, 8:55 p.m.
8

OpenAI o3 tehisintellekti mudeli võrdluste lahknevused tekitavad läbipaistvusküsimusi

Võrdluse erinevus OpenAI o3 tehisintellekti mudeli esimese ja kolmanda osapoole võrdlusuuringute tulemuste vahel on tekitanud küsimusi ettevõtte läbipaistvuse ja mudelite hindamise tavade kohta. Kui OpenAI tegi detsembris o3 kasutusele võtte, väidetavalt suudab mudel õigesti vastata veidi üle neljandiku FrontierMathi, väljakutsuva matemaatikamõistluskomplekti, küsimustest. See punktisumma ületas konkurente märkimisväärselt—järgmise parima mudeli vastas vaid umbes 2% FrontierMathi ülesannetest korrektselt. “Täna on kõigil saadavatel pakkumistel vähem kui 2% [ FrontierMathil], ” teatas OpenAI peaarendustegevuse direktor Mark Chen otseülekandes. “Me näeme [siseselt], et o3 agressiivsete testaegsete arvutussättedega suudame saavutada üle 25%. ” Kuid see number tõenäoliselt tähendas ülemist piiri, saavutatuna versiooniga o3, mis toetas suuremat arvutusvõimsust kui mudel, mille OpenAI avalikustas eelmisel nädalal. Epoch AI, uurimisinstituut, mis on vastutav FrontierMathi eest, avaldas reedel sõltumatud võrdlusuuringute tulemused o3 jaoks. Nad leidsid, et o3 skooris umbes 10%, mis on märkimisväärselt madalam OpenAI kõrgeimast väidust. See ei tähenda tingimata OpenAI pettust. Detsebris avaldatud OpenAI võrdlussaavutused näitasid madalaimat piiri, mis oli kooskõlas Epoch’i leidudega.

Epoch märkis ka teste seadistuste erinevust ning nende kasutust uuemast FrontierMathi versioonist hindamisteks. “Meie tulemustes ja OpenAI omades võib olla erinevus, kuna OpenAI hindas tõenäoliselt tugevama sisese struktuuri abil, kasutades rohkem testaega arvutusressursse, või sellepärast, et neid tulemusid räägitakse erinevast FrontierMathi alamkogumist (180 probleemi frontiermath-2024-11-26 versus 290 probleemi frontiermath-2025-02-28-private), ” selgitas Epoch. X-i postituses ARC Prize Foundation, mis testis pre-release’i o3 versiooni, väidetakse, et avalik o3-mudel “on erinev mudel […] mille eesmärk on chat/tootefunktsionaalsus, ” mis ühtib Epoch’i tähelepanekutega. “Kõik avaldatud o3 arvutuskihtide versioonid on väiksemad kui meie võrdluses kasutatud versioon, ” lisas ARC Prize. Üldiselt toodab suurem arvutusressurss paremaid tulemusi võrdlussteetidel. OpenAI tehnikatöötaja Wenda Zhou mainis otseülekandes eelmisel nädalal, et tootmise versioon o3 on “paremini optimeeritud reaalse maailma kasutusjuhtudeks” ning kiirem kui detsembris demonstreeritud versioon, mis võib põhjustada võrdlus tulemuste “erinevusi. ” “[W]e’ve tehtud [optimeerimisi], et muuta mudel [võrreldes] kulutasakadsemaks [ja] kasulikumaks üldiselt, ” ütles Zhou. “Me loodame siiski, et—me arvame veel—see on palju parem mudel […] Sa ei pea nii kaua ootama, kui küsid vastust, mis on tõeline asi selliste [tüüpide] mudelite puhul. ” Sellegipoolest on fakt, et avalikult avaldatud o3 ei vasta OpenAI algsetele testitulemustele, küllalt arutlusobjekt, kuna OpenAI o3-mini-high ja o4-mini mudelid ületavad o3 tulemusi FrontierMathil ning ettevõte plaanib peagi välja lasta veel võimsama versiooni, o3-pro. Kuid see juhtum rõhutab, et tehisintellekti võrdlusandmeid tuleks vaadata ettevaatlikult—eriti olukorras, kus need pärinevad ettevõtetelt, kes turundavad oma teenuseid. Võrdlusuuringute “vaidlusi” on AI valdkonnas üha rohkem, kuna müüjad konkureerivad uudiste ja kasutajate tähelepanu nimel uute mudelitega. Jaanuaris sai Epoch kriitikat, kuna ta peitis OpenAI rahastuse avalikustamise, kuni oli teade o3 kohta. Paljud FrontierMathi akadeemilised koostööpartnerid ei teadnud OpenAI osalemisest enne, kui see teavitati avalikult. Hiljuti süüdistati Elon Muski xAI-d eksitavate võrdluspiltide avaldamises oma AI-mudeli Grok 3 jaoks. Lisaks tunnustas Meta selle kuu alguses, et nad reklaamisid võrdlusnäitajaid teise mudeli versiooni kohta, mis ei olnud sama, mida nad pakkusid arendajatele. Uuendatud kell 16. 21 PPA-s: lisatud kommentaarid OpenAI tehniku Wenda Zhou kohta eelmisel nädalal otseülekandes.



Brief news summary

OpenAI o3 tehisintellekti mudel on tekitanud läbipaistvuse osas murekohti, kuna tulemustes FrontierMath lähteülesandel esines vastuolusid. OpenAI väitis, et o3 lahendas üle 25% keerulistest matemaatikaprobleemidest, mille tulemusena ületati oluliselt konkurentide tulemusi, mille täpsus oli alla 2%. Kuid sõltumatud testid, mida tegi Epoch AI, näitasid täpsust umbes 10%, mis on kooskõlas OpenAI ettevaatliku avaliku hinnanguga. See erinevus tekib seetõttu, et OpenAI sisemised hindamised kasutavad suuremat ja võimsamat o3 versiooni koos suurema arvutusressursiga, samal ajal kui avalikult avaldatud mudel on väiksem ja optimeeritud kiiruse jaoks, mis vähendab tulemust. Nende suuruse ja seadistuse erinevused on tunnustanud nii ARC Põhjapreemia Sihtasutus kui ka OpenAI töötajad. Uuemad mudelid, nagu o3-mini-high ja o4-mini, näitavad parendusi, kuid olukord rõhutab skepsise vajadust AI lähteülesannete väidete suhtes, eriti reklaamimaterjalides. Sarnased läbipaistvuse probleemid on mõjutanud ka teisi AI arendajaid, nagu Epoch, xAI ja Meta, rõhutades jätkuvaid väljakutseid AI tööstuses.
Business on autopilot

AI-powered Lead Generation in Social Media
and Search Engines

Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment

Language

Learn how AI can help your business.
Let’s talk!

Hot news

July 6, 2025, 2:15 p.m.

Mis on plokiahel? Läbipaistmatu arvepidamise süst…

Kõige paremini tuntud kui tehnoloogia, mis toetab Bitcoin'i, on blockchain ning see hakkab kujunema usalduseta, manipuleerimisvastase süsteemina, millel on potentsiaali muuta رفlütsektorid alates rahandusest kuni tervishoiu lõpuni.

July 6, 2025, 2:13 p.m.

„Murderbot”: Tehisintellekt, mis ei hooli inimest…

Mitmeteljate, et filmid, mis uurivad masinajuhtimise potentsiaali, nagu Blade Runner, Ex Machina, I, Robot ja paljud teised, on üldiselt käsitlenud sellise teadlikuoleku tekkimist vältimatu nähtusena.

July 6, 2025, 10:17 a.m.

Robinhood käivitab Euroopa jaoks kihilise 2 ploki…

Robinhoodi laienemine reaalmaailma varade (RMAd) suunas kiireneb, kuna digitaalne maakler avab tokeniseerimisele keskenduva taseme-2 plokiahela ja käivitab aktsiatokenite kauplemise kasutajatele Euroopa Liidus.

July 6, 2025, 10:15 a.m.

BRICS-i juhid tõstavad esile andmekaitse vajaduse…

BRICS’i riigid—Brasiilia, Venemaa, India, Hiina ja Lõuna-Aafrika Vabariik—on üha arvukamalt kõnelema kunstliku intelligentsi (KI) pakutavatest väljakutsetest ja võimalustest.

July 6, 2025, 6:40 a.m.

Tehisintellekt ja kliimamuutused: Keskkonnamõju e…

Viimastel aastatel on tehnoloogia ja keskkonnateaduse ühendamine võimaldanud välja töötada innovatiivseid strateegiaid kliimamuutuste kiireloomulike väljakutsete lahendamiseks.

July 6, 2025, 6:32 a.m.

Stabilcoinide ümbermõtestamine: kuidas valitsused…

Viimase kümnendi jooksul on krüptovaluuta kiirelt arenenud, alguse saanud skeptitsismist tsentraliseeritud võimu suhtes.

July 5, 2025, 2:21 p.m.

Miks räägivad kõik SoundHound AI aktsiast?

Peamised punktid SoundHound pakub iseseisvat tehisintellekti häälplatvormi, mis teenindab mitmeid tööstusi ning mille sihtrühm on koguturu (TAM) väärtus 140 miljardit dollarit

All news