lang icon English
Jan. 19, 2025, 4:20 p.m.
2050

Epoch AI gransket for å avsløre OpenAI-finansiering etter FrontierMath-lanseringen.

Brief news summary

Epoch AI, en ideell organisasjon dedikert til å sette matematiske mål for AI, møtte motstand etter å ha avslørt finansiering fra OpenAI 20. desember. Denne finansielle støtten er ment for å lage FrontierMath, et verktøy designet for å vurdere AI sine matematiske ferdigheter, spesielt i forhold til den kommende o3-modellen. Bekymringer oppstod angående potensiell skjevhet og åpenhet, da mange bidragsytere angivelig var uvitende om denne støtten. Kritikere, inkludert kontraktøren "Meemi" fra LessWrong, uttrykte skepsis mot målestokkenes upartiskhet, og viste til OpenAIs tidligere tilgang til testmateriell. Som forsvar for initiativet anerkjente Tamay Besiroglu, Epoch AIs assisterende direktør, åpenhetsproblemene, men støttet sterkt integriteten til FrontierMath. Han forklarte at juridiske begrensninger hadde påvirket rettidig offentliggjøring og understreket forbedret kommunikasjon med bidragsytere. Besiroglu pekte også på en uformell avtale som hindrer OpenAI i å bruke benchmarkdata til treningsformål. Ellot Glazer, Epoch AIs sjefmatematiker, aksepterte at FrontierMaths resultater ikke hadde blitt uavhengig validert av OpenAI, men uttrykte optimisme om påliteligheten deres.

En ideell organisasjon som arbeider med matematiske standarder for AI, har nylig blitt utsatt for kritikk for ikke å ha avslørt sin finansiering fra OpenAI inntil nå, noe som har ført til beskyldninger om uregelmessigheter innen AI-miljøet. Epoch AI, en ideell organisasjon primært støttet av Open Philanthropy—en forsknings- og stiftelsesfond—kunngjorde 20. desember at OpenAI finansierte utviklingen av FrontierMath. Denne benchmarktesten inneholder ekspert-nivå problemer for å evaluere en AIs matematiske evner og ble brukt av OpenAI for å demonstrere sin kommende flaggskip-AI, o3. I et innlegg på forumet LessWrong, hevdet en kontraktør for Epoch AI med brukernavnet "Meemi" at mange bidragsytere til FrontierMath-standardene ikke var klar over OpenAIs involvering før det ble offentlig avslørt. "Kommunikasjonen rundt dette har vært lite transparent, " uttalte Meemi. "Etter min mening burde Epoch AI ha avslørt OpenAIs finansiering, og bidragsytere burde hatt klar informasjon om de potensielle implikasjonene av arbeidet deres før de bestemte seg for å delta i en benchmark. " Noen brukere på sosiale medier uttrykte bekymringer for at mangel på åpenhet kunne skade FrontierMaths status som en nøytral benchmark. I tillegg til å finansiere FrontierMath, hadde OpenAI tilgang til mange problemer og løsninger innen benchmarken—et detalj Epoch AI ikke delte før 20. desember, dagen o3 ble annonsert. Som svar på Meemis kommentarer, opprettholdt Tamay Besiroglu, assisterende direktør for Epoch AI og en av grunnleggerne, at integriteten til FrontierMath ikke var påvirket, men anerkjente at Epoch AI "feilet" i å være mer direkte. "Vi var bundet av restriksjoner på å avsløre partnerskapet fram til rundt o3-lanseringen, og i ettertid burde vi ha insistert på å være mer transparente med benchmarkbidragsyterne så snart det var mulig, " skrev Besiroglu.

"Våre matematikere fortjente å vite hvem som kunne ha tilgang til deres bidrag. Selv med kontraktsbegrensninger på våre avsløringer, burde vi ha prioritert åpenhet med våre bidragsytere i vår avtale med OpenAI. " Besiroglu presiserte at, mens OpenAI har tilgang til FrontierMath, finnes det en "muntlig avtale" som forhindrer dem fra å bruke problemetsettet til å trene sin AI—egentlig for å unngå "å lære opp til testen. " I tillegg opprettholder Epoch AI et "separat holdout-sett" for å sikre uavhengig verifikasjon av FrontierMath benchmarkresultater, forklarte Besiroglu. "OpenAI har …fullt støttet vårt valg om å beholde et separat, usett holdout-sett, " la han til. Imidlertid ble situasjonen komplisert da Epoch AIs ledende matematiker, Ellot Glazer, bemerket i et Reddit-innlegg at Epoch AI ennå ikke har vært i stand til å uavhengig verifisere OpenAIs FrontierMath-resultater for o3. "Etter min mening er [OpenAIs] poengsum ekte (dvs. de har ikke trent på datasettet), og de har ingen motivasjon til å feiltolke sine interne benchmarkprestasjoner, " bemerket Glazer. "Imidlertid kan vi ikke gi bekreftelse før vår uavhengige evaluering er avsluttet. "


Watch video about

Epoch AI gransket for å avsløre OpenAI-finansiering etter FrontierMath-lanseringen.

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today