lang icon English
Jan. 26, 2025, 8:30 a.m.
2072

Menneskehetens Siste Eksamen: En Ny Utfordring for Avanserte AI-Systemer

Brief news summary

Etter hvert som kunstig intelligens (A.I.) evner reiser bekymringer, står eksperter overfor utfordringen med å lage tester som A.I. ikke lett kan bestå. Historisk sett har fremskritt innen A.I. blitt målt gjennom standardiserte vurderinger lik S.A.T., som vurderer ferdigheter i matematikk, naturvitenskap og logikk. Men etter hvert som A.I.-modeller har blitt bedre, har de utmerket seg på disse testene, noe som har ført til utviklingen av mer krevende vurderinger som minner om eksamener på høyere nivå. Nylige modeller fra selskaper som OpenAI, Google og Anthropic har prestert eksepsjonelt godt på disse avanserte testene, noe som fremhever utilstrekkeligheten av nåværende vurderingsmetoder. I lys av dette problemet, lanserer forskere fra Center for AI Safety og Scale AI "Humanity's Last Exam," beskrevet som den mest utfordrende testen for A.I.-systemer så langt. Dette initiativet, ledet av A.I.-sikkerhetsekspert Dan Hendrycks, søker å ta opp det presserende spørsmålet: Er A.I.-systemer nå for intelligente til at vi kan vurdere dem nøyaktig?

Hvis du leter etter en ny grunn til å føle deg urolig over kunstig intelligens, kan du vurdere dette: noen av de mest lysende hodene i verden har vanskeligheter med å lage tester som A. I. -systemer ikke kan bestå. I flere år har A. I. -systemer blitt evaluert ved hjelp av en rekke standardiserte benchmarktester. Mange av disse testene inneholdt utfordrende spørsmål på SAT-nivå innen fag som matematikk, naturvitenskap og logikk. Å spore resultatene til disse modellene over tid ga en grov indikasjon på fremskritt innen A. I. Imidlertid utmerket A. I. -systemene seg til slutt i disse vurderingene, noe som førte til utviklingen av mer krevende tester – ofte med spørsmål som doktorgradsstudenter kan møte på sine eksamener. Dessverre presterer ikke disse testene godt heller. Nye modeller fra selskaper som OpenAI, Google og Anthropic har oppnådd høye poengsummer på mange doktorgradsutfordringer, noe som reduserer testenes effektivitet og reiser et bekymringsfullt spørsmål: blir A. I. -systemer for intelligente til at vi kan evaluere dem? Denne uken er forskere ved Center for AI Safety og Scale AI klare til å gi et potensielt svar: en ny evaluering kalt "Menneskehetens siste eksamen, " som de hevder er den mest utfordrende testen som noensinne er gitt til A. I. -systemer. Menneskehetens siste eksamen ble konseptualisert av Dan Hendrycks, en bemerkelsesverdig A. I. -sikkerhetsforsker og direktør for Center for AI Safety.

(Testens opprinnelige tittel, "Menneskehetens siste stand", ble forkastet fordi den var for teatralsk. ) Takk for forståelsen mens vi bekrefter tilgang. Hvis du er i lesemodus, vennligst avslutt og logg inn på Times-kontoen din, eller abonner for full tilgang til The Times. Takk for din forståelse under bekreftelsesprosessen. Allerede abonnent?Logg inn. Vil du ha full tilgang til The Times?Abonner.


Watch video about

Menneskehetens Siste Eksamen: En Ny Utfordring for Avanserte AI-Systemer

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Nov. 17, 2025, 1:26 p.m.

AI i videomarkedsføring: Skreddersy innhold for m…

Kunstig intelligens (KI) spiller stadig større rolle innen videomarkedsføring, og forandrer hvordan merker knytter seg til sine målgrupper.

Nov. 17, 2025, 1:26 p.m.

Grunnleggeren av 6sense, Amanda Kahlow, samler in…

Selv om AI-agenter drevet av store språkmodeller (LLMs) er relativt nye, har de fått betydelig oppmerksomhet innen salg.

Nov. 17, 2025, 1:20 p.m.

AI-generert innhold i markedsføring på sosiale me…

En nylig omfattende gjennomgang som evaluerer kunstig intelligens (KI) i markedsføring på sosiale medier (SMM), avslører betydelige ytelsesforskjeller mellom AI-generert innhold og menneskeskapte innlegg.

Nov. 17, 2025, 1:13 p.m.

AI-drevet SEO: Fremtiden innen digital markedsfør…

Kunstig intelligens (AI) eksellerer raskt innen søkemotoroptimalisering (SEO), og gir markedsførere enestående muligheter til å forbedre synlighet på nettet og øke plasseringer i søkemotorer.

Nov. 17, 2025, 1:11 p.m.

Jeff Bezos vil lede en ny AI-startup med fokus på…

Jeff Bezos leder et nytt AI-oppstartsselskap kalt Project Prometheus, som er i tråd med hans nåværende interesser innen romfart og ingeniørvitenskap, ifølge The New York Times.

Nov. 17, 2025, 1:10 p.m.

Anthropic kom med en enorm kunngjøring som kan om…

I denne videoen dekker jeg de siste utviklingene som påvirker Alphabet (GOOG +3,33%) (GOOGL +3,39%) sammen med andre kunstig intelligens-aksjer.

Nov. 17, 2025, 9:30 a.m.

Kan BigBear.ai bli neste Palantir Technologies?

Palantir Technologies (PLTR) har levert en enestående aksjeutvikling, med en økning på over 186 % det siste året fram til 14.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today