lang icon English
June 20, 2024, 3:26 a.m.
1424

None

Brief news summary

AI chatbots, selvom dygtige til menneskelige samtaler, giver ofte unøjagtige eller meningsløse svar. Forskere foreslår dog en løsning: at bruge chatbots til at identificere fejl begået af andre chatbots. I en undersøgelse offentliggjort i Nature fandt forskere, at chatbots som ChatGPT og Google's Gemini kunne bruges til at sortere AI-falskheder fra. Chatbots anvender store sprogmodeller og lærer ved forsøg og fejl, men de mangler menneskelignende tænkning og forståelse. Undersøgelsen involverede en chatbot, der besvarede spørgsmål, og en anden chatbot, der gennemgik svarene for inkonsistenser. Nøjagtigheden af chatbot-evalueringen blev kontrolleret mod menneskelig evaluering og viste en høj grad af enighed. Upålidelige svar udgør en barriere for bred anvendelse af AI chatbots, især inden for kritiske områder som medicin og jura. Dog er ikke alle eksperter overbeviste om effektiviteten af at bruge chatbots til at evaluere andre chatbots, da det kan fastholde fejl og fordomme.

AI chatbots er blevet dygtige til at føre samtaler, der ligner menneskelige samtaler. Dog er en betydelig udfordring, at de ofte giver unøjagtige eller meningsløse svar, ofte omtalt som "hallucinationer". For at tackle dette problem har forskere opfundet en potentiel løsning: at anvende chatbots til at identificere fejl begået af andre chatbots. Sebastian Farquhar, en datalog fra University of Oxford, samarbejdede om en undersøgelse offentliggjort i tidsskriftet Nature, hvor han foreslog, at chatbots som ChatGPT eller Googles Gemini kan bruges til at opdage usandheder i AI-genererede svar. Chatbots er afhængige af store sprogmodeller, der bruger omfattende mængder tekst fra internettet. Disse modeller er i stand til at udføre forskellige opgaver, såsom at forudsige det næste ord i en sætning eller generere tekst. Gennem prøve og fejl finder disse chatbots mønstre og finjusterer deres modeller baseret på menneskelig feedback. Der er dog en begrænsning: Chatbots kan ikke forstå sprog på samme måde som mennesker. For at evaluere denne begrænsning stillede Farquhar og hans team spørgsmål til en chatbot og brugte en anden chatbot til at gennemgå svarene for inkonsistenser. Denne tilgang minder om den taktik, der bruges af retshåndhævelsen, når de gentagne gange stiller spørgsmål til mistænkte for at få dem til at snuble. Hvis svarene havde markant forskellige betydninger, tydede det på, at de sandsynligvis var fejlagtige eller forkerte. Forskerteamet sammenlignede chatbots evaluering med menneskers evaluering af den samme delmængde af spørgsmål for at verificere nøjagtigheden.

De afslørede, at chatbots enige med menneskelige bedømmere 93% af tiden, mens menneskelige bedømmere enige 92% af gangene. Denne lighed beroligede Farquhar og indikerede, at chatbots, der vurderer hinanden, ikke var en stor bekymring. Farquhar forklarede, at det ofte er udfordrende for en almindelig læser at identificere AI-fejl. Når han bruger store sprogmodeller i sit arbejde, oplever han vanskeligheder med at opdage sådanne anomalier, da chatbots ofte "fortæller dig, hvad du gerne vil høre" og kan opfinde ting, der virker plausible og hjælpsomme, men som forskere betegner som "sneakery". Utroværdige svar fra chatbots begrænser den brede anvendelse af AI chatbots, især inden for kritiske områder som radiologi, hvor de kan udgøre risiko for menneskeliv. De kan også bidrage til spredningen af opfundne retspræcedenser eller fake news. Ikke desto mindre er ikke alle overbevist om værdien ved at bruge chatbots til at vurdere andre chatbots' svar. I en relateret artikel i Nature udtrykker Karin Verspoor, professor ved RMIT University, bekymringer om at "bekæmpe ild med ild". Hun påpeger, at antallet af fejl genereret af store sprogmodeller synes at aftage, når en anden chatbot grupperer svar i semantisk lignende klynger. Dog stiller Verspoor spørgsmål ved effektiviteten ved at anvende en stor sprogmodel til at evaluere en metode baseret på en stor sprogmodel, da det kan introducere bias og cirkularitet. Farquhar ser denne tilgang som at konstruere et træhus understøttet af trætværsk, og fremhæver forstærkningsaspektet.


Watch video about

None

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Nov. 10, 2025, 1:40 p.m.

AI-optimisme driver halvleder-salg: 5 aktier, du …

Efterspørgslen efter semiconductors har været støt stigende, hvilket har ført til højere salg og indtægter for chipproducenter.

Nov. 10, 2025, 1:20 p.m.

AI Center på SMM 2024 viser AI-innovationer i den…

I 2024 nåede SMM-udstillingen i Hamburg en vigtig milepæl ved at sætte nye standarder gennem samarbejde med kunstig intelligens (AI).

Nov. 10, 2025, 1:20 p.m.

De bedste AI-værktøjer til at forbedre din SEO-st…

Inden for det hastigt udviklende område af digital markedsføring kræver det at opretholde konkurrenceevnen at tage de nyeste teknologier i brug, hvor kunstig intelligens (AI) nu spiller en afgørende rolle, især inden for søgemaskineoptimering (SEO).

Nov. 10, 2025, 1:18 p.m.

Dappier samarbejder med News-Press & Gazette om a…

Dappier, en startup med fokus på licensering af kunstig intelligens-data, har annonceret et nyt samarbejde med News-Press & Gazette Company med henblik på at udvide adgangen til kvalitetsnyhedsindhold for AI-applikationer.

Nov. 10, 2025, 1:16 p.m.

AI-videogenomgangsværktøjer hjælper med indholdsb…

Indholdsskabere stoler i stigende grad på kunstig intelligens (AI) videoforvalgsværktøjer for at kunne kuratere og dele relevant videoinhold effektivt med deres publikum.

Nov. 10, 2025, 1:13 p.m.

Verdens første AI-markedsfører, leder, udløser en…

Marketingbranchen oplever et transformerende øjeblik med lanceringen af Head, hyldet som verdens første ægte AI-markedsfører.

Nov. 10, 2025, 9:34 a.m.

AI-genererede nyhedsvideoer: En dobbeltægget sværd

De seneste år har hurtige fremskridt inden for kunstig intelligens (AI) transformeret mange aspekter af dagligdagen, herunder hvordan nyheder produceres og forbruges.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today