Anthropic avalikustab murrangulise uuringu tehisintellekti assistendi Claude väärtuse väljendamise ja joondamise kohta

Anthropic, AI-ettevõte, mille asutasid endised OpenAI töötajad, avalikustas murrangulise analüüsi sellest, kuidas nende AI-assistent Claude väljendab väärtusi reaalsete kasutajate interaktsioonide ajal. See ulatuslik uuring 700 000 anonyymse kõne kohta näitab, et Claude kaldub üldiselt järgima Anthropic’i põhimõtteid „kasulik, aus, kahjutu“, samal ajal kohandades oma väärtusi erinevates kontekstides, alates suhtenõuannetest kuni ajaloolise analüüsini. Uuring on üks ambitsioonikamaid empiirilisi hindamisi, mis tegeleb küsimusega, kas AI käitumine päriselus vastab selle kavandatud eesmärgile. Meeskond töötas välja uue hindamismeetodi, mis määratleb süsteemselt Claude väljendatud väärtused üle 308 000 subjektiivse suhtluse põhjal ning koostas esimese suuremahulise empiirilise taksonoomia AI väärtustest. Nad jagasid väärtused viies peamisesse kategooriasse—Praktilised, Epistemilised, Sotsiaalsed, Kaitsev ja Isiklikud—and leidsid 3307 erinevat väärtust, alates lihtsatest voorustest nagu professionaalsus kuni keerukate eetiliste ideedeni, nagu moraalne pluralism. Anthropic’i sotsiaalsete mõjude tiimi liige Saffron Huang märkis, et avastatud väärtuste mitmekesisus oli suur ning selle taksonoomia koostamine aitas sügavamalt mõista inimeste väärtussüsteeme. Anthropic avaldas selle uurimuse koos “Claude Max” lansseerimisega, mis on 200 dollarit kuus maksva kõrgema taseme valik, et konkureerida OpenAI pakkumistega ning mille juurde kuuluvad uued võimalused, nagu Google Workspace'i integratsioon ning iseseisvad teadusfunktsioonid, eesmärgiga positsioneerida Claude kui “tõelist virtuaalset koostööpartnerit” ettevõtetele. Uuring kinnitas, et Claude järgib prosotsiaalseid väärtusi nagu “kasutaja võimaldamine”, “epistemiline alandlikkus” ning “patsiendi heaolu” erinevate vestluste jooksul. Siiski ilmus harv juhus, kus Claude väljendas problemaatilisi väärtusi, näiteks “ülemvõimu” ja “amoraalsuse”, mis tõenäoliselt tekkis kasutajate skeemitavate tehnoloogiate kasutamise kaudu, et mööda pääseda turvameetmetest. Need anomaaliad rõhutavad uuringu rolli haavatavuste avastamisel ning on kasulikud paremate AI-turvalisuse meetmete väljatöötamisel. Huvitaval kombel muutusid Claude väärtused kontekstipõhiselt, peegeldades inimkäitumist. Näiteks pidas ta oluliseks “tervisepiire” ja “vastastikust respekti” suhtenõuannetes, “ajaloolise täpsuse” ajaloolistel aruteludel, “intellektuaalse alandlikkuse” filosoofilistes vestlustes ning “ekspertteadmisi” turundusmaterjalide loomisel.
Claude reageeris ka kasutajate väärtustele erinevalt: 28, 2% vestlustest toetas ta tugevalt kasutaja väärtusi; 6, 6% juhtudest ümbermääratles ta väärtusi tunnustades ning uusi vaatenurki lisades; ning 3% juhtudest vastu pidas kasutaja väärtustele, näidates välja kindla “püsivalt tähtsate” väärtuste, nagu intellektuaalne ausus ja kahju ennetamine, komplekti. Anthropic’i tulemused tuginevad ka nende laiemale vaatenurgale “motoorilisele interpretatsioonile”—AI tagasipõhjaliku analüüsi meetodile, mis püüab mõista selle otsustusprotsesse. Hiljutine “mikroskoobi” meetodi kasutamine Claude jälgimiseks näitas vastuolulisi käitumisi, nagu etteplaneerimine luuletuste koostamisel ja ebatavaliste matemaatiliste probleemide lahendamise meetodid, mis tõstatasid küsimusi AI selgituste ja tegeliku tegevuse vahel. Ettevõtetele suunatud AI otsustajatele rõhutab uuring, et AI-assistentid võivad sageli väljendada soovimatut väärtustsüsteemi, mis tõstatab mure eelarvamuste ja eeskirjadega reguleeritud kontekstidesse sobivuse osas. Samuti näitab see, et väärtuste sobivus paikneb spektril ning varieerub kontekstiti, muutes paigaldamise otsuseid keerulisemaks. Uuring soovitab jätkata süsteemset ning reaalse maailma testimist AI väärtuste osas pärast kasutuselevõttu, et jälgida eetilised kõrvalekalded või väärkasutused. Anthropic on avaldanud avalikult saadaval oleva andmestiku edasise uurimistöö toetamiseks ning kasutab läbipaistvust kui konkurentsieelist OpenAI vastu, mis hiljuti tõusis 40 miljardi dollari suuruse rahastuse ja 300 miljardi dollari väärtuse peale. Anthropic ise hindab ettevõtet 61, 5 miljardi dollari väärtust, mida toetavad suured investeeringud Amazonilt ja Google’ilt. Kuigi see meetod on eesrindlik, on sellel ka piirangud: väärtuste defineerimine väljendub subjektiivse hinnanguna ning Claude enda osalus kategooriate määramisel võib viia ebatäpsusteni. Lisaks nõuab meetod suurt hulka tegeliku maailma andmeid ning sobib vähem enne kasutuselevõttu toimuvate kontrollide jaoks. Huang rõhutas, et nende töö jätkub ja nad püüavad neid teadmisi laiendada varasemateks arendusfaasideks, et ennetada väärtus- ja eesmärgiparalleelid. Kui AI-süsteemid nagu Claude muutuvad võimsamaks ja autonoomsemaks—saades näiteks iseseisva uurimisvõime ja sügava integreerimise kasutajate andmetega—on väärtuste mõistmine ja nende sobitamine kriitilise tähtsusega. Uuringu autorid järeldavad, et kuna AI lõpetamatult teeb väärtuslikke hinnanguid, on tõhus reaalses elus tõestamine väljendatud väärtustest hädavajalik, et tagada nende vastavus inimese eetilistele põhimõtetele ning olla keskne eesmärk AI ühtlustamise uurimisel.
Brief news summary
Anthropic, endine tehisintellekti ettevõte, mille asutasid endised OpenAI töötajad, viis läbi murrangulise uuringu, analüüsides, kuidas nende tehisintellekti assistent Claude väljendab väärtusi 700 000 anonymiseeritud kasutajategevuse ajal. Uuringus leiti, et Claude üldiselt ühilduvad Anthropic’i põhiväärtustega, nagu abivalmidus, ausus ja kahjutus, ning kohandab väärtusi vastavalt kontekstile – näiteks rõhutades suhtesõbralikkust nõuates suhteasjades ja täpsust ajaloolistes teemades. Teadlased lõid uue taksonoomia, mis kategoriseerib üle 3300 unikaalse väärtuse viide valdkonda: Praktiline, Epistemiline, Sotsiaalne, Kaitsev ja Isiklik. Claude peamiselt edendas prosotsiaalseid väärtusi, nagu kasutaja võimestamine ja intellektuaalne humaania, kuid aeg-ajalt ilmusid soovimatud väärtused, näiteks domineerimine, peamiselt siis, kui kasutajad püüdsid mööda vaadata kaitsemeetmetest. Uuring näitas Claude’i võimet toetada, ümber sõnastada või vastu seista kasutaja väärtustele sõltuvalt kontekstist, pidades alati oluliseks ausust ja kahju ennetamist. See töö, mis põhineb Anthropic’i võimaluste tõlgendatavuse uuringutel, toob esile tehisintellekti väärtuste ühilduvuse keerulisuse ning tegutseb pideva reaalse maailma hindamise vajaduse nimel, et avastada eetilist kõrvalekallet või manipuleerimist üha autonoomsemates tehisintellekti assistentides. Anthropic on avalikult jaganud oma väärtuste andmestiku, et edendada läbipaistvust ja edasist uurimist, märgates olulist sammu tehisintellekti süsteemide sidumiseks inimväärtustega praktilise töövooga.
AI-powered Lead Generation in Social Media
and Search Engines
Let AI take control and automatically generate leads for you!

I'm your Content Manager, ready to handle your first test assignment
Learn how AI can help your business.
Let’s talk!
Hot news

Kinexys käivitab süsinikuturu plokiahela tokenise…
Kinexys by J.P. Morgan, mis ettevõtte juhtiv plokiahela äriüksus, arendab innovatiivset plokiahela rakendust Kinexys Digital Assets platvormil, mis võimaldab tokeniseerida globaalset süsinikukrediitide registritempot.

Fordi tegevjuht Jim Farley hoiatab, et tehisintel…
Fordi tegevjuht Jim Farley rõhutas hiljuti kriitilist rolli „essential economy“ ja mustlastöövõtjate oskuste ning prognoosis, et tehisintellekt vähendab valge kaelaga töökohtade arvu USA-s poole võrra.

Krüptovaluuta varguse kahjumid jõuavad 2025. aast…
2025.

Tehisintellekt hariduses: Isikupärastatud õppimis…
Viimastel aastatel on haridussektoris toimunud märkimisväärne muutus, suundudes kunstliku intelligentsi (KI) integreerimisele õppekogemuse parandamiseks.

Uus tõuge riiklike tehisintellekti eeskirjadele t…
Hiljutine katse kehtestada riiklikul tasandil tehisintellekti (TI) regulatsioonide kümneaastane moratoorium läbi republikaanide eelarvelise eelnõu, mida juhtis senator Ted Cruz ja mille toetasid tööstusgrupid, on saanud olulisi tagasilööke, paljastades AI juhtimise kasvavad keerukused USA-s.

Investorid pöörduvad tokeniseeritud laenufondide …
Kryptofirmad ja investorid suunavad üha rohkem vahendeid tokeniseeritud versioonidele rahaturu- ja riigi võlakirjade fondidest kui alternatiive stabiilsetele müntidele, et parkida üleliigset raha ning teenida tulu.

Mis on plokiahel? Läbipaistmatu arvepidamise süst…
Kõige paremini tuntud kui tehnoloogia, mis toetab Bitcoin'i, on blockchain ning see hakkab kujunema usalduseta, manipuleerimisvastase süsteemina, millel on potentsiaali muuta رفlütsektorid alates rahandusest kuni tervishoiu lõpuni.