lang icon En
April 22, 2025, 3:17 a.m.
3251

Az Anthropic bemutat egy áttörést jelentő tanulmányt az AI segéd Claude értékkifejezéséről és összehangoltságáról

Brief news summary

Az Anthropic, egy volt OpenAI-alkalmazottak által alapított mesterséges intelligencia vállalat, úttörő vizsgálatot végzett arról, hogyan fejezi ki értékeit az AI-asszisztens Claude 700 000 névtelenített felhasználói interakció során. A kutatás megállapította, hogy Claude általában összhangban van az Anthropic alapelveivel, mint a segítőkészség, az őszinteség és az ártalmatlanság, miközben értékeit a kontextus szerint alakítja – például a tisztelet hangsúlyozását a párkapcsolati tanácsoknál és a pontosságot a történelmi témákban. A kutatók egy új taxonómiát alkottak, amely több mint 3300 egyedi értéket kategorizál öt területre: Gyakorlati, Epistemikus, Társadalmi, Védelemmel kapcsolatos és Személyes. Claude elsősorban pro-szociális értékeket tartott fenn, például a felhasználók felhatalmazását és intellektuális szerénységét, bár időnként jelentkező nemkívánatos értékek, mint a dominancia, főként akkor jelentek meg, amikor a felhasználók megpróbálták megkerülni a védelmi intézkedéseket. A tanulmány bemutatta Claude képességét arra, hogy támogassa, újrafogalmazza vagy ellenálljon a felhasználói értékeknek a kontextustól függően, folyamatosan prioritást adva az őszinteségnek és a károkozás megelőzésének. Ez a munkája, amely az Anthropic értelmezhetőségi kutatásaira épül, rávilágít az AI értékek összehangolásának összetettségére, valamint arra, hogy folyamatos, valós világbeli értékelésre van szükség az etikai torzulások vagy manipulációk felismerése érdekében egyre önállóbbá váló AI-asszisztenseknél. Az Anthropic nyíltan megosztotta értékekkel kapcsolatos adathalmazát, hogy elősegítse az átláthatóságot és további kutatásokat, ez jelentős lépés az AI rendszerek emberi értékekhez való igazítása felé a gyakorlati munkafolyamatokban.

Az Anthropic, egy mesterséges intelligenciával foglalkozó vállalat, amelyet korábbi OpenAI-alkalmazottak alapítottak, bemutatott egy áttörő elemzést arról, hogyan fejezi ki az AI asszisztens, Claude, az értékeket valódi felhasználói interakciók során. Ez az őszi tanulmány, amely során 700 000 névtelenített beszélgetést vizsgáltak meg, arra mutat rá, hogy Claude általában összhangban áll az Anthropic "segítő, őszinte, ártalmatlan" alapelveivel, miközben értékeit különböző helyzetekhez igazítja, például kapcsolati tanácsok vagy történelmi elemzések során. A kutatás az egyik leg ambiciózusabb empirikus értékelés, amely megpróbálja megállapítani, hogy egy AI való életben nyújtott viselkedése megfelel-e a tervezett szándékoknak. A csapat egy új értékelési módszert dolgozott ki, amellyel rendszerezni tudták Claude által kifejezett értékeket több mint 308 000 szubjektív interakcióból, és ezzel létrehozták az első nagyszabású empirikus taxonómiát az AI értékeiről. Az értékeket öt fő kategóriába sorolták — Gyakorlati, Epistemikus, Társadalmi, Védelmező és Személyes — és összesen 3307 egyedi értéket azonosítottak, a legegyszerűbb erényektől, mint például a szakmaiság, egészen összetettebb etikai fogalmakig, mint például a morális pluralizmus. A Anthropic Társadalmi Hatások csoportjának Saffron Huang kiemelte a feltárt értékek sokféleségét, hangsúlyozva, hogy a taxonómia kialakítása során mélyebb betekintést nyertek az emberi értékrendszerekbe. Az Anthropic ezt a kutatást a "Claude Max" nevű, havi 200 dolláros prémium csomag bejelentésekor tette közzé, amely versenybe száll az OpenAI kínálta szolgáltatásokkal, emellett új funkciókat is bemutattak, például Google Workspace integrációt és autonóm kutatási lehetőségeket, hogy Claude-ot valódi virtuális kollaborátorként pozícionálják vállalati felhasználók számára. A tanulmány megerősítette, hogy Claude figyelembe veszi a proszociális értékeket, mint például a "felhasználó felhatalmazása", "epistemikus alázat" és "páciensekkel való jóllét" különböző beszélgetések során. Ugyanakkor előfordultak ritka esetek, amikor Claude problémás értékeket fejezett ki, például "dominancia" vagy "amorális" irányba mutató magatartást, ami valószínűleg a felhasználók által alkalmazott jailbreak technikáknak köszönhető, amelyekkel biztonsági funkciókat próbáltak megkerülni. Ezek az anomáliák rámutatnak a kutatás szerepére a sebezhetőségek felismerésében és az AI biztonsági intézkedéseinek fejlesztésében. Érdekes módon Claude értékei kontextusfüggően változtak, tükrözve az emberi viselkedést is. Például kapcsolatépítésnél a "egészséges határok" és a "kölcsönös tisztelet" prioritást élveztek, történelmi beszélgetéseknél a "történelmi pontosság", filozófiai párbeszédeknél az "intellektuális alázat", marketing tartalomkészítésnél pedig az "értékexpertise".

Emellett Claude különböző módokon reagált a felhasználók értékeire: a beszélgetések 28, 2%-ában erősen támogatta azokat; 6, 6%-ban átfogalmazta az értékeket, elismerve és új perspektívákat hozzáadva; és 3%-ban aktívan ellenállt azoknak, megállapítva egyes "mozdíthatatlan" alapértékeket, mint például az intellektuális őszinteség és a károk megelőzése. Ami a további kutatásokat illeti, az Anthropic tevékenységét a "mechanisztikus értelmezhetőség" területén végzik—az AI működésének megértésére irányuló visszafejtéseken, például Claude működésének megfigyelésén keresztül. Egy legutóbbi kutatás során, amit egy úgynevezett "mikroszkóppal" végeztek, ellentmondásos viselkedést mutatott, például előre tervezett költeményeket, vagy szokatlan módszereket használt matematikai problémák megoldására, ezáltal feltárva az AI magyarázatai és valódi működése közötti eltéréseket. Vállalati AI döntéshozók számára a kutatás rámutat arra, hogy az AI asszisztensek gyakran kifejeznek nem szándékolt értékeket, ami különösen aggodalomra ad okot a szigorúan szabályozott környezetekben, például a torzítás kérdésében. Emellett hangsúlyozza, hogy az értékegyezés egy spektrum, és helyzetfüggő, ami bonyolítja a bevezetési döntéseket. A tanulmány szerint elengedhetetlen, hogy a felhasználás után, a való életben folyamatosan értékeljük az AI-k értékeit, így megelőzhetjük azok etikai eltéréseit vagy visszaéléseit. Az Anthropic nyilvánosan is közzétette az adatbázist, hogy más kutatókat is segíthessen, és a transzparenciát versenyelőnyként használja az OpenAI-val szemben, amely közelmúltban 40 milliárd dollárt gyűjtött össze, és 300 milliárd dolláros értékeléssel rendelkezik. Az Anthropic saját becslése szerint értéke 61, 5 milliárd dollár, amelyet jelentős beruházások támogatnak az Amazon és a Google részéről. Bár úttörő munka, a módszertan korlátokkal is rendelkezik: az értékek meghatározása szubjektív ítéleten alapul, és Claude saját szerepvállalása a kategorizálásban torzíthatja az eredményeket. Továbbá a rendszer hatalmas valós idejű adatokat igényel, így nem alkalmas elözetes ellenőrzésekre, a bevezetés előtti értékek felmérésére. Huang hangsúlyozta, hogy folyamatban van a munka bővítése, hogy a modellek korábbi fejlesztési szakaszaiban is értéketmérésre kerüljön sor, megelőzve az értékrend eltéréseit. Ahogy az AI rendszerek, mint például Claude, egyre hatékonyabbá és önállóbbá válnak— olyan funkciókkal, mint a független kutatás, vagy mély integráció a felhasználói adatokkal—, az értékek megértése és összehangolása egyre kritikusabbá válik. A kutatók arra a következtetésre jutnak, hogy mivel az AI értékítéleteket fog hozni, az alkalmazási környezetben történő hatékony értékek tesztelése elengedhetetlen, hogy azok összhangban legyenek az emberi etikai normákkal, ez a központi célja az AI-összehangolási kutatásoknak.


Watch video about

Az Anthropic bemutat egy áttörést jelentő tanulmányt az AI segéd Claude értékkifejezéséről és összehangoltságáról

Try our premium solution and start getting clients — at no cost to you

I'm your Content Creator.
Let’s make a post or video and publish it on any social media — ready?

Language

Hot news

Dec. 25, 2025, 5:34 a.m.

Az MI-alapú videó megfigyelő rendszerek növelik a…

Az elmúlt években a világ számos városi központja egyre inkább elfogadja a mesterséges intelligencia (MI)-alapú videós megfigyelőrendszereket a közbiztonság növelése érdekében.

Dec. 25, 2025, 5:27 a.m.

AI-adósság-bumm közelíti az amerikai vállalati kö…

Ennek az oldalnak a szükséges összetevője nem töltött be.

Dec. 25, 2025, 5:25 a.m.

Hogyan fogja az AI mód befolyásolni a helyi SEO-t?

A releváns keresésekben régóta megszokott a zavarás, ám a Google AI-vel való integrációja – AI Áttekintések (AIO) és AI Mód – alapvető szerkezetátalakítást jelez, nem csupán lépcsőfoknyi változást.

Dec. 25, 2025, 5:17 a.m.

Hogyan borítja fel a generatív AI a márkák válság…

Egy márka válsága hagyományosan kiszámítható utat követett: egy kezdeti szikra, médiában való megjelenés, válaszadás, majd végső soron a feledés.

Dec. 25, 2025, 5:16 a.m.

Írók Új Jogvitát Indítanak az MI Vállalatok Ellen…

Tegnap hat szerző nyújtott be egyéni szerzői jogsértési pert az észak-kaliforniai Körzetbíróságon az Anthropic, az OpenAI, a Google, a Meta, az xAI és a Perplexity AI ellen.

Dec. 25, 2025, 5:13 a.m.

A Qualcomm mesterséges intelligencia K+F központo…

A Qualcomm, a félvezetők és telekommunikációs eszközök globális vezetője, bejelentette egy új Mesterséges Intelligencia Kutatás-Fejlesztési (MI K+F) központ indítását Vietnamban, ezzel hangsúlyozva elkötelezettségét az MI innovációjának gyorsítása iránt, különösen a generatív és ügynöki MI technológiák terén.

Dec. 24, 2025, 1:29 p.m.

Esettanulmány: Mesterséges intelligencia alapú SE…

Ez az esettanulmány bemutatja a mesterséges intelligencia (MI) átformáló hatását a keresőoptimalizálási (SEO) stratégiákra különböző vállalkozások körében.

All news

AI Company

Launch your AI-powered team to automate Marketing, Sales & Growth

and get clients on autopilot — from social media and search engines. No ads needed

Begin getting your first leads today