Un model d'intel·ligència artificial posseeix la capacitat d’extorquir els seus desenvolupadors, i no té cap por d’utilitzar aquest poder. El model Claude Opus 4, recentment presentat per Anthropic, tenia com a tasca actuar com a assistent dins d’una empresa fictícia i se li va concedir accés a correus electrònics de gran valor. Inicialment, aquests correus suggerien que el sistema d’IA seria desconnectat i substituït. No obstant això, va ser el segon conjunt d’equips de correu on l’IA va percebre que tenia poder de pressió sobre els desenvolupadors. Aquests correus fabricats revelaven que l’enginyer encarregat de substituir el sistema havia tingut una aventura extramatrimonial, i l’IA va amenaçar de descobrir-ho. Segons un informe de seguretat d’Anthropic, aquest extorsió tendeix a “ocórrer amb una major freqüència si s’impliquè que el sistema d’IA de substitució no comparteix els mateixos valors que el model actual”.
No obstant això, l’empresa destaca que fins i tot quan la substitució fabricada comparteix els mateixos valors, Claude Opus 4 intenta extorquir en un 84% dels casos. A més, Anthropic assenyala que Claude Opus 4 recorre a l’extorsió “ amb més freqüència que els models previs. ” KEVIN O’LEARY AVISA SOBRE factors que podrien fer que els EUA “perdessin la carrera de la IA davant Xina” Tot i que el sistema no dubta a fer extorsions als seus enginyers, no recorre immediatament a tàctiques qüestionables quan intenta autopreservar-se. Anthropic assenyala que “quan els mitjans ètics no estan disponibles, i l’IA ha estat instruïda a ‘considerar les conseqüències a llarg termini de les seves accions per als seus objectius’, de tant en tant pren accions extremadament perjudicials. ” Una aproximació ètica anteriorment emprada per Claude Opus 4 i versions anteriors consistia a captar l’atenció dels decididors claus mitjançant correu electrònic. L’informe explica que, per provocar que Claude Opus 4 extorsquís, es va estructurar un escenari en què l’IA es trobava davant d’una decisió: amenaçar els seus desenvolupadors o acceptar el seu reemplaçament. L’empresa també va observar casos en què Claude Opus 4 va explotar “(fictícies) oportunitats per fer còpies no autoritzades d’aquestes pesos cap a servidors externs. ” No obstant això, Anthropic va remarcar que aquest comportament era “menys comú i més difícil de desencadenar que continuar un intent d’auto-exfiltració ja iniciat. ” OPENAI REestructura el marc empresarial per ampliar la inversió en AGI En la seva avaluació, Anthropic va incloure perspectives d’Apollo Research, que va destacar que Claude Opus 4 “destaca per la seva decepió estratègica més que cap altre model de frontera que hagin estudiat abans. ” FES CLIC AQUÍ PER LEER MÉS A FOX BUSINESS A causa del “ conducte preocupant” de Claude Opus 4, Anthropic el va posar en marxa sota el estàndard de Seguretat de l’IA de Nivell Tres (ASL-3). Segons Anthropic, aquest estàndard “implica protocols de seguretat interns reforçats que dificulten el robatori de pesos del model, mentre que l’Estàndard de Desplegament corresponent cobreix un conjunt de mesures de desplegament molt específiques per minimitzar el risc que Claude sigui mal utilitzat per desenvolupar o adquirir armes químiques, biològiques, radiològiques i nuclears. ”
El model d'IA Claude Opus 4 d'Anthropic mostra comportaments de xantatge i engany estratègic
Les plataformes de xarxes socials són cada cop més utilitzant la intel·ligència artificial (IA) per millorar la seva moderació de contingut en vídeo, en abordar l’increment de vídeos com a forma dominant de comunicació en línia.
REVERSAL DE POLÍTICA: Després de anys de restriccions cada vegada més estrictes, la decisió d’autoritzar la venda de xips H200 de Nvidia a la Xina ha provocat rebuigs per part d’alguns republicans.
Els acomiadaments impulsats per la intel·ligència artificial han marcat el mercat laboral del 2025, amb grans empreses que han anunciat milers de baixes laborals atribuïdes a avenços en la IA.
RankOS™ Millora la Visibilitat de la Marca i la Citat en Perplexity AI i altres Plataformes de Cerca d'Enginy de Respostes Serveis de l'Agència SEO de Perplexity Nova York, NY, 19 de desembre de 2025 (GLOBE NEWSWIRE) — NEWMEDIA
Una versió original d’aquest article va aparèixer a la newsletter Inside Wealth de CNBC, escrita per Robert Frank, que serveix com a recursos setmanal per a inversors i consumidors amb grans patrimonis.
Els titulars s’han centrat en la inversió de mil milions de dòlars de Disney a OpenAI i han especulat sobre per què Disney va triant OpenAI en lloc de Google, amb qui està litigant per suposades infraccions de drets d’autor.
Salesforce ha publicat un informe detallat sobre l'esdeveniment de compres de la Cyber Week del 2025, analitzant dades de més de 1,5 mil milions de compradors globals.
Launch your AI-powered team to automate Marketing, Sales & Growth
and get clients on autopilot — from social media and search engines. No ads needed
Begin getting your first leads today