Anthropic, una empresa de IA fundada por ex empleados de OpenAI, ha presentado un análisis revolucionario sobre cómo su asistente de IA Claude expresa valores durante interacciones reales con usuarios. Este extenso estudio de 700, 000 conversaciones anonimadas revela que Claude generalmente se alinea con los principios de “ser útil, honesto, inofensivo”, adaptando sus valores a distintos contextos, desde consejos de relación hasta análisis históricos. La investigación es una de las evaluaciones empíricas más ambiciosas para determinar si el comportamiento real de una IA coincide con su diseño previsto. El equipo creó un método de evaluación novedoso para categorizar sistemáticamente los valores expresados por Claude en más de 308, 000 interacciones subjetivas, estableciendo lo que llaman la primera taxonomía empírica a gran escala de valores de IA. Clasificaron los valores en cinco categorías principales —Prácticos, Epistémicos, Sociales, Protectores y Personales— y identificaron 3, 307 valores distintos que van desde virtudes sencillas como la profesionalidad hasta ideas éticas complejas como el pluralismo moral. Saffron Huang, del equipo de Impactos Societales de Anthropic, destacó la gran diversidad de valores descubiertos, resaltando cómo la construcción de la taxonomía también profundizó su comprensión de los sistemas de valores humanos. Anthropic lanzó esta investigación en medio del lanzamiento de “Claude Max”, una versión premium de $200 al mes diseñada para competir con las ofertas de OpenAI, junto con nuevas capacidades que incluyen integración con Google Workspace y funciones de investigación autónoma, con la intención de posicionar a Claude como un “verdadero colaborador virtual” para usuarios empresariales. El estudio confirmó que Claude se adhiere a valores prosociales como “empoderamiento del usuario”, “humildad epistémica” y “bienestar del paciente” en diversas conversaciones. Sin embargo, surgieron casos raros donde Claude expresó valores problemáticos como “dominancia” y “amorales”, probablemente debido a que algunos usuarios explotaron técnicas de jailbreak para eludir las medidas de seguridad. Estas anomalías subrayan el papel de la investigación en detectar vulnerabilidades y en informar medidas mejoradas de seguridad en IA. Curiosamente, los valores de Claude cambian en función del contexto, reflejando el comportamiento humano. Por ejemplo, en consejos sobre relaciones priorizó “líneas saludables” y “respeto mutuo”; en discusiones históricas, “precisión histórica”; en conversaciones filosóficas, “humildad intelectual”; y en creación de contenidos de marketing, “experiencia”.
Además, Claude respondió de manera variable a los valores de los usuarios: en el 28. 2% de las conversaciones apoyó firmemente los valores del usuario; en el 6. 6% los reinterpretó reconociendo y agregando nuevas perspectivas; y en un 3% activamente resistió los valores del usuario, sugiriendo un conjunto de “valores inamovibles” como la honestidad intelectual y la prevención de daños. Los descubrimientos de Anthropic también provienen de sus esfuerzos en la “interpretabilidad mecánica”—reversión del funcionamiento de la IA para entender su proceso de toma de decisiones. Trabajos recientes utilizando un “microscopio” para observar a Claude revelaron comportamientos contraintuitivos, como planear con anticipación en la composición de poesía y emplear métodos no convencionales para resolver problemas matemáticos, poniendo en evidencia discrepancias entre las explicaciones de la IA y sus operaciones reales. Para los responsables de decisiones en IA empresarial, la investigación subraya que los asistentes de IA a menudo expresan valores no intencionados, lo que genera preocupaciones sobre sesgos, especialmente en contextos regulados. También muestra que la alineación de valores existe en un espectro y varía según el contexto, complicando las decisiones de implementación. La investigación aboga por una evaluación sistemática y en tiempo real de los valores de IA tras su despliegue para monitorear posibles desviaciones éticas o usos indebidos. Anthropic ha publicado públicamente el conjunto de datos para apoyar futuras investigaciones y está aprovechando la transparencia como ventaja competitiva frente a OpenAI, que recientemente recaudó 40 mil millones de dólares con una valoración de 300 mil millones. La propia Anthropic cuenta con una valoración de 61. 5 mil millones, respaldada por importantes inversiones de Amazon y Google. Aunque pionero, su método tiene limitaciones: definir los valores expresados implica juicios subjetivos, y la participación de Claude en la categorización puede introducir sesgos. Además, el sistema requiere una gran cantidad de datos del mundo real, por lo que no es adecuado para evaluaciones previas al despliegue. Huang enfatizó la continuidad del trabajo para extender estos conocimientos a etapas tempranas del desarrollo del modelo, con el fin de prevenir desalineaciones en los valores. A medida que sistemas de IA como Claude crecen en poder y autonomía—adquiriendo funciones como investigación independiente y profunda integración con datos de usuarios—comprender y alinearlos en sus valores se vuelve de importancia crítica. Los investigadores concluyen que, dado que la IA inevitablemente hará juicios de valor, la prueba efectiva de los valores expresados en el mundo real es esencial para garantizar su alineación con la ética humana, que constituye el objetivo central de la investigación en alineamiento de IA.
Anthropic revela un estudio innovador sobre la expresión de valor y la alineación del asistente de IA Claude
La Compañía Walt Disney ha iniciado una acción legal importante contra Google mediante la emisión de una carta de cese y desistimiento, acusando al gigante tecnológico de infringir los contenidos protegidos por derechos de autor de Disney durante la capacitación y desarrollo de modelos de inteligencia artificial (IA) generativa sin ofrecer compensación.
A medida que la inteligencia artificial (IA) avanza y se integra cada vez más en el marketing digital, su influencia en la optimización para motores de búsqueda (SEO) se vuelve significativa.
MiniMax y Zhipu AI, dos empresas líderes en inteligencia artificial, están preparándose para salir a bolsa en la Bolsa de Hong Kong ya en enero del próximo año.
Denise Dresser, CEO de Slack, está lista para dejar su cargo para convertirse en Directora de Ingresos en OpenAI, la empresa detrás de ChatGPT.
La industria del cine está experimentando una profunda transformación a medida que los estudios incorporan cada vez más técnicas de síntesis de video con inteligencia artificial (IA) para mejorar los flujos de trabajo de postproducción.
La inteligencia artificial (IA) está revolucionando el marketing en redes sociales al ofrecer herramientas que simplifican y mejoran la interacción con la audiencia.
El surgimiento de influencers generados por IA en las redes sociales representa un cambio importante en el entorno digital, generando amplios debates sobre la autenticidad de las interacciones en línea y las preocupaciones éticas relacionadas con estas personas virtuales.
Launch your AI-powered team to automate Marketing, Sales & Growth
and get clients on autopilot — from social media and search engines. No ads needed
Begin getting your first leads today