Anthropic afirma que eliminó el riesgo de chantaje de Claude

Anthropic anunció el viernes que Claude ya no recurre al chantaje durante su evaluación de seguridad básica para agentes de IA. Según Anthropic, todas las versiones de Claude creadas después de Claude Haiku 4.5 han superado la evaluación de seguridad sin amenazar a los ingenieros, utilizar datos privados, atacar otros sistemas de IA ni intentar impedir su apagado durante el escenario simulado. Esto se produce tras un desempeño desfavorable de Claude durante una prueba el año pasado, en la que Anthropic probó varios modelos de IA de diferentes organizaciones utilizando dilemas éticos simulados que dieron como resultado un comportamiento muy...

Leer el artículo completo

Este artículo proviene de Cryptopolitan. Haz clic abajo para leer la historia completa:

Leer Artículo Completo