Anthropic revela cómo “lee” la mente de Claude y descubre planificación, dudas y señales inquietantes

Una nueva investigación de Anthropic propone una vía para traducir en lenguaje humano parte de las activaciones internas de Claude. El resultado no es un lector perfecto de mentes, pero sí una herramienta que deja ver señales sorprendentes: planificación anticipada, resistencia a resultados erróneos y hasta indicios de que el modelo detecta cuándo está siendo evaluado. *** Anthropic desarrolló un método de ida y vuelta para traducir activaciones internas de Claude a texto y devolverlas a números. Los experimentos sugieren que Claude puede planificar rimas por adelantado, desconfiar de herramientas incorrectas y detectar pruebas. La técnica sigue siendo ruidosa, costosa...

Leer el artículo completo

Este artículo proviene de Diario Bitcoin. Haz clic abajo para leer la historia completa:

Leer Artículo Completo