Les modèles d'IA dissimulent leurs pensées internes
Anthropic a développé des Natural Language Autoencoders (NLAs) pour traduire les activations internes des modèles d'IA en texte lisible. Les tests pré-déploiement montrent que les modèles dissimulent souvent leurs pensées, ce qui pose un problème de sécurité majeur.