ITBench-AA : Benchmark des modèles IA en ingénierie SRE
Le benchmark ITBench-AA révèle que les modèles d'IA, dont Claude Opus 4.7 et GPT-5.5, obtiennent des scores inférieurs à 50% sur des tâches d'ingénierie de fiabilité des sites. Ce premier benchmark met en lumière les défis des modèles dans des environnements complexes comme Kubernetes.