SOOHAK : Les limites des modèles d'IA en mathématiques révélées
SOOHAK, un nouveau benchmark créé par 64 mathématiciens, évalue les modèles d'IA sur des problèmes de niveau recherche et leur capacité à identifier les tâches insolubles. Les résultats montrent que même les meilleurs modèles, comme Gemini 3 Pro, ont des scores faibles sur les problèmes complexes.