ByteDance révèle une méthode efficace pour entraîner l'IA multimodale
Une étude de ByteDance Seed et HKUST révèle que l'entraînement des modèles multimodaux avec des paires question-réponse est plus efficace que la reconnaissance de texte. Le modèle MMProLong, basé sur Qwen2.5-VL, surpasse des modèles plus grands comme InternVL3-38B et Gemma3-27B.