Fenêtre d'attention

Aussi appelé : Attention Window · attention-window · contexte d'attention · attention span

Terme Débutant 🧠 Concepts fondamentaux

Mis à jour le 22 juillet 2026

La fenêtre d'attention correspond à la quantité maximale d'informations qu'un modèle d'IA peut garder en mémoire et analyser simultanément au cours d'une conversation.

📖 Définition

La fenêtre d'attention désigne le nombre maximal de jetons (tokens) qu'un modèle de langage peut prendre en compte simultanément lors du traitement d'une requête. Elle détermine la quantité de texte que le modèle peut « voir » et mémoriser au cours d'une même conversation. Une fenêtre plus grande permet de traiter des documents longs et de maintenir le fil d'une conversation étendue. Toutefois, l'augmentation de cette fenêtre entraîne une hausse significative des besoins en mémoire et en calcul.

💬 En termes simples

C'est comme la surface de ton bureau de travail : plus il est grand, plus tu peux étaler de documents et les consulter d'un coup d'œil pour rédiger ton rapport. Si ton bureau est petit, tu dois empiler les dossiers et tu ne peux en consulter que quelques-uns à la fois.

🎯 Exemple concret

En 2026, un cabinet d'avocats de Montréal utilise un modèle avec une fenêtre d'un million de jetons pour analyser l'intégralité d'un contrat de fusion-acquisition de 400 pages en une seule passe. Une firme de traduction de Gatineau soumet des manuels techniques complets dans la fenêtre de contexte pour obtenir des traductions cohérentes d'un chapitre à l'autre. Un studio de création de Québec alimente un modèle avec l'ensemble du scénario d'une série télévisée afin de vérifier la cohérence narrative.

💡 Le saviez-vous ?

Le modèle GPT-2, lancé en 2019, disposait d'une fenêtre de seulement 1 024 jetons, alors que certains modèles de 2025 atteignent plusieurs millions de jetons, soit une multiplication par plus de mille en six ans. Malgré ces fenêtres immenses, les modèles retiennent mieux l'information au début et à la fin du contexte, un phénomène surnommé « lost in the middle ».

❓ Questions fréquentes

Que se passe-t-il quand vous dépassez cette limite ?

L'IA commence à « oublier » le début de votre discussion. C'est comme si les premières pages d'un livre s'effaçaient au fur et à mesure que vous progressez. Si vous demandez un résumé d'un long contrat et que la fenêtre est trop petite, le modèle risque de rater des clauses essentielles situées au début du document. C'est une limite physique cruciale à surveiller.

Pourquoi devriez-vous privilégier des modèles avec de grandes fenêtres ?

Une grande fenêtre (comme 128k ou 1M de jetons) vous permet d'analyser des dizaines de documents complets en une seule fois. C'est l'idéal pour les recherches juridiques complexes ou pour analyser tout votre code informatique d'un coup d'œil. Vous gagnez en cohérence, car le modèle peut faire des liens entre des informations situées très loin l'une de l'autre.

Comment optimiser vos requêtes pour ne pas saturer la mémoire ?

Même avec une grande fenêtre, plus vous envoyez de données, plus le traitement est long et coûteux. Essayez de ne fournir que le contexte réellement nécessaire à votre question. Pour bien commencer, utilisez des techniques de « RAG » qui vont chercher seulement les extraits pertinents dans vos documents au lieu de tout envoyer massivement à l'IA.

📚 Sources

Anthropic - Context Window Documentation (Anthropic, 2024)
Google DeepMind - Long Context Window (Google, 2024)

🔗 Termes liés

🌿 Sous-termes

R-SWA

Accueil

Outils

Annuaire

Apprendre