Le chunking est le découpage d'un document en petits segments récupérables, étape clé qui conditionne la qualité d'un système RAG.
📖 Définition
Le chunking est une technique qui consiste à découper un document en petites unités appelées « chunks » (segments), faciles à récupérer dans un pipeline RAG (génération augmentée par récupération). Chaque chunk est ensuite transformé en embedding (vecteur) et stocké dans une base vectorielle. Deux grandes stratégies existent : la taille fixe (couper tous les N tokens) et le découpage sémantique (couper quand le sujet change). Pour ne pas casser une idée à la frontière de deux segments, on ajoute souvent un chevauchement (overlap) de 10 à 20 %, soit environ 50 à 100 tokens. Les tailles courantes vont de 256 à 1024 tokens, 512 étant une valeur fréquente. Un chunk trop long mélange plusieurs idées dans un seul vecteur et dégrade la précision de la recherche ; trop court, il perd le contexte. Le chunking est donc une étape clé qui conditionne directement la qualité des réponses d'un système RAG.
💬 En termes simples
C'est comme découper un long livre en fiches de lecture thématiques : au lieu de relire tout l'ouvrage, on retrouve d'un coup la fiche qui contient exactement le passage cherché.
🎯 Exemple concret
Un guide technique de 20 pages est découpé en chunks de 512 tokens avec 10 % de chevauchement, ce qui donne une quarantaine de segments vectorisés. À une question de l'utilisateur, le système ne récupère que les 5 chunks les plus proches du sens de la question et les transmet au modèle.
💡 Le saviez-vous ?
Il n'existe pas de taille de chunk universelle : selon des bancs d'essai récents, un simple découpage à taille fixe d'environ 512 tokens rivalise souvent avec des méthodes sémantiques bien plus complexes.
❓ Questions fréquentes
Pourquoi ajouter un chevauchement (overlap) entre les chunks ?
Pour éviter de couper une phrase ou une idée en plein milieu : répéter 10 à 20 % du segment précédent préserve le contexte aux frontières et améliore la récupération.
Quelle taille de chunk choisir ?
Souvent 256 à 1024 tokens (512 est courant) : trop long, le vecteur mélange plusieurs idées ; trop court, il perd le contexte. Le bon réglage dépend du type de document.
Reçois chaque semaine le meilleur de l'actualité IA, directement dans ta boîte.
Pas de pourriel, désinscription en 1 clic.
✉️
Restez informé
Recevez nos sélections d'outils et articles directement dans votre boîte courriel.
🔐 Connexion rapide
Entrez votre courriel pour recevoir un code à 6 chiffres.
Pas besoin de mot de passe ni d'inscription. Entrez votre courriel, recevez un code par courriel, et c'est tout !
✓
Paramètres de confidentialité
Nous utilisons des témoins (cookies) pour assurer le bon fonctionnement du site, analyser le trafic et personnaliser le contenu. Vous pouvez gérer vos préférences ci-dessous.
Politique de confidentialité