Veille IA Veille IA sans buzz : pour stratèges québécois.
La veille

Token

Token

Token

Aussi appelé : tokens · Tokens · jeton · jetons · unités lexicales

Terme IA Intermédiaire 📊 Données et traitement

Mis à jour le

Un token est l'unité fondamentale de traitement d'un modèle de langage, représentant un mot, une partie de mot ou un caractère utilisé pour décomposer et analyser le texte.

📖 Définition

Un token est l'unité de base que traite un modèle de langage lorsqu'il lit ou génère du texte. Ce n'est pas toujours un mot complet : ça peut être un bout de mot, un signe de ponctuation ou même un espace. Le mot ordinateur pourrait être découpé en deux ou trois tokens selon le modèle. C'est en comptant les tokens qu'on mesure la capacité d'un LLM et qu'on calcule les coûts d'utilisation des API.

💬 En termes simples

Ce sont les briques de lego du langage pour l'IA ; un mot peut être coupé en plusieurs morceaux.

🎯 Exemple concret

Le mot « Anticonstitutionnellement » serait découpé en plusieurs tokens par l'IA.

💡 Le saviez-vous ?

C'est généralement l'unité de facturation des services d'IA (prix par million de tokens).

❓ Questions fréquentes

Pourquoi l'IA utilise-t-elle des tokens plutôt que des mots entiers ?
L'utilisation de tokens permet au modèle d'être plus efficace et de gérer des mots qu'il n'a jamais vus en les décomposant en unités plus petites. Cela aide aussi à traiter différentes langues et des termes techniques complexes sans avoir besoin d'un vocabulaire infini, ce qui optimise les ressources de calcul.
Comment le nombre de tokens influence-t-il le coût d'utilisation ?
La plupart des fournisseurs d'IA facturent en fonction du nombre de tokens traités en entrée et en sortie. Plus votre prompt est long ou plus la réponse générée est détaillée, plus vous consommerez de tokens. Il est donc avantageux d'être précis et concis pour maîtriser vos frais d'exploitation.
Quelles sont les limites liées aux tokens ?
Chaque modèle possède une limite maximale de tokens qu'il peut traiter en une seule fois, appelée fenêtre de contexte. Si vous dépassez cette limite, le modèle oubliera le début de la conversation. De plus, une mauvaise tokenisation peut parfois nuire à la compréhension de mots très rares ou de codes spécifiques.

📚 Sources

🔗 Termes liés

🌿 Sous-termes

🔐 Connexion rapide

Entrez votre courriel pour recevoir un code à 6 chiffres.

Pas besoin de mot de passe ni d'inscription. Entrez votre courriel, recevez un code par courriel, et c'est tout !