Veille IA Veille IA sans buzz : pour stratèges québécois.
La veille

Encodage positionnel

Encodage positionnel

Encodage positionnel

Terme Avancé 🧠 Concepts fondamentaux

Mis à jour le

L'encodage positionnel ajoute à chaque token l'information de sa place dans la séquence, pour qu'un Transformer — dont l'attention ignore l'ordre — tienne compte de la position des mots.

📖 Définition

L'encodage positionnel (positional encoding) est le mécanisme qui ajoute à chaque token l'information de sa position dans la séquence, afin qu'un Transformer puisse tenir compte de l'ordre des mots. C'est indispensable car le mécanisme d'attention, à lui seul, est invariant par permutation : il « voit » le contenu de chaque token, mais traite tous les tokens en parallèle, sans notion d'ordre — il percevrait la phrase comme un simple « sac de mots ». Là où les réseaux récurrents (RNN, LSTM) intégraient l'ordre par leur récursivité, les Transformers, qui privilégient le calcul parallèle, doivent injecter la position par un autre canal. Concrètement, on associe à chaque position un vecteur de même dimension que l'embedding du token, puis on le combine (le plus souvent par addition) avec l'embedding de contenu : la représentation finale contient ainsi le « quoi » (le token) et le « où » (sa position). Le mécanisme a été introduit dans l'article fondateur « Attention Is All You Need » (Vaswani et al., 2017), avec des encodages sinusoïdaux ; depuis, de nombreuses variantes existent (encodages appris, relatifs, ou RoPE). Sans lui, le modèle confondrait des phrases formées des mêmes mots dans un ordre différent.

💬 En termes simples

C'est comme numéroter les wagons d'un train : les wagons (tokens) ont chacun leur contenu, mais sans numéro on ne saurait pas dans quel ordre ils sont attelés — l'encodage positionnel est ce numéro collé sur chaque wagon.

🎯 Exemple concret

« Le chat mange la souris » et « La souris mange le chat » contiennent les mêmes mots : sans encodage positionnel, le Transformer ne pourrait pas les distinguer ; avec lui, l'ordre — et donc le sens — est préservé.

💡 Le saviez-vous ?

L'encodage positionnel sinusoïdal d'origine n'a aucun paramètre à apprendre : il se calcule par des fonctions sinus et cosinus de fréquences différentes, ce qui aide le modèle à généraliser à des longueurs de séquence jamais vues à l'entraînement.

❓ Questions fréquentes

Pourquoi un Transformer a-t-il besoin d'encodage positionnel ?
Parce que son mécanisme d'attention traite les tokens en parallèle et est insensible à l'ordre ; sans encodage positionnel, il verrait la phrase comme un « sac de mots », sans syntaxe.
Qu'est-ce que RoPE ?
RoPE (Rotary Position Embedding) est une variante moderne d'encodage positionnel, très répandue dans les LLM récents, qui encode la position en « faisant tourner » les vecteurs plutôt qu'en les additionnant.
🔐 Connexion rapide

Entrez votre courriel pour recevoir un code à 6 chiffres.

Pas besoin de mot de passe ni d'inscription. Entrez votre courriel, recevez un code par courriel, et c'est tout !