Veille IA Veille IA sans buzz : pour stratèges québécois.
La veille

Similarité cosinus

Similarité cosinus

Similarité cosinus

Terme Avancé 📊 Données et traitement

Mis à jour le

La similarité cosinus mesure la proximité de sens entre deux vecteurs par l'angle qui les sépare, sur une échelle où 1 signifie « même direction ».

📖 Définition

La similarité cosinus mesure à quel point deux vecteurs pointent dans la même direction, en calculant le cosinus de l'angle qui les sépare : cos(θ) = A·B / (||A||·||B||). Le résultat va de −1 (directions opposées) à 1 (même direction), 0 signifiant que les vecteurs sont orthogonaux, donc sans rapport. Pour des embeddings de texte, les valeurs se situent souvent entre 0 et 1. Sa particularité est d'être insensible à la magnitude : seule l'orientation des vecteurs compte, pas leur longueur. C'est pourquoi elle est la mesure de référence pour comparer des embeddings et classer les résultats d'une recherche sémantique ou d'un système RAG : plus le score est proche de 1, plus deux textes sont jugés sémantiquement proches.

💬 En termes simples

C'est comme comparer la direction de deux flèches plutôt que leur longueur : deux flèches qui pointent au même endroit sont « similaires », qu'elles soient courtes ou longues.

🎯 Exemple concret

Deux phrases au sens très proche donnent des embeddings presque alignés, avec une similarité cosinus de l'ordre de 0,92 ; deux phrases sans rapport donnent un score proche de 0.

💡 Le saviez-vous ?

La similarité cosinus ignore complètement la « taille » des vecteurs : deux documents, l'un court et l'autre long, peuvent obtenir un score parfait de 1 s'ils traitent exactement du même sujet.

❓ Questions fréquentes

Pourquoi utiliser le cosinus plutôt que la distance ?
Parce qu'il compare l'orientation des vecteurs sans tenir compte de leur longueur : deux textes de tailles très différentes mais de même sujet obtiennent un score élevé.
Que signifie un score de 0 ?
Un score de 0 signifie que les deux vecteurs sont orthogonaux, c'est-à-dire sans rapport sémantique ; proche de 1, ils sont très similaires.
🔐 Connexion rapide

Entrez votre courriel pour recevoir un code à 6 chiffres.

Pas besoin de mot de passe ni d'inscription. Entrez votre courriel, recevez un code par courriel, et c'est tout !