Data poisoning

Aussi appelé : Data poisoning (empoisonnement de données) · data-poisoning · corruption de corpus · attaque d'intégrité de données · empoisonnement de données

Terme IA Avancé 🛡️ Sécurité et éthique

Mis à jour le 22 juillet 2026

En bref

L'empoisonnement de données est une attaque malveillante visant à corrompre les données d'entraînement d'un modèle d'IA pour altérer son comportement de façon durable.

📖 Définition

L'empoisonnement de données est une attaque où un adversaire injecte des données malveillantes dans le corpus d'entraînement ou la base de connaissances d'un modèle d'IA pour altérer son comportement futur. Cela peut prendre plusieurs formes : insertion de pages web piégées scrapées par un robot d'entraînement, contamination d'une base RAG d'entreprise, modification subtile des étiquettes d'un dataset. L'effet est différé et insidieux — le modèle apparaît sain en test mais déraille sur des entrées spécifiques choisies par l'attaquant. Pour une PME québécoise qui maintient un RAG interne, l'audit de provenance des sources devient critique.

💬 En termes simples

C'est verser quelques gouttes de poison dans le réservoir d'eau de la ville — invisible à l'œil nu, l'effet n'apparaît que plus tard.

🎯 Exemple concret

Une firme d'assurance québécoise découvre que son LLM interne, alimenté par un RAG d'articles externes, recommande systématiquement un compétiteur — un attaquant avait planté 200 articles biaisés sur des sites de niche scrapés régulièrement.

💡 Le saviez-vous ?

En 2026, des chercheurs ont démontré qu'empoisonner seulement 0,01 % du corpus d'entraînement d'un LLM suffit à induire un comportement malicieux ciblé — le coût est devenu accessible à tout acteur motivé.

❓ Questions fréquentes

Comment quelqu'un peut-il empoisonner vos données à votre insu ?

Si vous utilisez des données provenant du web sans les vérifier, vous êtes vulnérable. Un attaquant peut injecter des milliers de pages web avec des informations fausses que votre robot d'entraînement absorbera. C'est comme verser une goutte de colorant dans un océan : c'est invisible au début, mais la couleur de l'eau finit par changer. Votre modèle deviendra biaisé ou inefficace.

Pourquoi est-ce une menace sérieuse pour vos automatisations ?

L'empoisonnement peut créer des « portes dérobées » (backdoors). Par exemple, un attaquant pourrait apprendre à votre IA de sécurité qu'un certain logo spécifique doit toujours être ignoré. En portant ce logo, il pourrait ensuite entrer dans vos bâtiments sans déclencher d'alarme. C'est un sabotage à long terme qui est très difficile à détecter après coup.

Comment assurer l'intégrité de vos sources de données ?

Vous devez mettre en place une « chaîne de confiance » pour vos données. Utilisez des sources certifiées et nettoyez systématiquement vos fichiers avant l'entraînement. Pour bien commencer, comparez toujours les performances de votre nouveau modèle avec un modèle de référence entraîné sur des données sûres. Toute anomalie inexpliquée doit être traitée comme une possible tentative d'empoisonnement.

📚 Sources

NIST - Data Poisoning (NIST, 2024)
ArXiv - Certified Defenses against Adversarial Patch Attacks (Chiang et al., 2020)

🔗 Termes liés

🏷️ Catégorie parente

Attaque adversariale Cybermenaces

Accueil

Outils

Annuaire

Apprendre

Data poisoning

Data poisoning

En bref

📖 Définition

💬 En termes simples

🎯 Exemple concret

💡 Le saviez-vous ?

❓ Questions fréquentes

📚 Sources

🔗 Termes liés

Ressources

À propos

Communauté

Reste à jour en veille IA

Confirmer

Accueil

Outils

Annuaire

Apprendre

Data poisoning

Data poisoning

✦ En bref

📖 Définition

💬 En termes simples

🎯 Exemple concret

💡 Le saviez-vous ?

❓ Questions fréquentes

📚 Sources

🔗 Termes liés

Termes associés

En bref