Le consultant est technologiquement ouvert et à l'écoute de ses interlocuteurs

L'IA et le vol de données

Ah, le bon vieux Web… cet espace qu'on pensait libre et ouvert, mais qui, aujourd'hui, se transforme peu à peu en buffet gratuit pour les IA affamées de données. En tant que chef de projet informatique, je vois de plus en plus de créateurs, de rédacteurs, d'artistes, de journalistes et même de développeurs venir me voir en me demandant : "Mais comment je fais pour empêcher les robots IA de pomper mon contenu ? Je me suis tué à la tâche, et j'ai l'impression de me faire voler mon travail, sans qu'on me demande mon avis." Et je les comprends. Ce pillage, car oui, c'est bien de ça qu'il s'agit, commence à inquiéter tout le monde.

On parle ici d'agents automatisés — des crawlers, des scrapers, ou plus exactement, des systèmes conçus pour nourrir des modèles d'intelligence artificielle lors de leur phase d'apprentissage, qui est, soit dit en passant, extrêmement coûteuse. Du coup, ces IA ne se gênent plus pour aller chercher leurs données là où elles sont : dans les blogs, les forums, les bases de connaissances, les articles, les images, bref, partout où l'humain a mis un peu de son intelligence. Et le tout, souvent sans permission.

L'IA et le vol de données
L'IA et le vol de données : j'en ai marre que ChatGPT pille les informations publiées sur mon blog ! 😠

Alors, comment on fait pour se défendre ? Pour éviter de se faire grand remplacer par des machines qui apprennent gratuitement grâce à notre propre contenu ? On peut déjà commencer par parler de quelques contre-mesures.

La première chose à envisager, c'est le fichier robots.txt. C'est un classique, certes, mais il reste utile. Tu peux y spécifier que certains agents (genre GPTBot, CCBot, ou ceux d'Anthropic, Perplexity, etc.) ne doivent pas explorer ton site. Attention, ce n'est qu'une requête polie. Un bot bien élevé va la respecter, mais un scraper sauvage s'en moquera royalement. Donc, c'est nécessaire, mais pas suffisant. D'ailleurs, c'est un peu comme mettre un panneau "Propriété privée" : ça n'empêche pas les cambrioleurs, mais ça en dissuade certains.

Ensuite, il y a les limitations de requêtes par jour. C'est une technique simple mais efficace. Tu peux implémenter du rate limiting via ton serveur (Nginx, Apache, etc.) ou via un firewall applicatif comme Cloudflare. Tu observes le comportement des visiteurs, et si un client (robot ou humain) fait trop de requêtes en peu de temps, tu le bloques ou tu le ralentis. Cela empêche les bots trop gourmands de pomper ton contenu à vitesse industrielle. Évidemment, il faut ajuster le seuil pour ne pas pénaliser les vrais visiteurs.

✎ Pour aller plus loin dans votre approche de la gestion de projet

Faire appel à un rédacteur web BTP (Posté le mercredi 09 juillet): Un rédacteur web orienté sur le secteur du BTP accompagne ses clients tout le long de la vie de leur site et propose des prestations de rédaction de contenus web conçus selon les règles de l'art, sur des thèmes bien pris en compte par les visiteurs grâce à leur pertinence et la fiabilité. Pour cela il faut comprendre les métiers du BTP.

On peut aussi fuir les plateformes. Pourquoi ? Parce que certaines d'entre elles collaborent volontairement avec les grandes boîtes d'IA. Si tu publies sur Medium, Reddit, StackOverflow, ou même certaines plateformes de presse, il est probable que ton contenu finisse dans les datasets de formation des IA. Là, le boycott peut devenir une arme. Si suffisamment de créateurs refusent d'alimenter ces plateformes, la donne pourrait changer. Mais bon, c'est une lutte collective, et comme souvent sur Internet, l'individualisme gagne…

Une autre solution est d'instaurer un paywall (mur payant). Les IA n'aiment pas payer, ni passer par des formulaires, ni résoudre des captchas. Donc si tu mets ton contenu derrière une inscription ou un paiement, tu réduis significativement la surface de collecte automatique. Bien sûr, ça limite aussi ton audience humaine… alors c'est un choix stratégique. Mais dans certains cas, mieux vaut être lu par 100 personnes qui paient (ou respectent ton travail), que pompé gratuitement par une machine qui ne te cite même pas.

Parlons maintenant d'un truc plus technique : les filtres de perturbation adversariale. Là, on entre dans un domaine franchement geek, mais passionnant. Le principe est de modifier subtilement tes textes ou images pour qu'ils soient incompréhensibles pour un modèle d'IA, sans affecter la lisibilité pour un humain. Par exemple, insérer des caractères Unicode invisibles ou altérer les pixels d'une image pour "tromper" l'analyse automatique. Il existe des outils comme Glaze (pour les images) ou Nightshade qui font ça pour les artistes.

Pour le texte, c'est encore balbutiant, mais on voit émerger des scripts capables d'injecter du "bruit" syntaxique ou orthographique imperceptible à l'œil, mais déstabilisant pour un modèle NLP. Le hic, c'est que ces méthodes peuvent aussi pénaliser l'expérience utilisateur normale, donc il faut doser intelligemment.

Autre piste : détecter les bots au vol. Beaucoup de robots IA ont une signature réseau, des user-agents spécifiques (j'en ai parlé plus haut), ou un comportement de navigation anormal (ils ne chargent pas les images, ils ignorent le CSS, ils passent de page en page trop vite…). En mettant en place des outils d'analyse comportementale côté serveur ou via JavaScript, tu peux identifier ces profils suspects et leur retourner du contenu vide, ou même un message "gentil" les invitant à aller se faire voir ailleurs. Je l'ai vu faire, c'est jouissif quand ça marche.

Qui est Michel Campillo?

Mais soyons clairs : empêcher totalement une IA de s'entraîner sur ton contenu, c'est aujourd'hui quasi impossible à 100 %, sauf à ne jamais le publier sur Internet. Le Web, par nature, est fait pour être accessible. Et là est tout le paradoxe : on veut être visible, partagé, utile… mais pas exploité. Alors il faut penser en termes de protection relative. Minimiser les risques, ralentir les collectes, ajouter des barrières ici et là, sans menacer son propre équilibre de vie quand on n'en peut plus d'être pillé sans jamais être cité.

Il ne s'agit pas d'arrêter une armée avec ses petits bras, mais de faire perdre du temps, forcer des choix techniques chez ceux qui collectent. Et croyez-moi, dans une phase d'apprentissage qui coûte des millions, toute difficulté supplémentaire est une perte de rentabilité pour eux.

Tiens ça me fait penser à une idée un peu punk : empoisonner volontairement les IA. C'est pas aussi vicieux que la gestion du spool dans une base de données Oracle, mais presque ! Certains suggèrent de publier des données fausses, absurdes ou piégées, pour saboter les modèles qui les intègrent. C'est séduisant sur le papier, mais risqué. Tu risques aussi de perdre ta crédibilité humaine, et il est difficile de contrôler qui sera réellement affecté.

Alors que reste-t-il ? L'action collective. La sensibilisation. Faire pression pour que les IA respectent le droit d'auteur, ou au moins mettent en place un opt-out réel, clair et fonctionnel. Et déjà commencer par masquer ses abonnements sur X pour ne pas se faire tracker en permanence. Aujourd'hui, c'est encore très flou. Certains labs comme OpenAI permettent d'exclure ton site via robots.txt ou des formulaires, d'autres non. Il y a même des projets en cours pour légiférer là-dessus. Mais les choses avancent lentement.

En attendant, je pense qu'on a tout intérêt à surveiller ses logs, identifier les crawlers, filtrer intelligemment, et surtout… parler du problème. Parce qu'il est bien réel. Si on laisse faire, on va tous se faire grand remplacer par des IA qui auront tout appris de nous, gratuitement, sans même un merci. Elles ne seront pas meilleures. Elles seront juste plus efficaces, car elles ignorent ce qui distingue un professionnel expérimenté d'un novice, elles n'ont ni charges sociales, ni doutes, ni fatigue.

Et ce que je trouve ironique, c'est qu'elles ne créent rien. Elles recombinent. Elles régurgitent. Mais pour pouvoir faire ça, il faut d'abord qu'on leur ait tout donné. Alors, oui, il est temps de réfléchir à ce qu'on veut continuer à offrir sur le Web, et à quelles conditions.

On est d'accord, il n'y a pas de solution miracle. Juste un ensemble de petits gestes, de contre-mesures techniques, de décisions éditoriales, et d'actions de sensibilisation. Et au fond, je crois qu'on devrait tous garder cette question en tête à chaque publication : est-ce que j'ai envie que ce contenu serve à entraîner une IA, ou non ? Parce que si la réponse est non, alors il faut s'armer un minimum. Et partager nos astuces entre nous. On n'est pas seuls dans cette galère, et l'union fait parfois de sacrées résistances.

👉 ( ◍•㉦•◍ ) Michel Campillo consultant expert en solutions de gestion écrit et publie régulièrement depuis 2004 des articles sur son site web professionnel dédié aux outils d'entreprise et aux questions du numérique et des technologies. Comme tout blogueur il écrit aussi sur des sujets divers, voir le blog pour un aperçu des thèmes abordés.

TeamsOutre l'email, mobile, téléphone, Linkedin, réseaux sociaux, vous pouvez me retrouver également sur Teams. Installé sur mon poste de travail, je reçois instantanément vos messages. Envoyez-moi votre identifiant par SMS ou email.

Pays de Provence, le 8 juillet 2025

Michel Campillo

Michel Campillo Michel Campillo
Consultant chef de projet IT
06 89 56 58 18  contact par email

➽ Les articles d'actualité sur les problématiques d'entreprise sont repris chronologiquement sur la page d'accueil du blog. J'aime encore cet article: « La chaîne logistique en entreprise, qu'est-ce que c'est ? ».

Ce billet vous a intéressé? Alors partagez-le en cliquant sur les boutons ci-dessous:

Facebook Twitter Mastodon LinkedIn

Merci de vos partages! 👷🏻‍



🎯 Autres options: Mentions légales, La comptabilisation du compte prorata, La révolution de l'IA dans le BTP, Redémarrer un blog après une pause, Logiciel de gestion de projet, comment s'y retrouver?, Presque 20 ans d'ERP : ce qu'on apprend à la longue, WeCrashed, la mini-série d'Apple TV+, L'acquisition de connaissances dans le cadre d'un projet ERP, L'IA et le vol de données.
☀️ Sous le soleil éclatant et la forte chaleur d'un bel été 🏖️

Copyright © 2004-2025 Michel Campillo, tous droits réservés

eXTReMe Tracker