MICHEL CAMPILLO

Consultant chef de projet IT

INTEGRATION DE LOGICIEL
Gestion de projet - Déploiement - Implantation - Maintenance

Téléphone: 06 89 56 58 18 – Web: michelcampillo.com

Le consultant est souvent amené à assurer la gestion de projets (chef de projet)

L'IA et le vol de contenus

Ah, le bon vieux Web… cet espace qu'on pensait libre et ouvert, mais qui, aujourd'hui, se transforme peu à peu en buffet gratuit pour les IA affamées de données. En tant que chef de projet informatique, je vois de plus en plus de créateurs, de rédacteurs, d'artistes, de journalistes et même de développeurs venir me voir en me demandant : "Mais comment je fais pour empêcher les robots IA de pomper mon contenu ? Je me suis tué à la tâche, et j'ai l'impression de me faire voler mon travail, sans qu'on me demande mon avis." Et je les comprends. Ce pillage, car oui, c'est bien de ça qu'il s'agit, commence à inquiéter tout le monde.

On parle ici d'agents automatisés — des crawlers, des scrapers, ou plus exactement, des systèmes conçus pour nourrir des modèles d'intelligence artificielle lors de leur phase d'apprentissage, qui est, soit dit en passant, extrêmement coûteuse. Du coup, ces IA ne se gênent plus pour aller chercher leurs données là où elles sont : dans les blogs, les forums, les bases de connaissances, les articles, les images, bref, partout où l'humain a mis un peu de son intelligence. Et le tout, souvent sans permission.

L'IA et le vol de contenus : j'en ai marre que ChatGPT pille les informations publiées sur mon blog ! 😠

Pour comprendre l'IA, il faut avoir en tête que ces outils compilent et synthétisent de nombreuses sources, dans lesquels les robots se servent sans vergogne. Alors, comment on fait pour se défendre contre le vol de contenus? Pour éviter de se faire grand remplacer par des machines qui apprennent gratuitement grâce à notre propre contenu ? On peut déjà commencer par parler de quelques contre-mesures.

La première chose à envisager, c'est le fichier robots.txt. C'est un classique, certes, mais il reste utile. Tu peux y spécifier que certains agents (genre GPTBot, CCBot, ou ceux d'Anthropic, Perplexity, etc.) ne doivent pas explorer ton site. Attention, ce n'est qu'une requête polie. Un bot bien élevé va la respecter, mais un scraper sauvage s'en moquera royalement. Donc, c'est nécessaire, mais pas suffisant. Ce sont les limites de l'IA, un peu comme mettre un panneau "Propriété privée" : ça n'empêche pas les cambrioleurs, mais ça en dissuade certains.

Ensuite, il y a les limitations de requêtes par jour. C'est une technique simple mais efficace. Tu peux implémenter du rate limiting via ton serveur (Nginx, Apache, etc.) ou via un firewall applicatif comme Cloudflare. Tu observes le comportement des visiteurs, et si un client (robot ou humain) fait trop de requêtes en peu de temps, tu le bloques ou tu le ralentis. Je ne prétends pas tout savoir sur l'IA, mais cette technique empêche les bots trop gourmands de pomper ton contenu à vitesse industrielle. Évidemment, il faut ajuster le seuil pour ne pas pénaliser les vrais visiteurs.

✎ Pour aller plus loin dans votre approche de la rédaction web

Faire appel à un rédacteur web BTP (Posté le samedi 22 novembre): Un rédacteur web orienté sur le secteur du BTP accompagne ses clients tout le long de la vie de leur site et propose des prestations de rédaction de contenus web conçus selon les règles de l'art, sur des thèmes bien pris en compte par les visiteurs grâce à leur pertinence et la fiabilité. Pour cela il faut comprendre les métiers du BTP.

L'IA est-elle dangereuse pour les créateurs de contenus? Si vous pensez que oui, vous pouvez décider de fuir les plateformes, vu que certaines d'entre elles collaborent volontairement avec les grandes boîtes d'IA pour permettre le vol de contenus. Si tu publies sur Medium, Reddit, StackOverflow, ou même certaines plateformes de presse, il est probable que ton contenu finisse dans les datasets de formation des IA. Là, le boycott peut devenir une arme. Si suffisamment de créateurs refusent d'alimenter ces plateformes, la donne pourrait changer. Mais bon, c'est une lutte collective, et comme souvent sur Internet, l'individualisme gagne…

Une autre solution est d'instaurer un paywall (mur payant). Ceux qui pratiquent l'IA au quotidien le savent : les robots d'intelligence artificielle n'aiment pas payer, ni passer par des formulaires, ni résoudre des captchas. Donc si tu mets ton contenu derrière une inscription ou un paiement, tu réduis significativement la surface de collecte automatique. Bien sûr, ça limite aussi ton audience humaine… alors c'est un choix stratégique. Mais dans certains cas, mieux vaut être lu par 100 personnes qui paient (ou respectent ton travail), que pompé gratuitement par une machine qui ne te cite même pas.

Parlons maintenant d'un truc plus technique : les filtres de perturbation adversariale. Là, on entre dans un domaine franchement geek, mais passionnant, sur l'IA et l'humain. Le principe est de modifier subtilement tes textes ou images pour qu'ils soient incompréhensibles pour un modèle d'IA, sans affecter la lisibilité pour un humain. Par exemple, insérer des caractères Unicode invisibles ou altérer les pixels d'une image pour "tromper" l'analyse automatique. Il existe des outils comme Glaze (pour les images) ou Nightshade qui font ça pour les artistes.

Pour le texte, c'est encore balbutiant, mais on voit émerger des scripts capables d'injecter du "bruit" syntaxique ou orthographique imperceptible à l'œil, mais déstabilisant pour un modèle NLP. Le hic, c'est que ces méthodes peuvent aussi pénaliser l'expérience utilisateur normale, donc il faut doser intelligemment. L'IA et moi, c'est toute une histoire.

Autre piste : détecter les bots au vol. Beaucoup de robots IA ont une signature réseau, des user-agents spécifiques (j'en ai parlé plus haut), ou un comportement de navigation anormal (ils ne chargent pas les images, ils ignorent le CSS, ils passent de page en page trop vite…). En mettant en place des outils d'analyse comportementale côté serveur ou via JavaScript, tu peux identifier ces profils suspects et leur retourner du contenu vide, ou même un message "gentil" les invitant à aller se faire voir ailleurs. Je l'ai vu faire, c'est jouissif quand ça marche.

Qui est Michel Campillo?

Mais soyons clairs : empêcher totalement une IA de s'entraîner sur ton contenu, c'est aujourd'hui quasi impossible à 100 %, sauf à ne jamais le publier sur Internet. Le Web, par nature, est fait pour être accessible. Or quel est le but de l'IA ? Dévorer des volumes considérables de contenus oferts par les éditeurs web, pour les régurgiter ni vu, ni connu.

Cacher ses contenus pour échapper aux robots ? Mais là est tout le paradoxe : on veut justement être visible, partagé, utile… mais pas exploité. Alors il faut penser en termes de protection relative. Minimiser les risques, ralentir les collectes, ajouter des barrières ici et là, sans menacer son propre équilibre de vie quand on n'en peut plus d'être pillé sans jamais être cité.

Il ne s'agit pas d'arrêter une armée avec ses petits bras, ni d'empêcher l'IA de voler votre art, mais de lui faire perdre du temps et de forcer des choix techniques chez ceux qui collectent. Et croyez-moi, dans une phase d'apprentissage qui coûte des millions, toute difficulté supplémentaire est une perte de rentabilité pour eux.

Tiens ça me fait penser à une idée un peu punk : empoisonner volontairement les IA. C'est pas aussi vicieux que la gestion du spool dans une base de données Oracle, mais presque ! Certains suggèrent de publier des données fausses, absurdes ou piégées, pour saboter les modèles qui les intègrent. C'est séduisant sur le papier, mais risqué. Tu risques aussi de perdre ta crédibilité humaine, et il est difficile de contrôler qui sera réellement affecté.

Alors que reste-t-il ? L'action collective. La sensibilisation. Faire pression pour que les IA respectent le droit d'auteur, ou au moins mettent en place un opt-out réel, clair et fonctionnel. Et déjà commencer par masquer ses abonnements sur X pour ne pas se faire tracker en permanence. Aujourd'hui, c'est encore très flou. Certains labs comme OpenAI permettent d'exclure ton site via robots.txt ou des formulaires, d'autres non. Il y a même des projets en cours pour légiférer là-dessus. Mais les choses avancent lentement.

En attendant, je pense qu'on a tout intérêt à surveiller ses logs, identifier les crawlers, filtrer intelligemment, et surtout… parler du problème. Parce qu'il est bien réel. Si on laisse faire, on va tous se faire grand remplacer par des IA qui auront tout appris de nous, gratuitement, sans même un merci. Elles ne seront pas meilleures. Elles seront juste plus efficaces, car elles ignorent ce qui distingue un professionnel expérimenté d'un novice, elles n'ont ni charges sociales, ni doutes, ni fatigue.

Et ce que je trouve ironique, c'est qu'elles ne créent rien. Elles recombinent. Elles régurgitent. Mais pour pouvoir faire ça, il faut d'abord qu'on leur ait tout donné. Alors, oui, il est temps de réfléchir à ce qu'on veut continuer à offrir sur le Web, et à quelles conditions.

On est d'accord, il n'y a pas de solution miracle. Juste un ensemble de petits gestes, de contre-mesures techniques, de décisions éditoriales, et d'actions de sensibilisation. Et au fond, je crois qu'on devrait tous garder cette question en tête à chaque publication : est-ce que j'ai envie que ce contenu serve à entraîner une IA, ou non ? Parce que si la réponse est non, alors il faut s'armer un minimum. Et partager nos astuces entre nous. On n'est pas seuls dans cette galère, et l'union fait parfois de sacrées résistances.

👉 ( ◍•㉦•◍ ) Michel Campillo consultant expert en solutions de gestion écrit et publie régulièrement depuis 2004 des articles sur son site web professionnel dédié aux outils d'entreprise et aux questions du numérique et des technologies. Comme tout blogueur il écrit aussi sur des sujets divers, voir le blog pour un aperçu des thèmes abordés.

Outre l'email / téléphone, les visioconférences sur Google Meet sont une moyen privilégié de me contacter. La simplicité d'utilisation de cet outil en fait un choix évident, n'imposant aucune installation. Renseignez mon adresse email pour une invitation via Google Agenda.

Pays de Provence, le 8 juillet 2025

Michel Campillo

Michel Campillo
Consultant chef de projet IT
☎ 06 89 56 58 18 ✉ contact par email

➽ Les articles d'actualité sur les problématiques d'entreprise sont repris chronologiquement sur la page d'accueil du blog. J'aime encore cet article: « La facture de compte prorata et sa comptabilisation».

Ce billet vous a intéressé? Alors partagez-le en cliquant sur les boutons ci-dessous:

Merci de vos partages! 👷🏻‍

🎯 À consulter : Mentions légales. Derniers articles : Page entreprise sur Linkedin, Factures manuelles, Déblocage de téléphone mobile, Ma playlist du moment, La gestion de projet dans Excel.
⛅ L'automne est arrivé, un temps propice au travail non? ☂️