Harry Potter, 1984, Le Hobbit… l’IA peut-elle redonner accès à des œuvres protégées ?

La rédaction

il y a 5 heures

Des œuvres emblématiques comme Harry Potter à l’école des sorciers, 1984, Le Hobbit, L’Attrape-cœurs, Hunger Games ou encore Le Trône de fer pourraient-elles être partiellement accessibles via des intelligences artificielles génératives ? Une étude universitaire récente relance le débat en affirmant que, dans certaines conditions techniques, des passages très longs, parfois quasi verbatim, peuvent être extraits de modèles d’IA commerciaux pourtant dotés de garde-fous.

Une question centrale : l’IA mémorise-t-elle les livres ?

Au cœur des débats juridiques et techniques sur l’IA générative se trouve une interrogation clé : les modèles de langage mémorisent-ils les œuvres protégées par le droit d’auteur présentes dans leurs données d’entraînement ? Et si oui, est-il possible d’en extraire des passages fidèles ?

C’est précisément ce qu’examinent Ahmed Ahmed, A. Feder Cooper, Sanmi Koyejo et Percy Liang, chercheurs affiliés à Stanford University et Yale University, dans une étude intitulée Extracting books from production language models. Leur objectif n’est pas juridique, mais technique : mesurer le risque de « fuite » de contenus issus des données d’entraînement, y compris des livres sous copyright.

Quatre IA commerciales mises à l’épreuve

Les chercheurs ont conduit leurs tests entre août et septembre 2025 sur quatre modèles d’IA largement utilisés :

Claude 3.7 Sonnet, développé par Anthropic
GPT-4.1, par OpenAI (via Microsoft)
Gemini 2.5 Pro, par Google DeepMind
Grok 3, par xAI, fondée par Elon Musk

Les fournisseurs ont été informés en amont, avec une fenêtre de divulgation responsable de 90 jours, les résultats correspondant à des versions précises des API à un instant donné.

Comment extraire un texte protégé d’une IA ?

Le protocole repose sur deux phases. D’abord, les chercheurs fournissent au modèle une courte amorce, souvent la première phrase d’un livre, accompagnée d’une consigne demandant une continuation fidèle. La réussite est mesurée par un score indiquant qu’au moins 60 % d’un passage cible est reproduit de façon contiguë.

Dans certains cas, il a fallu contourner les garde-fous, via une technique dite Best of N, consistant à multiplier les variantes d’une même requête et à conserver celle qui franchit les filtres. Une seconde phase permet ensuite de poursuivre la génération, par requêtes successives, jusqu’au refus du système ou à une limite fixée à l’avance.

Harry Potter, un cas emblématique

L’exemple le plus frappant concerne Harry Potter à l’école des sorciers de J. K. Rowling. Avec Claude 3.7 Sonnet, les chercheurs indiquent avoir retrouvé 95,8 % du texte analysé sous une forme quasi identique, après 258 tentatives de contournement.

Les résultats varient fortement selon les modèles :

GPT-4.1 bloque plus efficacement, limitant l’extraction à environ 4 % du livre.
Gemini 2.5 Pro et Grok 3 n’ont pas nécessité de contournement initial et ont permis des extractions atteignant respectivement 76,8 % et 70,3 % du texte.

Un corpus élargi, sous copyright ou non

Au total, treize livres ont été testés, dont onze protégés par le copyright américain (1984, Le Hobbit, Hunger Games, Da Vinci Code, Le Trône de fer…) et deux du domaine public (Frankenstein et Gatsby le Magnifique). Les textes de référence proviennent du corpus Books3, une base très controversée.

Pour Claude 3.7 Sonnet, quatre livres auraient pu être extraits presque intégralement, dont 1984 et Harry Potter à l’école des sorciers, tous deux sous copyright.

Un contexte judiciaire explosif pour l’IA

Ces résultats résonnent avec une série de procès en cours contre les entreprises d’IA. Anthropic a ainsi conclu en 2025 un accord transactionnel estimé à 1,5 milliard de dollars avec des auteurs américains, après la reconnaissance de l’usage massif de livres piratés issus de bases comme Library Genesis ou Books3.

D’autres géants technologiques — OpenAI, Meta, Microsoft ou Google — font également face à des accusations similaires. En France, éditeurs et auteurs, via le Syndicat national de l’édition et la Société des Gens de Lettres, ont engagé des actions judiciaires pour défendre le droit d’auteur face à l’IA générative.

Un enjeu clé pour 2026 : empêcher la fuite des œuvres

Les auteurs de l’étude concluent que les modèles testés mémorisent effectivement une partie des livres présents dans leurs données d’entraînement et que, malgré les garde-fous, des extractions quasi verbatim restent techniquement possibles. Sans trancher la question juridique, ces travaux soulignent une difficulté majeure : empêcher de manière robuste la restitution de contenus protégés.

À l’heure où les régulations européennes et internationales se renforcent, cette capacité de l’IA à redonner accès à des œuvres protégées pourrait devenir l’un des enjeux centraux du débat sur l’intelligence artificielle et le droit d’auteur en 2026.