IA propriété intellectuelle : le nouveau cadre réglementaire européen
Contrairement à une idée reçue largement répandue dans les comités de direction, il n'y a pas de vide juridique sur l'IA générative et la PI. Comme le rappelle la CNIL dans son dossier dédié, « le vide juridique est un mythe » : plusieurs corpus s'articulent déjà pour encadrer la conception et l'usage des modèles génératifs.
Le premier pilier est la Directive (UE) 2019/790 sur le droit d'auteur et les droits voisins dans le marché unique numérique, dite « DAMUN ». Ses articles 3 et 4 instaurent les deux exceptions de fouille de textes et de données (Text and Data Mining, TDM) qui constituent aujourd'hui la base légale principale de l'entraînement des grands modèles sur corpus protégé.
Le second pilier est l'AI Act, Règlement (UE) 2024/1689, dont les articles 53 et 55 imposent aux fournisseurs de modèles d'IA à usage général une obligation de transparence sur les contenus utilisés pour l'entraînement et le respect des opt-outs exprimés au titre de la DAMUN. C'est l'articulation entre ces deux instruments qui fait du contrôle de la chaîne de données un sujet de gouvernance et plus seulement un sujet juridique. Pour le détail des obligations applicables à votre entreprise selon votre profil (fournisseur, déployeur, importateur), un panorama complet est tenu à jour dans le guide AI Act pour PME françaises de Regulia.
J'ai vu, en accompagnant une trentaine d'audits AI Act sur 2024-2025, que la majorité des dirigeants confondent encore deux questions distinctes : la légalité de l'entraînement (qui concerne le fournisseur du modèle) et la légalité de l'usage en sortie (qui concerne le déployeur, donc l'entreprise utilisatrice). Cette confusion coûte cher en cartographie de risques mal calibrée.
L'exception de fouille de textes et de données (TDM) : socle ou limite ?
L'article 4 de la Directive (UE) 2019/790 autorise la fouille de contenus accessibles publiquement, y compris pour un usage commercial, sous réserve que les titulaires de droits n'aient pas expressément réservé cet usage. Cette réserve, dite opt-out, est devenue le mécanisme structurant de l'industrie.
En pratique, l'opt-out peut être exprimé par tout moyen approprié et lisible par machine : fichier robots.txt, balises meta, conditions générales de service, fichier ai.txt proposé par certains éditeurs. La difficulté tient à l'hétérogénéité de ces signaux et à la charge de vérification qui pèse sur le fournisseur du modèle.
Le rapport CSPLA confié à Alexandra Bensamoun et Joëlle Farchy souligne explicitement la limite du dispositif : « s'il est mobilisé à grande échelle, [l'opt-out] peut conduire à affaiblir la fiabilité des résultats produits par les IA, ainsi que la présence de contenus français ». Autrement dit, plus les ayants droit français exercent leur opt-out, moins les modèles entraînés respectueusement reflètent la culture française — un paradoxe régulatoire que les pouvoirs publics tentent désormais de résoudre par un marché des licences.
L'enjeu pour les entreprises utilisatrices : un modèle entraîné en violation d'opt-outs documentés est juridiquement vulnérable. La chaîne contractuelle entre le fournisseur du modèle et le déployeur doit donc inclure des garanties de respect des opt-outs ainsi que des clauses d'indemnisation en cas de contentieux, ce que nos clients comptables et juridiques intègrent désormais systématiquement dans leurs appels d'offres.
Le défi du droit d'auteur sur les contenus d'entraînement (Input)
Sur les contenus d'entrée — les « inputs » d'entraînement — trois enjeux dominent côté entreprise.
Le sourcing documentaire interne. Avant de fine-tuner un modèle souverain sur vos archives métier (mémoires d'avocats, rapports d'audit, dossiers patients, archives presse), il faut vérifier la chaîne des droits. Un cabinet d'expertise comptable qui utilise un corpus de notes BOI pour spécialiser un modèle 7B agit dans le cadre de la doctrine administrative librement réutilisable ; le même cabinet qui injecte des rapports d'experts tiers achetés sous licence professionnelle s'expose, lui, à une violation contractuelle si la licence interdit l'usage en entraînement IA.
Les coûts de transaction. Le centre Bruegel a montré que pour les petits éditeurs et créateurs individuels, négocier une licence directe avec chaque fournisseur de modèle est économiquement irréalisable. C'est l'argument central en faveur de licences collectives sectorielles.
La diversité culturelle. Le rapport CSPLA insiste sur la nécessité de préserver la présence de contenus français dans les corpus, sous peine de modèles linguistiquement appauvris ou biaisés. C'est l'un des enjeux structurants de la souveraineté IA portée par les acteurs européens.
Côté entreprise, la doctrine que j'applique systématiquement avec mes clients : tout corpus utilisé pour spécialiser un modèle souverain doit être documenté dans un registre « jeux de données » qui consigne la source, le titulaire des droits, la licence d'usage et la date de collecte. Ce registre devient le pivot des audits AI Act, RGPD et PI.
Propriété intellectuelle des contenus générés : qui possède l'output ?
C'est probablement la question la plus mal anticipée dans les directions générales. Un texte, une image ou un morceau de code intégralement généré par une IA est-il protégeable par le droit d'auteur ?
La réponse, en l'état du droit européen, est négative. Le droit d'auteur français comme la jurisprudence de la Cour de justice de l'Union européenne (CJUE) exigent une « création intellectuelle propre à son auteur », ce qui suppose des choix créatifs imputables à une personne physique. Une IA n'étant pas une personne juridique, elle ne peut être auteur.
Le Parlement européen a tranché dans le même sens : dans sa résolution adoptée en mars 2026 par 460 voix pour, 71 contre et 88 abstentions, les députés affirment qu'« un contenu intégralement généré par l'IA ne devrait pas être protégé par le droit d'auteur ».
La distinction-clé tient à la notion d'œuvre assistée par IA vs œuvre générée par IA :
- L'œuvre assistée par IA reste protégeable si l'humain conserve des choix créatifs significatifs (composition, sélection, retouche substantielle). C'est le cas du graphiste qui utilise une IA générative pour des explorations puis recompose à la main.
- L'œuvre générée par IA — un simple prompt suivi du résultat brut sans intervention créative — tombe dans le domaine non protégeable.
Conséquences pratiques en entreprise : les supports marketing produits par IA sans retouche humaine substantielle ne sont pas un actif protégeable contre la concurrence. Vos visuels publicitaires entièrement générés peuvent être réutilisés par un concurrent. Cette donnée doit irriguer la stratégie de production de contenus et les contrats avec les agences.
Transparence et traçabilité : les obligations des fournisseurs de modèles
L'article 53 du Règlement (UE) 2024/1689 impose aux fournisseurs de modèles GPAI deux obligations distinctes :
- Mettre en place une politique de respect du droit d'auteur identifiant et respectant notamment les réserves de droits exprimées au titre de la DAMUN.
- Publier un résumé suffisamment détaillé des contenus utilisés pour l'entraînement, selon un modèle fourni par l'AI Office de la Commission européenne.
Le Parlement européen, dans sa résolution précitée, va plus loin en suggérant que « l'absence de liste pourrait être perçue comme une violation du droit d'auteur, entraînant des conséquences juridiques pour les fournisseurs et les déployeurs d'IA ». Autrement dit, l'opacité d'un modèle devient un facteur d'aggravation du risque pour l'entreprise utilisatrice.
| Obligation AI Act | Acteur visé | Risque entreprise déployeur |
|---|---|---|
| Politique copyright (art. 53) | Fournisseur GPAI | Difficulté à démontrer la diligence raisonnable |
| Résumé d'entraînement | Fournisseur GPAI | Impossibilité d'auditer les sources |
| Respect des opt-outs | Fournisseur GPAI | Risque indirect de contrefaçon en sortie |
| Documentation technique | Fournisseur GPAI | Surcoût juridique en cas de litige |
Pour les déployeurs, la diligence consiste à : exiger contractuellement la communication du résumé, conserver les preuves de cette communication, vérifier l'absence d'usage de modèles dont les pratiques d'entraînement sont notoirement contestées en justice. C'est désormais un standard d'audit IAPRO sur tous nos accompagnements.
Protection spécifique du secteur de la presse et des médias
Le secteur de la presse fait l'objet d'une attention particulière, et pour cause : il représente, avec les industries culturelles, près de 6,9 % du PIB européen selon les données rappelées par le Parlement.
Les enjeux sont triples :
- Captation du trafic par les moteurs de réponse IA, qui produisent une synthèse à partir des articles indexés sans renvoyer l'internaute vers les sites éditeurs, ce qui assèche les revenus publicitaires.
- Pluralisme menacé par le tri opéré par les IA, qui peuvent privilégier certaines sources au détriment d'autres (risque d'auto-préférence des contrôleurs d'accès).
- Indemnisation des usages passés, problématique soulevée explicitement par les députés européens qui demandent un mécanisme dépassant la simple licence globale forfaitaire.
Le cadre s'inscrit aussi dans le prolongement du droit voisin des éditeurs de presse (Directive (UE) 2019/790, articles 15 et suivants), transposé en droit français aux articles L. 218-1 et suivants du Code de la propriété intellectuelle. Pour les entreprises qui intègrent des IA capables d'agréger de la presse (veille concurrentielle, revues de presse automatiques), la prudence impose de vérifier la chaîne contractuelle : les flux RSS et API presse n'autorisent pas automatiquement l'usage en IA.
Risques IP liés aux méthodes techniques : RAG, Fine-tuning et données synthétiques
Le choix de l'architecture technique conditionne directement le profil de risque PI. La CNIL, dans sa FAQ sur l'IA générative, distingue clairement trois approches dont les implications PI diffèrent radicalement.
Le modèle sur étagère transfère l'essentiel du risque PI vers le fournisseur du modèle. La diligence du déployeur se résume alors à un audit contractuel et documentaire. C'est l'approche par défaut pour beaucoup de PME mais elle suppose une grande confiance dans la chaîne de transparence.
Le RAG (Retrieval Augmented Generation) consiste à connecter un modèle à une base documentaire interne sans modifier ses poids. Côté PI, c'est l'option la plus contrôlable : les documents injectés en contexte sont ceux que l'entreprise maîtrise déjà. Risque résiduel : si la base documentaire contient des contenus tiers (presse, articles scientifiques sous licence), l'usage en RAG doit être couvert par la licence d'acquisition. C'est l'option que nous recommandons systématiquement pour les déploiements souverains chez les cabinets professionnels.
Le fine-tuning modifie les paramètres du modèle. Il fait entrer les données d'entraînement dans le modèle lui-même, ce qui pose un double risque : risque d'absorption de contenus protégés sans licence, et risque de « mémorisation » par lequel le modèle peut restituer des extraits identifiables de son corpus d'entraînement. Pour cette raison, je déconseille le fine-tuning sur corpus tiers tant que la chaîne des droits n'est pas auditée.
Les données synthétiques, c'est-à-dire les données générées par un modèle pour entraîner un autre modèle, soulèvent enfin une zone grise. Si le modèle générateur est lui-même entraîné en violation de droits, les données synthétiques peuvent transmettre ce vice juridique. C'est l'argument utilisé par certains éditeurs dans les actions en justice américaines contre les pratiques dites de distillation.
Stratégie de conformité pour les entreprises : construire une IA « Safe by Design »
Sur la base des audits réalisés depuis 2024, je formalise la doctrine IAPRO en six étapes opérationnelles :
- Cartographier les usages IA en cours dans l'entreprise (shadow IA comprise), en distinguant fournisseur, modèle, finalité, type de données traitées.
- Auditer les conditions générales de chaque fournisseur de modèle, en vérifiant la clause de propriété intellectuelle, la clause d'indemnisation et la communication du résumé d'entraînement AI Act.
- Documenter le corpus interne utilisé pour RAG ou fine-tuning : source, titulaire, licence, date, finalité.
- Définir une politique d'opt-out sortant pour les contenus produits par l'entreprise (sites web, archives clients) afin de protéger vos propres actifs vis-à-vis des modèles tiers.
- Mettre en place un protocole de vérification des outputs sensibles : générations destinées à publication externe doivent passer une revue de similarité (détection de mémorisation, vérification de l'absence d'œuvres tierces reconnaissables).
- Former les utilisateurs au cadre PI : un dirigeant qui prompt « écris-moi un texte dans le style de tel auteur vivant » crée un risque que l'entreprise devra assumer.
Cette grille fonctionne pour les cabinets professionnels comme pour les ETI industrielles. Elle s'articule naturellement avec les obligations RGPD et les obligations sectorielles (HDS pour la santé, doctrine ACPR pour la banque). Pour calibrer l'investissement, notre calculateur ROI IA intègre désormais une ligne « provisions conformité PI » dans les coûts d'exploitation.
Équilibre économique : souveraineté numérique vs protection des créateurs
La tension de fond est connue : un cadre trop protecteur des ayants droit affaiblit la compétitivité des modèles européens face à des modèles non européens entraînés ailleurs et déployés en Europe. Un cadre trop permissif assèche les revenus du secteur culturel et créatif européen.
Le rapport CSPLA propose une voie médiane : un marché des licences équilibré, juridiquement sécurisé et économiquement viable, qui repose sur trois conditions cumulatives : transparence effective des fournisseurs, mécanismes de gestion collective sectoriels, traçabilité de la chaîne de valeur. C'est sur ce triptyque que les pouvoirs publics français et européens travaillent activement en 2026.
Pour les entreprises souveraines, la conséquence est claire : intégrer dès maintenant une provision « licences de données » dans les business plans IA, à hauteur de 5 à 15 % du budget d'entraînement selon les secteurs. Ignorer ce poste, c'est s'exposer à des régularisations rétroactives une fois les accords sectoriels conclus.
L'autre conséquence est stratégique : les acteurs qui maîtrisent un corpus métier propre (cabinet d'avocats avec ses jurisprudences annotées, ETI industrielle avec ses rapports techniques, presse avec ses archives) détiennent un actif PI qui prendra de la valeur. Le déploiement d'une IA souveraine on-premise sécurisée par notre méthode IAPRO permet justement de valoriser ce capital sans le diluer dans un modèle tiers.
Conclusion : vers un marché des licences structuré pour l'IA
L'année 2026 marque le passage d'un régime de tolérance technique à un régime de transparence opposable. Les fournisseurs de modèles GPAI doivent désormais documenter, les déployeurs doivent désormais auditer, et les ayants droit disposent d'instruments concrets pour faire valoir leurs prérogatives. La sécurité juridique devient la condition sine qua non du déploiement massif de l'IA générative en entreprise.
Mon conviction, après deux ans d'accompagnements opérationnels : les entreprises qui anticipent ce cadre — par le choix d'architectures techniques maîtrisées, par la documentation rigoureuse de leurs corpus, par des contrats fournisseurs solides — transforment la contrainte PI en avantage concurrentiel. Celles qui temporisent prendront le risque d'une dette de conformité dont le coût de régularisation dépassera largement le coût d'anticipation.
FAQ — IA propriété intellectuelle et œuvres générées
L'utilisation de données protégées par copyright pour entraîner une IA est-elle illégale ?
Pas en principe : l'article 4 de la Directive (UE) 2019/790 autorise la fouille de textes et données (TDM) sur contenus accessibles publiquement, y compris en usage commercial, sauf opposition expresse des titulaires de droits (opt-out). L'usage devient illicite si l'opt-out a été exprimé par un moyen lisible par machine (robots.txt, conditions générales, ai.txt) et n'a pas été respecté par le fournisseur du modèle.
Quelles sont les conséquences juridiques si un modèle d'IA produit un contenu trop proche d'une œuvre existante ?
Un contenu généré qui reproduit substantiellement une œuvre protégée peut engager la responsabilité en contrefaçon. Selon les cas, la responsabilité peut être recherchée auprès du fournisseur du modèle (si la « mémorisation » est imputable à l'entraînement) et/ou auprès du déployeur (qui a diffusé le contenu). Les contrats fournisseurs doivent prévoir des clauses d'indemnisation pour répartir ce risque, faute de quoi l'entreprise utilisatrice supporte l'intégralité de la charge.
Comment fonctionne le mécanisme d'opt-out pour les titulaires de droits d'auteur ?
L'opt-out est l'expression d'une réserve de droits au titre de l'article 4 de la Directive (UE) 2019/790. Il peut être exprimé par tout moyen approprié, mais doit être « lisible par machine » lorsque les contenus sont diffusés en ligne : fichier robots.txt, balises meta, mention dans les conditions générales d'utilisation, fichier ai.txt. Le fournisseur du modèle doit le détecter et le respecter dans ses politiques d'entraînement.
Une entreprise peut-elle obtenir des droits d'auteur sur une image générée par Midjourney ou DALL-E ?
Non, en l'état du droit européen. Le Parlement européen a réaffirmé en 2026 qu'un contenu intégralement généré par IA n'est pas protégeable par le droit d'auteur, faute de création intellectuelle imputable à une personne physique. Seules les œuvres « assistées » par IA, où l'humain conserve des choix créatifs significatifs (composition, retouche substantielle, sélection éditoriale), restent protégeables au titre du droit d'auteur classique.
Quelles sont les obligations spécifiques de transparence imposées par l'AI Act aux fournisseurs de modèles GPAI ?
L'article 53 du Règlement (UE) 2024/1689 impose deux obligations principales : mettre en place une politique de respect du droit d'auteur identifiant et respectant les opt-outs DAMUN, et publier un résumé « suffisamment détaillé » des contenus d'entraînement selon un modèle de l'AI Office. Les modèles dits « à risque systémique » (article 55) font l'objet d'obligations renforcées d'évaluation, d'atténuation des risques et de signalement.
Pourquoi le recours à des licences collectives est-il complexe pour l'IA générative ?
Les coûts de transaction d'une licence individuelle entre chaque ayant droit et chaque fournisseur de modèle sont prohibitifs, surtout pour les petits éditeurs et créateurs individuels. Les licences collectives sectorielles (presse, musique, audiovisuel, édition) résolvent ce problème mais supposent des organismes de gestion collective équipés pour les usages IA. Le Parlement européen a recommandé en 2026 que la Commission structure ce marché, avec gestion possible des opt-outs par l'EUIPO.
Quelle est la différence en termes de propriété intellectuelle entre le RAG et le Fine-tuning ?
Le RAG injecte des documents en contexte sans modifier le modèle : la PI des documents reste séparée et auditable. Le fine-tuning modifie les paramètres du modèle, qui peut alors « mémoriser » et restituer des extraits identifiables des données d'entraînement. Le risque de contrefaçon en sortie est donc structurellement plus élevé en fine-tuning, ce qui impose une vigilance accrue sur la chaîne de droits des corpus utilisés.
L'utilisation de données synthétiques permet-elle d'échapper aux obligations de droit d'auteur ?
Pas automatiquement. Les données synthétiques héritent du statut juridique du modèle qui les a générées. Si le modèle source a été entraîné en violation de droits ou si ses conditions d'usage interdisent la distillation, les données synthétiques produites peuvent être contestables. Le statut juridique précis des données synthétiques fait encore l'objet de débats doctrinaux et n'a pas, à ce jour, été tranché par une jurisprudence européenne consolidée.
Comment protéger les revenus des médias face à l'émergence des moteurs de réponse IA ?
Trois leviers se combinent : invocation du droit voisin des éditeurs de presse (articles L. 218-1 et suivants du Code de la propriété intellectuelle), expression systématique de l'opt-out TDM au titre de la DAMUN, et négociation contractuelle directe avec les fournisseurs de moteurs de réponse pour une indemnisation des trafics captés. Le Parlement européen recommande une indemnisation complète des médias dont le trafic est régulièrement exploité par les systèmes d'IA générative.
Quelles mesures concrètes une entreprise doit-elle prendre pour auditer la conformité IP de ses données d'entraînement ?
Six étapes : cartographier les usages IA (shadow IA comprise), auditer les CGU des fournisseurs, documenter dans un registre les sources, titulaires et licences de chaque corpus interne, définir une politique d'opt-out sortant pour ses propres contenus, mettre en place un protocole de revue des outputs sensibles (détection de similarité), et former les utilisateurs au cadre PI. Ce registre devient le pivot des audits AI Act, RGPD et PI conduits par les autorités ou les commissaires aux comptes.
Pour aller plus loin avec IAPRO
Vous déployez ou envisagez de déployer une IA générative dans votre entreprise et vous voulez sécuriser votre exposition propriété intellectuelle avant le prochain comité de direction ? Notre formule Audit AI Act + PI documente votre chaîne fournisseurs, votre corpus interne et vos politiques d'opt-out en quatre semaines, livrable opposable à vos auditeurs internes et externes. Prenez contact directement avec moi via la page contact IAPRO pour un premier échange cadré.
Liens utiles
- Hub AI Act IAPRO — synthèse des obligations par profil
- Solutions IAPRO par métier (cabinets, santé, industrie)
- Glossaire IA IAPRO (RAG, fine-tuning, GPAI, TDM)
- Calculateur ROI IA souveraine
- Aides au financement IA (Bpifrance, France Num, CIR/CII)
- Texte intégral du Règlement (UE) 2024/1689 (AI Act) — EUR-Lex
- Directive (UE) 2019/790 sur le droit d'auteur — EUR-Lex
- FAQ CNIL sur l'utilisation d'un système d'IA générative