Contexte : l'émergence des modèles d'IA à usage général dans l'AI Act

Le Règlement (UE) 2024/1689, publié au JOUE le 12 juillet 2024 et entré en vigueur le 1er août 2024, est le premier cadre législatif mondial dédié à l'intelligence artificielle. Son architecture repose sur une approche par les risques classant les systèmes d'IA en quatre catégories : risque inacceptable (interdit), risque élevé (obligations renforcées), risque limité (transparence) et risque minimal. Mais l'irruption de ChatGPT fin 2022 a révélé une faille structurelle dans cette taxonomie initiale : les modèles génératifs polyvalents échappent à la logique d'usage unique.

Le législateur européen a donc créé une catégorie sui generis : les modèles d'IA à usage général (GPAI). Le texte distingue désormais le modèle (le LLM brut, paramètres et poids) du système d'IA (le produit applicatif qui l'intègre). Cette distinction est juridiquement cruciale : un fournisseur de modèle relève de l'article 53, un fournisseur de système peut relever, lui, du régime haut risque annexe III si l'usage final entre dans ces catégories (RH, scoring crédit, justice, etc.).

L'AI Act, comme le rappelle la Direction de l'information légale et administrative, vise trois objectifs simultanés : sécurité des systèmes, protection des droits fondamentaux et création d'un marché unique de confiance favorisant l'investissement. Pour une cartographie complète du règlement et de ses impacts par taille d'entreprise, je renvoie au guide de référence du réseau, à savoir le décryptage Regulia pour les PME françaises.

L'article 53 : le pivot réglementaire pour les fournisseurs de GPAI

L'article 53 structure quatre obligations cumulatives à la charge de tout fournisseur de modèle GPAI mis sur le marché européen, quelle que soit sa nationalité. Cette extraterritorialité est une caractéristique majeure du règlement : un éditeur américain ou chinois qui propose son modèle à des entreprises européennes est intégralement soumis au régime.

Pilier Référence Contenu
Documentation technique Art. 53(1)(a) + Annexe XI Description du modèle, architecture, paramètres, méthodologie d'entraînement
Information aux intégrateurs Art. 53(1)(b) + Annexe XII Capacités, limites, usages autorisés, données de test
Politique copyright Art. 53(1)(c) Respect Directive 2019/790, identification réserves de droits
Résumé d'entraînement Art. 53(1)(d) Template Commission, publication publique sur site officiel

Selon l'AI Act Service Desk de la Commission européenne, ces obligations s'appliquent dès la mise sur le marché et perdurent tout au long du cycle de vie du modèle. Toute modification matérielle — fine-tuning massif, ajout de données d'entraînement, changement d'architecture — impose une mise à jour des documents.

Pour un fournisseur français comme Mistral AI, ces obligations ne sont pas optionnelles. Pour un déployeur français qui consomme l'API de Mistral, GPT-4 ou Claude, l'article 53 ne s'applique pas directement mais ses livrables (documentation, résumé d'entraînement, politique copyright) deviennent des éléments essentiels d'audit de conformité interne et d'analyse de risques fournisseurs.

Documentation technique et transparence envers les tiers

L'obligation de l'article 53(1)(a) impose au fournisseur de maintenir une documentation technique exhaustive du modèle, conforme à l'annexe XI. Cette documentation doit être tenue à la disposition de l'AI Office (bureau européen de l'IA) et des autorités nationales compétentes pendant au moins dix ans après la mise sur le marché.

L'annexe XI couvre notamment : description générale du modèle, architecture détaillée, paramètres comptés (nombre de poids, tokens d'entraînement), consommation énergétique mesurée, méthodologie d'entraînement, données d'évaluation et résultats des tests d'adversarial robustness. Pour les modèles dépassant 10²⁵ FLOPs cumulés d'entraînement — seuil de présomption de risque systémique — s'ajoutent les méthodologies de red-teaming et les protocoles d'évaluation des risques.

L'article 53(1)(b), distinct, impose une documentation destinée aux intégrateurs aval (annexe XII). C'est un livrable produit, pas un dossier réglementaire : il doit permettre à un fournisseur de système d'IA qui intègre le modèle dans son produit d'évaluer ses capacités, ses limites, ses usages prévus et ses risques résiduels. Pour un cabinet d'expertise comptable qui intègre un LLM dans son outil de pré-rédaction de notes d'analyse, cette documentation est un élément central de son propre dossier de conformité.

La tension entre transparence et secret des affaires est explicitement traitée à l'article 53(7) : toute information obtenue, y compris les secrets commerciaux, est protégée par les obligations de confidentialité de l'article 78. Le fournisseur n'a pas à publier ses recettes d'entraînement ni ses techniques d'optimisation : il doit fournir un niveau d'information suffisant à l'évaluation des risques, pas une divulgation totale.

Transparence des données : le nouveau standard du résumé d'entraînement

L'article 53(1)(d) est probablement l'obligation la plus structurante pour l'écosystème : la publication d'un résumé public détaillé du contenu utilisé pour entraîner le modèle. Contrairement à la documentation technique (destinée aux régulateurs), ce résumé est public et publié sur le site officiel du fournisseur.

La Commission a publié son template obligatoire en juillet 2025, après une consultation multi-parties prenantes ayant reçu 430 contributions. Selon la FAQ officielle de la Commission, le template impose trois sections normalisées.

Section 1 — informations générales

Identification du fournisseur, identification du modèle (nom, version), types de contenus d'entraînement (texte, image, audio, vidéo, code), taille de chaque modalité dans des fourchettes larges et caractéristiques générales des données.

Section 2 — liste des sources de données

Datasets publics, datasets privés (acquis sous licence), données scrapées en ligne avec nom des crawlers utilisés, période de collecte, description détaillée du contenu et liste des 10 % de domaines les plus scrapés (5 % ou 1 000 domaines maximum pour les PME). Pour un fournisseur français qui scrape l'INSEE, Légifrance ou des sites professionnels, cette obligation impose une discipline de logs et de traçabilité que peu d'éditeurs avaient en place avant 2024.

Section 3 — aspects de traitement

Modalités de retrait des contenus illégaux, gestion des données utilisateurs collectées via les services du fournisseur (sans divulgation des données personnelles elles-mêmes), respect des réserves de droits exprimées au titre de la fouille de texte et de données.

L'obligation s'applique également aux modèles open source. Le résumé doit être mis à jour tous les six mois ou plus tôt si un ré-entraînement modifie substantiellement le corpus. Pour les modèles mis sur le marché avant le 2 août 2025, la mise en conformité est attendue au plus tard le 2 août 2027 — avec possibilité de signaler explicitement des lacunes documentées quand les données sont irrécupérables.

Propriété intellectuelle et politique sur le droit d'auteur

L'article 53(1)(c) impose au fournisseur de mettre en place une politique de conformité au droit d'auteur de l'Union, et notamment d'identifier et respecter les réserves de droits exprimées par les titulaires au titre de l'article 4(3) de la Directive (UE) 2019/790 sur le droit d'auteur dans le marché unique numérique.

Cette obligation est techniquement non triviale. Les réserves de droits peuvent s'exprimer via des signaux machine-readable comme robots.txt, des en-têtes HTTP spécifiques, des balises meta ou des marqueurs sectoriels (TDM Reservation Protocol, C2PA, ai.txt). Le fournisseur doit démontrer qu'il a déployé des moyens techniques proportionnés pour détecter ces signaux avant ingestion dans le pipeline d'entraînement.

Pour un cabinet d'avocats qui évalue le risque copyright d'un LLM avant déploiement, trois éléments d'audit sont prioritaires :

  • Périmètre temporel : le modèle a-t-il été entraîné avant ou après l'expression de la réserve de droits ? Les corpus pré-2024 sont rarement filtrés.
  • Granularité du crawler : le résumé d'entraînement liste-t-il les crawlers utilisés et leurs politiques de respect des robots.txt et headers TDM ?
  • Voies de recours contractuelles : le contrat de licence du fournisseur prévoit-il une indemnisation IP en cas d'action de titulaires de droits ?

Ces vérifications recoupent partiellement la conformité RGPD dont la CNIL exige le suivi pour tout traitement intégrant un modèle génératif.

Le régime spécifique des modèles à risques systémiques

L'article 53 pose le socle de base. Pour les modèles présentant un risque systémique au sens de l'article 51, l'article 55 ajoute une couche d'obligations renforcées : évaluations selon l'état de l'art (red-teaming adversarial), évaluation et atténuation des risques systémiques, suivi des incidents graves et reporting à l'AI Office, et cybersécurité de niveau industriel sur le modèle et l'infrastructure physique.

La présomption de risque systémique se déclenche au-delà de 10²⁵ FLOPs cumulés d'entraînement. À la date de rédaction, ce seuil ne concerne qu'une poignée de modèles frontière : GPT-4, Claude 3.5 Opus/Sonnet, Gemini 1.5 Pro et probablement Llama 3.1 405B. Mistral Large 2 et la majorité des modèles open source européens restent sous ce seuil.

Pour une PME française qui déploie une IA souveraine on-premise à base de Mistral 7B, Llama 3 8B ou Qwen 32B quantizés, l'article 55 ne s'applique pas. Seul l'article 53 concerne le fournisseur amont — et encore, partiellement, via l'exception open source détaillée ci-dessous. C'est précisément ce point qui rend le déploiement local de modèles open source européens stratégiquement intéressant : la complexité réglementaire reste maîtrisable.

L'exception open source : conditions et limites

L'article 53(2) prévoit une exception ciblée. Les obligations de documentation technique (a) et d'information aux intégrateurs (b) ne s'appliquent pas aux modèles publiés sous licence libre permettant accès, usage, modification et distribution, dont les poids, l'architecture et les informations d'usage sont publiquement disponibles.

Restent applicables, y compris pour les modèles open source : la politique copyright (c) et la publication du résumé d'entraînement (d). Mistral, Meta avec Llama et Alibaba avec Qwen restent donc soumis à ces deux obligations.

L'exception est strictement encadrée :

  • Elle ne s'applique jamais aux modèles à risque systémique. Un Llama 3.1 405B reste pleinement soumis à l'article 53 complet et à l'article 55.
  • La licence doit être véritablement libre. Une licence « community » à clauses restrictives (interdiction de commercialisation au-delà d'un seuil d'utilisateurs, par exemple) ne qualifie pas. Le statut juridique de la licence Llama fait débat sur ce point.
  • Les poids et l'architecture doivent être effectivement publiés. Un modèle « open weights » sans documentation d'architecture ne qualifie pas.

Pour un déploiement souverain on-premise sur infrastructure française, cette exception réduit considérablement la charge documentaire à analyser côté intégrateur. Pour explorer les cas d'usage métiers concrets, voir le panorama IAPRO des secteurs où l'IA souveraine on-premise apporte un ROI mesurable.

Outils de conformité : codes de pratique et normes harmonisées

L'article 53(4) prévoit deux voies pour démontrer la conformité jusqu'à publication des normes harmonisées européennes : adhérer à un Code of Practice approuvé par la Commission, ou démontrer des moyens alternatifs adéquats.

Le General-Purpose AI Code of Practice a été publié le 10 juillet 2025. Il se compose de trois chapitres : Transparence, Copyright et Safety & Security. Les deux premiers concernent tous les fournisseurs GPAI au titre de l'article 53 ; le troisième n'engage que les fournisseurs de modèles à risque systémique au titre de l'article 55.

Le Code a été signé par Mistral AI, OpenAI, Anthropic, Microsoft, IBM, Amazon, Cohere, ServiceNow, Aleph Alpha, LINAGORA et une vingtaine d'autres acteurs. xAI a signé uniquement le chapitre Safety & Security et devra démontrer la conformité transparence/copyright par d'autres moyens.

Adhérer au Code procure trois bénéfices opérationnels : réduction de la charge administrative (le template de Model Documentation Form normalise les livrables), sécurité juridique renforcée (présomption de conformité administrative) et signal de confiance pour les déployeurs aval qui auditent leurs chaînes d'approvisionnement IA.

Pour un fournisseur français, refuser de signer le Code revient à devoir construire ex nihilo sa propre démarche de conformité — chronophage et juridiquement risqué tant que les normes CEN-CENELEC ne sont pas publiées (échéance attendue 2027-2028 selon les retours du Direction générale des Entreprises).

Calendrier d'application et sanctions financières

Depuis l'accord omnibus numérique du 7 mai 2026, le calendrier de l'AI Act a été partiellement réaménagé. Les dates à retenir pour les obligations GPAI :

  • 2 août 2025 : entrée en vigueur des obligations GPAI (article 53) et déploiement de la gouvernance via l'AI Office.
  • 2 août 2026 : application pleine du régime de sanctions (article 99), désignation des autorités nationales compétentes, obligations de transparence pour les déployeurs (article 50).
  • 2 août 2027 : période de grâce pour les modèles GPAI mis sur le marché avant le 2 août 2025 (article 111). Tous les modèles antérieurs doivent être en conformité documentaire complète à cette date.

Le régime de sanctions est calibré sur la gravité des manquements. Pour les obligations de l'article 53, l'article 101 prévoit des amendes pouvant atteindre 3 % du chiffre d'affaires annuel mondial ou 15 millions d'euros, le montant le plus élevé étant retenu. Les manquements aux interdictions de l'article 5 peuvent atteindre 7 % du chiffre d'affaires mondial ou 35 millions d'euros.

À titre de comparaison sectorielle, ces plafonds dépassent ceux du RGPD (4 % du CA mondial). Pour un éditeur SaaS européen mid-cap réalisant 200 M€ de CA, un manquement documentation GPAI peut représenter une exposition de 6 M€ — montant qui justifie largement l'investissement préventif. Pour comprendre le détail du barème par catégorie d'infraction, le réseau Regulia propose un tableau de référence des sanctions AI Act.

Stratégie d'implémentation : de la conformité à la souveraineté

Trois axes d'action concrets pour une entreprise française qui développe ou intègre un modèle GPAI.

1. Auditer les pipelines de données dès maintenant. Pour un fournisseur de modèle, cela implique de cartographier l'ensemble des sources d'entraînement, de mesurer la couverture des crawlers vis-à-vis des signaux d'opt-out, et de documenter rétroactivement ce qui peut l'être. Pour un déployeur, cela implique d'exiger contractuellement du fournisseur amont la communication de son résumé d'entraînement et de sa documentation annexe XII.

2. Utiliser le résumé d'entraînement comme outil marketing. Sur un marché B2B où les acheteurs DSI, DPO et juristes auditent désormais leurs fournisseurs IA, publier un résumé d'entraînement plus complet que le minimum réglementaire devient un différenciant. Mistral l'a compris en signant le Code of Practice dès la première vague. Les fournisseurs européens qui jouent la carte de la transparence radicale prennent une longueur d'avance sur leurs concurrents extra-européens qui se contentent du strict minimum.

3. Positionner la conformité IA Act comme gage de qualité. Pour une PME qui consomme de l'IA, le choix entre une solution opaque hébergée hors UE et une solution souveraine on-premise documentée selon le Code of Practice n'est plus seulement un arbitrage technique : c'est un arbitrage de risque réglementaire. Mesurer ce différentiel sur un cas concret est l'objet du calculateur ROI IA d'IAPRO, qui intègre désormais la variable risque AI Act dans son scoring.

Pour aller plus loin sur le mécanisme général des obligations AI Act et le périmètre des systèmes haut risque annexe III qui peuvent s'appliquer en aval d'un déploiement GPAI, je renvoie au guide Regulia dédié.

FAQ — AI Act et IA générative

Quelle est la date exacte d'application des obligations sur les modèles GPAI ?

L'article 53 du Règlement (UE) 2024/1689 s'applique depuis le 2 août 2025 pour tous les modèles GPAI mis sur le marché européen. Une période de grâce court jusqu'au 2 août 2027 pour les modèles déjà sur le marché avant le 2 août 2025 (article 111). Les sanctions pleines de l'article 99 deviennent applicables le 2 août 2026.

Un modèle open source est-il totalement exempté de l'AI Act ?

Non. L'article 53(2) exonère uniquement des obligations de documentation technique (a) et d'information aux intégrateurs (b), à condition que la licence soit véritablement libre et que poids, architecture et infos d'usage soient publics. La politique copyright et le résumé d'entraînement restent obligatoires. Et l'exception ne s'applique jamais aux modèles à risque systémique soumis à l'article 55.

Quelles informations spécifiques doivent figurer dans le résumé du contenu d'entraînement ?

Trois sections normalisées par le template Commission : informations générales (identification fournisseur/modèle, types de contenus, tailles par modalité), liste détaillée des sources (datasets publics et privés, données scrapées avec liste des 10 % de domaines les plus scrapés, données utilisateurs, données synthétiques), et aspects de traitement (retrait des contenus illégaux, respect des réserves de droits, gestion des données utilisateurs).

Comment concilier transparence des données et protection des secrets commerciaux ?

L'article 53(7) protège explicitement les secrets commerciaux via les obligations de confidentialité de l'article 78. Le template Commission applique une gradation : très détaillé pour les datasets publics, intermédiaire pour les datasets privés, agrégé pour les données utilisateurs. Le fournisseur n'a pas à divulguer ses recettes d'entraînement ni les sources personnelles, seulement un niveau d'information permettant l'exercice des droits des tiers.

Quelle est la différence entre un système d'IA et un modèle GPAI selon le règlement ?

Le modèle désigne le LLM brut — poids, paramètres, architecture (ex. Mistral Large 2, GPT-4). Le système d'IA est le produit applicatif qui intègre un ou plusieurs modèles pour servir un usage défini (ex. assistant juridique, outil RH). L'article 53 vise les fournisseurs de modèles. Les régimes haut risque annexe III visent, eux, les fournisseurs de systèmes selon l'usage final.

Les entreprises qui utilisent des modèles tiers (ex : API OpenAI) sont-elles soumises à l'article 53 ?

Non, pas directement. L'article 53 s'applique au fournisseur du modèle, pas au déployeur. Mais les livrables produits par le fournisseur (documentation annexe XII, résumé d'entraînement, politique copyright) deviennent des éléments d'analyse de risque pour le déployeur, surtout si l'application finale relève d'un usage haut risque annexe III ou des obligations de transparence article 50.

Que se passe-t-il si je ne peux pas fournir certaines données pour le résumé d'entraînement ?

Pour les modèles mis sur le marché avant le 2 août 2025, le template prévoit explicitement la possibilité de signaler des lacunes documentées quand l'information est indisponible ou impossible à récupérer sans charge disproportionnée. Le fournisseur doit alors justifier ces gaps dans le résumé publié. Pour les modèles postérieurs, aucune dérogation : la traçabilité doit être nativement intégrée au pipeline.

Quels sont les risques financiers en cas de non-conformité aux obligations de transparence ?

L'article 101 prévoit pour les manquements à l'article 53 des amendes pouvant atteindre 3 % du chiffre d'affaires annuel mondial ou 15 millions d'euros, le montant le plus élevé étant retenu. Les sanctions pleines sont applicables depuis le 2 août 2026. À cela peut s'ajouter une obligation de mise en conformité sous astreinte et, dans les cas graves, un retrait temporaire du marché européen.

Le Code of Practice est-il obligatoire pour tous les fournisseurs de modèles ?

Non, le Code of Practice est un outil volontaire publié le 10 juillet 2025. Y adhérer procure une présomption administrative de conformité, une réduction de la charge documentaire et une sécurité juridique renforcée jusqu'à publication des normes harmonisées européennes. Un fournisseur peut démontrer sa conformité par d'autres moyens, mais devra alors construire et justifier sa propre démarche méthodologique devant l'AI Office.

Comment l'AI Act traite-t-il spécifiquement la question du droit d'auteur lors de l'entraînement ?

L'article 53(1)(c) impose une politique de respect du droit d'auteur européen, et notamment l'identification des réserves de droits exprimées au titre de l'article 4(3) de la Directive 2019/790 (TDM opt-out). Le fournisseur doit déployer des moyens techniques proportionnés — détection robots.txt, headers HTTP, métadonnées C2PA, TDM Reservation Protocol — pour respecter ces réserves avant ingestion dans le pipeline d'entraînement.

Pour aller plus loin avec IAPRO

L'analyse de votre exposition à l'article 53 — que vous soyez fournisseur d'un modèle GPAI ou déployeur d'une solution intégrant un LLM tiers — est l'un des livrables de notre audit AI Act IAPRO. En une semaine, nous cartographions vos modèles, qualifions vos rôles juridiques (fournisseur / déployeur / intégrateur), identifions les obligations applicables et produisons un plan de mise en conformité priorisé. Pour une PME ou ETI qui déploie une IA souveraine on-premise sur stack Mistral / Llama / Qwen, cet audit est généralement bouclé en 5 jours-homme. Contactez-moi directement pour cadrer votre besoin.

Liens utiles