Protéger les créations ou entraver la progression ? Apprentissage automatique et cadre européen du droit d’auteur

proteger les creations ou entraver la progression apprentissage automatique et cadre europeen du droit dauteur

Alors que les systèmes d’apprentissage automatique génératif (ML) deviennent plus courants, la discussion sur le droit d’auteur et l’entrée ML est de retour sous les projecteurs. Au cœur de cette discussion se trouve la question de savoir si les auteurs, créateurs et autres titulaires de droits doivent donner leur autorisation avant que leurs œuvres puissent être utilisées comme entrées pour les systèmes ML génératifs qui produisent des sorties basées sur les œuvres sur lesquelles ils ont été formés.

La question commence à être plaidée aux États-Unis et au Royaume-Uni. Il y a actuellement au moins trois procès (deux aux États-Unis (voir ici et ici) et un au Royaume-Uni (voir ici)) alléguant que la formation de modèles de ML génératifs sur des œuvres accessibles au public constitue une violation du droit d’auteur. Les trois poursuites ont nommé Stability AI, le développeur du générateur d’images open source Stable Diffusion, en tant que défendeur.

Entre-temps, nous avons également vu des appels d’organisations représentant des créateurs pour une protection juridique explicite contre l’utilisation non autorisée d’œuvres pour la formation au ML. De tels appels ont émergé aux États-Unis et dans l’UE, où ils ont été soulevés dans le cadre des débats sur la proposition de loi sur l’IA actuellement examinée par le législateur de l’UE. Selon des articles de presse« Les associations d’artistes se mobilisent pour introduire dans la loi un article spécifique dédié aux arts créatifs, incluant des garanties exigeant que les titulaires de droits donnent un consentement explicite et éclairé avant que leur œuvre ne soit utilisée.

Quelle est donc la situation juridique actuelle concernant l’utilisation d’œuvres protégées par le droit d’auteur accessibles au public à des fins de formation aux systèmes de ML ?

Aux États-Unis, cela est largement en suspens, mais les poursuites susmentionnées devraient éclairer la question de savoir si ces utilisations doivent être considérées comme une « utilisation équitable » (comme le prétendent les développeurs des systèmes ML en question), ou s’ils nécessitent une autorisation explicite des titulaires de droits.

En Europe, le cadre juridique est beaucoup plus clair (ce qui explique sans doute pourquoi toutes les poursuites en cours ont été déposées en dehors de l’UE). En effet, depuis l’adoption de la directive sur le droit d’auteur dans le marché unique numérique (CDSM) en 2019, l’Union européenne a harmonisé les règles applicables à l’utilisation d’œuvres protégées par le droit d’auteur pour la formation aux systèmes ML.

ML = TDM

Articles 3 et 4 de la directive introduire un ensemble d’exceptions au droit d’auteur pour ce que l’on appelle l’exploration de textes et de données (TDM). Et bien que la terminologie utilisée ici n’évoque pas immédiatement les discussions sur l’apprentissage automatique et l’intelligence artificielle, elle s’applique clairement à la question au cœur du débat actuel, comme expliqué plus en détail ci-dessous. En fait, la discussion sur le TDM lors de la bataille législative sur la directive sur le droit d’auteur a toujours porté sur la révolution ML qui était déjà à l’horizon à l’époque.[1].

La directive CDSM définit l’exploration de texte et de données comme « toute technique analytique automatisée visant à analyser du texte et des données sous forme numérique afin de générer des informations qui incluent, mais sans s’y limiter, des modèles, des tendances et des corrélations ». Cette définition couvre clairement les approches actuelles de l’apprentissage automatique qui reposent fortement sur les corrélations entre les caractéristiques observées des données de formation. L’utilisation d’œuvres protégées par le droit d’auteur dans le cadre des données de formation est exactement le type d’utilisation qui était prévu lors de la rédaction de l’exception TDM[2].

Alors que l’exception prévue à l’article 3 de la directive autorise l’exploration de textes et de données à des fins de recherche scientifique par des organismes de recherche et des institutions du patrimoine culturel, pour autant qu’ils aient un accès légal aux œuvres à exploiter, c’est l’exception prévue à l’article 4 de la la directive qui est la plus pertinente pour la discussion actuelle.

L’exception de l’article 4 – qui est le résultat d’un vaste plaidoyer de la part de chercheurs, d’organismes de recherche, de défenseurs du libre accès et d’entreprises technologiques pour élargir la portée de l’exception TDM de l’article 3[3] – Permet à quiconque d’utiliser des « œuvres légalement accessibles » pour l’exploration de textes et de données, sauf si cette utilisation a été « expressément réservée par leurs titulaires de droits d’une manière appropriée, telle que des moyens lisibles par machine ».

Pris ensemble, ces deux articles fournissent un cadre juridique clair pour l’utilisation d’œuvres protégées par le droit d’auteur en tant que données d’entrée pour la formation au BA dans l’UE : les chercheurs des instituts de recherche universitaires et des institutions du patrimoine culturel sont libres d’utiliser toutes les œuvres légalement accessibles (c’est-à-dire l’ensemble du public Internet) pour entraîner les applications ML. Tout le monde (y compris les développeurs ML commerciaux) ne peut utiliser que des œuvres qui sont légalement pleinement accessibles et dont les titulaires de droits n’ont pas explicitement réservé l’utilisation à des fins d’exploration de texte et de données.

Aux adhérents de la Apprentissage ML = innovation = croissance économique narratif, ce cadre, qui donne aux créateurs et autres titulaires de droits la possibilité de refuser – ou, plus probablement, d’exiger une compensation pour – l’utilisation de leurs œuvres par des développeurs commerciaux de ML, sera perçu comme une restriction importante hostile à l’innovation. Et tant que l’hypothèse demeure que dans d’autres parties du monde, l’utilisation d’œuvres protégées par le droit d’auteur pour la formation au ML constitue une « utilisation équitable », ils y verront un désavantage concurrentiel important pour l’économie de l’UE.[4].

De nouvelles formes d’action collective ?

De nombreux créateurs ont une réaction très différente face à l’émergence des systèmes de ML génératifs. Ils craignent que leur travail créatif ne soit exploité par des entreprises créant des applications de ML génératives, ce qui affaiblira la demande pour leur travail. On craint que toute la valeur générée par ces outils aille aux grandes entreprises technologiques, sans qu’aucune ne revienne aux artistes et créateurs dont le travail est utilisé pour former ces modèles. D’autres s’inquiètent de la marchandisation de leurs styles artistiques uniques[5], ou veulent simplement contrôler comment et par qui leur travail est utilisé. Pour chacun d’entre eux, l’approche de l’UE en matière de TDM/ML ouvre une perspective intéressante : ils peuvent utiliser leur capacité de refus comme levier pour fixer les conditions et exiger une compensation.

Compte tenu de l’ampleur de la formation ML (qui, pour les modèles fondamentaux, est à l’échelle d’Internet), ce levier ne fonctionnera probablement pas très bien s’il est utilisé par des créateurs individuels seuls. Au lieu de cela, il semble clair que les créateurs devront s’unir pour faire respecter collectivement leurs droits contre ceux qui souhaitent utiliser leurs œuvres comme contribution à la formation ML.

Cela signifie qu’il existe une énorme opportunité pour les créateurs de créer de nouveaux[6] des structures collectives pour exercer leurs droits vis-à-vis des développeurs ML commerciaux. C’est une opportunité pour les artistes, auteurs et autres créateurs de construire des formes d’organisation collective numériquement natives qui s’appuient sur des protocoles ouverts pour communiquer leurs normes et leurs termes. Peut-être plus important encore, c’est aussi l’occasion de se regrouper en tant que créateurs et d’exiger une place à la table lorsqu’il s’agit de développer les normes et les pratiques qui façonneront la production artistique dans un monde de systèmes de ML génératifs omniprésents.

Nous voyons déjà les premières tentatives de le faire, telles que spawning.ai de Mat Dryhurst et Holly Herndon. initiative, qui est en train de développer un ensemble d’outils pour se retirer de la formation ML. Herndon et Dryhurst ont situé leur approche entre les « idéologies polaires de la culture libre ou le protectionnisme rigide de la propriété intellectuelle du siècle dernier », qu’ils considèrent tous deux comme « insuffisants pour s’attaquer à un problème qui promet de se transformer en une longue guerre des cultures ».

Bien qu’il soit largement difficile de savoir à ce stade ce qu’est un tel troisième voie de réglementer l’utilisation des œuvres protégées par le droit d’auteur pourrait ressembler, il est clair qu’il devra être façonné par les créateurs dont les œuvres sont utilisées pour former les systèmes ML et qui utilisent également les outils alimentés par ML dans le cadre de leurs processus créatifs.

Les solutions sont susceptibles de ressembler à des droits de rémunération directe dérivés des revenus générés par des modèles formés[7]gérés collectivement par les artistes et les créateurs, en contournant les services des CMO traditionnels et autres titulaires de droits de type intermédiaire tels que les éditeurs.

L’avenir du droit d’auteur ?

Et tandis que le cadre juridique de l’UE pour le TDM / ML semble être plus restrictif que ceux en dehors de l’UE (au moins jusqu’à ce que les questions d’utilisation équitable soient réglées) et a été perçu comme une perte par de nombreux membres de la communauté de la recherche et de l’accès à la connaissance qui ont plaidant pour une approche plus ouverte basée sur le principe que « le droit de lire est le droit d’exploiter », le mécanisme de l’article 4 pointe vers un avenir du droit d’auteur bien mieux adapté aux réalités de l’environnement numérique.

Au lieu d’une extension générale du droit d’auteur à toutes les formes d’exploration de textes et de données en dehors du contexte universitaire (comme initialement proposé par la Commission), le législateur de l’UE a veillé à ce que, dans le contexte du TDM/ML, la protection du droit d’auteur ne revienne qu’aux créateurs et les titulaires de droits qui le souhaitent suffisamment pour signaler leur intention. Cette approche résout l’un des problèmes les plus fondamentaux du droit d’auteur : le fait qu’il s’applique par défaut à tous les produits créatifs, tant par les créateurs qui souhaitent contrôler l’utilisation de leurs œuvres que par ceux qui ne le font pas. Le cadre de l’UE pour le TDM limite la protection du droit d’auteur aux créateurs qui le souhaitent, sans couvrir le reste de l’expression humaine sur Internet avec la couverture étouffante de la protection du droit d’auteur par défaut qui enfermerait ces œuvres pendant de nombreuses décennies.

Pour l’instant, cette approche opt-in du droit d’auteur est limitée au TDM, mais il n’est pas inconcevable que cette approche puisse être étendue si elle s’avère efficace dans la pratique, en particulier dans la discussion en cours sur la formation ML.

Pour toute personne intéressée par la construction d’un cadre européen du droit d’auteur plus moderne qui évolue vers une approche basée sur l’enregistrement, cela devrait être une raison de plus pour laquelle il est important que les artistes, les auteurs et les autres créateurs se regroupent et utilisent les outils dont dispose le législateur européen. au lieu de demander une nouvelle extension inutile et probablement contre-productive du droit d’auteur.

Cet article a été publié pour la première fois sur le blog Open Future.


[1] Le résumé du Parlement européen publié après l’adoption de la directive rend cela explicite en notant que « les colégislateurs ont convenu d’inscrire dans le droit de l’UE une autre exception obligatoire pour l’exploration générale de textes et de données (article 4) afin de contribuer au développement de l’analyse de données et de l’intelligence artificielle »

[2] Cette analyse est basée sur la compréhension généralement acceptée selon laquelle les modèles ML entraînés ne contiennent pas de copies des œuvres sur lesquelles ils ont été entraînés. Alors qu’il existe des études qui montrent que dans certains cas les modèles de diffusion peuvent « mémoriser » les œuvres contenues dans leurs données d’apprentissage cela semble être une valeur aberrante extrême.

[3] Cette déclaration de 24 parties prenantes souligne « le rôle fondamental que joue le TDM dans l’Intelligence Artificielle (IA) »

[4] Dans ce contexte, il est intéressant de noter que l’autre concurrent non européen notable de l’UE — le Royaume-Uni — vient d’abandonner les efforts visant à introduire une exception TDM qui couvrirait également les utilisations dans des contextes commerciaux sous la pression considérable des titulaires de droits.

[5] Des travaux sont également en cours sur les outils qui « protégent les artistes de l’art généré par l’IA qui vole leur style

[6] Cette opportunité existe également pour les organisations traditionnelles de gestion collective, même s’il semble qu’elles soient trop lentes, trop anciennes, trop territoriales, trop averses à la technologie et trop spécifiques à l’expression pour relever ce défi en temps opportun.

[7] Compte tenu des parallèles apparents entre la phase actuelle de développement de ML et les phases précédentes d’accumulation initiale il serait peut-être encore plus logique d’échanger des autorisations contre des capitaux propres.

Author: Maurice GLAIN