La tentative de l’UE de réglementer l’IA open source est contre-productive

La réglementation de l’IA à usage général (GPAI) est actuellement débattue par les organes législatifs de l’Union européenne alors qu’ils travaillent sur la loi sur l’intelligence artificielle (AIA). Un changement proposé par le Conseil de l’UE (le Conseil) prendrait la mesure inhabituelle et nuisible de réglementer la GPAI open source. Bien que destinée à permettre une utilisation plus sûre de ces outils, la proposition créerait une responsabilité légale pour les modèles GPAI open source, compromettant leur développement. Cela pourrait concentrer davantage le pouvoir sur l’avenir de l’IA dans les grandes entreprises technologiques et empêcher la recherche essentielle à la compréhension de l’IA par le public.

Qu’est-ce que la GPAI ?

L’ approche du Conseil consiste à définir un sous-ensemble de systèmes d’IA à usage général, puis à exiger des développeurs GPAI qu’ils satisfassent aux exigences en matière de gestion des risques, de gouvernance des données, de documentation technique, d’instructions de transparence, ainsi qu’aux normes de précision et de cybersécurité. Le Conseil définit la GPAI comme une IA qui remplit des “fonctions généralement applicables” et peut être utilisée dans une “pluralité de contextes”, mais cette définition est encore assez vague. Bien qu’il n’y ait pas de définition largement utilisée de GPAI, la génération actuelle de GPAI se caractérise par la formation de modèles d’apprentissage en profondeur sur de grands ensembles de données, utilisant un calcul relativement intensif, pour effectuer plusieurs, voire des centaines de tâches. Ces tâches peuvent inclure la génération d’images, la traduction de langues, le déplacement d’un bras robotique, la lecture de jeux vidéo ou tout ce qui précède.

Le Conseil a des raisons d’envisager de réglementer les modèles GPAI. Les capacités de ces modèles augmentent rapidement et, par conséquent, ils sont utilisés dans de nouvelles applications, telles que les assistants d’écriture ou les outils de retouche photo. On s’inquiète également de leur utilisation pour générer de la désinformation et des deepfakes, bien que cela soit moins courant.

Le Conseil semble également préoccupé par l’opacité de ces modèles – la formation de modèles d’apprentissage en profondeur sur d’énormes ensembles de données a conduit à des comportements plus complexes et difficiles à comprendre. De plus, certaines entreprises rendent GPAI uniquement disponible via des interfaces de programmation d’applications ou des API. Cela signifie que les utilisateurs peuvent uniquement envoyer des données au système GPAI, puis obtenir une réponse. Ils ne peuvent pas interroger ou évaluer directement le modèle, ce qui pose de véritables défis dans le développement de systèmes d’IA en aval qui répondraient aux exigences de l’AIA. Ce sont quelques-unes des raisons pour lesquelles le Conseil envisage des exigences sur les modèles GPAI.

GPAI open source contribue au développement responsable de GPAI

Bien que les objectifs de l’approche du Conseil en matière de GPAI soient compréhensibles, l’inclusion explicite de open source sape les ambitions du Conseil. Les modèles GPAI open source sont librement disponibles pour être utilisés par n’importe qui, plutôt que d’être vendus ou autrement commercialisés. Le projet d’AIA proposé créera des responsabilités juridiques, et donc un effet dissuasif, sur le développement de GPAI open source. Réglementer la publication open source des modèles GPAI est globalement inutile car, comme tout autre modèle, ils seraient déjà réglementés par la loi sur l’IA s’ils sont utilisés pour des applications couvertes, telles que l’embauche ou des produits dangereux. En outre, les projets GPAI open source jouent deux rôles clés dans l’avenir de la GPAI : premièrement, ils diffusent le pouvoir sur la direction de l’IA des entreprises technologiques disposant de ressources importantes vers un groupe plus diversifié de parties prenantes. Deuxièmement, ils permettent une recherche critique, et donc une connaissance publique, sur la fonction et les limites des modèles GPAI.

Très peu d’institutions disposent des ressources nécessaires pour former des modèles GPAI de pointe et il est raisonnable d’estimer qu’un modèle GPAI individuel pourrait coûter plusieurs millions de dollars à développer, bien que chaque modèle supplémentaire créé par une institution devrait coûter beaucoup moins cher. Alors que certaines grandes entreprises technologiques rendent leurs modèles open source, tels que le BERT de Google ou le GPT-2 d’Open AI, les incitations des entreprises à publier ces modèles diminueront avec le temps à mesure qu’ils seront plus commercialisés.

Il existe déjà très peu de modèles open source issus d’initiatives à but non lucratif, laissant le domaine dépendant des grandes entreprises technologiques. L’Institut Allen pour l’IA a publié ELMo en 2019, mais l’organisation a annoncé plus tôt en juillet qu’ils pourraient être se recentrer sur le développement de modèles linguistiques. Depuis mi-2020, un groupe collaboratif de chercheurs appelé EleutherAI a réussi à construire des versions de grands modèles de langage et de modèles scientifiques d’IA. Le plus prometteur est la sortie récente de Bloom , un grand modèle de langage développé par une large collaboration de plus de 900 chercheurs en science ouverte et organisé par la société HuggingFace. Ces efforts permettent à un ensemble beaucoup plus diversifié de parties prenantes de participer à l’avenir de la GPAI, peut-être mieux illustré par Bloom’s support de 46 langues humaines . Notamment, Bloom a été développé à l’aide d’un supercalculateur du gouvernement français , le rendant plus exposé à la nouvelle réglementation.

Au-delà de l’orientation générale de la recherche GPAI, les connaissances spécifiques des modèles GPAI open source contribuent considérablement à l’intérêt public. Dans un précédent article de Brookings , j’ai analysé comment les logiciels d’IA open source accélèrent l’adoption de l’IA, permettent une IA plus juste et plus fiable et font progresser les sciences qui utilisent l’IA – cela est également largement vrai pour la GPAI.

Sans GPAI open source, le public en saura moins et les grandes entreprises technologiques auront plus d’influence sur la conception et l’exécution de ces modèles.

De plus, la disponibilité publique des modèles GPAI aide à identifier les problèmes et à proposer des solutions dans l’intérêt de la société. Par exemple, les grands modèles de langage open source ont montré comment les biais se manifestent dans les associations du modèle avec spécifique mots et démontrer comment ils pourraient être intentionnellement manipulé . D’autres articles utilisent des modèles GPAI open source pour comparer leur fiabilité dans la génération de code, ou construire nouveaux repères pour évaluer leur compréhension de la langue, ou mesurer le coût carbone du développement de l’IA. D’autant plus que les modèles GPAI deviennent plus courants dans les applications percutantes telles que les moteurs de recherche et les flux d’actualités, ainsi que dans les usines ou les services publics, il sera primordial de comprendre leurs limites.

Ces recherches débouchent non seulement sur des avancées scientifiques, mais aussi sur une critique plus appropriée de leur utilisation par les grandes entreprises technologiques. Par exemple, comprendre le fonctionnement général des modèles GPAI peut aider audits algorithmiques crowdsourcés , où des groupes d’individus collaborent pour tester le fonctionnement d’un système algorithmique d’entreprise de l’extérieur. Un groupe de créateurs de contenu a récemment utilisé cette approche pour démontrer que YouTube était démonétiser injustement le contenu LGBTQ .

Autoriser davantage de GPAI open source offre plus de transparence dans leur développement. Sans GPAI open source, le public en saura moins et les grandes entreprises technologiques auront plus d’influence sur la conception et l’exécution de ces modèles. Notamment, les chercheurs de ces entreprises n’ont pas les mains entièrement libres – rappelons que les critiques des grands modèles linguistiques de Google ont été au centre du conflit qui a entraîné le licenciement de l’un des chercheurs vedettes de l’entreprise , le Dr Timnit Gebru.

Source : https://www.brookings.edu/blog/techtank/2022/08/24/the-eus-attempt-to-regulate-open-source-ai-is-counterproductive/