Un cabinet d’avocats basé en Californie lance un recours collectif contre OpenAI, alléguant que la société d’intelligence artificielle qui a créé le populaire chatbot ChatGPT a massivement violé les droits d’auteur et la vie privée d’innombrables personnes lorsqu’elle a utilisé des données extraites d’Internet pour former sa technologie.
L’entreprise veut représenter « de vraies personnes dont les informations ont été volées et détournées commercialement pour créer cette technologie très puissante », a déclaré Ryan Clarkson, associé directeur de l’entreprise.
Le procès va au cœur d’une question majeure non résolue qui pèse sur l’essor des outils d’IA « génératifs » tels que les chatbots et les générateurs d’images. La technologie fonctionne en ingérant des milliards de mots à partir d’Internet ouvert et en apprenant à établir des inférences entre eux. Après avoir consommé suffisamment de données, les «grands modèles de langage» qui en résultent peuvent prédire quoi dire en réponse à une invite, leur donnant la possibilité d’écrire de la poésie, d’avoir des conversations complexes et de réussir des examens professionnels. Mais les humains qui ont écrit ces milliards de mots n’ont jamais accepté qu’une entreprise comme OpenAI les utilise à son propre profit.
« Toutes ces informations sont prises à grande échelle alors qu’elles n’ont jamais été destinées à être utilisées par un grand modèle de langage », a déclaré Clarkson. Il a déclaré qu’il espérait qu’un tribunal instituerait des garde-fous sur la manière dont les algorithmes d’IA sont formés et sur la manière dont les personnes sont indemnisées lorsque leurs données sont utilisées.
La légalité de l’utilisation de données extraites de l’Internet public pour former des outils qui pourraient s’avérer très lucratifs pour leurs développeurs n’est toujours pas claire. Certains développeurs d’IA ont fait valoir que l’utilisation de données provenant d’Internet devrait être considérée comme une « utilisation équitable », un concept de la loi sur le droit d’auteur qui crée une exception si le matériel est modifié de manière « transformatrice ».
La question de l’utilisation équitable est « une question ouverte que nous verrons se jouer devant les tribunaux dans les mois et les années à venir », a déclaré Katherine Gardner, avocate en propriété intellectuelle chez Gunderson Dettmer, un cabinet qui représente principalement les start-up technologiques. UPS. Les artistes et autres professionnels de la création qui peuvent montrer que leur travail protégé par le droit d’auteur a été utilisé pour former les modèles d’IA pourraient avoir un argument contre les entreprises qui l’utilisent, mais il est moins probable que les personnes qui ont simplement publié ou commenté sur un site Web puissent obtenir des dommages-intérêts, elle a dit.
La poursuite s’ajoute également à la liste croissante des défis juridiques auxquels sont confrontées les entreprises qui construisent et espèrent tirer profit de la technologie de l’IA.
Un recours collectif a été déposé en novembre contre OpenAI et Microsoft pour la façon dont les entreprises ont utilisé le code informatique dans la plate-forme de codage en ligne GitHub appartenant à Microsoft pour former des outils d’IA. En février, Getty Images a poursuivi Stability AI, une petite start-up d’IA, alléguant qu’elle utilisait illégalement ses photos pour entraîner son robot générateur d’images. Et ce mois-ci, OpenAI a été poursuivi pour diffamation par un animateur de radio en Géorgie qui a déclaré que ChatGPT avait produit un texte l’accusant à tort de fraude.
OpenAI n’est pas la seule entreprise à utiliser des trésors de données récupérées sur Internet pour former ses modèles d’IA. Google, Facebook, Microsoft et un nombre croissant d’autres entreprises font tous la même chose. Mais Clarkson a décidé de poursuivre OpenAI en raison de son rôle dans l’incitation de ses plus grands rivaux à pousser leur propre IA lorsqu’elle a capturé l’imagination du public avec ChatGPT l’année dernière, a déclaré Clarkson.