Le futur de l’IA sera décentralisé et collaboratif

L’Intelligence artificielle (IA) générative a beau être toute jeune, elle n’a déjà plus rien de ce qu’elle était à ses débuts. « Même les grands modèles linguistiques, ou Large Language Model (LLM), un type de programme d’IA capable, entre autres tâches, de reconnaître et de générer du texte, ont fait des progrès gigantesques depuis leur introduction en 2022. Ils sont plus factuels, hallucinent beaucoup moins, et se mettent même à raisonner », s’amuse Éric Moulines, professeur au Centre de Mathématiques Appliquées (CMAP*) de l’École polytechnique.
C’est que l’IA générative tient toutes ses promesses. Mieux, ces modèles qui, contrairement aux méthodes d’IA classique, cherchent à générer des contenus originaux à partir d’exemples d’entraînement, permettent de résoudre des « problèmes inverses ».
Restaurer un électrocardiogramme avec l’IA générative
Imaginons un scénario catastrophe : un patient admis aux urgences subit un électrocardiogramme séance tenante. Hélas, le patient a bougé, une électrode s’est détachée. Le résultat est incomplet et le médecin ne peut pas poser de diagnostic certain. « Avec les modèles génératifs, on apprend à restaurer un électrocardiogramme affecté de bruits ou pour lequel il y a des données manquantes », explique Éric Moulines, qui collabore depuis plusieurs années avec l’Institut de RYthmologie et modélisation Cardiaque (LIRYC), un Institut hospitalo-universitaire (IHU) à Bordeaux. Pour cela, il a fallu apprendre au modèle à quoi ressemble un électrocardiogramme en lui fournissant de nombreux exemples.
Il existe déjà des applications de reconstitution d’électrocardiogrammes propres et utilisables par un cardiologue à partir de smartwatchs qui mesurent le rythme cardiaque. « Nous avons le projet de faire du diagnostic automatique à partir de pathologies, c’est-à-dire d’être capable par exemple de reproduire des électrocardiogrammes pour lesquels il y a peu de données, pour compléter les données concernant des pathologies cardiaques qui sont peu représentées », poursuit Éric Moulines.
Inverser la tendance à la centralisation des données
Mais à chaque progrès ses défis. En matière d’IA, la tendance actuelle est à la centralisation des données dans de gigantesques serveurs très gourmands en énergie. Et si, au contraire, l’IA fonctionnait de façon décentralisée, selon un « apprentissage fédéré » pour se mettre au service de la collaboration ? C’est le pari d’Éric Moulines, récipiendaire en 2022 avec ses collègues Michael Jordan de l’université de Californie à Berkeley, Christian Robert de l’université Paris Dauphine-PSL et Gareth Roberts de l’université de Warwick, d’une bourse du Conseil Européen de la Recherche ERC Synergy Grant pour le projet On IntelligenCE And Networks (OCEAN).
« Nous estimons que dans le futur, les acteurs du numérique, c’est-à-dire les individus et éditeurs de contenus, chercheront à reprendre le contrôle de leurs données qui sont aujourd’hui déposées sur des serveurs et servent à entraîner des modèles d’IA. On ne laissera plus aussi facilement ses textes, ses posts sur des réseaux sociaux à la disposition des géants de l’internet. On assistera au développement de marchés de la donnée, où les données d’apprentissage des grands modèles de l’IA seront échangées et valorisées. Les individus prendront vraisemblablement graduellement conscience des dangers que représentent la divulgation de leurs données et chercheront à garantir la protection de leur vie privée », affirme Éric Moulines. « De plus, les humains ne sont pas des individus isolés, ils interagissent. Comment donc mettre l’IA au service de ces « agents intelligents » qui peuvent dialoguer, établir des contrats, mettre en place des coalitions pour aboutir à un résultat qui bénéficie à tout le monde ? », s’interroge le chercheur. Le problème est gigantesque.
Éric Moulines et ses collègues tentent ainsi d’élaborer des modèles d’IA décentralisés dans lesquels chaque producteur de données pourra localement les partager tout en les gardant privées. Les données ne seront partagées que pour supporter un apprentissage collectif du modèle.
Partager ses données, sans les révéler
Reprenons l’exemple du domaine médical. Chaque hôpital a ses propres patients, ses données médicales et ses diagnostics. Ces données sont hétérogènes parce que les machines IRM ou les protocoles d’expériences, par exemple, diffèrent d’un établissement à l’autre. Les équipes médicales veulent néanmoins apprendre collectivement, par exemple, une façon de discriminer les cellules cancéreuses. « Sachant qu’il y a plusieurs pathologies, un hôpital peut avoir beaucoup de patients avec la pathologie A quand un autre présente plus de patients avec la pathologie B. En travaillant collectivement, les hôpitaux peuvent apprendre sur les deux pathologies et seront performants sur les deux pathologies au lieu d’une seule », résume Éric Moulines.
Reste à trouver comment motiver les « agents intelligents » à partager leurs meilleures données, à s’assurer que la confidentialité et la propriété des données soient préservées, à déceler les free riders qui profiteraient du système sans y mettre du leur, à gérer des données hétérogènes, etc. L’une des formes naturelles de compensation est la capacité d'obtenir des prédictions plus précises, où la prédiction n'est plus définie globalement, mais localement et contextuellement, soulignent les lauréats de la bourse.
« Apprendre à des modèles avec des données distribuées, c’est-à-dire non centralisées, est compliqué », admet Éric Moulines. « Pour le moment, on ne sait pas le faire. » Au rythme des avancées de l’IA, il est fort probable que cela ne dure pas.

À propos :
Éric Moulines est professeur de statistiques au Centre de mathématiques appliquées de l'École Polytechnique. Il a publié plus de 120 articles dans des revues internationales en traitement statistique du signal, en statistique computationnelle, en apprentissage machine et en probabilités appliquées. Il a encadré plus de 60 thèses de doctorat. Il a reçu la médaille d'argent 2010 du Centre national de recherche scientifique (CNRS), le prix Orange 2011 de l'Académie des sciences, et le technical achievement award de l'EURASIP en 2020. Il a été élu à l'académie des sciences en 2017 dans la section « Sciences Mécaniques et Informatiques ».
>> La page personnelle d'Eric Moulines
*CMAP : une unité mixte de recherche CNRS, Inria, École polytechnique, Institut Polytechnique de Paris, 91120 Palaiseau, France