IA : vers une génération d’images toujours plus efficace

Si l’intelligence artificielle (IA) occupe une place de plus en plus importante dans nos vies, elle fait également partie du quotidien de Vicky Kalogeiton. Pour mener à bien ses travaux de recherche fondamentale, la scientifique décortique des modèles d’IA multimodaux préexistants - c’est-à-dire des algorithmes qui apprennent à partir de données visuelles, textuelles ou même audio – et les améliore. « Nous cherchons dans un premier temps à comprendre de façon très détaillée comment utiliser et exploiter chacune de ces modalités puis nous développons un modèle robuste et complet pour chacune », souligne Vicky Kalogeiton.
La chercheuse et son équipe décortiquent différents types de données pour apprendre aux IA à identifier les caractéristiques clés de diverses situations. « Nous avons par exemple entraîné notre modèle à reconnaître les éléments humoristiques de scènes de Pulp Fiction ou de Friends », raconte Vicky Kalogeiton. Le système parvient alors à recombiner les informations pour générer des images tenant compte du contexte (ambiance, ton employé, etc.) décrit par les utilisateurs. « Nous développons une IA générative de 3ème génération qui perçoit et raisonne, à la manière d’un humain. Il ne s’agit plus seulement de traitements statistiques des données ».
Travailler avec des modèles multimodaux nécessite également de s’intéresser aux données qui les alimentent. Vicky Kalogeiton cherche à avoir une vision claire et globale des données utilisées pour consolider les connaissances des modèles développés. « Un modèle peut décrire avec précision une séquence de film peu connu s’il est entraîné avec des données de bonne qualité et correctement référencées », précise la chercheuse. Par exemple, l'IA générative actuelle peut reconnaître une œuvre cinématographique dans 30% des cas en se basant uniquement sur son aspect visuel (par exemple, sur la vidéo). Un humain seulement dans 60 % des cas. « À titre de comparaison, ChatGPT, entraîné sur les articles de sites de renom, y parvient dans 80 % des cas. Nous voulons donner à la communauté scientifique une base de données fiable pour pouvoir travailler efficacement ».
Un nouveau modèle plus efficace
Dans le cadre de la génération d’images ou de vidéos, le modèle de Vicky Kalogeiton s’entraîne à partir d’images existantes qu’il faut décrire, marquer, labelliser à l’aide de texte ou de hashtags. « C’est ce que l’on appelle les conditions de la donnée », précise la chercheuse. Il existe toutefois une limite à ces « conditions ». Si les images contenues dans la base de données sont mal renseignées, alors les conditions et les images ne correspondent pas et une partie de la base est inutilisable. « Or, nous souhaitons éviter ce phénomène. Nous proposons pour cela un métamodèle d’IA capable d’utiliser à la fois la labellisation quand elle est alignée à l’image et de s’en passer dans le cas contraire. Un modèle à la fois conditionnel et inconditionnel, cette dernière partie étant représentative du monde dans lequel nous vivons », explique Vicky Kalogeiton. Appelé Coherence Aware Diffusion, cet algorithme est capable de comprendre s’il doit utiliser les conditions associées aux données ou non. Il exploite alors les techniques modernes d'IA générative pour une génération d'images à partir de texte plus efficace.
« Pour le moment ce modèle utilise peu de data, n’est pas volumineux et ne traite que quelques tâches. Il est taillé pour le monde académique ». Tout l’enjeu va donc être de changer d’échelle, d’augmenter la résolution des images générées (donc de traiter davantage de données) et la taille du modèle pour qu’il convienne également aux milieux industriels tout en maintenant son efficacité. « Nous sommes en phase de tests. Nous ne savons pas encore comment il se comportera au moment du changement d’échelle », prévient la chercheuse. Assurément, cela entrainera une différence dans la façon d’entraîner le modèle et Vicky Kalogeiton travaille sur l’espace latent (ndlr : l’espace latent est un espace virtuel dans lequel des données complexes sont encodées sous une forme plus simple et plus compacte, statistique) pour en augmenter l’efficacité.
Applications variées
Le travail de Vicky Kalogeiton devrait trouver des applications dans de nombreux domaines. Celui de la réalisation vidéo par exemple, où ses modèles génératifs multimodaux sont utilisés pour reproduire un mouvement de caméra en générant une vidéo. Mais aussi dans le milieu médical, où les modèles qu'elle et son équipe élaborent permettront de déterminer à l’avance un risque de rejet de greffe sur la base de divers examens visuels. Signes de stress sur un visage, électrocardiogramme… sont autant de données qu’il est également possible de traiter. À l’image des enregistrements sonores de respiration, qui dans l’armée de l’air, permettront d’anticiper l’évanouissement des pilotes soumis à de fortes accélérations.

Vicky Kalogeiton est professeur assistant en Vision par Ordinateur à l'École polytechnique et affiliée à l'équipe VISTA du Laboratoire d'Informatique (LIX) de l’École polytechnique. Elle est également membre de l’Ellis Unit Paris dont le but est de favoriser les collaborations sur les sujets liés à l’intelligence artificielle à Paris et à travers l’Europe. L’objectif de recherche de Vicky Kalogeiton est de développer des méthodes généralisables applicables à divers domaines, notamment en IA générative multimodale, sous l'angle de l'efficacité, des sorties structurées ou multiples, et des applications médicales ! À l’École polytechnique, Vicky Kalogeiton est reconnue comme le principal chercheur en genAI. Elle publie des articles dans les grandes conférences et journaux spécialisés en vision artificielle (CVPR, ICCV, ECCV, T-PAMI, IJCV).
*LIX : une unité mixte de recherche CNRS, École polytechnique, Institut Polytechnique de Paris, 91120 Palaiseau, France