Institut Polytechnique de Paris
Ecole Polytechnique ENSTA ENSAE Télécom Paris Télécom SudParis
Partagez la page

Comment adapter les méthodes d’IA aux images 3D ?

Le 02 juin. 2023
Le traitement par ordinateur des formes en trois dimensions pose encore de nombreuses questions fondamentales. En particulier, les méthodes d’apprentissage automatique y sont beaucoup moins développées que pour les images à deux dimensions. Maks Ovsjanikov, chercheur au Laboratoire d'informatique de l'École Polytechnique (LIX*), s’attaque à ce problème avec le projet VEGA financé par le Conseil européen de la recherche.
Comment adapter les méthodes d’IA aux images 3D ?
Crédit: Sharp, Nicholas, et al. "Diffusionnet: Discretization agnostic learning on surfaces."

Le traitement par ordinateur des formes en trois dimensions pose encore de nombreuses questions fondamentales. En particulier, les méthodes d’apprentissage automatique y sont beaucoup moins développées que pour les images à deux dimensions. Maks Ovsjanikov, chercheur au Laboratoire d'informatique de l'École Polytechnique (LIX*), s’attaque à ce problème avec le projet VEGA financé par le Conseil européen de la recherche.

Que ce soit les imageries médicales par IRM, les scans tridimensionnels d’objets archéologiques, les pièces industrielles conçues par ordinateur ou encore les environnements modélisés pour les jeux vidéo, les formes 3D interviennent dans un grand nombre de domaines. Il y a donc besoin d’analyser, de reconstruire, de traiter ou encore de classifier les objets en trois dimensions. Si des outils existent déjà, leur conception, et plus fondamentalement l’analyse de ces données géométriques reste un sujet de recherche très actif. C’est le cœur de spécialité de Maks Ovsjanikov, au sein de l’équipe GeomeriX, montée en partenariat avec l’Inria au Laboratoire d'informatique de l'École Polytechnique (LIX*).  En particulier, après avoir reçu un financement Starting Grant du Conseil européen de la recherche (ERC) en 2017 pour le projet EXPROTEA, Maks Ovsjanikov mène désormais le projet VEGA dans le cadre d’une Consolidator Grant.

Parmi les défis de fond qui se posent dans ce champ de recherche se trouve celui de comparer les formes géométriques entre elles, en particulier quand ce ne sont pas des objets rigides. Peut-on dire si deux formes sont liées d’une façon ou d’une autre, si elles ont des parties qui se ressemblent, ou qui sont même identiques ? Le chercheur a ainsi travaillé en collaboration avec des paléoanthropologues sur des comparaisons de mâchoires d’humains préhistoriques, afin d’aider à la reconstruction d’arbres phylogénétiques.

Apprentissage par transfert

Une autre question cruciale consiste à adapter les méthodes d’intelligence artificielle (IA) d’apprentissage automatique aux données géométriques 3D. Ces méthodes ont connu un succès retentissant pour les images 2D que ce soit pour reconnaître un objet sur une photographie par exemple, ou générer de nouvelles images. Dans le contexte des données 3D, les modèles génératifs pourraient permettre la création d'objets industriels innovants en optimisant leur structure géométrique. Maks Ovsjanikov collabore avec plusieurs industriels dans ce sens.

Dans le cadre du projet VEGA, il s’agit de développer de nouvelles méthodes d’apprentissage par transfert aux données géométriques 3D, qui pourraient exploiter, dans d'autres contextes, des informations apprises pour une tâche. Pour qu’ils puissent réaliser une action comme reconnaitre une forme précise, les réseaux de neurones- les systèmes de base en apprentissage automatique, doivent normalement être entraîné sur une très grande quantité de modèles 3D. La méthode d’apprentissage par transfert consiste à utiliser un réseau de neurones qui ont déjà été “pré-entraînés” sur une base de données génériques puis de l’ajuster finement pour de nouveaux problèmes et de nouvelles formes. Cette idée a permis, par exemple, les énormes progrès récents des IA d’analyse et de création d’images et de textes.

Cependant, les méthodes d’apprentissage automatique qui existent pour les images 2D ne sont pas directement transposables aux formes 3D et, lorsqu’elles le sont, c’est souvent de façon “ad hoc”, sans que les chercheurs sachent exactement dans quels cas elles peuvent être utilisées. Une des limites réside dans la faible taille des bases de données 3D pour pré-entraîner des modèles. Mais il y a aussi des défis liés à la spécificité de ces données. En plus d’avoir une dimension supplémentaire, les formes 3D reposent beaucoup plus sur la notion de structure géométrique que les images 2D. Elles nécessitent un formalisme mathématique différent. La meilleure façon de représenter mathématiquement des données 3D par ordinateur, et créer des architectures algorithmiques capables de les traiter reste d’ailleurs une question ouverte. “Dans mes recherches, j’utilise beaucoup d’outils issus de la géométrie différentielle ou riemannienne par exemple, souligne Maks Ovjsanikov. Cet aspect mathématique est une grande source de satisfaction dans mon travail”

 

*LIX : une unité mixte de recherche CNRS, École polytechnique, Institut Polytechnique de Paris, 91120 Palaiseau, France