ChatGPT et l'évolution spectaculaire du traitement automatique des langues

Lorsque la société OpenAI a lancé ChatGPT à la fin du mois de novembre 2022, peu de gens étaient préparés au succès viral qui allait suivre. En effet, les chercheurs travaillent depuis longtemps sur les modèles de traitement automatique des langues (en anglais, Natural Language Processing, NLP), qui constituent la base des robots conversationnels (chatbots). ChatGPT était un développement de plus dans ce domaine. Alors, pourquoi un tel engouement ? Pour mieux comprendre ChatGPT, ainsi que les inquiétudes et la controverse qui l'entourent, il faut d'abord essayer d'en comprendre le fonctionnement.
GPT signifie "Generative Pretrained Model" (modèle génératif pré-entraîné). Ce sont des modèles d'apprentissage automatique qui ont été entraînés à l'avance sur une grande quantité de données afin de résoudre une tâche spécifique (par exemple, pour les modèles NLP, prédire les mots inconnus dans les phrases). Ces modèles sont donc capables de mémoriser toutes les dépendances et tous les motifs présents dans les données et de résoudre ainsi des tâches, comme classer correctement un document, ou de générer du contenu, par exemple créer un résumé d'un texte. Ils peuvent également être adaptés à une tâche spécifique sans nécessiter autant de données ou de temps d'apprentissage supplémentaires que la construction d'un modèle à partir de zéro. Les modèles pré-entraînés peuvent également être utilisés dans des situations diverses telles que la vision par ordinateur et la reconnaissance vocale, entre autres.
Un peu d'histoire
Ces dernières années, de grands modèles pré-entraînés pour le traitement automatique des langues ont vu le jour, tels que GPT-2, GPT-3, BERT et RoBERTa. Ces modèles ont été entraînés sur des quantités massives de textes, ce qui leur permet de générer des résultats de haute qualité pour une variété de tâches, y compris la génération de langage, la classification de texte et la réponse aux questions. Ces modèles ont atteint des niveaux de performance à l'état de l'art sur plusieurs ensembles de données de référence et ont été utilisés dans diverses applications. Cependant, l'utilisation de modèles pré-entrainés de grande taille pose également des défis, tels que les exigences en matière de calcul et les préoccupations éthiques liées à leurs données d'entraînement et à leurs biais.
Un deuxième ingrédient clé est l'apprentissage par transfert, qui a changé la donne dans de nombreux sous-domaines de l'IA. L'apprentissage par transfert est un ensemble de méthodes qui nous permettent de tirer parti des poids (les paramètres des algorithmes d'apprentissage automatique) des modèles déjà entraînés. Dans ce cas, l'adaptation à une nouvelle tâche commence avec les poids du modèle précédemment entraîné au lieu de repartir de zéro, ce qui permet de capitaliser sur les connaissances déjà stockées dans le modèle.
Dans le contexte du NLP, l'apprentissage par transfert remonte à 2008, lorsque Collobert et Weston ont montré que l'apprentissage auto-supervisé (c'est-à-dire, dans le cas du NLP, la prédiction d'une partie d'une phrase à partir d'une autre partie de celle-ci) pouvait améliorer les capacités de généralisation des modèles d'IA dans les tâches de classification. Par la suite, de nombreuses nouvelles méthodes et approches ont continué à émerger, fournissant des techniques plus efficaces pour réaliser l'apprentissage par transfert. L'une de ces approches récentes est le GPT. GPT consiste à pré-entraîner un "Transformer-based decoder" - l'une des architectures d'apprentissage profond les plus efficaces qui permet de trouver tous les types de dépendances dans les données - sur l'objectif de modélisation du langage (c'est-à-dire prédire les prochains mots d'une phrase en fonction des mots précédents). La sortie de GPT-2 en 2019 a créé un buzz similaire mais moins intense que celui de ChatGPT. À l'époque, les capacités de GPT-2 à générer du texte naturel étaient si excitantes que certains chercheurs ont commencé à s'inquiéter des risques liés à la publication des poids du modèle. Sur la base de ces inquiétudes, OpenAI a décidé de ne pas publier les poids du modèle complet, motivant sa décision par le fait que ce modèle peut être utilisé de manière malveillante pour générer du spam, des "fake news" ou même du contenu raciste et offensant.
Plus tard, OpenAI a décidé de publier les poids de GPT-2, et de nombreux efforts ont été réalisés à partir de ce modèle. D'autres modèles pré-entraînés sont apparus au cours de la même période, notamment BERT et BART. Dans notre équipe Data Science and Mining (DaSciM) au Laboratoire d'informatique de l'École polytechnique (*LIX), nous avons contribué à plusieurs modèles pré-entraînés et les avons rendus publics afin d'en faire bénéficier l'ensemble de la communauté du TAL, en particulier les chercheurs disposant de ressources limitées. Ces modèles pré-entraînés incluent, sans s'y limiter, BARThez, AraBART, BERTweetFR et JuriBERT.
Comment fonctionne ChatGPT ?
Le principal inconvénient des modèles de langage pré-entraînés est que, malgré leur capacité à générer un langage naturel fluide, leur résultat peut ne pas être celui souhaité par l'utilisateur. Il peut être non factuel (c'est-à-dire faire référence à de fausses informations), toxique ou tout simplement ne pas correspondre à l'intention de l'utilisateur. C'est ce que ChatGPT tente d'atténuer, en générant un texte qui répond de manière appropriée à la requête de l'utilisateur en suivant son intention. Par exemple, nous avons interrogé GPT-2 et ChatGPT avec une question simple :
Lequel est le plus grand, le soleil ou la lune ? La réponse de GPT-2 était fluide, mais elle n'était pas cohérente :
La réponse est non. Le soleil et la lune ne sont pas la même chose. Ce sont deux choses différentes, mais elles n'ont pas de nom commun. En fait, il existe de nombreux noms différents pour chacun d'entre eux.
En revanche, la réponse de ChatGPT était la suivante :
Le soleil et la lune sont deux corps célestes qui apparaissent dans le ciel, mais ils ont des tailles et des distances très différentes de la Terre. Le soleil est une étoile d'environ 1,4 million de kilomètres de diamètre, tandis que la lune est un satellite naturel d'environ 3 474 kilomètres de diamètre. Le soleil est environ 400 fois plus grand que la lune en termes de diamètre, et environ 27 millions de fois plus grand en termes de volume. Cependant, le soleil se trouve également à environ 150 millions de kilomètres de la Terre, alors que la lune n'en est éloignée que d'environ 384 000 kilomètres. Cela signifie que le soleil et la lune semblent avoir à peu près la même taille angulaire dans le ciel, soit environ un demi-degré. Par conséquent, le soleil est beaucoup plus grand que la lune, mais ils semblent de taille similaire de notre point de vue.
Du point de vue de l'utilisateur, il est clair que la réponse de ChatGPT correspond mieux à son intention. ChatGPT est une instance du modèle de langage pré-entraîné InstructGPT. Son apprentissage se fait en quatre phases :
- Pré-entraînement non supervisé : dans cette phase, un grand réseau de neurones (par exemple, GPT-3) est entraîné de manière auto-supervisée sur un grand corpus de texte brut. Cette phase est la plus coûteuse sur le plan informatique et implique l'utilisation d'un corpus massif de texte extrait du web. Par exemple, l'une des instances d'InstructGPT a été initialisée avec les poids de GPT-3 XL, qui compte 1,3 milliard de paramètres et a été pré-entraînée sur 570 gigaoctets de texte brut filtré. GPT-3 XL est pré-entraîné sur l'objectif de modélisation du langage, où le modèle apprend à prédire les mots suivants dans une phrase en fonction des mots précédents.
- Entraînement supervisé : Dans cette phase, le modèle pré-entraîné est affiné en utilisant des données annotées par des experts humains. Nous rappelons ici que l'objectif est d'ajuster le modèle pour générer des réponses qui correspondent mieux aux intentions de l'utilisateur. Ainsi, l'ensemble de données sur lequel le modèle est entraîné au cours de cette phase contient un ensemble de requêtes. Une équipe composée d'humains annote ensuite ces requêtes avec les réponses souhaitées.
- Entraînement d'un modèle de récompense : Dans ce contexte, le modèle de récompense est un réseau de neurones de régression qui est entraîné pour estimer la qualité d'une réponse ChatGPT. Là encore, le modèle de récompense est entraîné sur un ensemble de données annotées contenant des requêtes avec de multiples réponses classées par des humains.
- Apprentissage par renforcement : Le réglage fin de ChatGPT se poursuit en utilisant l'apprentissage par renforcement (c’est-à-dire apprendre par expériences et essais-erreurs sans annotations humaines) via la méthode de" proximal policy optimization ".
Inquiétudes et controverses
Comme tout autre sujet brûlant concernant les nouvelles technologies émergentes, l'opinion publique sur ChatGPT est divisée. Alors que certaines personnes ont paniqué en voyant ce dont ChatGPT était capable, d'autres n'ont pas semblé très impressionnées et ont essayé de nier les risques potentiels que ce modèle pourrait soulever. Toute personne ayant une bonne expérience dans le domaine peut dire que les capacités de ChatGPT sont impressionnantes et qu'il s'agit d'une percée qui va d'une certaine manière modifier les tendances actuelles. Cependant, nous devons garder à l'esprit que ChatGPT n'est pas la première invention qui a eu un impact significatif sur de nombreux aspects sociaux et éducatifs. Ce fut le cas avec l'accès aux calculatrices, à Internet et, plus récemment, aux modèles d'intelligence artificielle. Lorsque ces inventions sont devenues accessibles à tous, des adaptations appropriées ont été apportées pour atténuer leurs risques potentiels. En fait, ChatGPT n'est pas différent : il ne doit pas être considéré comme l'IA ultime et invincible, mais plutôt comme un assistant qui peut présenter certains risques potentiels limités si nous ne sommes pas conscients de ses capacités et si nous ne nous en occupons pas délibérément. Il s'agit en fait d'un appel à la communauté pour qu'elle accélère ses recherches sur les risques possibles de ChatGPT et sur la manière de les gérer.
Une autre préoccupation plus générale concerne la souveraineté sur ces très grands modèles et leurs conséquences économiques et sociales. En effet, les grandes industries ont accès à des quantités de données sans précédent, ce qui n'est pas le cas des citoyens ou même des gouvernements. De plus, ces modèles, pour être entraînés, nécessitent des calculs massifs qui requièrent un nombre sans précédent de processeurs spécialisés (GPU) et énormément d'énergie - qui ne sont accessibles qu'à une poignée d'industries.
En outre, les modèles eux-mêmes sont fermés dans la plupart des cas, de sorte que la société et l'économie ne capitalisent pas sur le vaste potentiel de cette nouveauté. Il s'agit là de défis politiques pour l'avenir proche, qui devraient mettre à rude épreuve les États et les sociétés. Récemment, la dernière version de GPT, GPT4, a été publiée avec un plus grand nombre de paramètres (de l'ordre de plusieurs milliers de milliards !), offrant également des capacités multimodales - c'est-à-dire acceptant des images et du texte en entrée, et émettant du texte en sortie. Google a également publié "Bard", une version d'essai de son modèle de chatbot IA, tandis que Microsoft a intégré une version de ChatGPT dans le moteur de recherche Bing. Enfin, en Chine, de très grands modèles multimodaux pré-entraînés, comme le Wudau 2.0, ont également été publiés. L'évolution est désormais difficile à suivre.
Il en résulte de sérieuses préoccupations en matière de sécurité, d'empreinte environnementale et d'autres questions liées à l'utilisation de ces énormes modèles. Récemment, une lettre ouverte a été publiée et signée par des personnalités éminentes dans ce domaine, appelant à une pause de six mois dans la formation de modèles d'IA géants plus puissants que le GPT-4. La société doit rester vigilantes devant ces évolutions spectaculaires.
*LIX : une unité mixte de recherche CNRS, École polytechnique, Institut Polytechnique de Paris, 91120 Palaiseau, France
A propos des auteurs:
Michalis Vazirgiannis, professeur au LIX et directeur de l'équipe DaScim
Moussa Kamal Eddine, doctorant au LIX dans l'équipe DaScim