Microsoft lance un superordinateur pour entraîner de nouveaux modèles d’intelligence artificielle
Ce superordinateur, conçu en partenariat avec OpenAI, va permettre aux développeurs de concevoir de nouveaux modèles d’intelligence artificielle à partir de la plateforme de cloud Azure. D’autres nouveautés ont été annoncées par Microsoft à l’occasion de sa conférence en ligne Build.
Lors de la conférence Build, organisée pour la première fois en ligne, Microsoft a dévoilé les contours de son nouveau superordinateur, l’un des 5 plus puissants au monde. Il sera capable d’entraîner de nouveaux modèles d’intelligence artificielle et bénéficiera d’une nouvelle infrastructure, moderne et robuste, disponible sur Azure, la plateforme de cloud de la firme américaine. Au niveau de ses caractéristiques techniques, ce superordinateur comporte un système unique avec plus de 285 000 cœurs de processeurs, 10 000 GPU et 400 gigabits par seconde de connectivité réseau pour chaque serveur GPU.
Ce superordinateur a été conçu dans le cadre du partenariat entre Microsoft et OpenAI, une structure lancée par Elon Musk et Sam Altman en 2015 pour faire avancer la recherche sur l’intelligence artificielle. L’objectif de Microsoft : rendre ses grands modèles, ses outils d’optimisation et ses ressources en supercalcul disponibles via les services Azure AI et GitHub afin que les développeurs, les data scientists et les clients de l’entreprise puissent facilement tirer parti de la puissance de l’IA à grande échelle. Ce superordinateur doit permettre d’accélérer ce processus, afin de mettre en place et d’entraîner une nouvelle génération de modèles plus puissants.
Un superordinateur pour répondre aux besoins d’une nouvelle génération d’IA
Si la précédente génération de modèles d’IA a été conçue pour apprendre une tâche simple (traduction d’une langue étrangère, reconnaissance d’objets ou d’un texte pour en identifier les principaux points…), une nouvelle catégorie de modèles développés par la communauté de chercheurs permet désormais d’optimiser ces tâches grâce à un seul modèle plus puissant. Ce type d’intelligence artificielle peut assimiler des nuances de langage, de grammaire, de contexte, mais aussi de nouvelles connaissances ou encore des concepts, tout en réalisant de multiples tâches concrètes : résumer un long discours, modérer du contenu dans des chats de jeu en direct, trouver des passages pertinents dans des milliers de fichiers juridiques ou même générer du code à partir de GitHub.
Grâce à l’amélioration de ces nouveaux modèles, qui peuvent apprendre les nuances du langage en examinant des milliards de pages disponibles sur la toile, ces derniers deviennent de plus en plus performants et peuvent comprendre comment les mots sont reliés entre eux pour mieux en saisir la signification. Cette nouvelle génération a ainsi besoin d’être entraînée avec un volume important de données et de ressources en supercalcul. Microsoft étudie des modèles d’IA à très grande échelle avec des méthodes d’apprentissage prenant en compte du texte, des images et des vidéos. Ces nouvelles avancées devraient permettre d’améliorer le sous-titrage automatique des images pour l’accessibilité dans Office ou encore optimiser les recherches des internautes sur le moteur Bing, en comprenant le contenu des éléments visuels.
Les autres annonces de Microsoft en matière d’intelligence artificielle
La firme américaine a annoncé d’autres nouveautés en matière d’IA lors de sa conférence Build en ligne : Microsoft Turing va être disponible en open source, une nouvelle version de DeepSpeed est lancée et ONNX Runtime va améliorer ses performances grâce à une nouvelle mise à jour.
Les modèles Microsoft Turing prochainement en open source
Dans le cadre de l’initiative AI @ Scale, Microsoft a développé sa propre famille de grands modèles d’IA : Turing-NLG (Turing Natural Language Generation). Il s’agit du plus grand modèle Turing pour la génération de langage naturel avec ses 17 milliards de paramètres, soit deux fois plus que son concurrent Megatron de Nvidia. Ce modèle Turing est notamment utilisé pour améliorer de nombreuses tâches de compréhension de la langue sur Bing, Office, Dynamics et d’autres produits de Microsoft. Le développement de cette nouvelle génération d’IA nécessite de nouvelles infrastructures de supercalcul et un matériel de pointe pour former ces modèles.
La firme américaine va ainsi prochainement ouvrir en open source ses modèles Microsoft Turing, ainsi que des méthodes pour les entraîner dans le programme de machine learning d’Azure. Les développeurs auront ainsi accès à la même famille de modèles que l’entreprise a utilisé pour améliorer la compréhension du langage à travers ses produits.
Une nouvelle version de la bibliothèque DeepSpeed, le moteur ONNX Runtime mis à jour
Parmi les autres annonces, Microsoft lance une nouvelle version de DeepSpeed, sa bibliothèque de deep learning en open source pour PyTorch, qui réduit la quantité de puissance de calcul nécessaire pour la formation de grands modèles d’IA. Selon Microsoft, cette mise à jour sera plus efficace que la précédente version publiée il y a 3 mois. Les utilisateurs pourront former des modèles plus de 15 fois plus grands et 10 fois plus rapidement que s’ils n’utilisaient pas DeepSpeed sur la même infrastructure.
ONNX Runtime (Open Neural Network Exchange), le moteur open source d’inférence hautes performances pour les modèles d’apprentissage automatique, développé en collaboration avec Facebook et Amazon Web Services, bénéficie lui aussi d’une nouvelle mise à jour. Elle ajoute la prise en charge de la formation des modèles, ainsi que l’ajout des optimisations de la bibliothèque DeepSpeed, qui permettent d’améliorer les performances jusqu’à 17 fois par rapport à l’actuel ONNX Runtime.