Grok : le chatbot de X peut désormais analyser des images

Encore en phase expérimentale, l’agent conversationnel de X (Twitter) se dote d’un nouveau modèle, qui lui permet de comprendre et d’analyser des images.

Il est toujours obligatoire de souscrire à une offre payante de X pour accéder à Grok. © Tada Images - stock.adobe.com

Dans un blog post, la société xAI, fondée par Elon Musk, annonce le déploiement progressif de Grok-1.5V, son « modèle multimodal de première génération ». Celui-ci permettra notamment à son agent conversationnel Grok, dévoilé en novembre dernier, de bénéficier d’une fonctionnalité de traitement et d’analyse des images, à l’instar de ChatGPT qu’il aspire à concurrencer.

Grok devient capable de traiter une large variété d’informations visuelles

Bientôt disponible pour les testeurs et les utilisateurs de Grok, cette nouvelle itération du modèle offre au chatbot la possibilité de « traiter une large variété d’informations visuelles, dont des documents, des diagrammes, des captures d’écran et des photographies », annonce d’emblée xAI dans sa note de blog. L’objectif de cette nouvelle version est d’améliorer la capacité de l’agent conversationnel à « comprendre le monde physique », explique la société qui a adopté, comme MistralAI, un modèle open source en rendant public Grok-1, la version précédente du modèle de langage, courant mars.

Grâce à ses nouvelles capacités de traitement et d’analyse des images, Grok devient, par exemple, en mesure d’imaginer une histoire à partir d’un dessin réalisé par un enfant, d’expliquer la signification d’un mème ou de rédiger du code à partir d’un diagramme. Et selon sa société créatrice, Grok excellerait particulièrement dans ce domaine. Mieux : il supplanterait ses concurrents disposant de la même capacité, comme ChatGPT avec GPT-4.

Grok-traitement-image-exemple — Même en s’appuyant sur un dessin, Grok est capable de concevoir un récit. © xAI/Montage BDM

Pour l’affirmer, xAI s’appuie sur RealWorldQA, un benchmark développé en interne et « conçu pour évaluer les capacités de compréhension spatiale des modèles multimodaux ». Comme le montre la capture d’écran ci-dessous, le principe de RealWorldQA est simple : xAI présente une photographie, choisie parmi un échantillon de 700 images, à chaque modèle disponible sur le marché de l’IA. Puis, une question dont la réponse « est facilement vérifiable » est posée. Grok aurait, d’après l’entreprise, obtenu 68,7 % de bonnes réponses, contre 61,4 % pour GPT-4.

Grok surpasse ses concurrents dans notre nouveau benchmark RealWorldQA, qui évalue la compréhension spatiale dans le monde réel, se félicite xAI.

xAI a posé une série de questions à chaque modèle, afin d’évaluer leur compréhension du monde réel. © xAI/Montage BDM

Un chatbot toujours partiellement inaccessible

Cette capacité de traitement de l’image, introduite plus tardivement que chez ses concurrents, permettra-t-elle à Grok de générer plus d’intérêt ? Particulièrement lié à X, dont il a accès aux données en temps réel, Grok ne peut être utilisé que par les utilisateurs ayant souscrit à Premium +, l’offre la plus coûteuse de la plateforme. Mais il est possible que xAI, et surtout son propriétaire Elon Musk, envisagent désormais un déploiement plus large. Une décision récente de X appuie cette hypothèse : depuis le début du mois d’avril, les offres Premium et Premium +, comprenant l’accès à la version expérimentale de Grok, sont offertes gratuitement aux comptes influents.