NExT-GPT : la nouvelle génération de l’IA multimodale en open source

Temps de lecture : 2 minutes

Dans un secteur technologique en pleine expansion où des entreprises comme OpenAI et Google dominent, NExT-GPT, un modèle de langage IA multimodal en open source, se positionne comme un sérieux concurrent. Fruit d’une collaboration entre la National University of Singapore et l’Université Tsinghua, NExT-GPT est capable de traiter et générer des combinaisons de texte, d’images, d’audio et de vidéo.

L’équipe qui a développé NExT-GPT présente ce système comme étant très polyvalent, capable d’accepter des entrées sous n’importe quelle forme pour fournir des réponses appropriées. Ceci pourrait mener à des améliorations considérables similaires à celles observées avec Stable Diffusion par rapport à sa version initiale.

Un fonctionnement basé sur la conversion et l’adaptation

Selon l’article de recherche décrivant ce modèle, des modules séparés sont utilisés pour convertir les entrées telles que les images et l’audio en représentations textuelles pouvant être traitées par le modèle linguistique principal. Le modèle de langage génère ensuite un texte de réponse accompagné de tokens spéciaux de signalisation qui déclenchent la génération dans d’autres modalités.

L’utilisation de tokens spécifiques pour chaque modalité d’entrée et de sortie permet une conversion flexible entre toutes les combinaisons de modalités. Différents décodeurs sont utilisés pour générer des sorties pour chaque modalité : Stable Diffusion pour les images, AudioLDM pour l’audio et Zeroscope pour la vidéo.

NExT-GPT face aux autres produits multimodaux

Alors que des entreprises majeures comme Google et OpenAI lancent leurs propres produits IA multimodaux, NExT-GPT offre une alternative en open source qui permet aux créateurs de construire sur cette base. En rendant NExT-GPT libre d’accès, les chercheurs fournissent une plateforme à la communauté pour faire progresser les capacités de l’IA encore plus loin.

Liste des avantages du modèle NExT-GPT :

  • Open source : offre la possibilité de personnaliser et adapter le modèle selon les besoins spécifiques de chaque projet
  • Multimodal : prend en charge une variété de formats tels que le texte, les images, l’audio et la vidéo
  • Flexible : facilite la conversion entre différentes combinaisons de modalités grâce à un système de tokens
  • Efficace : utilise des décodeurs séparés pour chaque type de sortie afin d’optimiser les performances
  • Innovant : contribue à faire avancer la recherche en IA en offrant une plateforme ouverte à la communauté scientifique

Potentialités et perspectives d’avenir du NExT-GPT

En s’appuyant sur les technologies multimodales et l’open source, NExT-GPT possède un potentiel énorme pour révolutionner le marché de l’intelligence artificielle. Les applications possibles sont vastes, allant du traitement automatique des médias à la génération de contenu interactif, en passant par l’amélioration des interfaces utilisateur.

Les chercheurs espèrent que cette initiative encouragera une collaboration accrue entre universités et entreprises pour l’exploration d’une IA multimodale en open source.

NExT-GPT représente une avancée majeure dans le domaine de l’IA multimodale. Sa nature open source permettra sans aucun doute aux chercheurs et aux développeurs du monde entier de pousser encore plus loin les limites de l’intelligence artificielle et d’ainsi contribuer à une amélioration et une démocratisation de ces technologies.

Au-delà de ChatGPT, NExT-GPT est un modèle puissant pour maîtriser l’IA avec de l’audio, de la vidéo et du texte, et promet d’enrichir davantage les applications innovantes dans le domaine.

Sommaire

Sois au courant des dernières actus !

Inscris-toi à notre newsletter pour recevoir toute l’actu crypto directement dans ta boîte mail

Envie d’écrire un article ?

Rédigez votre article et soumettez-le à l’équipe coinaute. On prendra le temps de le lire et peut-être même de le publier !

Articles similaires

coinaute

GRATUIT
VOIR