LLaVA 1.5 : Une alternative open source à GPT-4 Vision

Le domaine de l’intelligence artificielle générative connaît une révolution avec l’émergence des grands modèles multimodaux (LMM), tels que GPT-4 Vision d’OpenAI. Ces modèles transforment notre interaction avec les systèmes d’IA en intégrant des textes et des images.

Cependant, la nature fermée et commerciale de certaines de ces technologies peut freiner leur adoption universelle. C’est là qu’intervient la communauté open source, propulsant le modèle LLaVA 1.5 comme une alternative prometteuse à GPT-4 Vision.

La mécanique des LMM

Les LMM fonctionnent grâce à une architecture multicouche. Ils combinent un modèle pré-entraîné pour coder les éléments visuels, un grand modèle de langage (LLM) pour décrypter et répondre aux instructions de l’utilisateur, et un connecteur multimodal pour relier la vision et le langage.

Leur formation se déroule en deux étapes : un premier round d’alignement vision-langage, suivi d’un réglage fin pour répondre aux requêtes visuelles. Ce processus, bien qu’efficace, demande souvent beaucoup de ressources computationnelles et nécessite une base de données riche et précise.

Les atouts de LLaVA 1.5

LLaVA 1.5 s’appuie sur le modèle CLIP pour l’encodage visuel et Vicuna pour le langage. Le modèle original, LLaVA, utilisait les versions texte de ChatGPT et GPT-4 pour le réglage visuel, générant ainsi 158 000 exemples d’entraînement.

LLaVA 1.5 va plus loin en connectant le modèle de langage et l’encodeur visuel via un perceptron multicouche (MLP), enrichissant sa base de données d’entraînement avec des questions-réponses visuelles. Cette mise à jour, qui comprend environ 600 000 exemples, a permis à LLaVA 1.5 de surpasser d’autres LMM open source sur 11 des 12 benchmarks multimodaux.

L’avenir des LMM open source

La démonstration en ligne de LLaVA 1.5, accessible à tous, présente des résultats prometteurs, même avec un budget limité. Cependant, une mise en garde subsiste : l’utilisation des données générées par ChatGPT limite son utilisation à des fins non commerciales.

Malgré cette limitation, LLaVA 1.5 ouvre une fenêtre sur l’avenir des LMM open source. Sa rentabilité, sa scalabilité dans la génération de données d’entraînement et son efficacité dans le réglage des instructions visuelles en font un prélude aux innovations à venir.

LLaVA 1.5 n’est que le premier pas vers une mélodie qui résonnera au rythme des avancées de la communauté open source. En anticipant des modèles plus efficaces et accessibles, nous pouvons envisager un avenir où la technologie de l’IA générative sera accessible à tous, dévoilant ainsi le potentiel illimité de l’intelligence artificielle.