As alternativas de código aberto ao GPT-4 Vision estão chegando

O panorama da inteligência artificial generativa está evoluindo rapidamente com o advento de grandes modelos multimodais (LMM). Esses modelos estão transformando a forma como interagimos com os sistemas de IA, permitindo-nos usar imagens e texto como entrada. O GPT-4 Vision da OpenAI é um exemplo importante dessa tecnologia, mas sua natureza comercial e de código fechado pode limitar seu uso em certas aplicações.

No entanto, a comunidade de código aberto está à altura do desafio, com o LLaVA 1.5 emergindo como um modelo promissor para alternativas de código aberto à Visão GPT-4.

LLaVA 1.5 combina vários componentes generativos de IA e foi ajustado para criar um modelo eficiente em computação que executa várias tarefas com alta precisão. Embora não seja o único LMM de código aberto, sua eficiência computacional e alto desempenho podem definir uma nova direção para o futuro da pesquisa em LMM.

Como funcionam os LMMs

LMMs normalmente empregam uma arquitetura composta de vários componentes pré-existentes: um modelo pré-treinado para codificar recursos visuais, um modelo de linguagem grande (LLM) pré-treinado para entender as instruções do usuário e gerar respostas, e um conector cross-modal de linguagem de visão para alinhar o codificador de visão e o modelo de linguagem.

Treinar um LMM que segue instruções geralmente envolve um processo de duas etapas. O primeiro estágio, pré-treinamento de alinhamento visão-linguagem, usa pares imagem-texto para alinhar os recursos visuais com o espaço de incorporação de palavras do modelo de linguagem. O segundo estágio, ajuste de instrução visual, permite que o modelo siga e responda a instruções que envolvem conteúdo visual. Este estágio costuma ser desafiador devido à sua natureza de uso intensivo de computação e à necessidade de um grande conjunto de dados de exemplos cuidadosamente selecionados.

O que torna o LLaVA eficiente?

LLaVA 1.5 usa um modelo CLIP (Contrastive Language–Image Pre-training) como codificador visual. Desenvolvido pela OpenAI em 2021, o CLIP aprende a associar imagens e texto treinando em um grande conjunto de dados de pares imagem-descrição. É usado em modelos avançados de texto para imagem, como DALL-E 2.

O modelo de linguagem do LLaVA é Vicuna, uma versão do modelo LLaMA de código aberto do Meta ajustado para seguir instruções. O modelo LLaVA original usou as versões somente texto do ChatGPT e GPT-4 para gerar dados de treinamento para ajuste visual. Os pesquisadores forneceram ao LLM descrições e metadados de imagens, solicitando-o a criar conversas, perguntas, respostas e problemas de raciocínio com base no conteúdo da imagem. Este método gerou 158.000 exemplos de treinamento para treinar o LLaVA para instruções visuais e provou ser muito eficaz.

O LLaVA 1.5 melhora o original conectando o modelo de linguagem e o codificador de visão por meio de um perceptron multicamadas (MLP), um modelo simples de aprendizado profundo onde todos os neurônios estão totalmente conectados. Os pesquisadores também adicionaram vários conjuntos de dados visuais de resposta a perguntas de código aberto aos dados de treinamento, dimensionaram a resolução da imagem de entrada e coletaram dados do ShareGPT, uma plataforma online onde os usuários podem compartilhar suas conversas com o ChatGPT. Todos os dados de treinamento consistiram em cerca de 600.000 exemplos e levaram cerca de um dia em oito GPUs A100, custando apenas algumas centenas de dólares.
De acordo com os pesquisadores, o LLaVA 1.5 supera outros LMMs de código aberto em 11 dos 12 benchmarks multimodais. (Vale a pena notar que medir o desempenho dos LMMs é complicadoe os benchmarks podem não refletir necessariamente o desempenho em aplicações do mundo real.)

LLaVA 1.5 supera outros LMMs de código aberto em 11 benchmarks multimodais (Crédito da imagem: arxiv.org)

LLaVA 1.5 supera outros LMMs de código aberto em 11 benchmarks multimodais (Crédito da imagem: arxiv.org)

O futuro dos LLMs de código aberto

Uma demonstração online do LLaVA 1.5 está disponível, apresentando resultados impressionantes de um modelo pequeno que pode ser treinado e executado com um orçamento apertado. O código e o conjunto de dados também são acessíveis, incentivando maior desenvolvimento e personalização. Os usuários estão compartilhando exemplos interessantes onde o LLaVA 1.5 é capaz de lidar com prompts complexos.

No entanto, o LLaVA 1.5 traz uma ressalva. Por ter sido treinado com base em dados gerados pelo ChatGPT, não pode ser utilizado para fins comerciais devido aos termos de uso do ChatGPT, que impedem que desenvolvedores o utilizem para treinar modelos comerciais concorrentes. 

A criação de um produto de IA também traz muitos desafios além do treinamento de um modelo, e o LLaVA ainda não é um concorrente contra o GPT-4V, que é conveniente, fácil de usar e integrado com outras ferramentas OpenAI, como DALL-E 3 e plug-ins externos .

No entanto, o LLaVA 1.5 possui vários recursos atraentes, incluindo sua relação custo-benefício e a escalabilidade de geração de dados de treinamento para ajuste de instrução visual com LLMs. Várias alternativas ChatGPT de código aberto podem servir a esse propósito, e é apenas uma questão de tempo até que outros repliquem o sucesso do LLaVA 1.5 e o levem em novas direções, incluindo licenciamento permissivo e modelos específicos de aplicativos.

LLaVA 1.5 é apenas um vislumbre do que podemos esperar nos próximos meses em LMMs de código aberto. À medida que a comunidade de código aberto continua a inovar, podemos antecipar modelos mais eficientes e acessíveis que democratizarão ainda mais a nova onda de tecnologias generativas de IA.

Fonte: Venturebeat

Deixe seu comentário