Um novo modelo de IA de código aberto pequeno tem desempenho tão bom quanto os grandes e poderosos
Inteligência artificial

Um novo modelo de IA de código aberto pequeno tem desempenho tão bom quanto os grandes e poderosos

Os resultados sugerem que treinar modelos com menos dados, mas de maior qualidade, pode reduzir os custos de computação.

O que você encontrará neste artigo:

Eficiência de dados e treinamento de alta qualidade
Demonstração e capacidade de “apontar” para elementos visuais
Impacto do código aberto e futuro das aplicações

O Allen Institute for Artificial Intelligence (Ai2), uma organização de pesquisa sem fins lucrativos, está lançando uma família de modelos de linguagem multimodais de código aberto, chamada Molmo, que, segundo a organização, tem desempenho tão bom quanto os principais modelos proprietários da OpenAI, Google e Anthropic.

A organização afirma que seu maior modelo Molmo, com 72 bilhões de parâmetros, supera o GPT-4o da OpenAI, que é estimado ter mais de um trilhão de parâmetros, em testes que medem habilidades como compreensão de imagens, gráficos e documentos. Ao mesmo tempo, o Ai2 afirma que um modelo Molmo menor, com 7 bilhões de parâmetros, se aproxima do desempenho do modelo de ponta da OpenAI, um feito que atribui a métodos muito mais eficientes de coleta e treinamento de dados.

O que o Molmo demonstra é que o desenvolvimento de IA de código aberto está agora no mesmo nível dos modelos fechados e proprietários, diz Ali Farhadi, CEO do Ai2. E os modelos de código aberto têm uma vantagem significativa, já que sua natureza aberta permite que outras pessoas construam aplicações sobre eles. A demonstração do Molmo está disponível, e em breve os desenvolvedores poderão explorá-la no site Hugging Face. (Certos elementos do modelo Molmo mais poderoso ainda estão protegidos de acesso público.)

Outros grandes modelos de linguagem multimodal são treinados em vastos conjuntos de dados contendo bilhões de imagens e amostras de texto coletadas indiscriminadamente da internet, e podem incluir vários trilhões de parâmetros. Esse processo introduz muito ruído nos dados de treinamento, resultando em alucinações, diz Ani Kembhavi, diretor sênior de pesquisa do Ai2. Em contraste, os modelos Molmo do Ai2 foram treinados em um conjunto de dados significativamente menor e mais cuidadosamente selecionado, contendo apenas 600.000 imagens, e têm entre 1 bilhão e 72 bilhões de parâmetros. Esse foco em dados de alta qualidade, em vez de dados coletados de forma indiscriminada, levou a um bom desempenho com muito menos recursos, afirma Kembhavi.

O Ai2 conseguiu isso ao instruir anotadores humanos a descreverem as imagens no conjunto de dados de treinamento em detalhes excruciantes ao longo de várias páginas de texto. Eles pediram aos anotadores que descrevessem o que viam em vez de digitarem. Depois, usaram técnicas de IA para converter essas descrições faladas em dados, o que acelerou o processo de treinamento e reduziu a potência computacional necessária. Essas técnicas podem se mostrar realmente úteis se quisermos controlar de maneira significativa os dados que usamos no desenvolvimento de IA, diz Yacine Jernite, líder de aprendizado de máquina e sociedade na Hugging Face, que não participou da pesquisa.

“Faz sentido que, em geral, treinar com dados de maior qualidade possa reduzir os custos de computação”, diz Percy Liang, diretor do Stanford Center for Research on Foundation Models, que também não participou da pesquisa. Outra capacidade impressionante do modelo é que ele pode “apontar” para coisas, o que significa que pode analisar elementos de uma imagem identificando os pixels que respondem às consultas.
Em uma demonstração compartilhada com a MIT Technology Review, os pesquisadores do Ai2 tiraram uma foto do lado de fora de seu escritório, mostrando a marina local em Seattle, e pediram ao modelo que identificasse vários elementos da imagem, como cadeiras de praia. O modelo descreveu com sucesso o que a imagem continha, contou as cadeiras e apontou corretamente para outros elementos da imagem conforme os pesquisadores solicitavam. No entanto, ele não foi perfeito. Não conseguiu localizar um estacionamento específico, por exemplo.

Outros modelos avançados de IA são bons em descrever cenas e imagens, diz Farhadi. Mas isso não é o suficiente quando se deseja construir agentes web mais sofisticados que possam interagir com o mundo e, por exemplo, reservar um voo. A capacidade de “apontar” permite que as pessoas interajam com interfaces de usuário, afirma. Jernite diz que o Ai2 está operando com um grau de abertura maior do que o que vimos em outras empresas de IA. E, embora o Molmo seja um bom começo, ele afirma que seu verdadeiro significado estará nas aplicações que os desenvolvedores construirão com base nele e nas maneiras como as pessoas o melhorarão. Farhadi concorda.

Empresas de IA atraíram investimentos massivos de trilhões de dólares nos últimos anos. Mas, nos últimos meses, investidores têm expressado ceticismo sobre se esses investimentos trarão retornos. Modelos proprietários grandes e caros não farão isso, ele argumenta, mas os de código aberto podem. Ele afirma que o trabalho mostra que a IA de código aberto também pode ser construída de maneira a fazer uso eficiente de dinheiro e tempo. “Estamos empolgados em capacitar outros e ver o que eles construirão com isso”, diz Farhadi.

Por:

Melissa é repórter sênior da MIT Technology Review, cobrindo assuntos ligados à Inteligência Artificial e como ela está mudando nossa sociedade.

Último vídeo

Nossos tópicos