O novo empreendimento de Yann LeCun é uma aposta contrária aos grandes modelos de linguagem
Inteligência artificial

O novo empreendimento de Yann LeCun é uma aposta contrária aos grandes modelos de linguagem

Em uma entrevista exclusiva, o pioneiro da Inteligência Artificial compartilha seus planos para sua nova empresa sediada em Paris, a AMI Labs

Yann LeCun é um ganhador do Prêmio Turing e um dos principais pesquisadores de Inteligência Artificial, mas, há muito tempo, é uma figura contrária no mundo da tecnologia. Ele acredita que a atual obsessão do setor por grandes modelos de linguagem está no rumo errado e que, no fim das contas, não conseguirá resolver muitos problemas urgentes.

Mini Banner - Assine a MIT Technology Review

Em vez disso, Turing acha que deveríamos apostar em modelos de mundo, um tipo diferente de IA que reflete com precisão a dinâmica do mundo real. Ele também é um defensor ferrenho de código aberto e critica a abordagem fechada de laboratórios de ponta como a OpenAI e a Anthropic.

Talvez não seja surpresa, então, que tenha deixado recentemente a Meta, onde atuava como cientista-chefe do Fundamental AI Research, ou FAIR, o influente laboratório de pesquisa da empresa que ele fundou. A Meta tem tido dificuldades para ganhar muita tração com seu modelo de IA de código aberto, o Llama, e passou por reviravoltas internas, incluindo a controversa aquisição da ScaleAI.

LeCun conversou com a MIT Technology Review em uma entrevista exclusiva on-line, de seu apartamento em Paris, na França, para discutir sua nova empreitada, a vida depois da Meta, o futuro da Inteligência Artificial e porque ele acha que o setor está perseguindo as ideias erradas.

Tanto as perguntas quanto as respostas abaixo foram editadas para maior clareza e concisão.

Você acabou de anunciar uma nova empresa, a Advanced Machine Intelligence (AMI). Fale-me sobre as grandes ideias por trás dela.

Vai ser uma empresa global, mas com sede em Paris. Pronuncia-se “ami”, significa “amigo” em francês. Estou animado. Há uma concentração muito alta de talentos na Europa, mas nem sempre lhes é dado um ambiente adequado para florescer. E, certamente, há uma enorme demanda por parte da indústria e dos governos, por uma empresa de IA de fronteira crível que não seja nem chinesa nem americana. Acho que isso vai ser uma vantagem para nós.

Então é uma alternativa ambiciosa ao binário EUA-China que temos atualmente. O que fez você querer seguir esse terceiro caminho?

Bem, há questões de soberania para muitos países e eles querem algum controle sobre a IA. O que eu estou defendendo é que a IA vai se tornar uma plataforma e a maioria das plataformas tende a se tornar de código aberto. Infelizmente, essa não é exatamente a direção que a indústria americana está tomando. À medida que a concorrência aumenta, eles sentem que precisam ser reservados. Acho que isso é um erro estratégico.

É certamente verdade no caso da OpenAI, que passou de muito aberta para muito fechada, e da Anthropic, que sempre foi fechada. O Google era, de certa forma, um pouco aberto. E, então, a Meta, vamos ver. A minha impressão é que, neste momento, isso não está indo numa direção positiva.

Ao mesmo tempo, a China abraçou completamente essa abordagem aberta. Então todas as principais plataformas de IA de código aberto são chinesas e o resultado é que a academia e as startups, fora dos EUA, basicamente adotaram modelos chineses. Não há nada de errado nisso, sabe, os modelos chineses são bons. Engenheiros e cientistas chineses são excelentes. Mas se houver um futuro em que toda a nossa dieta de informação esteja sendo mediada por assistência de IA e a escolha seja ou modelos de língua inglesa produzidos por empresas proprietárias, sempre próximas dos EUA, ou modelos chineses que podem ser de código aberto, mas precisam ser ajustados para que respondam a perguntas sobre a Praça Tiananmen em 1989, sabe, não é um futuro muito agradável e envolvente.

Eles, os modelos futuros, deveriam poder ser ajustados por qualquer pessoa e produzir uma diversidade muito alta de assistência de IA, com diferentes habilidades linguísticas e sistemas de valores e vieses políticos e centros de interesse. Você precisa de alta diversidade de assistência pela mesma razão que precisa de alta diversidade de imprensa.

Essa é certamente uma proposta convincente. Como os investidores estão acolhendo essa ideia até agora?

Eles gostam muito. Muitos capitalistas de risco são bastante favoráveis a essa ideia de código aberto, porque sabem que, para muitas startups pequenas realmente dependem de modelos de código aberto. Elas não têm meios de treinar o próprio modelo, e é meio perigoso, estrategicamente, para elas adotar um modelo proprietário.

Você deixou recentemente a Meta. Qual é a sua visão sobre a empresa e a liderança de Mark Zuckerberg? Há a percepção de que a Meta desperdiçou sua vantagem em IA.

Acho que o FAIR [o laboratório de LeCun na Meta] foi extremamente bem-sucedido na parte de pesquisa. Onde a Meta foi menos bem-sucedida foi em pegar essa pesquisa e levá-la para tecnologia e produtos práticos. O Mark fez algumas escolhas que achou que eram as melhores para a empresa. Eu posso não ter concordado com todas elas. Por exemplo, o grupo de robótica do FAIR foi dispensado, o que eu acho que foi um erro estratégico. Mas eu não sou o diretor do FAIR. As pessoas tomam decisões racionalmente e não há motivo para ficar chateado.

Então, sem ressentimentos? A Meta poderia ser um cliente futuro da AMI?

A Meta pode ser o nosso primeiro cliente! Vamos ver. O trabalho que estamos fazendo não está em competição direta. Nosso foco em modelos para o mundo físico é bem diferente do foco deles em IA generativa e grandes modelos de linguagem (Large Language Models, ou LLMs).

Você vinha trabalhando com IA muito antes de os LLMs se tornarem uma abordagem dominante. Mas, desde que o ChatGPT se popularizou, eles se tornaram quase sinônimo de IA.

Sim e nós vamos mudar isso. A face pública da IA, talvez, sejam principalmente os LLMs e chatbots de vários tipos. Mas os mais recentes desses não são LLMs puros. Eles são mais um monte de coisas, como sistemas de percepção e código que resolve problemas específicos. Então vamos ver os LLMs como uma espécie de orquestrador em sistemas, um pouco.

Além dos LLMs, há muita IA nos bastidores que move uma grande parte da nossa sociedade. Há programas de assistência à condução em um carro, imagens de ressonância magnética de aquisição rápida, algoritmos que impulsionam as redes sociais. Isso tudo é IA.

Você tem sido franco e direto ao argumentar que os LLMs só podem nos levar até certo ponto. Você acha que eles estão supervalorizados hoje em dia? Pode resumir para nossos leitores por que acredita que os LLMs não são suficientes?

Há um sentido em que eles não foram supervalorizados, no sentido de que são extremamente úteis para muita gente, particularmente, se você escreve texto, faz pesquisa ou escreve código. Os LLMs manipulam linguagem muito bem. Mas as pessoas tiveram essa ilusão, ou delírio, de que é questão de tempo até conseguirmos escalá-los para ter inteligência em nível humano e isso é simplesmente falso.

A parte verdadeiramente difícil é entender o mundo real. Este é o Paradoxo de Moravec (um fenômeno observado pelo cientista da computação Hans Moravec, em 1988): o que é fácil para nós, como percepção e navegação, é difícil para os computadores, e vice-versa. Os LLMs se limitam ao mundo discreto do texto. Eles não conseguem realmente raciocinar ou planejar, porque lhes falta um modelo do mundo. Eles não conseguem prever as consequências de suas ações. É por isso que não temos um robô doméstico tão ágil quanto um gato de casa ou um carro verdadeiramente autônomo.

Vamos ter sistemas de IA com inteligência semelhante à humana e em nível humano, mas eles não vão ser construídos com base em LLMs, e isso não vai acontecer no próximo ano nem em dois anos. Vai levar um tempo. Há grandes avanços conceituais que precisam acontecer antes de termos sistemas de IA com inteligência em nível humano. E é nisso que eu venho trabalhando. E esta empresa, a AMI Labs, está focada na próxima geração.

E a sua solução são os modelos de mundo e a Joint Embedding Predictive Architecture, ou JEPA (em tradução livre, Arquitetura Preditiva de Incorporação Conjunta), que é uma estrutura de aprendizado que treina modelos de IA para entender o mundo, criada por LeCun enquanto ele estava na Meta. Como você pode resumi-la?

O mundo é imprevisível. Se você tentar construir um modelo generativo que preveja cada detalhe do futuro, ele vai falhar. JEPA não é IA Generativa. É um sistema que aprende a representar vídeos muito bem. O essencial é aprender uma representação abstrata do mundo e fazer previsões nesse espaço abstrato, ignorando os detalhes que você não consegue prever. É isso que a JEPA faz. Ela aprende as regras subjacentes do mundo a partir da observação, como um bebê aprendendo sobre a gravidade. Isso é a base do senso comum, e é a chave para construir sistemas verdadeiramente inteligentes que conseguem raciocinar e planejar no mundo real. O trabalho mais empolgante até agora nisso está vindo da academia, não dos grandes laboratórios industriais presos no mundo dos LLMs.

A falta de dados, que não sejam de texto, tem sido um problema para levar os sistemas de IA mais longe na compreensão do mundo físico. A JEPA é treinada em vídeos. Que outros tipos de dados vocês vão usar?

Nossos sistemas vão ser treinados em vídeo, áudio e dados de sensores de todo tipo, não apenas texto. Estamos trabalhando com várias modalidades, da posição de um braço robótico a dados de lidar e a áudio. Eu também estou envolvido em um projeto que usa JEPA para modelar fenômenos físicos e clínicos complexos.

Quais são algumas das aplicações concretas, no mundo real, que você imagina para modelos de mundo?

As aplicações são vastas. Pense em processos industriais complexos em que você tem milhares de sensores, como em um motor a jato, uma usina siderúrgica ou uma fábrica química. Não existe técnica agora para construir um modelo completo e holístico desses sistemas. Um modelo de mundo poderia aprender isso a partir dos dados de sensores e prever como o sistema vai se comportar. Ou pense em óculos inteligentes que podem observar o que você está fazendo, identificar suas ações e, então, prever o que você vai fazer em seguida para ajudar você. Isso é o que finalmente vai tornar sistemas agênticos confiáveis. Um sistema agêntico que deveria realizar ações no mundo não consegue funcionar de forma confiável, a menos que tenha um modelo de mundo para prever as consequências de suas ações. Sem isso, o sistema inevitavelmente vai cometer erros. Esta é a chave para destravar tudo, de robôs domésticos realmente úteis a direção autônoma de Nível 5.

Robôs humanoides têm estado muito em alta recentemente, especialmente os construídos por empresas da China. Qual é a sua visão?

Existem todas essas maneiras de força bruta para contornar as limitações de sistemas de aprendizado, que exigem quantidades desproporcionais de dados de treinamento para fazer qualquer coisa. Então o segredo de todas as empresas conseguirem fazer robôs fazerem kung fu ou dançarem é que isso tudo é planejado com antecedência. Mas, francamente, ninguém, absolutamente ninguém, sabe como tornar esses robôs inteligentes o suficiente para serem úteis. Acredite em mim.

Você precisa de uma quantidade enorme de dados de treinamento por teleoperação para cada tarefa, e, quando o ambiente muda um pouco, isso não generaliza muito bem. O que isso nos diz é que está faltando algo muito grande. A razão pela qual um jovem de 17 anos consegue aprender a dirigir em 20 horas é que ele já sabe muito sobre como o mundo se comporta. Se quisermos um robô doméstico de utilidade geral, precisamos que os sistemas tenham uma espécie de boa compreensão do mundo físico. Isso não vai acontecer até termos bons modelos de mundo e planejamento.

Há um sentimento crescente de que está se tornando mais difícil fazer pesquisa fundamental em IA na academia por causa dos enormes recursos computacionais exigidos. Você acha que as inovações mais importantes agora virão da indústria?

Não. Os LLMs agora são desenvolvimento de tecnologia, não pesquisa. É verdade que é muito difícil para acadêmicos desempenharem um papel importante nisso por causa das exigências de computação, acesso a dados e suporte de engenharia. Mas isso agora é um produto. Não é algo em que a academia sequer deveria estar interessada. É como o reconhecimento de fala no começo da década de 2010, era um problema resolvido, e o progresso estava nas mãos da indústria.

O que a academia deveria estar fazendo é trabalhar em objetivos de longo prazo que vão além das capacidades dos sistemas atuais. É por isso que eu digo às pessoas nas universidades: não trabalhem com LLMs. Não faz sentido. Vocês não vão conseguir rivalizar com o que está acontecendo na indústria. Trabalhem em outra coisa. Inventem novas técnicas. As descobertas não vão vir de escalar os LLMs. O trabalho mais empolgante em modelos de mundo está vindo da academia, não dos grandes laboratórios industriais. A ideia inteira de usar circuitos de atenção em redes neurais saiu da Universidade de Montreal, no Canadá. Aquele artigo de pesquisa deu início a toda a revolução. Agora que as grandes empresas estão se fechando, as descobertas vão desacelerar. A academia precisa de acesso a recursos computacionais, mas deveria estar focada na próxima grande coisa, não em refinar a última.

Você usa muitos chapéus: professor, pesquisador, educador, pensador público… Agora você acabou de assumir mais um. Como isso vai ser para você?

Eu vou ser o presidente executivo da empresa, e o Alex LeBrun [um ex-colega da Meta AI] vai ser o CEO. Vai ser LeCun e LeBrun, é legal se você pronunciar do jeito francês.

Vou manter meu cargo na NYU. Dou uma disciplina por ano, tenho alunos de doutorado e pós-doutores, então vou continuar baseado em Nova York. Mas vou a Paris com bastante frequência por causa do meu laboratório.

Isso significa que você não vai estar muito envolvido diretamente?

Bem, há duas maneiras de estar envolvido diretamente. Uma é gerenciar pessoas no dia a dia, e outra é realmente colocar a mão na massa em projetos de pesquisa, certo?

Eu consigo fazer gestão, mas não gosto de fazer. Essa não é a minha missão de vida. É realmente fazer a ciência e a tecnologia avançarem o máximo que conseguirmos, inspirar outras pessoas a trabalhar em coisas interessantes e, então, contribuir para essas coisas. Então esse tem sido o meu papel na Meta nos últimos sete anos. Eu fundei o FAIR e o liderei por quatro a cinco anos. Eu meio que odiei ser diretor. Eu não sou bom nessa coisa de gestão de carreira. Eu sou muito mais visionário e cientista.

O que faz do Alex LeBrun a escolha certa?

Alex é um empreendedor em série, ele construiu três empresas de IA bem-sucedidas. A primeira ele vendeu para a Microsoft, a segunda para o Facebook, onde ele foi chefe da divisão de engenharia do FAIR em Paris. Depois ele saiu para criar a Nabla, uma empresa muito bem-sucedida na área de saúde. Quando eu lhe ofereci a chance de se juntar a mim nesse esforço, ele aceitou quase imediatamente. Ele tem a experiência para construir a empresa, o que me permite focar em ciência e tecnologia.

Vocês têm sede em Paris. Onde mais vocês planejam ter escritórios?

Somos uma empresa global. Vai haver um escritório na América do Norte.

Nova York, espero?

Nova York é ótima. É onde eu estou, certo? E não é o Vale do Silício. O Vale do Silício é um pouco uma monocultura.

E a Ásia? Estou imaginando Singapura também?

Provavelmente, sim. Vou deixar você adivinhar.

E como vocês estão atraindo talentos?

Não temos nenhum problema para recrutar. Há muitas pessoas na comunidade de pesquisa em IA que acham que o futuro da IA está em modelos de mundo. Essas pessoas, independentemente do pacote de remuneração, vão se sentir motivadas a vir trabalhar para nós porque acreditam no futuro tecnológico que estamos construindo. Já recrutamos pessoas de lugares como OpenAI, Google DeepMind e xAI.

Ouvi dizer que o Saining Xie, um pesquisador proeminente da NYU, nos Estados Unidos, e do Google DeepMind, pode se juntar a vocês como cientista-chefe. Algum comentário?

Saining é um pesquisador brilhante. Tenho muita admiração por ele. Eu já o contratei duas vezes. Eu o contratei no FAIR, e convenci meus colegas na NYU de que deveríamos contratá-lo lá. Vamos apenas dizer que tenho muito respeito por ele.

Quando vocês estarão prontos para compartilhar mais detalhes sobre a AMI Labs, como apoio financeiro ou outros membros centrais?

Em breve. Eu aviso você.

Último vídeo

Nossos tópicos