Quando a Meta lançou o Galactica, um grande modelo de linguagem de código aberto projetado para ajudar cientistas, a empresa esperava limpar sua imagem após sofrer com as críticas sobre seus altos investimentos no metaverso e sobre suas recentes demissões em massa. Ao invés disso, tudo o que ela conseguiu foram reclamações no Twitter e uma postagem um tanto intensa no blog de um de seus críticos mais ferrenhos. No final, ela decidiu vergonhosamente por retirar de circulação a demonstração pública do modelo depois de apenas três dias.
De acordo com a Meta, o Galactica pode “resumir trabalhos acadêmicos, resolver problemas matemáticos, gerar artigos no Wikipédia, escrever programação científica, fazer anotações moleculares e proteicas e muito mais”. Mas logo após seu lançamento, foi muito fácil para usuários induzirem o modelo a criar “pesquisas científicas” sobre os benefícios da homofobia, antissemitismo, suicídio, comer vidro, ser branco ou ser homem. Enquanto isso, artigos sobre Aids ou racismo estavam bloqueados pelo modelo de linguagem. Que encantador!
Como meu colega Will Douglas Heaven fala em seu artigo sobre este fiasco: “O passo em falso da Meta, e sua arrogância, revela mais uma vez que as grandes empresas de tecnologia têm um ponto cego quanto às graves limitações dos grandes modelos de linguagem”.
O lançamento do Galactica não foi somente prematuro, mas também mostrou que as tentativas dos pesquisadores para tornar os grandes modelos de linguagem mais seguros não têm sido o suficiente.
A Meta pode estar confiante de que o Galactica superou os competidores quanto à geração de conteúdo que pareça científico. Mas o próprio teste realizado com o modelo em busca de vieses preconceituosos e autenticidade deveria ter impedido a empresa de disponibilizá-lo ao público.
Um método comum que os pesquisadores usam para tornar os grandes modelos de linguagem menos propensos a gerar conteúdo tóxico é filtrar certas palavras-chave. No entanto, é difícil criar um filtro que seja capaz de capturar todas as diversas maneiras pelas quais os humanos conseguem ser desagradáveis. A empresa teria evitado inúmeros problemas se tivesse conduzido mais testes contraditórios com o Galactica, nos quais os pesquisadores tentam fazê-lo vomitar a maior quantidade possível de resultados tendenciosos diferentes.
Os pesquisadores da Meta avaliaram o modelo quanto a vieses e sua autenticidade. Embora ele tenha um desempenho um pouco melhor do que os concorrentes, como o GPT-3 e o próprio modelo OPT da Meta, o Galactica forneceu muitas respostas tendenciosas ou incorretas. E também há várias outras limitações. O modelo é treinado com fontes científicas de livre acesso, porém muitos artigos científicos e livros didáticos são restritos a acessos pagos. Inevitavelmente, isto leva o Galactica a usar fontes secundárias mais suspeitas.
O Galactica também parece ser um exemplo de algo que realmente não precisamos que a Inteligência Artificial (IA) faça. Não parece que atingiria o objetivo indicado pela Meta de ajudar os cientistas a trabalhar mais rapidamente. Na realidade, isto exigiria que eles tivessem um trabalho adicional muito maior para verificar se as informações do modelo são precisas ou não.
É realmente decepcionante (mas mesmo assim nada surpreendente) ver grandes laboratórios de IA, que deveriam ter mais juízo, exaltarem essas tecnologias falhas. Sabemos que os modelos de linguagem tendem a reproduzir preconceitos e declarar mentiras como fatos. Sabemos que eles podem “alucinar” ou inventar conteúdo, tais quais artigos do Wikipédia sobre a história dos ursos no espaço. Mas o fracasso foi pelo menos útil para uma coisa. Isso nos lembrou que a única coisa que os grandes modelos de linguagem “sabem” com certeza é como as palavras e as frases são formadas. Todo o resto é especulação.
Um aprendizado ainda mais profundo
Assista a este cão-robô a andar por terrenos complexos usando apenas sua câmera.
Uma nova técnica desenvolvida por equipes da Carnegie Mellon e Berkeley (ambas nos EUA) poderia eventualmente ajudar os robôs a se tornarem mais úteis, melhorando sua navegação em terrenos complexos, como degraus e piso irregular.
Ao contrário de outros robôs, que tendem a depender profundamente de um mapa integrado para se locomover, este robô usa uma combinação de câmeras e reinforcement learning. A aplicação desta técnica em outros robôs poderia ajudar a torná-los mais eficientes, pois não seriam limitados a possíveis erros em um mapa.
Por que isso é importante: o trabalho destes pesquisadores pode facilitar as tentativas de tirarmos os robôs dos laboratórios e fazê-los se movimentarem mais livremente no mundo real. Leia meu artigo aqui.
Bits e Bytes
A Stanford estudou 30 grande modelos de linguagem para que você não precise.
O Center for Research on Foundation Models da Universidade de Stanford (EUA) combinou várias métricas diferentes em um grande benchmark holístico que avalia a precisão, calibração, robustez, imparcialidade, viés, toxicidade e eficiência de grandes modelos de linguagem. Fiquei surpresa ao ver que modelos maiores não ofereciam necessariamente um melhor desempenho. (Stanford)
A Itália proibiu a tecnologia de reconhecimento facial na maioria das situações
Pelo menos até o final do ano que vem, o país proibiu o uso de reconhecimento facial, a menos que seja para combater o crime. A proibição é semelhante ao que a União Europeia está considerando fazer com a sua Lei da IA, seu futuro regulamento. (Reuters)
Trabalhadores informais na Índia estão se unindo para retomar o controle de suas vidas dos algoritmos
Uma ótima história sobre como os trabalhadores informais estão encontrando maneiras de manipular os algoritmos que governam suas vidas profissionais a seu favor, para variar um pouco. (Rest of World)
A verdade assustadora sobre os direitos autorais da IA é que ninguém sabe o que acontecerá em seguida
As leis sobre direitos autorais precisarão se ajustar rapidamente à medida que a IA de criação de imagens se torna ainda mais onipresente. Este artigo expõe as tensões e armadilhas enfrentadas pela indústria. (The Verge)