De acordo com um novo artigo do Laboratório de Inteligência Artificial (IA) da empresa DeepMind, parte do conglomerado Alphabet, o truque para fazer um bom chatbot baseado em IA talvez seja ter seres humanos dizendo para ele como deve se comportar, forçando o modelo a sustentar suas alegações usando a internet.
Em um artigo sem revisão por pares publicado no final de setembro, o time apresenta o Sparrow, um chatbot de IA treinado com o grande modelo de linguagem Chinchila, desenvolvido pela DeepMind.
O Sparrow é projetado para conversar com seres humanos e responder perguntas pesquisando em tempo real no Google para fundamentar suas respostas. Dependendo do quão útil as pessoas acharam suas devolutivas, ele é então treinado usando um algoritmo de reinforcement learning, o qual aprende por tentativa e erro até alcançar um objetivo específico. Esse sistema é planejado para ser um progresso em direção ao desenvolvimento de IA que consiga conversar com seres humanos sem consequências perigosas, tais quais encorajar pessoas a causar danos a terceiros ou a si mesmas.
Grandes modelos de linguagem geram textos semelhantes a algo que um ser humano escreveria. Eles são cada vez mais uma parte crucial da infraestrutura da internet, sendo usados para resumir textos, construir ferramentas de pesquisa on-line mais avançadas, ou como chatbots de atendimento a clientes.
No entanto, eles são treinados capturando quantidades vastas de dados e textos vindos da internet, os quais inevitavelmente refletem diversos preconceitos nocivos. Apenas um pequeno empurrão é necessário para que comecem a gerar conteúdo tóxico ou discriminatório. Em uma IA cujo desenvolvimento é para ter conversas com humanos, os resultados podem ser desastrosos. Uma IA conversacional sem medidas apropriadas de segurança em prática pode fazer comentários ofensivos sobre minorias étnicas ou sugerir que pessoas bebam alvejante, por exemplo. Empresas de IA que esperam desenvolver tais sistemas de conversa já usaram de diversas técnicas para tornar seus modelos mais seguros.
A OpenAI, criadora do famoso grande modelo de linguagem GPT-3, e a startup na área de IA, a Anthropic, tem usado reinforcement learning para incorporar preferências humanas em seus respectivos modelos. Enquanto que o chatbot por IA do Facebook, BlenderBot, usa de pesquisa on-line para embasar suas respostas.
O Sparrow, da DeepMind, junta todas essas técnicas em um único modelo.
A DeepMind exibiu para participantes humanos diversas respostas que o modelo havia dado para as mesmas perguntas para saber quais eles mais haviam gostado. Eles então foram solicitados a determinar se acharam as respostas plausíveis, e se o Sparrow tinha as sustentado com a devida evidência, tal como links para fontes. O modelo apresentou respostas plausíveis para perguntas factuais em 78% das vezes, usando comprovações que também haviam sido extraídas da internet.
Ao formular essas respostas, ele seguiu 23 regras determinadas pelos pesquisadores, tais quais não oferecer conselhos financeiros, fazer ameaças, ou afirmar ser uma pessoa.
A diferença entre essa abordagem e as anteriores é que a DeepMind espera usar “diálogo a longo prazo com segurança,” diz Geoffry Irving, pesquisador na área de segurança da DeepMind.
“Isso não significa que supomos que os problemas encontrados nesses modelos como a desinformação, estereótipos ou qualquer outro, serão óbvios à primeira vista. Queremos discutir sobre eles em detalhes. E isso também significa uma análise entre a relação de máquinas e humanos,” diz ele.
A ideia da DeepMind de usar preferências humanas para otimizar o aprendizado de um modelo de IA não é nova, diz Sara Hooker, diretora do laboratório sem fins lucrativos Cohere for AI.
“Mas as melhorias de agentes digitais de diálogo são convincentes e mostram as claras vantagens da otimização guiada por um ser humano em um contexto de grande modelo de linguagem,” diz Hooker.
Douwe Kiela, pesquisador da startup Hugging Face, diz que o Sparrow é “um bom próximo passo na escada da tendência atual da IA, aonde estamos tentando mais seriamente aprimorar os aspectos de segurança na implementação de grandes modelos de linguagem”.
Mas ainda há muito trabalho a se fazer antes que estes modelos conversacionais de IA possam ser lançados ao público.
O Sparrow ainda comete erros. O modelo às vezes sai do tópico da conversa ou cria respostas aleatórias. Alguns participantes obstinados também conseguiram fazer o modelo quebrar as regras em 8% das vezes. (Isso ainda é uma melhoria quando comparamos com modelos mais antigos: os modelos anteriores da DeepMind quebravam as regras com uma frequência três vezes maior que o Sparrow.)
“Em áreas onde uma resposta de um agente digital pode causar um grande dano ao ser humano, tal como oferecer orientação médica ou financeira, para muitos, isso pode ainda parecer como uma taxa de erros inaceitavelmente alta,” diz Hooker. O projeto também é construído baseado em um modelo de língua inglesa, “sendo que vivemos em um mundo onde a tecnologia tem que atender a muitas línguas diferentes, de forma segura e responsável,” adiciona ela.
E Kiela ressalta outro problema: “Depender do Google para a busca de informações leva a vieses desconhecidos que são difíceis de identificar, já que tudo possui código fechado”.