A corrida pelo Processamento de Linguagem Natural
Humanos e tecnologia

A corrida pelo Processamento de Linguagem Natural

Estamos próximos de um momento divisor de águas, no qual a linguagem pode deixar de ser exclusividade dos seres humanos e passar a integrar nossas conversas com computadores, máquinas e objetos.

Normalmente, não paramos para pensar em como adquirimos e desenvolvemos a linguagem e a importância que ela tem em nossas vidas e para a sociedade. A linguagem humana é uma das ferramentas mais complexas que nos distingue de outros seres vivos e vem sendo estudada há séculos nos campos filosófico e científico. Estamos próximos de um momento seminal, divisor de águas, no qual a linguagem pode deixar de ser exclusividade dos seres humanos e passar a fazer parte de nossas interações com os computadores, máquinas e objetos, assim como fazemos de pessoa para pessoa, há milhares de anos. As implicações e ramificações dessa quebra de paradigma são inimagináveis e o prêmio para quem chegar primeiro às melhores soluções é incalculável.

Contexto histórico

Talvez um dos mais importantes cientistas e filósofos da Linguística ― área científica que estuda a linguagem humana ― seja o francês Ferdinand de Saussure, que, na primeira década de 1900, desenvolveu pesquisas na Universidade de Genebra descrevendo a linguagem como um sistema.

Segundo artigo do pesquisador, escritor e consultor de temas como Inteligência Artificial e aprendizado de máquina, Keith D. Foote, Saussure “desenvolveu uma abordagem descrevendo as línguas como ‘sistemas’. Dentro da linguagem, um som representa um conceito — um conceito que muda o significado à medida que o contexto muda. Ele argumentou que o significado é criado dentro da língua, nas relações e diferenças entre suas partes. Um sistema de linguagem compartilhado é o que torna a comunicação possível.”, descreve Foote. “Saussure via a sociedade como um sistema de normas sociais ‘compartilhadas’ que proporciona condições razoáveis de pensamento ‘estendido’, resultando em decisões e ações individuais. (Esse mesmo raciocínio pode ser aplicado para as linguagens modernas de computação)”, completa.

Assim, fica claro que a linguagem é muito mais complexa do que uma simples normatização ou estrutura gramatical e que sua função no contexto social tem impacto significativo em nossas vidas.

Computadores em cena

Durante a Segunda Guerra Mundial, muitos tentaram criar sistemas de computador capazes de traduzir automaticamente não só palavras, mas sentenças e textos completos para outras línguas, ou decifrar códigos complexos. Um dos casos mais emblemáticos deste período é o do matemático Alan Turing, pai da ciência computacional e da IA, que em 1941 desenvolveu uma máquina capaz de decifrar um complexo código de comunicação secreta alemão, o “Enigma”, o que ajudou a mudar os rumos da guerra e dar grande vantagem para os Aliados.

Em 1957, o também filósofo e linguista Noam Chomsky, revolucionou os conceitos prévios de linguística e sua relação com a computação ao propor que, para um computador entender a linguagem era necessário alterar a estrutura das sentenças, uma vez que diferentes línguas têm diferentes estruturas e até dentro de uma própria língua há peculiaridades estruturais. Foi Chomsky quem criou um estilo gramatical chamado Phase-Structure Grammar, que transformava a linguagem natural em sentenças que poderiam ser utilizadas por computadores.

É desta época que surge o primeiro chatbot, embora o termo ainda não tivesse sido cunhado. E, em 1964, John McCarthy lançou o software Eliza, programa de perguntas e respostas que simulava um psiquiatra. O programa funcionava como uma árvore de conteúdos. Se você mencionava a palavra “mãe”, ele respondia “me conte mais sobre a sua família”.

Como podemos ver desde Saussure, a linguagem é muito mais complexa e ramificada do que uma árvore lógica de conhecimentos, mas a computação até então também tinha suas limitações.

Hora da estatística

Em 1980 assistimos à retomada das pesquisas e dos avanços em torno do processamento de linguagem natural, quando os conceitos antigos de “tradução” e interpretação de sentenças abriram espaço para a estatística, num modelo híbrido de linguística e estatística (hoje esse modelo é quase exclusivamente estatístico).

De 1980 até 1990 quem liderava as pesquisas e os avanços no espaço de NLP (da sigla em inglês Natural Language Processing ou Processamento da Linguagem Natural) era a IBM. Com tecnologia bem mais avançada que seus antecessores, sistemas mais robustos, machine learning e modelos estatísticos de alta complexidade, a IBM trouxe avanços significativos para a área, levando ao aquecimento do mercado a partir dos anos 90.

A partir de 2000, inicia-se uma corrida para captura de dados de texto e voz para alimentar os sistemas estatísticos e de aprendizado de máquina, o combustível da IA por trás do NLP. Em 2001, surgem os primeiros computadores e softwares baseados no funcionamento de redes neurais, acelerando o motor por trás das ferramentas.

Em 2011, a Apple lança o primeiro assistente de voz, a Siri, mas continuaremos esta história um pouco mais adiante. Primeiro, vale entender como funciona o NLP moderno e suas aplicações.

Diferentes finalidades

Sistemas modernos de processamento de linguagem são normalmente abertos e podem ser aplicados em escala, para diferentes propósitos e finalidades. O Google, por exemplo, usa linguagem natural para melhorar seus resultados de busca, filtrar e corrigir e-mails, melhorar a experiência de navegação, tornar sua publicidade mais assertiva, fazer traduções e muito mais.

Normalmente, um processador de linguagem natural cuida de dois aspectos macro da língua: sintaxe e semântica. No campo sintático, os sistemas identificam e avaliam cada item em uma sentença, bem como suas características morfológicas, como número e gênero. Também classificam as relações entre as palavras, como sujeito, objeto e modificador. Do ponto de vista semântico, os processadores modernos identificam entidades no texto livre e as classificam de acordo com tipos (como lugares, pessoas e organizações), depois agrupam estas informações em entidades que serão correlacionadas com e entre outros documentos (por isso é tão importante a captura e volume de dados) para depois extrair ou retornar o seu significado.

De maneira básica, a tarefa do NLP é quebrar a linguagem em partes menores, tentar entender as relações entre as partes e extrair um significado.

Assim como em quase tudo na Inteligência Artificial, tamanho é documento: quanto mais dados você tem para alimentar o sistema, mais rápido e assertivos serão os resultados. Por isso IBM e Google venceram os grandes campões de xadrez e Go, respectivamente, alimentando a base de sua inteligência com milhões de partidas para que seus algoritmos aprendessem com elas.

Neste quesito, estamos vivendo uma corrida desenfreada pela coleta de dados conversacionais. Não há uma fonte única atualizada para todos os players, mas na liderança desta maratona temos o Google com 1.6 trilhão de parâmetros, competindo com a Academia de Inteligência Artificial de Pequim, com 1.75 trilhão de parâmetros.

Briga pela supremacia

Agora que sabemos como chegamos até aqui e em que momento estamos da ciência de NLP, vamos entender quem são os principais competidores neste mercado, o que vêm fazendo e o que podemos esperar do futuro.

IBM

Condutora da chama da linguagem natural nas décadas de 80 e 90, parece estar meio enferrujada nesta corrida nos últimos anos – pelo menos é o que indicam suas últimas pesquisas publicadas, volume registrado de coleta de dados (texto e voz) e ferramentas disponíveis para o mercado.

A linha de frente da IBM está focada no Watson ― Watson Natural Language Understanding ―, ferramenta bastante poderosa e com muitos atributos de outros concorrentes. As fraquezas da IBM estão no baixo volume de dados coletados em comparação a outros competidores como Microsoft e Nvidia e, especialmente, pelo fato do Watson ser um recurso para empresas e não uma solução final aberta para consumidores.

APPLE

Pioneira no mercado de assistentes virtuais, a empresa tem a vantagem, junto com o Google, de já vir embarcada em todos os aparelhos móveis (e nos laptops mais recentes) que fabrica. Em termos de performance, a Siri é a assistente que mais se aproxima do número um do mercado, o Google Assistant, que lidera a maioria dos testes de performance dos últimos anos. Ambos ficam bem à frente da terceira colocada, a Alexa, da Amazon.

No entanto, assim como no caso da IBM, o pioneirismo da Apple não é suficiente para colocá-la na liderança da corrida pela supremacia da linguagem natural, em termos de pesquisa, ferramental e volume de dados, e pelo menos para quem vê de fora, parece estar ficando atrasada em relação a alguns de seus pares. Entretanto, é uma empresa que pode reagir muito rápido devido ao seu alcance de usuários e tem os bolsos fundos para fazer aquisições e acelerar o processo. Vale a pena ficar de olho.

MICROSOFT

Uma das frentes mais disputadas na busca pela liderança no que diz respeito à linguagem natural está no volume de dados armazenados. Alguns modelos atuais como o LaMDA (do Google) e o GPT-3 (da Open AI, de Elon Musk) acumulam bilhões de parâmetros aprendidos a partir de praticamente todo texto disponível na Internet aberta. É nessa frente que a Microsoft está entre as lideranças com um modelo de 175 bilhões de parâmetros (da Open AI), bem à frente de seu concorrente mais próximo, a Nvidia. A Microsoft pode não ter as ferramentas mais avançadas, mas tem combustível de sobra para encarar a disputa.

No que diz respeito à parte ferramental, como busca e outros recursos, a Microsoft talvez esteja bem atrás de seus pares, como o Google, mas faz parcerias importantes com a Open AI e deve efetivar aquisições estratégicas. Bom exemplo foi o anúncio, em junho do ano passado, da parceria da Azure com a Primer, uma das empresas líderes em NLP. A novidade abre uma porta para grandes contratos com o governo americano (em especial, com o meio militar), o que significa grandes investimentos subsidiando projetos e novos estudos.

NVIDIA

Pode parecer estranho ver uma empresa que por muitos anos foi referência em placas gráficas e jogos cheios de efeitos especiais nesta lista, mas a NVidia não entrou aqui por acaso e nem está para brincadeiras. Tudo começou com uma história em 2016, quando Andrew Ng, renomado cientista de dados da área de IA da Universidade de Stanford (ex-Google e Baidu) transformou e utilizou uma placa de vídeo Nvidia para processar dados de IA. A grande sacada dele foi que as placas de vídeo (GPUs), em contrapartida às placas de processamento de dados (CPUs), precisavam processar várias informações simultaneamente para reproduzir, por exemplo, todos os efeitos mais realistas possíveis de uma explosão. Isto exigia muito processamento simultâneo, que era justamente o que a Inteligência Artificial precisava para replicar o modelo de redes neurais.

A partir daí, a Nvidia pivotou todo seu negócio e se tornou uma empresa de IA ganhando rapidamente destaque neste mercado. Foi uma jogada de mestre de seu CEO, Jensen Huang. Quem comprou ações da Nvidia, em 2016, sabe bem o que estou falando. A Nvidia pode, para muitos, parecer um concorrente improvável nesta lista, mas tem todos os atributos para disputar frente a frente com as Big Techs, com um grande volume de dados captados (ficando atrás somente da Microsoft), hardware de primeiríssima linha e ferramentas potentes.

Fonte: Yahoo Finance

GOOGLE

É o atual líder no segmento de NLP, além de ter a maior coleção de dados do ocidente. Para treinar seus algoritmos, o Google tem também a maior concentração de profissionais e cientistas de IA do planeta. Sua hegemonia em várias frentes (o buscador, o navegador Chrome, o sistema operacional Android, o Gmail, etc.) dá à gigante de tecnologia um parque de diversões enorme, tanto para coletar novos dados como para testar as iniciativas.

Em maio de 2021, pudemos vislumbrar o que o Google vem trabalhando em torno da NLP. Em seu discurso de abertura do evento anual Google IO, o CEO da Alphabet, Sundar Pichai, mostrou vídeos de um internauta dialogando com Plutão e com um avião de papel. E, embora ainda um pouco caricato e com voz muito robotizada, a conversa mostrou seu potencial de não seguir um script ou roteiro e ir se ramificando e mudando de natureza como acontece numa conversa informal que podemos ter com um amigo.

Outro destaque do Google IO foi o anúncio de que, em breve, veremos resultados de busca de sites do mundo todo traduzidos para a língua que estamos usando, aumentando o escopo e inventário de “respostas”.

Vale também citar um projeto que o Google não expõe muito, mas que já vem rolando há alguns anos, o chatbot Meena, ainda não disponível publicamente (o Google quer se certificar de que o sistema é a prova de vieses). Em avaliações de institutos isentos, o Meena foi classificado como tendo uma resposta à altura de humanos, ou seja, quem conversa com o chat não consegue diferenciar se quem está falando do outro lado é robô ou humano.

Para o Google há um fator primordial para estar à frente deste mercado: uma NLP avançada pode significar o fim dos buscadores como conhecemos hoje, num formato de pergunta e resposta, mudando completamente o foco para conversações muito mais complexas e construtivas. Portanto, a NLP serve tanto como oportunidade como ameaça para a gigante das buscas.

Ameaça asiática

Competindo com nossos conterrâneos do ocidente, uma organização governamental de Pequim é quem concorre na linha de frente pela supremacia da linguagem natural. O Instituto de Inteligência Artificial de Pequim tem o que pode ser o modelo mais moderno do planeta de sistema de NLP. Com dados coletados e treinados tanto com línguas ocidentais, como orientais ― o que explica sua superioridade de dados coletados em relação ao Google ―, o WuDao 2.0 é uma das máquinas/algoritmos que mais se assemelha a um ser humano, no que diz respeito à comunicação.

Futuro da NLP

Apesar de todas as descobertas e avanços, a maioria dos cientistas do segmento concorda que estamos longe de ter as soluções adequadas para conversas naturais com as máquinas. Ainda serão necessários muitos avanços, tanto na tecnologia como na programação. Estes avanços poderão depender de descobertas significativas, como o uso das placas de vídeo para o processamento de dados de computação ou a criação de novas linguagens de machine learning ― como quando Geoffrey Hinton criou o Deep Learning, que revolucionou a IA. Não há como prever quando estas descobertas vão acontecer, portanto o futuro do NLP está em aberto.

De fato, a evolução da NLP está intimamente ligada à evolução da IA. Ambas são interdependentes e, com as limitações de hoje, pode parecer tudo muito embrionário, mas, com algumas mudanças, a transformação pode vir em escala considerável. Alcançar a IA geral, onde a inteligência de máquina se equipara a de um humano pode estar logo à nossa frente. Daí para a superinteligência artificial, na qual uma máquina é superior à inteligência de toda a humanidade combinada, é um pulinho. A partir daí, as transformações que o mundo presenciará serão profundas e irreversíveis.

Talvez o além-homem (übermensch) que Nietzsche tanto preconizou será, na verdade, não um humano, mas uma máquina, e o impacto disso para a sociedade e para o futuro da humanidade é um mar aberto de possibilidades.


Este artigo foi produzido por Alexandre Kavinski, Sócio e CMO da Mirum e i-Cherry.

Nossos tópicos