Até onde sei, eu não sou um robô. Ainda assim, como outros humanos que passam tempo demais na internet, sou constantemente solicitado a provar esse fato clicando em faixas de pedestres e motocicletas em fotos, decifrando números e letras distorcidos e marcando pequenas caixas brancas que afirmam meu status de não robô. Esses chamados captchas (Completely Automated Public Turing tests to tell Computers and Humans Apart, ou “testes de Turing públicos e totalmente automatizados para distinguir computadores de humanos”) devem ajudar a evitar spam e extração de dados, embora agora pareça que os bots são melhores em resolvê-los do que os próprios humanos. Vai entender.
Felizmente, no mundo real, a diferença entre humanos e máquinas é muito mais fácil de perceber – pelo menos por enquanto. Uma das distinções mais evidentes envolve nossas habilidades únicas. Enquanto as máquinas tendem a se destacar em coisas que os adultos acham difíceis – como jogar xadrez em nível de campeão mundial ou multiplicar números gigantescos – elas têm dificuldade (ou acham impossível) realizar tarefas que uma criança de cinco anos executa com facilidade, como pegar uma bola ou andar por um cômodo sem esbarrar nas coisas.
Essa discrepância entre a facilidade relativa de ensinar pensamento abstrato a uma máquina e a dificuldade de ensiná-la habilidades sensoriais, sociais e motoras básicas é conhecida como o paradoxo de Moravec. Nomeado a partir de uma observação feita pelo roboticista Hans Moravec no final dos anos 1980, o paradoxo afirma que o que é difícil para os humanos (matemática, lógica, raciocínio científico) é fácil para as máquinas, enquanto o que é difícil para as máquinas (amarrar cadarços, ler emoções, manter uma conversa) é fácil para os humanos.
Em seu novo livro, Robots and the People Who Love Them: Holding On to Our Humanity in an Age of Social Robots (“Robôs e as Pessoas que os Amam: Mantendo Nossa Humanidade na Era dos Robôs Sociais”, em tradução livre), a escritora científica Eve Herold argumenta que, graças a novas abordagens de aprendizado de máquina e aos avanços contínuos da IA, estamos finalmente começando a desvendar esse paradoxo. Como resultado, ela diz, uma nova era de robôs pessoais e sociais está prestes a se desenrolar – uma era que nos forçará a reinventar a natureza de tudo, desde amizade e amor até trabalho, saúde e vida doméstica.
Para dar aos leitores uma ideia de como será esse novo mundo dos robôs sociais, Herold nos apresenta Pepper, um robô humanoide de olhos grandes fabricado pela empresa japonesa SoftBank. “Robôs como o Pepper logo se tornarão indispensáveis devido aos seus relacionamentos únicos e altamente personalizados conosco”, escreve Herold, antes de descrever, com um entusiasmo digno de comunicado de imprensa, como esse companheiro de um metro de altura pode ler facilmente nossas expressões e estados emocionais e responder de forma apropriada com sua voz infantil.
Se Pepper lhe parece vagamente familiar, pode ser porque ele foi incessantemente promovido como o primeiro “robô emocional” do mundo nos anos seguintes ao seu lançamento em 2014. No entanto, essa publicidade foi abruptamente interrompida em 2021, quando a SoftBank descontinuou a produção do Pepper devido à falta de demanda e – provavelmente não por coincidência – à incompetência geral do androide de US$ 2.000. Livros podem levar muito tempo para serem escritos, e muita coisa pode mudar nesse meio-tempo. Mas é difícil justificar essa omissão específica, considerando que Pepper foi descontinuado três anos antes da publicação do livro.
Apresentar um produto falido, que ninguém parece ter gostado ou comprado, como parte da vanguarda de uma nova revolução dos robôs sociais não inspira confiança. Herold poderia argumentar que seu livro foca menos nos próprios robôs e mais no que nós, humanos, traremos para os novos relacionamentos sociais que formaremos com eles. Justo.
Mas, embora Herold destrinche meticulosamente nossa tendência de antropomorfizar robôs e guie os leitores por algumas pesquisas rudimentares sobre deep learning e o “vale da estranheza” (ou “vale misterioso”), suas conclusões sobre a natureza humana e a psicologia frequentemente parecem simplificadas demais ou desconectadas das evidências que apresenta. Para alguém que afirma que “a única maneira de escrever sobre o futuro é com um alto grau de humildade”, há um número incomumente grande de afirmações altamente questionáveis (“Até agora, a confiança que depositamos nos algoritmos tem sido, em geral, bem fundamentada…”) e previsões abrangentes (“Não há dúvida de que alguma versão de um robô companheiro chegará em breve às casas do mundo industrializado”).
Logo no início do livro, Herold lembra aos leitores que “a escrita científica que tenta imaginar o futuro geralmente diz muito mais sobre o tempo em que foi escrita do que sobre o mundo futuro”. Nesse sentido, Robots and the People Who Love Them de fato revela bastante. Entre outras coisas, o livro reflete a maneira como tendemos a reduzir discussões sobre os impactos da tecnologia a termos binários (“Será incrível”/“Será terrível”); a aceitação resignada com que encaramos resultados indesejáveis; a prontidão com que escritores de ciência e tecnologia sucumbem ao entusiasmo da indústria; e o grau alarmante em que a lógica e os valores das máquinas (velocidade, eficiência) já foram adotados pelos humanos. Talvez não seja essa a principal mensagem que Herold pretende passar, mas se o livro demonstra alguma coisa, não é que os robôs estão se tornando mais parecidos conosco – e sim que nós estamos nos tornando mais parecidos com eles.
Para uma análise mais rigorosa sobre um dos pilares da expressão social humana – e, especificamente, como tentamos transferi-lo para as máquinas –, Vox ex Machina: A Cultural History of Talking Machines (“Vox ex Machina: Uma História Cultural de Máquinas Falantes”, em tradução livre), de Sarah A. Bell, oferece um relato envolvente e perspicaz sobre a história da síntese de voz no século 20. Bell, escritora e professora da Universidade Tecnológica de Michigan, está interessada em como tentamos digitalmente reproduzir diferentes expressões da corporeidade humana, seja na fala, nas emoções ou nas identidades visuais. Como aponta logo no início do livro, compreender esse processo muitas vezes significa entender de que maneira os engenheiros (quase sempre homens) decidiram medir e quantificar aspectos do nosso corpo.
A história começa no epicentro de muitas das mais importantes inovações tecnológicas do século: os Bell Labs. Já na década de 1930, os pesquisadores da instituição viam a fala humana como um tipo de sinal ou, como o chefe do departamento de pesquisa acústica diria anos depois, um “código acústico especializado”. Um desses engenheiros, Homer Dudley, comparava a língua a um manipulador de telégrafo, enxergando-a meramente como um instrumento dentro da boca que “modulava a ‘onda portadora’ emanada da glote”. Da mesma forma que o código Morse decompunha a escrita em partes para posterior remontagem, Dudley acreditava que os sons da fala – e tudo o que compõe a riqueza da expressão vocal humana – poderiam ser igualmente comprimidos ou reduzidos a pulsos.
Segundo Bell, pesquisadores como Dudley estabeleceram as bases para praticamente todos os avanços em síntese de voz que vieram depois, “incorporando suas suposições sobre a natureza mecânica da voz humana em todas as tecnologias que se seguiram”. Um dos primeiros e mais famosos exemplos do trabalho de Dudley foi o Voder, ou Voice Demonstrator. Apresentado na Feira Mundial de Nova York em 1939, o Voder era basicamente um pequeno órgão de voz operado por Voderettes – mulheres que passavam por um ano de treinamento para dominar todos os sons da fala que a máquina podia produzir, manipulando 10 teclas, uma placa de pulso e um pedal.
As demonstrações da máquina falante, embora altamente coreografadas, fizeram sucesso com os visitantes e a imprensa – tanto que as pessoas pareciam dispostas a atribuir ao Voder muito mais compreensão e autonomia do que era justificável. Mesmo com a Voderette totalmente visível durante toda a apresentação, a imprensa geralmente mencionava a mulher responsável pelos sons apenas de passagem, quando o fazia. Em vez disso, o Voder era antropomorfizado e tratado como se tivesse grande autonomia. “Ele não tem boca, pulmões ou laringe – mas fala pelos cotovelos”, escreveu a Popular Science.
Do Voder e Elektro the Moto-Man ao Speak & Spell e Perfect Paul, e de Alexa a Siri, Vox ex Machina apresenta tanto os produtos da síntese de voz quanto as tecnologias subjacentes que os tornaram possíveis. É uma jornada fascinante, especialmente quando Bell analisa como a reação do público a essas “máquinas falantes” antecipou sua resposta às máquinas “pensantes” que surgiriam décadas depois. Embora a prática de descrever humanos com metáforas mecânicas e máquinas com metáforas humanas remonte a séculos, a capacidade das máquinas de simular a fala humana (por pior que fosse) “deu uma nova inflexão à personificação das máquinas”, escreve Bell.
Em outras palavras, quanto mais as máquinas podiam “falar” e “pensar”, mais começamos a nos enxergar como máquinas. De fato, é difícil não perceber paralelos evidentes com o que está acontecendo hoje com a inteligência artificial – especificamente, nossa disposição de reduzir ou minimizar o que nos torna humanos para nos adequarmos melhor a qualquer atributo “inteligente” que um produto possa demonstrar. A resposta de Sam Altman ao fato de que os LLMs são apenas calculadoras avançadas de palavras? “Eu sou um papagaio estocástico, e você também.”
OLHO: “Esqueça a ideia de perder empregos para a automação. O mais surpreendente é que os humanos estão roubando os empregos dos robôs.”
O Voder pode ter sido uma das primeiras tentativas rudimentares de síntese de voz, mas o descompasso entre seu funcionamento real (com muito treinamento e trabalho humano) e a percepção do público e da imprensa (como uma máquina mais ou menos autônoma com voz própria) antecipou um problema que ainda enfrentamos hoje. Em Waiting for Robots: The Hired Hands of Automation, Antonio A. Casilli argumenta que, apesar das alegações em contrário, a intervenção humana continua sendo um componente essencial de todas as ferramentas modernas de automação e inteligência artificial, independentemente de sua sofisticação. A diferença é que, em vez de esse papel ser evidente – como era o caso das Voderettes –, agora ele está oculto, muitas vezes de forma intencional.
Casilli, professor de sociologia no Instituto Politécnico de Paris, estuda o “trabalho digital” invisível e não reconhecido que sustenta muitas das plataformas de mídia social, sites de microtarefas e serviços sob demanda de hoje. Em vez de ver a automação e a IA como destruidoras de empregos humanos, ele argumenta de forma convincente que elas simplesmente fragmentam ainda mais o trabalho, reduzindo-o a tarefas menores, mais insignificantes e mais degradantes para muitos de nós. “Esqueça a ideia de perder empregos para a automação”, escreve ele. “O mais surpreendente é que os humanos estão roubando os empregos dos robôs.”
Seja o Mechanical Turk da Amazon, um serviço que recruta centenas de milhares de microtrabalhadores para realizar tarefas como filtragem de vídeos e marcação de imagens que as máquinas ainda não conseguem executar, ou a necessidade constante de “supervisão” e “reforço” humano no aprendizado automatizado e no treinamento de IA, Casilli apresenta inúmeros exemplos de como o trabalho humano – grande parte dele vindo de países da Ásia, América Latina e África – sustenta ou, em alguns casos, simula os sistemas e produtos que se apresentam como inteligentes.
No fim das contas, Casilli está menos preocupado com o fato de que robôs substituirão trabalhadores de escritório e mais preocupado com a possibilidade de que milhares de trabalhadores digitais, mal pagos ou não pagos, o façam. Como ele aponta, já estamos sendo recrutados involuntariamente por empresas para realizar coletivamente milhões de horas de trabalho gratuito todos os anos. Veja, por exemplo, os captchas mencionados anteriormente: o Google, que possui e opera uma das versões mais populares desse serviço (ReCAPTCHA e No CAPTCHA), vem utilizando esse trabalho digital há mais de uma década. Os resultados ajudam a identificar números de casas para aprimorar o Google Street View, digitalizar textos para o Google Books e treinar seus algoritmos de visão computacional para detectar locais e reconstruir cenas, melhorando o Google Images e aumentando o desempenho dos carros autônomos da Waymo. “A ironia aqui”, escreve Casilli, “é que um serviço projetado para distinguir humanos de robôs está, na verdade, fazendo com que os humanos trabalhem para produzir mais robôs.”
Embora todo o exagero e a hipérbole em torno das ferramentas de IA de hoje possam parecer sem precedentes, Casilli lembra aos leitores que essa retórica não é nem um pouco nova. Há décadas, robôs, automação e diversos sistemas inteligentes estão à beira de dominar todos os aspectos do trabalho e da produção cultural. No fim das contas, diz ele, a inteligência artificial é um processo tecnológico que não é realmente artificial. Basta espiar por trás da cortina da eficiência perfeita e sem atrito, e o que se verá é trabalho humano em toda a sua extensão.