Jules Rodriguez perdeu a voz em outubro do ano passado. Sua fala vinha se deteriorando desde o diagnóstico de esclerose lateral amiotrófica (ELA) em 2020, à medida que os músculos da cabeça e do pescoço enfraqueciam progressivamente, assim como os do restante do corpo.
Em 2024, os médicos estavam preocupados que ele não conseguiria mais respirar sozinho por muito tempo. Por isso, Rodriguez optou por ter um pequeno tubo inserido em sua traqueia para ajudá-lo a respirar. A traqueostomia prolongaria sua vida, mas também colocaria um fim definitivo em sua capacidade de falar.
“Uma traqueostomia é algo assustador para pessoas que vivem com ELA, porque significa cruzar para um novo estágio da vida, um estágio próximo do fim”, diz Rodriguez usando um dispositivo de comunicação. “Antes do procedimento, eu ainda tinha um pouco de independência e conseguia falar de alguma forma, mas agora estou permanentemente conectado a uma máquina que respira por mim.”
Rodriguez e sua esposa, Maria Fernandez, que vivem em Miami, acreditavam que nunca mais ouviriam sua voz. Então, eles a recriaram usando IA. Após alimentar um software com gravações antigas da voz de Rodriguez, utilizando uma ferramenta treinada com vozes de filmes, televisão, rádio e podcasts, o casal conseguiu gerar um clone de sua voz—uma maneira para Jules se comunicar com sua “voz antiga”.
“Ouvir minha voz novamente, depois de tanto tempo sem ouvi-la, elevou meu ânimo”, diz Rodriguez, que hoje se comunica digitando frases em um dispositivo que rastreia o movimento de seus olhos, permitindo que o texto seja “falado” na voz clonada. O clone aprimorou sua capacidade de interagir e se conectar com outras pessoas, diz ele. Rodriguez até mesmo o utilizou para se apresentar no palco fazendo comédia.
Rodriguez é uma das mais de mil pessoas com dificuldades de fala que já usaram a ferramenta de clonagem de voz desde que a ElevenLabs, empresa que a desenvolveu, disponibilizou o recurso gratuitamente. Como muitas novas tecnologias, os clones de voz gerados por inteligência artificial não são perfeitos, e algumas pessoas os consideram pouco práticos para o dia a dia. No entanto, essas vozes representam um avanço significativo em relação às tecnologias de comunicação anteriores e já estão melhorando a vida de pessoas com doenças do neurônio motor, afirma Richard Cave, terapeuta de fala e linguagem da Motor Neuron Disease Association no Reino Unido. “Isso é, de fato, um exemplo de IA para o bem”, diz ele.
Clonando uma voz
As doenças do neurônio motor são um grupo de distúrbios nos quais os neurônios que controlam os músculos e o movimento são progressivamente destruídos. Elas podem ser difíceis de diagnosticar, mas, geralmente, as pessoas com essas condições começam a perder a capacidade de movimentar vários músculos. Com o tempo, também podem ter dificuldades para respirar. Não há cura.
Rodriguez começou a apresentar sintomas de ELA no verão de 2019. “Ele começou a perder um pouco de força no ombro esquerdo”, diz Fernandez, que estava sentada ao lado dele durante nossa chamada de vídeo. “Pensamos que fosse apenas uma lesão esportiva antiga.” Seu braço também começou a afinar. Em novembro, seu polegar direito “parou de funcionar” enquanto ele jogava videogame. Só em fevereiro de 2020, quando Rodriguez consultou um especialista em mãos, é que ele foi informado de que poderia ter ELA. Ele tinha 35 anos. “Foi realmente, realmente chocante ouvir isso de alguém… a quem você consulta por causa da sua mão”, diz Fernandez. “Foi um grande golpe.”
Como acontece com outras pessoas diagnosticadas com ELA, Rodriguez foi aconselhado a “armazenar” sua voz—gravar centenas de frases ditas por ele mesmo. Essas gravações podem ser usadas para criar uma “voz armazenada” para dispositivos de comunicação. O resultado, no entanto, era instável e robótico.
Essa é uma experiência comum, diz Cave, que já ajudou 50 pessoas com doenças do neurônio motor a armazenar suas vozes. “Quando comecei na MND Association [há cerca de sete anos], as pessoas precisavam ler em voz alta 1.500 frases”, diz ele. Era uma tarefa árdua que levava meses.
Além disso, não havia como prever quão realista a voz resultante seria—com frequência, acabava soando bastante artificial. “Poderia soar um pouco como elas, mas certamente não poderia ser confundida com suas vozes reais”, diz ele. Desde então, a tecnologia melhorou e, no último ano ou dois, as pessoas com quem Cave trabalhou precisavam gastar apenas cerca de meia hora gravando suas vozes. Mas, embora o processo fosse mais rápido, ele diz que a voz sintética resultante não era mais realista.
Então vieram os clones de voz. A ElevenLabs tem desenvolvido vozes geradas por IA para uso em filmes, televisão e podcasts desde sua fundação há três anos, diz Sophia Noel, responsável pelas parcerias entre a empresa e organizações sem fins lucrativos. O objetivo inicial da empresa era melhorar a dublagem, tornando as narrações em um novo idioma mais naturais e menos evidentes. Mas então, o líder técnico da Bridging Voice, uma organização que ajuda pessoas com ELA a se comunicarem, disse à ElevenLabs que seus clones de voz eram extremamente úteis para esse grupo, conta Noel. Em agosto passado, a ElevenLabs lançou um programa para tornar a tecnologia gratuitamente disponível para pessoas com dificuldades de fala.
De repente, criar um clone de voz tornou-se muito mais rápido e fácil, diz Cave. Em vez de precisar gravar frases, os usuários agora podem simplesmente fazer o upload de gravações antigas, como mensagens de voz do WhatsApp ou vídeos de casamento, por exemplo. “Você precisa de pelo menos um minuto para gerar algo, mas o ideal é ter cerca de 30 minutos”, explica Noel. “Você faz o upload no ElevenLabs. Leva cerca de uma semana, e então o sistema gera essa voz.”
Rodriguez me mostrou uma declaração usando tanto sua voz armazenada quanto seu clone de voz. A diferença era gritante: a voz armazenada era claramente artificial, enquanto o clone de voz soava como uma pessoa real. Não era totalmente natural—a fala era um pouco rápida e faltava um certo tom emocional. Mas era uma grande melhoria. A diferença entre as duas, segundo Fernandez, era “como da noite para o dia.”
Os “hums” e “ers”
Cave começou a apresentar a tecnologia para pessoas com doenças do neurônio motor há alguns meses. Desde então, 130 delas começaram a usá-la, “e o retorno tem sido extremamente positivo”, diz ele. Os clones de voz soam muito mais naturais do que as vozes armazenadas. “Eles [incluem] pausas para respirar, os ‘hums’, os ‘ers’ e, às vezes, até gagueiras”, diz Cave, que também tem uma leve gagueira. “Isso me parece muito real, porque, na verdade, eu preferiria que uma voz sintética me representasse com gagueira, porque isso é parte de quem eu sou.”
Joyce Esser é uma das 130 pessoas para quem Cave apresentou a tecnologia de clonagem de voz. Esser, de 65 anos, mora em Southend-on-Sea, no Reino Unido, e foi diagnosticada com DNM bulbar em maio do ano passado.
A DNM bulbar é uma forma da doença que afeta primeiro os músculos do rosto, da garganta e da boca, tornando difícil falar e engolir. Esser ainda consegue falar, mas lentamente e com dificuldade. Ela é uma pessoa comunicativa, mas diz que sua fala piorou “bastante rápido” desde janeiro. Nos comunicamos por uma combinação de e-mails, videochamada, fala, um quadro de escrita e ferramentas de conversão de texto em fala. “Dizer que esse diagnóstico foi devastador é um eufemismo”, ela me conta. “Perder minha voz foi um golpe enorme para mim, porque é uma parte essencial de quem eu sou.”
Esser tem muitos amigos espalhados pelo país, conta Paul Esser, seu marido há 38 anos. “Mas quando eles se reúnem, têm uma regra: não falar sobre isso”, diz ele. Falar sobre sua DNM pode deixar Joyce chorando descontroladamente. Ela havia preparado uma caixa de lenços de papel para nossa conversa.
O armazenamento de voz não era uma opção para Esser. Quando foi diagnosticada com DNM, ela já estava perdendo sua capacidade de falar. Então, Cave a apresentou à tecnologia da ElevenLabs. Esser tinha uma gravação de quatro minutos e meio de sua voz, feita em uma entrevista recente para uma rádio local, e enviou para Cave criar seu clone de voz. “Quando ele tocou minha voz gerada por IA, eu simplesmente desabei em lágrimas”, conta ela. “EU RECUPEREI MINHA VOZ!!!! Yippeeeee!”
“Nós ficamos completamente sem reação”, acrescenta Paul. “Achávamos que a tínhamos perdido para sempre.”
Ouvir uma voz “perdida” pode ser uma experiência extremamente emocional para todos os envolvidos. “Foi agridoce”, diz Fernandez, lembrando-se da primeira vez que ouviu o clone de voz de Rodriguez. “Naquele momento, senti tristeza, porque [ouvir o clone de voz] nos lembra de quem ele era e do que perdemos”, diz ela. “Mas, acima de tudo, eu fiquei muito emocionada… foi algo milagroso.”
Rodriguez diz que usa o clone de voz sempre que pode. “Sinto que as pessoas me entendem melhor do que com minha voz armazenada”, afirma. “As pessoas ficam impressionadas quando ouvem pela primeira vez… ao falar com amigos e familiares, sinto uma sensação de normalidade maior do que quando só tinha minha voz armazenada.”
Cave ouviu relatos semelhantes de outras pessoas com doenças do neurônio motor. “Algumas [das pessoas com DNM com quem trabalhei] me disseram que, depois de começarem a usar as vozes da ElevenLabs, as pessoas passaram a conversar mais com elas, a visitá-las mais e a se sentirem mais confortáveis para interagir”, diz ele. Isso é algo muito importante, destaca. O isolamento social é comum para pessoas com MND DNM, especialmente nos casos mais avançados, e qualquer coisa que possa facilitar as interações sociais tem o potencial de melhorar o bem-estar desses pacientes. “Isso é algo que pode ajudar a tornar suas vidas melhores no momento mais difícil que enfrentam.”
“Não acho que falaria ou interagiria com os outros tanto quanto faço sem essa tecnologia”, diz Rodriguez.
Um “jogo de Ping-Pong muito lento”
Mas a ferramenta não é um auxílio perfeito para a fala. Para que o clone de voz funcione, as palavras precisam ser digitadas. Existem vários dispositivos que ajudam pessoas com DNM a digitar usando os dedos, os olhos ou até mesmo os movimentos da língua, por exemplo. Esse sistema funciona bem para frases preparadas com antecedência, e Rodriguez já usou seu clone de voz para apresentar uma rotina de comédia—algo que ele começou a fazer antes de seu diagnóstico de ELA. “Com o tempo, à medida que comecei a perder minha voz e minha capacidade de andar, pensei que isso era o fim”, diz ele. “Mas quando ouvi minha voz pela primeira vez, soube que essa ferramenta poderia ser usada para contar piadas novamente.” Estar no palco foi “incrível” e “revigorante”, ele acrescenta.
No entanto, digitar não é instantâneo, e qualquer conversa inclui pausas em silêncio. “Nossas discussões acontecem em um ritmo muito lento”, diz Fernandez. As conversas parecem “um jogo de Ping-Pong muito lento”, acrescenta ela.
Joyce Esser adora poder recriar sua antiga voz, mas acha a tecnologia pouco prática. “É boa para declarações preparadas com antecedência, mas não para conversação”, afirma. Ela tem seu clone de voz instalado em um aplicativo de celular desenvolvido para pessoas com pouca ou nenhuma fala, que funciona com a tecnologia da ElevenLabs. No entanto, o app não permite que ela use a “digitação por deslize” — um método de escrita que ela considera mais rápido e fácil. Além disso, o aplicativo exige que ela digite trechos de texto e os envie um de cada vez. “Eu só queria um dispositivo simples com minha voz instalada, onde eu pudesse digitar deslizando e ter minhas palavras faladas instantaneamente”, diz ela.
Por enquanto, seu “dispositivo de comunicação preferido” é um quadro de escrita simples. “É rápido, e o ouvinte pode acompanhar lendo enquanto eu escrevo, então é o mais instantâneo e inclusivo possível”, explica Esser.
Ela também percebe que, quando usa o clone de voz, o volume é muito baixo para as pessoas ouvirem, a fala é rápida demais e falta expressividade. Ela gostaria de poder usar emojis para indicar quando está animada ou irritada, por exemplo.
Rodriguez também gostaria dessa opção. O clone de voz pode soar um pouco monótono, e pode ser difícil transmitir diferentes emoções. “O problema que tenho é que, quando escrevo algo longo, a voz da IA quase parece ficar cansada”, comenta.
“Parece que conseguimos a autenticidade da voz”, diz Cave. “O que precisamos agora é da autenticidade na entrega.”
Outros grupos estão trabalhando nessa parte da equação. A Scott-Morgan Foundation, uma organização sem fins lucrativos cujo objetivo é tornar novas tecnologias acessíveis para melhorar o bem-estar de pessoas com doenças como DNM, está colaborando com empresas de tecnologia para desenvolver sistemas personalizados para 10 indivíduos, segundo a diretora-executiva LaVonne Roberts.
A fundação está explorando a possibilidade de combinar os clones de voz da ElevenLabs com outra tecnologia—avatares hiper-realistas para pessoas com doenças do neurônio motor. Esses “gêmeos digitais” se parecem e soam como a pessoa real e podem “falar” a partir de uma tela. Várias empresas estão trabalhando no desenvolvimento de avatares gerados por IA, e a Scott-Morgan Foundation está colaborando com a D-ID.
Criar um avatar não é um processo simples. Para desenvolver o seu, Erin Taylor, diagnosticada com ELA aos 23 anos, teve que falar 500 frases diante de uma câmera e permanecer em pé por cinco horas, conta Roberts. “Tínhamos receio de que fosse impossível”, diz ela. O resultado, no entanto, foi impressionante. “A mãe dela me disse: ‘Vocês estão começando a capturar o sorriso da Erin’”, conta Roberts. “Isso me impactou mais profundamente e densamente do que qualquer outra coisa.”
Taylor apresentou seu avatar em uma conferência de tecnologia em janeiro, utilizando um discurso pré-digitado. Ainda não está claro como avatares como esses podem ser úteis no dia a dia, diz Cave: “A tecnologia é tão nova que ainda estamos tentando descobrir casos de uso que realmente funcionem para pessoas com DNM. A questão é… como queremos ser representados?” Cave conta que já viu pessoas sugerirem um sistema onde avatares hiper-realistas de alguém com DNM sejam exibidos em uma tela, posicionada em frente ao rosto da própria pessoa. “Eu questionaria essa abordagem desde o início”, diz ele.
Tanto Rodriguez quanto Esser conseguem imaginar como avatares poderiam ajudar pessoas com DNM a se comunicarem. “As expressões faciais são uma parte essencial da comunicação, então a ideia de um avatar parece boa”, diz Esser. “Mas não um que cubra o rosto do usuário… ainda é necessário poder olhar nos olhos da pessoa e enxergar sua alma.”
A Scott-Morgan Foundation continuará a trabalhar com empresas de tecnologia para desenvolver mais ferramentas de comunicação para aqueles que precisam delas, afirma Roberts. A ElevenLabs também planeja firmar parcerias com outras organizações que trabalham com pessoas com dificuldades de fala, para que mais pessoas possam ter acesso à tecnologia. “Nosso objetivo é devolver o poder da voz para 1 milhão de pessoas”, diz Noel.
Enquanto isso, pessoas como Cave, Esser e Rodriguez estão empenhadas em divulgar a tecnologia de clones de voz dentro da comunidade DNM.
“Isso realmente muda o jogo para nós”, diz Fernandez. “Não elimina a maioria dos desafios que enfrentamos, mas melhora significativamente a conexão que podemos ter juntos como família.”