<
“Por enquanto, a OpenAI está liberando o acesso ao Modo de Voz Avançado para usuários Plus…”
A OpenAI está ampliando o acesso ao Modo de Voz Avançado, um recurso do ChatGPT que permite uma interação mais natural com o modelo de IA. Ele possibilita interromper as respostas do ChatGPT no meio de uma frase e consegue interpretar suas emoções pelo tom de voz, ajustando suas respostas de acordo.
Essas funcionalidades foram anunciadas em maio, quando a OpenAI apresentou o GPT-4o, mas só foram liberadas em julho, inicialmente para um grupo exclusivo de convidados. (Houve, aparentemente, questões de segurança no início; a OpenAI deu acesso ao modo de voz para repórteres da Wired em maio, mas a revista relatou que a empresa o retirou no dia seguinte, citando preocupações com segurança.)
Usuários que tiveram a oportunidade de testá-lo descreveram o modelo como um assistente de voz impressionantemente rápido, dinâmico e realista, o que gerou frustração em outros usuários da OpenAI devido à sua disponibilidade limitada.
Hoje, a OpenAI anunciou pela primeira vez que o novo modo de voz será disponibilizado para um público mais amplo. Aqui está o que você precisa saber.
O que ele pode fazer?
Embora o ChatGPT já ofereça um modo de voz padrão para usuários pagos, suas interações podem ser um pouco truncadas. No aplicativo móvel, por exemplo, não é possível interromper as longas respostas do modelo com sua voz, apenas tocando na tela. A nova versão corrige isso e promete modificar as respostas com base nas emoções que ele detecta em sua voz. Como em outras versões do ChatGPT, os usuários podem personalizar o modo de voz pedindo para o modelo lembrar de fatos sobre eles. O novo modo também aprimora a pronúncia de palavras em idiomas que não são o inglês.
A investidora em IA, Allie Miller, postou uma demonstração da ferramenta em agosto, destacando muitas das mesmas qualidades apresentadas nos vídeos de lançamento da OpenAI: o modelo é rápido e habilidoso em mudar o sotaque, o tom e o conteúdo para se adequar às suas necessidades.
A atualização também traz novas vozes. Logo após o lançamento do GPT-4o, a OpenAI foi criticada pela semelhança entre a voz feminina em seus vídeos de demonstração, chamada Sky, e a de Scarlett Johansson, que interpretou uma inteligência artificial no filme Ela (Her). A OpenAI então removeu a voz.
Agora, foram lançadas cinco novas vozes, chamadas Arbor, Maple, Sol, Spruce e Vale, que estarão disponíveis tanto nos modos de voz padrão quanto avançado. A MIT Technology Review ainda não as ouviu, mas a OpenAI afirma que foram criadas com base em atores profissionais de diferentes partes do mundo. “Entrevistamos dezenas de atores para encontrar aqueles com qualidades vocais que acreditamos que as pessoas vão gostar de ouvir por horas — vozes calorosas, acessíveis, curiosas, com alguma textura e tom ricos”, disse um porta-voz da empresa.
Quem pode acessá-lo e quando?
Por enquanto, a OpenAI está liberando o acesso ao Modo de Voz Avançado para usuários Plus, que pagam US$ 20 por mês pela versão premium, e usuários Team, que pagam US$ 30 por mês e têm limites de mensagens mais altos. O próximo grupo a receber acesso será o dos planos Enterprise e Edu.
O cronograma exato, porém, é vago; um porta-voz da OpenAI disse que a empresa “gradualmente concederá acesso a todos os usuários Plus e Team e começará a liberar para os planos Enterprise e Edu a partir da próxima semana”. A empresa ainda não se comprometeu com um prazo definitivo para quando todos os usuários dessas categorias terão acesso. Uma mensagem no aplicativo ChatGPT indica que todos os usuários Plus terão acesso até “o final do outono”.
Há limitações geográficas. O novo recurso ainda não está disponível na União Europeia, Reino Unido, Suíça, Islândia, Noruega ou Liechtenstein.
Não há planos imediatos para liberar o Modo de Voz Avançado para usuários gratuitos. (O modo padrão continua disponível para todos os usuários pagos.)
Quais medidas foram tomadas para garantir sua segurança?
Conforme observado pela empresa no lançamento inicial em julho e novamente enfatizado esta semana, o Modo de Voz Avançado passou por testes de segurança conduzidos por especialistas externos que “coletivamente falam um total de 45 idiomas diferentes e representam 29 geografias distintas.” O cartão do sistema do GPT-4o detalha como o modelo lida com questões como geração de discurso violento ou erótico, imitação de vozes sem consentimento ou geração de conteúdo protegido por direitos autorais.
Ainda assim, os modelos da OpenAI não são de código aberto. Comparados a modelos desse tipo, que são mais transparentes em relação aos dados de treinamento e aos “pesos do modelo” que governam como a IA gera respostas, os modelos fechados da OpenAI são mais difíceis para os pesquisadores independentes avaliarem sob a ótica da segurança, viés e possíveis danos.
—