Como a tentativa de digitar chinês em um teclado QWERTY criou o autocompletar
Computação

Como a tentativa de digitar chinês em um teclado QWERTY criou o autocompletar

Décadas antes de sua redescoberta no mundo anglófono, o preenchimento automático foi inventado para colocar caracteres chineses em um computador.

O que você encontrará neste artigo:

Desenvolvimento dos IMEs chineses
A competição nacional de digitação
O paradoxo da digitação chinesa rápida

Banner indicando a posição do botão de download do artigo em formato pdf

Este é um trecho do livro The Chinese Computer: A Global History of the Information Age, de Thomas S. Mullaney, publicado em 28 de maio pela The MIT Press. Ele foi ligeiramente editado.

ymiw2

klt4

pwyy1

wdy6

o1

dfb2

wdv2

fypw3

uet5

dm2

dlu1 …

Um jovem chinês sentou-se diante de seu teclado QWERTY e digitou uma sequência enigmática de letras e números.

Era um código? Brincadeira de criança? Confusão? Era chinês.

O início do chinês, pelo menos. Essas 44 teclas pressionadas marcaram as primeiras etapas de um processo conhecido como “input” ou shuru: o ato de fazer com que os caracteres chineses apareçam em um monitor de computador ou outro dispositivo digital usando um teclado QWERTY ou trackpad.

Em todas as mídias computacionais e digitais, a entrada de texto em chinês depende de programas de software conhecidos como “editores de métodos de entrada”, mais conhecidos como “IMEs” ou simplesmente “métodos de entrada” (shurufa). Os IMEs são uma forma de “middleware”, assim chamados porque operam entre o hardware do dispositivo do usuário e o software de seu programa ou aplicativo. Quer uma pessoa esteja redigindo um documento em chinês no Microsoft Word, pesquisando na Web, enviando mensagens de texto ou de outra forma, um IME está sempre trabalhando, interceptando todas as teclas digitadas pelo usuário e tentando descobrir quais caracteres chineses o usuário deseja produzir. A entrada, em termos simples, é a maneira como ymiw2klt4pwyy … se torna uma sequência de caracteres chineses.

Mini Banner - Assine a MIT Technology Review

Os IMEs são criaturas inquietas. A partir do momento em que uma tecla é pressionada ou um traço é deslizado, eles iniciam um processo dinâmico e iterativo, capturando os dados inseridos pelo usuário e procurando na memória do computador possíveis correspondências de caracteres chineses. Os IMEs mais populares atualmente são baseados na fonética chinesa, ou seja, usam as letras do alfabeto latino para descrever o som dos caracteres chineses, sendo que as operadoras da China continental usam o sistema de romanização oficial do país, o Hanyu pinyin.

Esse jovem era Huang Zhenyu (também conhecido por seu nome de guerra, Yu Shi). Ele era um dos cerca de 60 participantes daquele dia, cada um usando uma faixa vermelha brilhante no ombro, como em um desfile de ticker-tape de antigamente ou em um concurso de beleza. “Love Chinese Characters” (Ai Hanzi) estava estampado em amarelo dourado vívido em um pôster na frente do salão. A tarefa dos participantes era transcrever um discurso do presidente chinês Hu Jintao, que estava deixando o cargo, da forma mais rápida e precisa possível. “Segure alto a grande bandeira do socialismo com características chinesas”, começava, ou no original: 高举中国特色社会主义伟大旗帜为夺取全面建设小康社会新胜利而奋斗. Entretanto, o teclado QWERTY de Huang não permitia que ele digitasse esses caracteres diretamente e, em vez disso, ele digitou a sequência de letras e números quase sem sentido: ymiw2klt4pwyy1wdy6 …

Com essas quatro dúzias de toques no teclado, Huang estava no caminho certo, não apenas para vencer a Competição Nacional de Digitação de Caracteres Chineses de 2013, mas também para atingir uma das velocidades de digitação mais rápidas já registradas, em qualquer lugar do mundo.

ymiw2klt4pwyy1wdy6 … não é o mesmo que 高举中国特色社会主义 … As teclas que Huang realmente pressionou em seu teclado QWERTY – sua “transcrição primária”, como poderíamos chamá-la – eram completamente diferentes dos símbolos que apareceram na tela do computador, ou seja, a “transcrição secundária” do discurso de Hu Jintao. Isso é verdade para cada um dos mais de um bilhão de usuários de computador sinófonos do mundo. Na computação chinesa, o que você digita nunca é o que você recebe.

Para os leitores acostumados com o processamento de texto e a computação em inglês, isso deve ser uma surpresa. Por exemplo, se você comparasse o parágrafo que está lendo agora com um registro de teclas mostrando exatamente quais botões pressionei para produzi-lo, o exercício seria pouco esclarecedor (para dizer o mínimo). “F-o-r-_-r-e-a-d-e-r-s-_-a-c-c-u-s-t-o-m-e-d-_t-o-_-E-n-g-l-i-s-h …”, seria o resultado (perdoando quaisquer erros de digitação ou edições). Na digitação em inglês e na entrada do computador, as transcrições primária e secundária de um digitador são, em princípio, idênticas. Os símbolos nas teclas e os símbolos na tela são os mesmos.

O mesmo não acontece com a computação em chinês. Ao digitar chinês, os símbolos que uma pessoa vê em um teclado QWERTY são sempre diferentes dos símbolos que aparecem no monitor ou no papel. Todos os usuários de computadores e de novas mídias no mundo sinófono – não importa se são extremamente rápidos ou lentos – usam seus dispositivos exatamente da mesma forma que Huang Zhenyu, constantemente envolvidos nesse processo iterativo de critérios-candidatura-confirmação, usando um IME ou outro. Não se trata de alguns usuários que falam chinês, mas de todos. Esse é o primeiro e mais básico recurso da computação chinesa: A interação homem-computador (HCI) chinesa exige que os usuários operem totalmente em código o tempo todo.

Se o domínio de Huang Zhenyu em um código alfanumérico complexo não fosse impressionante o suficiente, considere a velocidade impressionante de seu desempenho. Ele transcreveu os primeiros 31 caracteres chineses do discurso de Hu Jintao em cerca de cinco segundos, com uma velocidade extrapolada de 372 caracteres chineses por minuto. Ao final da exaustiva competição de 20 minutos, que se estendeu por milhares de caracteres, ele cruzou a linha de chegada com uma velocidade quase inacreditável de 221,9 caracteres por minuto.

Banner Assine a MIT Technology Review Brasil - Escolha seu plano

Isso equivale a 3,7 caracteres chineses por segundo.

No contexto do inglês, os cinco segundos iniciais de Huang teriam sido equivalentes a cerca de 375 palavras em inglês por minuto, com sua velocidade geral de competição ultrapassando facilmente 200 WPM – um ritmo alucinante inigualável por qualquer pessoa no mundo anglófono (usando QWERTY, pelo menos). Em 1985, Barbara Blackburn alcançou um desempenho verificado pelo Guinness Book of World Records de 170 palavras em inglês por minuto (em uma máquina de escrever, nada menos). Mais tarde, o demônio da velocidade Sean Wrona superou a pontuação de Blackburn com um desempenho de 174 WPM (em um teclado de computador, vale ressaltar). Por mais impressionantes que sejam esses marcos, o fato é que, se o desempenho de Huang tivesse ocorrido no mundo anglófono, seu nome estaria consagrado no Guinness Book of World Records como a nova referência a ser batida.

A velocidade de Huang também teve um significado histórico especial.

Para uma pessoa que viveu entre 1850 e 1950 – o período analisado no livro The Chinese Typewriter – a ideia de produzir chinês por meios mecânicos a uma velocidade de mais de 200 caracteres por minuto seria praticamente inimaginável. Durante toda a história da telegrafia chinesa, que remonta à década de 1870, os operadores atingiam o máximo de algumas dezenas de caracteres por minuto. No auge da datilografia mecânica chinesa, entre as décadas de 1920 e 1970, as velocidades mais rápidas registradas eram de apenas 80 caracteres por minuto (com a maioria dos datilógrafos operando em taxas muito mais lentas). Quando se tratava de tecnologias de informação modernas, ou seja, o chinês era consistentemente um dos sistemas de escrita mais lentos do mundo.

O que mudou? Como uma escrita que por tanto tempo foi considerada incômoda e impotente e complexa de repente passou a rivalizar com as velocidades de digitação computacional registradas em outras partes do mundo? Mesmo se aceitarmos que os usuários de computador chineses são, de alguma forma, capazes de se envolver em codificação em “tempo real”, os IMEs chineses não deveriam resultar em um “teto” geral mais baixo para o processamento de texto chinês em comparação com o inglês? Afinal, os usuários de computador chineses precisam passar por muito mais obstáculos ao longo de um processo complicado e de várias etapas: o IME precisa interceptar as teclas digitadas pelo usuário, pesquisar na memória por uma correspondência, apresentar possíveis candidatos e aguardar a confirmação do usuário. Enquanto isso, os usuários de computadores em inglês precisam apenas pressionar a tecla que desejam ver impressa na tela. O que poderia ser mais simples do que o “imediatismo” de “Q é igual a Q”, “W é igual a W” e assim por diante?

Para desvendar esse aparente paradoxo, examinaremos o primeiro computador chinês já projetado: o Sinotype, também conhecido como Ideographic Composing Machine. Lançada em 1959 pelo professor do MIT Samuel Hawks Caldwell e pela Graphic Arts Research Foundation, essa máquina apresentava um teclado QWERTY, que o operador usava para inserir, não os valores fonéticos dos caracteres chineses, mas as pinceladas com as quais os caracteres chineses são compostos. No entanto, o objetivo do Sinotype não era “construir” caracteres chineses na página, da mesma forma que um usuário constrói palavras em inglês por meio da adição sucessiva de letras. Em vez disso, cada “grafia” de traço servia como um endereço eletrônico que o circuito lógico do Sinotype usava para recuperar um caractere chinês da memória. Em outras palavras, o primeiro computador chinês da história tinha como premissa o mesmo tipo de “etapas adicionais” vistas no desempenho premiado de Huang Zhenyu em 2013.

Durante a pesquisa de Caldwell, ele descobriu benefícios inesperados de todas essas etapas adicionais – benefícios totalmente inéditos no contexto da interação homem-máquina anglófona naquela época. Ele descobriu que o Sinotype precisava de muito menos pressionamentos de tecla para localizar um caractere chinês na memória do que para compor um caractere por meios convencionais de inscrição. Por analogia, “soletrar” uma palavra de nove letras como “crocodile” (c-r-o-c-o-d-i-l-e) levava muito mais tempo do que recuperar essa mesma palavra da memória (“c-r-o-c-o-d” seria suficiente para um computador fazer uma correspondência inequívoca, afinal, dada a ausência de outras palavras com grafias semelhantes ou idênticas). Caldwell chamou sua descoberta de “ortografia mínima”, tornando-a uma parte essencial do primeiro computador chinês já construído.

Hoje, conhecemos essa técnica por um nome diferente: “autocompletar”, uma estratégia de interação homem-computador na qual camadas adicionais de mediação resultam em uma entrada de texto mais rápida do que o ato “não mediado” de digitação. Décadas antes de sua redescoberta no mundo anglófono, o autocompletar foi inventado na arena da computação chinesa.

Último vídeo

Nossos tópicos