Preservação de Memórias Digitais - MIT Technology Review

Banner indicando a posição do botão de download do artigo em formato pdf

Tem uma foto da minha filha que adoro. Ela está sentada, sorrindo, em nosso quintal antigo, com as mãos gordinhas agarrando a grama fresca. Foi tirada em 2013, quando ela tinha quase um ano, com uma velha câmera digital Samsung. Originalmente, armazenei-a em um laptop antes de transferi-la para um disco rígido externo e robusto.

Alguns anos depois, carreguei-a no Google Fotos. Quando procuro a palavra “grama”, o algoritmo do Google a encontra. Isso sempre me faz sorrir.

Eu pago ao Google £1,79 por mês para manter minhas memórias seguras. Estou depositando muita confiança em uma empresa que só existe há 26 anos, mas o incômodo que isso elimina parece valer a pena. Têm tantas coisas hoje em dia. O administrador necessário para mantê-las atualizadas e em segurança é muito oneroso.

Meus pais não tiveram esse problema. Eles tiravam fotos minhas ocasionalmente com uma câmera de filme, e, com certa periodicidade, imprimiam-nas em papel e as colocavam em um álbum. Essas fotos ainda podem ser vistas hoje, cerca de 40 anos depois, em papel fotográfico desbotado e amarelado – algumas fotos para cada ano.

Muitas das minhas memórias das décadas seguintes também estão registradas em papel. As cartas que recebi de meus amigos quando viajei para o exterior aos 20 anos foram escritas à mão em folha pautada. Ainda as tenho enfiadas em uma caixa de sapatos, um arquivo divertido, mas relativamente pequeno, de uma época offline.

Não temos mais essas limitações de espaço. Meu iPhone tira milhares de fotografias por ano. Nossos feeds do Instagram e TikTok são constantemente atualizados. Coletivamente, enviamos bilhões de mensagens no WhatsApp, textos, e-mails e tweets.

Contudo, embora todos esses dados sejam abundantes, também são mais efêmeros. Um dia, em um futuro talvez não tão distante, o YouTube não existirá, e seus vídeos poderão ser perdidos para sempre. O Facebook – e as postagens de férias do seu tio – desaparecerão. Há precedentes para isso. O MySpace, a primeira rede social em grande escala, excluiu todas as fotos, vídeos e arquivos de áudio enviados antes de 2016, aparentemente sem aviso prévio. Partes inteiras de grupos de notícias da Usenet, que abrigam algumas das primeiras conversas da Internet, ficaram offline para sempre e se apagaram da história. Em junho deste ano, mais de 20 anos de jornalismo musical desapareceram quando os arquivos do MTV News foram retirados do ar.

Para muitos arquivistas, os alarmes estão soando. No mundo todo, websites extintos ou dados em risco são recuperados ou coletados para salvar o máximo possível das nossas vidas digitais. Outros trabalham em formas de armazenar essas informações em formatos que durarão centenas, talvez até milhares de anos.

O esforço levanta questões complexas. O que é importante para nós? Como e por que decidimos o que manter – e o que abandonar? E como as gerações futuras entenderão o que somos capazes de salvar?

“Bem-vindo ao desafio de todo historiador, arqueólogo, romancista”, diz Genevieve Bell, antropóloga cultural. “Como você entende o que sobrou? E, então, como você evita lê-lo pelas lentes do agora?”

O salão da última chance

Há mais coisas sendo criadas agora do que em qualquer momento da história. Na conferência I/O do Google neste ano, o CEO da empresa, Sundar Pichai, disse que 6 bilhões de fotos e vídeos são enviados para o Google Fotos todos os dias. Mais de 40 milhões de mensagens do WhatsApp são enviadas por minuto.

Mesmo com muito mais volume, nossos dados estão mais frágeis do que nunca. Os livros podem queimar em um incêndio estranho na biblioteca, mas as informações são muito mais fáceis de apagar para sempre. Vimos isso acontecer – não apenas em incidentes como a exclusão acidental de dados do MySpace, mas também, às vezes, intencionalmente.

Em 2009, o Yahoo anunciou que desativaria a plataforma de hospedagem de sites GeoCities, colocando em risco milhões de páginas da web cuidadosamente criadas. Mesmo que a maioria delas possa parecer irrelevante – GeoCities era famosa por sua estética amadora, para iniciantes e por suas páginas dedicadas a várias coleções, obsessões ou fandoms –, elas representavam um capítulo embrionário da web e que estava prestes a ser perdido. Para sempre.

E teria sido, se um grupo improvisado de arquivistas voluntários, liderado por Jason Scott, não tivesse intervindo.

“Entramos em ação, e parte da raiva e da confusão da época foi que estávamos deixando de baixar um monte de sites interessantes para, de repente, assumir um site-âncora dos primórdios da web”, lembra Scott.

Seu grupo, chamado Archive Team, mobilizou-se rapidamente e baixou o maior número possível de páginas do GeoCities antes que fechasse definitivamente. Por fim, ele e a equipe puderam salvar a maioria do site, arquivando milhões de páginas entre abril e outubro de 2009. O líder do grupo estima que conseguiram baixar e armazenar cerca de um terabyte, mas observa que o tamanho do GeoCities aumentou, diminuiu e tinha em torno de nove terabytes no seu auge. Muito provavelmente, a maior parte desapareceu para sempre. “Era 100% composto de obras geradas por usuários, arte popular e exemplos honestos de seres humanos escrevendo informações e histórias que não existiam em nenhum outro lugar”, diz ele.

Conhecido por sua cartola e senso de estilo inspirado no cyberpunk, Scott assumiu, como missão de sua vida, ajudar a salvar partes da web que correm o perigo de serem perdidas. “Cada vez mais, compreende-se que arquivos, arquivamento e preservação são uma escolha, um dever, e não algo que simplesmente surge, como marés”, diz ele.

Agora, Scott trabalha como “arquivista livre e curador de software” no Internet Archive, uma biblioteca online fundada em 1996 pelo pioneiro da Internet Brewster Kahle para salvar e manter dados que, de outra forma, seriam extintos.

Nas últimas duas décadas, o Internet Archive acumulou uma biblioteca gigantesca de material extraído da web, incluindo o conteúdo do GeoCities. Ele não salva apenas artefatos puramente digitais; também possui uma vasta coleção de livros digitalizados que escaneou e resgatou. Desde o seu início, o Internet Archive coletou mais de 145 petabytes de dados, incluindo mais de 95 milhões de arquivos de mídia pública, como filmes, imagens e textos. Quase meio milhão de páginas de notícias da MTV foi salvo.

Sua Wayback Machine, que permite aos usuários retroceder para ver a aparência de determinados sites em qualquer época, tem mais de 800 bilhões de páginas da web armazenadas e captura mais 650 milhões por dia. Ele também grava e coleta canais de TV de todo o mundo e até salva vídeos do TikTok e do YouTube. Tudo é armazenado em vários data centers de propriedade do Internet Archive.

É um trabalho de Sísifo. Como sociedade, estamos criando tantas coisas novas que sempre devemos excluir mais coisas do que fizemos no ano anterior, diz Jack Cushman, diretor do Laboratório de Inovação em Bibliotecas de Harvard, no qual ajuda bibliotecas e tecnólogos a aprenderem uns com os outros. “Temos de descobrir o que salvar e o que não salvar”, diz ele. “E como decidimos?”

Os arquivistas têm de tomar tais decisões constantemente. Quais TikToks devemos guardar para a posteridade, por exemplo?

Não deveríamos nos esforçar muito para imaginar o que os futuros historiadores achariam interessante sobre nós, diz Niels Brügger, pesquisador de Internet na Universidade de Aarhus, na Dinamarca. “Não podemos imaginar o que os historiadores daqui a 30 anos gostariam de estudar hoje, porque não temos a menor ideia”, diz ele. “Portanto, não deveríamos tentar antecipar e restringir as possíveis perguntas que os futuros pesquisadores fariam.”

Em vez disso, segundo Brügger, deveríamos apenas guardar o máximo de coisas possível e deixá-los descobrir mais tarde. “Como historiador, eu optaria definitivamente por pegar tudo, e, então, os historiadores descobrirão o que diabos vão fazer com isso”, diz ele.

No Internet Archive, prioriza-se aquilo que tem o maior risco de perda, diz Jefferson Bailey, que trabalha lá. Ele ajuda a desenvolver softwares de arquivamento para bibliotecas e instituições. “Material efêmero, ou em perigo, ou que ainda não foi digitalizado e, portanto, seria destruído mais facilmente, porque está em formato analógico ou impresso – esses têm prioridade”, diz ele.

As pessoas podem solicitar que as páginas sejam arquivadas. Bibliotecas e instituições também fazem indicações, e a equipe resolve o resto. Nas redes sociais abertas, como o TikTok e o YouTube, as equipes de arquivistas de bibliotecas de todo o mundo selecionam determinadas contas, copiam o que desejam salvar e compartilham essas cópias com o Internet Archive. Pode ser algo instantâneo, do que é tendência a cada dia, bem como tweets ou vídeos de contas administradas por indivíduos notáveis, como o presidente dos EUA.

O processo não consegue captar tudo, mas oferece uma boa fatia do que nos preocupou nas primeiras décadas do século XXI. Apesar de os registros históricos normalmente se basearem nas cartas privadas e nos pertences dos mais ricos da sociedade, um sistema arquivista que coleta tweets sempre será um pouco mais igualitário.

“Você pode obter um retrato muito interessante e diversificado dos nossos momentos culturais dos últimos 30, 40 anos”, diz Bailey. “Isso é muito diferente de como era um arquivo tradicional há 100 anos.”

Como cidadãos, também poderíamos ajudar futuros historiadores. Brügger sugere que as pessoas poderiam fazer “doações de dados” de sua correspondência pessoal para arquivos. “Uma semana por ano, convide todos a doar os e-mails daquela semana”, diz ele. “Se você tivesse esses períodos de correspondência por e-mail de milhares de pessoas, ano após ano, isso seria realmente ótimo.”

Scott imagina que os futuros historiadores usarão a IA eventualmente para consultar esses arquivos e obter uma visão única de como vivíamos. “Você poderá perguntar a uma máquina: ‘Poderia me mostrar imagens de pessoas se divertindo em parques de diversões com suas famílias nos anos 1960?’, e ela dirá: ‘Aqui está’”, diz ele. “O trabalho que realizamos até aqui foi feito na fé de que algo assim poderia existir.”

O passado guia o futuro

O conhecimento humano nem sempre desaparece com um florescimento dramático como as GeoCities; às vezes, é apagado aos poucos. Você não sabe que algo sumiu até voltar para verificar. Um exemplo disso é o “link rot”, em que os hiperlinks na web não te direcionam mais para o alvo certo, deixando-o com páginas quebradas e becos sem saída. O Pew Research Center, em um estudo de maio deste ano, descobriu que 23% das páginas da web que existiam em 2013 não estão mais acessíveis.

Não são apenas os links da web que morrem sem curadoria e cuidado constantes. Ao contrário do papel, os formatos que agora mantêm a maioria dos nossos dados requerem determinado software ou hardware para serem executados, e essas ferramentas podem se tornar obsoletas rapidamente. Muitos de nossos arquivos não podem mais ser lidos porque os aplicativos que os leem desapareceram ou os dados foram corrompidos, por exemplo.

Uma maneira de mitigar esse problema é transferir regularmente dados importantes para a mídia mais recente, antes que os programas necessários para lê-los sejam perdidos para sempre. No Internet Archive e em outras bibliotecas, atualiza-se a forma para armazenar as informações a cada poucos anos. Entretanto, para os dados não tratados ativamente, poderá demorar apenas alguns anos até que o hardware necessário para cuidar deles deixe de estar disponível. Pense em meios de armazenamento que já foram onipresentes, como unidades Zip ou CompactFlash.

Alguns estudiosos buscam formas de garantir que sempre possamos acessar formatos digitais antigos, mesmo que o recurso necessário para lê-los tenha se tornado uma peça de museu. O projeto Olive, dirigido por Mahadev Satyanarayanan da Universidade Carnegie Mellon, visa a possibilitar que qualquer pessoa use qualquer ferramenta, por mais antiga que seja, “com apenas um clique”. Desde 2012, sua equipe trabalha para criar uma enorme rede descentralizada que suporte “máquinas virtuais” – emuladores para sistemas operacionais antigos ou extintos e todo o software que eles executam.

Manter dados antigos vivos dessa forma é um meio de se proteger contra o que o cientista da computação Danny Hillis certa vez apelidou de “era das trevas digital”, uma referência ao início do período medieval, quando a falta de material escrito deixava pouco para os futuros historiadores progredirem.

Hillis, um ex-aluno do MIT que foi pioneiro na computação paralela, acha que a rápida agitação tecnológica do nosso tempo deixará uma grande parte do vivemos como um mistério para os estudiosos.

“Quando as pessoas olham para trás, para este período, dirão: ‘Oh, bem, você sabe, houve um tipo de mudança tecnológica incompreensivelmente rápida e muita história se perdeu durante essa transformação”, diz ele.

Hillis foi um dos fundadores (com Brian Eno e Stewart Brand) da Long Now Foundation, uma organização com sede em São Francisco conhecida por seus atraentes projetos de Arte e de Ciência, como o Clock of the Long Now. Trata-se de um relógio mecânico gigantesco financiado por Jeff Bezos, atualmente em construção em uma montanha no oeste do Texas, projetado para manter a hora precisa por 10.000 anos. Também criou o Disco Rosetta, um círculo de níquel gravado em escala microscópica com documentação para cerca de 1.500 línguas do mundo. Em fevereiro, uma cópia do disco pousou na Lua a bordo da sonda Odysseus. Parte do foco do Long Now é ajudar as pessoas a pensar como protegemos a nossa história para as gerações futuras. Não se trata apenas de facilitar a vida dos historiadores; trata-se de nos ajudar a ser “antepassados melhores”, conforme a declaração de missão da organização.

É um sentimento que combina com Vint Cerf, um dos fundadores da Internet. “À medida que envelheço, fico pensando: como posso ser um bom ancestral?”, diz.

“Uma compreensão do que aconteceu no passado é útil para antecipar ou interpretar o que está acontecendo no presente e o que poderá acontecer no futuro”, diz Cerf. Existem “todos os tipos de cenários em que a ausência de conhecimento do passado é uma fraqueza debilitante para uma sociedade”.

“Se não nos lembramos, não podemos pensar, e a forma como a sociedade se lembra é escrevendo coisas e colocando-as em bibliotecas”, concorda Kahle. Sem esses repositórios, segundo ele, “as pessoas ficarão confusas sobre o que é verdade e o que não é verdade”.

Kahle criou o Internet Archive como uma forma de garantir que todo o conhecimento seja gratuito para todos, mas sente que o equilíbrio de poder se deslocou das bibliotecas para as corporações. E isso provavelmente será um problema para manter as coisas acessíveis a longo prazo.

“Se isso ficar por conta das corporações, tudo acaba”, diz ele. “Não estamos falando apenas de obras clássicas publicadas – como sua revista ou seus livros –, mas páginas do Facebook, do Twitter [atual X], seus blogs pessoais. No geral, todos esses estão em plataformas corporativas agora. E tudo isso desaparecerá.”

A perda dos nossos arquivos digitais de longo prazo tem implicações reais em como a sociedade funciona, diz Cushman, de Harvard, que salienta que as nossas decisões legais e a nossa documentação são, em grande parte, armazenadas digitalmente. Sem um registo permanente e inalterável, já não podemos confiar em julgamentos passados para informar o presente. Sua equipe criou maneiras de permitir que tribunais e periódicos jurídicos arquivem cópias de páginas da web na Biblioteca Jurídica de Harvard, na qual são mantidas indefinidamente como um registro de precedentes legais. Ele também está criando ferramentas para que as pessoas possam interagir com esses arquivos, percorrendo versões históricas de um site ou usando um GPT personalizado para interagir com coleções.

Vários outros grupos trabalham em soluções parecidas. A Biblioteca do Congresso dos EUA sugeriu padrões para armazenamento de arquivos de vídeo, áudio e web a fim de serem acessíveis às gerações futuras. Demanda uma urgência para os arquivistas pensarem determinadas questões, como se os dados incluem instruções para acessá-los ou quão amplamente adotado foi o formato (a ideia é que um formato mais predominante tem menos chance de se tornar obsoleto rapidamente).

Mas, em última análise, os arquivos digitais são mais difíceis de manter do que os físicos, diz Cushman. “Se você ficar sem orçamento e deixar os livros em um quarto silencioso e escuro por 10 anos, eles ficarão bem”, diz ele. “Se você não pagar sua conta da AWS por um mês, seus arquivos sumirão para sempre.”

Armazenamento para escalas de tempo impossíveis

Até a forma física como mantemos dados digitais é impermanente. A maioria do armazenamento de longo prazo em data centers – para uso em recuperação de desastres, entre outras aplicações – está em discos rígidos magnéticos ou fitas. Discos rígidos se desgastam depois de alguns anos; a fita é um pouco melhor, porém, ainda não demora muito além de uma década ou mais de uso de armazenamento antes que comece a falhar.

As empresas fazem novos backups o tempo todo, então isso é um problema menor a curto e médio prazo. Contudo, quando você deseja armazenar informações culturais, legais ou históricas importantes para todas as épocas, deve pensar de forma diferente. Você precisa de algo que possa armazenar uma abundância de dados, mas que também resista ao teste do tempo e não precise de cuidados constantes.

Frequentemente, o DNA tem sido apontado como uma opção de armazenamento a longo prazo. Ele pode manter quantidades surpreendentes de informações e é incrivelmente duradouro; pedaços de osso contêm DNA legível de centenas de milhares de anos atrás. Entretanto, hoje, sua codificação da informação é cara e lenta, e é necessário equipamento especializado para “ler” o dado mais tarde. Isso torna-o impraticável como um apoio sério a longo prazo para o conhecimento do nosso mundo, pelo menos por agora.

Felizmente, já existem algumas alternativas atraentes. Uma das ideias mais avançadas é o Projeto Silica, atualmente em desenvolvimento na Microsoft Research em Cambridge, Reino Unido, onde Richard Black e a sua equipe criam uma maneira de armazenar a longo prazo em quadrados de vidro, capazes que pode durar centenas ou até milhares de anos.

Cada um é feito usando um laser poderoso e preciso, que grava deformações em nanoescala no vidro abaixo da superfície, passível de codificar bits de informação. Essas pequenas imperfeições são colocadas umas sobre as outras no vidro, e, então, são lidas com um microscópio poderoso, que pode detectar como a luz é refratada e polarizada. O Machine Learning é utilizado para decodificar os bits, e cada quadrado possui dados de treinamento suficientes para permitir que futuros historiadores treinem novamente um modelo do zero, se necessário, diz Black.

Quando seguro um dos quadrados de sílica na mão, parece uma ficção científica agradável, como se eu tivesse acabado de retirá-lo para desligar o HAL em 2001: Uma odisseia no espaço. Os dados codificados são visíveis por um azul fraco, no qual a luz atinge as imperfeições e se dispersa. Um vídeo compartilhado pela Microsoft mostra esses quadrados sendo colocados no micro-ondas, fervidos, assados no forno e eletrocutados com um ímã de alta potência, tudo sem efeitos nocivos aparentes.

Black imagina o uso da sílica para manter arquivos científicos de longo prazo, como informações médicas ou dados meteorológicos, durante décadas. Essencialmente, a tecnologia pode criar arquivos isoláveis da Internet e que não precisam de energia ou cuidados especiais. Eles podem simplesmente ser trancados em um silo e devem funcionar bem e ser legíveis daqui a séculos. “A humanidade nunca parou de construir microscópios”, diz Black. Em 2019, a Warner Bros. arquivou parte de seu catálogo anterior em vidro de sílica, incluindo o clássico Superman de 1978.

A equipe de Black também projetou um sistema de armazenamento de biblioteca para o Projeto Silica. Prateleiras repletas de milhares de quadrados de vidro ocupam uma pequena sala no escritório de Cambridge. Conectados a prateleiras, robôs do tamanho de bolsas voam ao longo delas e ocasionalmente param, soltando-se de um dos suportes, e sobem ou descem entre eles antes de disparar de novo no decorrer ao longo do caminho. Quando chegam a um determinado local, param e pegam um dos quadrados, do tamanho de um CD, da prateleira. Seu conteúdo é lido, e o robô volta à sua posição.

Enquanto isso, nas profundezas dos cofres de uma mina abandonada em Svalbard, Noruega, o GitHub está armazenando alguns dos softwares mais importantes da história (incluindo o código-fonte para Linux, Android e Python) em um filme especial que seus criadores afirmam poder durar mais de 500 anos. O material, fabricado pela empresa Piql, é revestido por cristais microscópicos de haleto de prata que escurecem permanentemente quando expostos à luz. Uma fonte de luz de alta potência é usada para criar pixels escuros de apenas seis micrômetros de diâmetro, que codificam dados binários. Um scanner, então, lê os dados de volta. As instruções para acessar as informações estão escritas em inglês em cada rolo, caso não haja mais ninguém por perto para explicar como funciona.

Além da coleção do GitHub, o repositório, conhecido como Arctic World Archive, também inclui dados fornecidos pelo Vaticano e pela Agência Espacial Europeia, bem como diversas obras de arte e imagens de governos e instituições de todo o mundo. A Universidade de Yale, por exemplo, armazenou uma coleção de software, incluindo Microsoft Office e Adobe, como dados Piql. Bastam algumas centenas de metros adiante para você encontrar o Svalbard Global Seed Vault, um depósito que preserva uma seleção da biodiversidade mundial para as gerações futuras. Os dados sobre o que cada recipiente de sementes contém também são mantidos em filme do tipo Piql.

Garantir que essas informações sejam armazenadas em formatos decodificáveis daqui a centenas de anos será fundamental. Como aponta Cushman, ainda discutimos sobre a maneira correta de reproduzir os filmes de Charlie Chaplin porque a velocidade de reprodução pretendida nunca foi registrada. “Quando os pesquisadores tentarem acessar esses materiais daqui a algumas décadas, quão caro será construir ferramentas para exibi-los e quais serão as chances de errarem?” ele pergunta.

Em última análise, a motivação desses projetos é a ideia de que funcionarão como apoio à humanidade. Uma solução de longo prazo que resistirá a um apocalipse, a um pulso eletromagnético do Sol, ao fim da civilização, e que nos permitirá começar de novo.

Algo para que as pessoas saibam que estivemos aqui.

Acidentes bem-vindos

Em algum momento do primeiro século, uma mulher romana chamada Claudia Severa planejava uma grande festa de aniversário em um forte no norte da Inglaterra. Ela pediu a um servo que escrevesse um convite para uma de suas melhores amigas em uma placa de madeira, e, depois, assinou-o com um toque de elegância.

Claudia nunca poderia ter suspeitado que, quase 2.000 anos depois, as Placas de Vindolanda (das quais o seu convite é o mais famoso) seriam usadas para nos dar uma visão única da vida quotidiana dos romanos na Inglaterra daquela época.

Esse é sempre o caminho. Ao longo da história, as coisas mais estranhas e aleatórias sobreviveram para servir de guia aos historiadores. O mesmo acontecerá conosco. Apesar dos esforços de arquivistas, bibliotecários e pesquisadores de armazenamento, é impossível saber com certeza quais dados ainda estarão acessíveis quando já estivermos longe. E podemos nos surpreender com o que eles acharão interessante ao se depararem com isso. Qual lote de e-mails arquivados ou de TikToks será a chave para desbloquear nossa era para futuros historiadores e antropólogos? E o que eles vão pensar de nós?

Os historiadores que vasculham nossos detritos digitais podem ficar com uma série de perguntas sem resposta e só as melhores suposições para fazer.

“Você precisaria perguntar quem tinha tecnologia digital”, diz Bell. “E como a alimentaram? Quem tem de fazer escolhas sobre isso? E como foi armazenada e distribuída? Quem presenciou?”

Não sabemos o que ainda estará em funcionamento daqui a 20, 50 ou 100 anos. Talvez o armazenamento em nuvem do Google Fotos tenha sido abandonado, uma pilha gigante de discos rígidos antigos enterrados no chão. Ou, talvez, com sorte, um dos herdeiros espirituais dos arquivistas de Scott o tenha salvado antes de cair.

Talvez alguém tenha baixado em um tipo de disco de vidro e guardado em determinado cofre em algum lugar.

Talvez algum futuro antropólogo o encontre um dia, tire o pó e descubra que ainda é legível.

Ele pode selecionar um arquivo aleatoriamente, crie algum tipo de emulador de software e encontre um bilhão de fotos de 2013.

E veja uma garota gordinha e feliz sentada na grama.

Assine