Nas últimas semanas, a nova administração presidencial dos EUA derrubou milhares de páginas da web do governo relacionadas à saúde pública, justiça ambiental e pesquisa científica. As remoções em massa decorrem do esforço da nova administração para remover informações governamentais relacionadas à diversidade e “ideologia de gênero”, bem como do escrutínio das práticas de várias agências governamentais.
O site da USAID está fora do ar. Assim como sites relacionados a ele, como o childreninadversity.gov, e outras milhares de páginas do Census Bureau, dos Centers for Disease Control and Prevention e do Office of Justice Programs.
“Nunca vimos nada parecido com isso”, diz David Kaye, professor de direito na Universidade da Califórnia em Irvine e ex-relator especial da ONU para liberdade de opinião e expressão. “Não acho que nenhum de nós saiba exatamente o que está acontecendo. O que podemos ver são sites do governo caindo, bancos de dados de interesse público essencial. Todo o site da USAID.”
Mas, à medida que as páginas da web do governo são removidas, uma coleção de organizações está tentando arquivar o máximo de dados e informações possível antes que desapareçam para sempre. A esperança é manter um registro do que foi perdido para que cientistas e historiadores possam usar no futuro.
O arquivamento de dados é geralmente considerado apartidário, mas as ações recentes da administração estimularam alguns na comunidade de preservação a se levantarem.
“Considero as ações da atual administração um ataque a todo o empreendimento científico”, diz Margaret Hedstrom, professora emérita de informação na Universidade de Michigan.
Várias organizações estão tentando reunir o máximo de dados possível. Um dos maiores projetos é o End of Term Web Archive, uma coalizão apartidária de muitas organizações que visa fazer uma cópia de todos os dados do governo no final de cada mandato presidencial. O EoT Archive permite que indivíduos indiquem sites ou conjuntos de dados específicos para preservação.
“Tudo o que podemos fazer é coletar o que foi publicado, arquivá-lo e garantir que seja acessível publicamente no futuro”, diz James Jacobs, bibliotecário de informações do governo dos EUA na Universidade de Stanford e um dos aministradores do EoT Archive.
Outras organizações estão adotando um ângulo específico na coleta de dados. Por exemplo, o Open Environmental Data Project (OEDP) está tentando capturar dados relacionados à ciência climática e à justiça ambiental. “Estamos tentando rastrear o que está sendo retirado”, diz Katie Hoeberling, diretora de iniciativas políticas do OEDP. “Não posso dizer com certeza exatamente o quanto do que costumava estar disponível ainda está, mas estamos vendo, especialmente nas últimas semanas, uma taxa acelerada de dados sendo retirados.”
Além de rastrear o que está acontecendo, o OEDP está ativamente fazendo backup de dados relevantes. Na verdade, ele começou esse processo em novembro, para capturar os dados no final do mandato do ex-presidente Biden. Mas os esforços aumentaram nas últimas semanas. “A situação estava muito mais calma antes da posse”, diz Cathy Richards, uma tecnóloga do OEDP. “Foi no segundo dia da nova administração que a primeira plataforma caiu. Naquele momento, todos perceberam: ‘Ah, não — temos que continuar fazendo isso e temos que continuar trabalhando para baixar essa lista de data sets.'”
Esse tipo de trabalho é crucial porque o governo dos EUA detém dados nacionais e internacionais inestimáveis relacionados ao clima. “Esses são repositórios insubstituíveis de informações climáticas importantes”, diz Lauren Kurtz, diretora executiva do Climate Science Legal Defense Fund. “Então, mexer neles ou excluí-los significa a perda irreparável de informações críticas. É realmente muito trágico.”
Assim como o OEDP, a Catalyst Cooperative está tentando garantir que dados relacionados ao clima e à energia sejam armazenados e acessíveis para pesquisadores. Ambos fazem parte do Public Environmental Data Partners, um coletivo de organizações dedicadas à preservação de dados ambientais federais. “Tentamos identificar conjuntos de dados que sabemos que nossas comunidades usam para tomar decisões sobre qual eletricidade devemos adquirir ou para tomar decisões sobre resiliência em nosso planejamento de infraestrutura”, diz Christina Gosnell, cofundadora e presidente da Catalyst.
Arquivar pode ser uma tarefa difícil; não há uma maneira fácil de armazenar todos os dados do governo dos EUA. “Várias agências e departamentos federais lidam com preservação e arquivamento de dados de inúmeras maneiras”, diz Gosnell. Também não há ninguém que tenha uma lista completa de todos os sites governamentais existentes.
Essa miscelânea de dados significa que, além de usar rastreadores da web, que são ferramentas usadas para capturar instantâneos de sites e dados, os arquivistas geralmente precisam raspar os dados manualmente também. Além disso, às vezes um conjunto de dados estará atrás de um endereço de login ou captcha para impedir que as ferramentas de raspagem extraiam os dados. Às vezes os web scrapers também perdem recursos importantes em um site. Por exemplo, os sites geralmente têm muitos links para outras informações que não são capturadas em um scrape. Ou o scrape pode simplesmente não funcionar por causa de algo a ver com a estrutura de um site. Portanto, ter uma pessoa no circuito conferindo o trabalho do scraper ou capturando dados manualmente é geralmente a única maneira de garantir que as informações sejam coletadas corretamente.
E há dúvidas sobre se a raspagem dos dados será realmente suficiente. Restaurar sites e conjuntos de dados complexos geralmente não é um processo simples. “Torna-se extraordinariamente difícil e custoso tentar resgatar e salvar os dados”, diz Hedstrom. “É como drenar o sangue de um corpo e esperar que o corpo continue a funcionar. Os reparos e tentativas de recuperação são às vezes intransponíveis quando precisamos de leituras contínuas de dados.”
“Todo esse trabalho de arquivamento de dados é um Band-Aid temporário”, diz Gosnell. “Se os conjuntos de dados forem removidos e não forem mais atualizados, nossos dados arquivados se tornarão cada vez mais obsoletos e, portanto, ineficazes para informar decisões ao longo do tempo.”
Esses efeitos podem ser duradouros. “Você não verá o impacto disso até daqui a 10 anos, quando perceber que há uma lacuna de quatro anos de dados”, diz Jacobs.
Muitos arquivistas digitais enfatizam a importância de entender nosso passado. “Todos nós podemos pensar sobre nossas próprias fotos de família que nos foram passadas e o quão importantes esses diferentes documentos são”, diz Trevor Owens, diretor de pesquisa do Instituto Americano de Física e ex-diretor de serviços digitais da Biblioteca do Congresso. “Essa cadeia de conexão com o passado é realmente importante.”
“É a nossa biblioteca; é a nossa história”, diz Richards. “Esses dados são financiados pelos contribuintes, então definitivamente não queremos que todo esse conhecimento seja perdido quando podemos mantê-lo, armazená-lo, potencialmente fazer algo com ele e continuar a aprender com ele.”