38% das páginas da web que existiam em 2013 não existem mais
Estudo sobre “link rot” revela preocupações sobre a volatilidade de dados digitais e a preservação de informações
A volatilidade dos conteúdos online tem se tornado uma preocupação crescente entre pesquisadores e profissionais de mídia. Um estudo do Pew Research Center, publicado esta semana, destaca como a remoção ou modificação de informações na internet afeta a disponibilidade de dados essenciais, com implicações significativas para a pesquisa e a memória histórica.
Esse fenômeno, conhecido como “decaimento digital”, é particularmente acentuado para conteúdos mais antigos. Aproximadamente 38% das páginas da web que existiam em 2013 não estão disponíveis hoje, em comparação com 8% das páginas que existiam em 2023. Esse desaparecimento ocorre em diversos espaços online, incluindo sites governamentais e de notícias, bem como na seção de “Referências” de artigos da Wikipedia.
A realidade do Link Rot
O “link rot”, ou apodrecimento de links, é um problema significativo que afeta a integridade da informação na internet. O estudo descobriu que:
- 23% das páginas de notícias contêm pelo menos um link quebrado.
- 21% das páginas de sites governamentais apresentam links quebrados.
- Páginas governamentais locais, pertencentes a governos municipais, são particularmente suscetíveis a ter links quebrados.
- 54% das páginas da Wikipedia contêm pelo menos um link em sua seção de “Referências” que aponta para uma página que não existe mais.
- Dos 38% das páginas da web que não existem mais, 1/4 se deve ao site não estar mais funcional ou ter sido deletado por completo.
Impacto na pesquisa acadêmica e jornalística
Esta realidade não apenas dificulta o trabalho de pesquisadores, mas também levanta questões sobre a integridade das informações disponíveis ao público. A remoção de conteúdos online tem implicações diretas para a pesquisa acadêmica e jornalística. Pesquisadores que dependem de fontes online para estudos de longo prazo enfrentam dificuldades para verificar dados e fatos históricos. Isso é particularmente problemático em áreas como ciências sociais e humanas, onde o contexto e a continuidade das informações são cruciais – 25% dos links contidos em citações acadêmicas e reportagens jornalísticas se tornam inválidos após apenas dois anos.
Um exemplo mencionado no estudo do Pew Research Center é a dificuldade em acessar posts antigos de redes sociais, que podem ser deletados pelos próprios usuários ou pelas plataformas. Este desaparecimento pode comprometer a integridade de pesquisas que analisam comportamentos e tendências ao longo do tempo.
Redes sociais e a efemeridade das informações
Redes sociais são um dos principais ambientes onde a efemeridade das informações é mais evidente. Plataformas como Twitter, Facebook e Instagram permitem que os usuários apaguem suas postagens, enquanto as próprias plataformas podem remover conteúdos que violem suas políticas. O estudo destaca que essas práticas criam lacunas significativas nos registros digitais.
Por exemplo, a remoção de postagens pode ocorrer por diversos motivos, incluindo mudanças nas políticas de moderação das plataformas ou a decisão de usuários de apagar conteúdos antigos. Isso resulta em uma perda de contexto para eventos importantes documentados em tempo real nas redes sociais, tornando a reconstrução de narrativas históricas mais difícil para os pesquisadores.
Um exemplo disso é a plataforma X (antigo Twitter), onde quase um em cada cinco tweets (~18%) não está mais visível publicamente no site apenas meses após serem postados. Em 60% desses casos, a conta que postou o tweet foi tornada privada, suspensa ou excluída completamente. Nos outros 40%, o titular da conta excluiu o tweet individual, mas a conta ainda existia.
O estudo sugere a necessidade de uma colaboração mais estreita entre plataformas digitais, bibliotecas e pesquisadores para desenvolver métodos eficazes de preservação. A implementação de sistemas automatizados para arquivamento e a criação de políticas claras para a retenção de dados podem ajudar a mitigar o problema da volatilidade de conteúdos online.
A preservação de conteúdos digitais tem sido um desafio técnico e ético. Bibliotecas e arquivos digitais estão buscando soluções para capturar e armazenar conteúdos online de forma mais eficaz. Para combater a volatilidade do conteúdo online, várias iniciativas de arquivamento digital têm sido implementadas. Projetos como o Internet Archive e o projeto Perma.cc têm desempenhado um papel crucial na preservação de páginas web. O Internet Archive, por exemplo, armazena bilhões de páginas, tornando-se um recurso essencial para pesquisadores e historiadores.
“Através do Internet Archive, conseguimos acessar versões antigas de sites e informações que de outra forma estariam perdidas”, disse Brewster Kahle, fundador do projeto, em uma palestra recente. “Nosso objetivo é garantir que a história digital seja preservada para futuras gerações”.
Implicações para o futuro da informação digital
As descobertas do PRC sublinham a importância de estratégias robustas para garantir a longevidade das informações digitais. A volatilidade dos conteúdos online não só afeta a pesquisa e a historiografia, mas também a transparência e a responsabilidade pública.
Organizações de mídia, acadêmicas e de preservação digital são instadas a adotar práticas que assegurem a continuidade e a acessibilidade dos dados online. A conscientização sobre a efemeridade dos conteúdos digitais e o desenvolvimento de tecnologias de arquivamento mais eficazes são passos essenciais para enfrentar os desafios apresentados pelo desaparecimento de informações na internet.
Você pode encontrar mais detalhes sobre o estudo, incluindo a metodologia utilizada, na página do relatório “When Online Content Disappears”, publicado pela Pew Reserach Center.