Renato M.E. Sabbatini, PhD: Arquivando a Internet

Arquivando a Internet

Renato Sabbatini

Uma das coisas mais angustiantes sobre a Internet (e, ao mesmo tempo, mais novas e fascinantes) é a sua instabilidade. Em um determinado momento qualquer, milhares de páginas na WWW, endereços de correio eletrônico, listas de discussão e outros recursos da Internet estão sendo desativados, transferidos ou simplesmente desaparecendo sem deixar traços.

Um dos motivos é que não existem normas técnicas ou procedimentos infalíveis para anunciar uma mudança ou para preservar informação armazenada anteriormente em um servidor ligado à Internet. Os mecanismos de busca baseados em robôs de software, como o famoso Altavista, checam periodicamente todos os endereços constantes de suas bases de dados, e desativam aqueles que dão erros de resposta. Mas mesmo assim, os usuários já sabem que podem contar com falhas em algo em torno de 10 % dos endereços resultantes de uma busca.

Tomemos como exemplo as publicações eletrônicas. A situação não é muito diferente da do papel, ou seja, muitas revistas e jornais cessam de ser publicados e desaparecem. Entretanto, teoricamente eles deixam um legado, um arquivo com os números já publicados, em bibliotecas ou outros lugares. Isso, entretanto, não acontece com as publicações eletrônicas ! Quando elas são apagadas do único servidor onde se encontram, ou o servidor para de operar, seu desaparecimento é total e absoluto. "Desaparecimentos" temporários, pelo menos do ponto de vista dos leitores interessados, também são comuns, causados pela mudança de endereço (URLs).

Uma solução proposta para este problema é estabelecer servidores seguros em determinadas instituições (como a Biblioteca do Senado Americano, a maior do mundo), que copiam tudo o que existe na Internet e gravam em discos óticos de alta capacidade. Assim, se constituiria uma biblioteca eletrônica de "arquivo morto", que seria um registro histórico de publicação na Internet, e que poderia ser pesquisado pela posteridade. Nesse sentido, já existem várias iniciativas governamentais e privadas para arquivar toda a Internet.

Embora isso seja factível, não é fácil, e tem gente que acha impossível. Existem muitos problemas técnicos e legais que precisam ser resolvidos. O principal deles é como se assegurar que realmente toda a Internet seja arquivada, ou seja, que todos os endereços existentes (que são hoje mais de 50 milhões na WWW, em cerca de 700 mil servidores) sejam visitados periodicamente. Quanto mais dinâmico for um site, maior vai ter que ser a freqüência dessa visita. Outro problema muito difícil de resolver é o das páginas dinâmicas, ou seja, que são criadas ou modificadas automaticamente por softwares de resposta. Com o surgimento de novos padrões de HTML (a linguagem de especificação de páginas na WW) e de JAVA e outras linguagens de execução dinâmica, esse problema vai se agravar cada vez mais, até o ponto de não fazer sentido arquivar uma grande parte da Net (por exemplo, os bancos de dados que são consultados de forma dinâmica). Outro problema: está crescendo o número de páginas na WWW que permitem o acesso apenas através de senhas. Isso impede a visita do robô de catalogação. Finalmente, temos um aspecto legal sério, que é o do copyright (direito de cópia). Teoricamente, um site de arquivamento integral da Internet não poderia estar copiando documentos protegidos legalmente por copyright, nem sequer para fins de preservação (entre a preservação e a venda ou mau uso, existe um fio de cabelo).

Talvez a melhor solução seria o de preservar automaticamente determinados grupos de recursos, e não todos (existem muitas páginas sem nenhum valor documental…), como, por exemplo, as publicações eletrônicas; principalmente as culturais e científicas.

Publicado em: Jornal Correio Popular, Campinas, 1/7/97.

Autor: Email: sabbatin@nib.unicamp.br
WWW: http://home.nib.unicamp.br/~sabbatin Jornal: http://www.cpopular.com.br