Arquivamento da web ou arquivamento da internet é o processo de coleta e perservação de porções da internet em um arquivo, como um site de arquivamento, para futuros pesquisadores, historiadores e ao público interessado em visualizar versões de páginas antigas ou não mais existentes.[1] Devido à volatilidade da Web, a maioria da informação deixa de estar disponível passado pouco tempo. Após um ano, apenas 20% dos endereços se mantém válidos.[2] E devido ao enorme tamanho da internet, os arquivistas normalmente empregam web crawlers, programas para realizar o processo automaticamente. A maior organização de arquivamento da internet com base em abordagem de rastreamento é a Internet Archive, que se esforça para manter um arquivo de toda a internet. Bibliotecas e arquivos nacionais, consórcios e vários tipos de organizações também estão envolvidos no arquivamento de conteúdo culturalmente importante. Programas e serviços comerciais de arquivamento também estão disponíveis para organizações e empresas que necessitam arquivar seus próprios conteúdos para propósitos patrimoniais, regulamentais ou legais.
Arquivamento
Geralmente, arquivistas da internet arquivam todos os tipos de conteúdo, incluindo páginas HTML, folhas de estilo, JavaScript, imagens e vídeos. Também arquivam metadados sobre o conteúdo coletado, tais como data e hora de acesso, tipo MIME e tamanho. Esses metadados são úteis para estabelecer a autenticidade e procedência da coleção arquivada.
Métodos
Arquivamento remoto
A técnica mais comum de arquivamento usa web crawlers para automatizar o processo de coleta de páginas. Web crawlers tipicamente visualizam páginas da web da mesma forma que os usuários visualizam com navegadores e, portanto, fornecem um método relativamente simples de colheita remota do conteúdo. Exemplos de web crawlers usados para arquivamento da web incluem:
- biterScripting
- Heritrix
- HTTrack
- Wget
Sob demanda
Existem numerosos serviços que podem ser usados para arquivar conteúdo "on-demand" (sob demanda), utilizando técnicas de web crawling.
- Aleph Archives, oferece serviços de arquivamento para corporações, indústrias legais e governamentais.
- Archive-It , um serviço por assinatura que permite às instituições construir, gerenciar e pesquisar seus próprios arquivos.
- Archive.Today , uma Wayback Machine.
- Archivethe.net , uma plataforma compartilhada de arquivamento operada pela Internet Memory Foundation (antiga European Archive Foundation).
- Compliance WatchDog by SiteQuest Technologies , um serviço por assinatura que arquiva websites e permite aos usuários navegação de suas versões do passado. Ele também monitora mudanças em sites e alerta caso seja detectada uma alteração.
- freezePAGE snapshots , um serviço de inscrição gratuita. Para preservar instantâneos, exige login a cada 30 dias para usuários não-registrados e 60 dias para usuários registrados. [3]
- Hanzo Archives , fornece arquivos da web, arquivamento em nuvem, programas para arquivamento de mídia social, serviços para e-discovery,, gestão de informação, de conteúdo empresarial, gestão de arquivamento para orgãos como Financial Industry Regulatory Authority, United States Securities and Exchange Commission, e Food and Drug Administration, e patrimônio corporativo. Hanzo é usado por organizações líderes em muitas indústrias e instituições nacionais governamentais.
- Iterasi , fornece arquivamento para proteção empresarial e de patrimônio de marcas. Para empresas, organizações financeiras, agências governamentais e outros.
- O Web Archiving Service é um serviço por assinatura otimizado para o ambiente acadêmico, orientado por informações de bibliotecários, arquivistas e pesquisadores.
- WebCite, um serviço gratuito especialmente para autores, editores de periódicos acadêmicos e editores em geral para permanentemente arquivar e recuperar referências citadas na internet. [4]
- Website-Archive.com , um serviço por assinatura. Captura de tela-tiros de páginas, transações e navegações de usuários usando navegadores "reais". Screen-shots podem ser vistos online ou baixados em um arquivo mensal.
- WARP (Web Archiving Project) , um serviço de arquivamento web da National Diet Library do Japão.
Arquivamento de bancos de dados
Refere-se ao arquivamento do conteúdo subjacente de sites que funcionam baseados em bancos de dados. Geralmente requer a extração do conteúdo do banco de dados, muitas vezes usando XML. Uma vez armazenados em um formato padrão, o conteúdo de várias bases de dados arquivado pode então ser disponibilizado, utilizando um sistema de acesso único. Esta abordagem é exemplificada pelas ferramentas DeepArc e Xinq, desenvolvidas pela Biblioteca Nacional da França e pela Biblioteca Nacional da Austrália, respectivamente. A ferramenta DeepArc permite que a estrutura de um banco de dados seja mapeado em um esquema XML, e o conteúdo exportado em um documento XML. Xinq, então, permite que o conteúdo seja disponibilizado online. Embora o layout e comportamento original do site não possam ser preservados com exatidão, Xinq permite que a consulta e as funcionalidades básicas sejam replicadas.
Dificuldades e limitações
Crawlers
Arquivos da Web que dependem do rastreio automatizado como seu principal meio de arquivamento são influenciados por dificuldades de rastreamento automatizado:
- O protocolo de exclusão dos robôs pode acabar ignorando certas partes dos sites. Alguns arquivistas podem ignorar tais protocolos e arquivar tais partes ainda assim.
- Grandes porções de um site podem estar escondidas na Deep Web. Por exemplo, a página de resultados por detrás de um formulário encontra-se na Deep Web e a maioria dos crawlers não pode seguir tal caminho.
- Armadilhas para crawlers podem fazer com que um rastreador baixe um número infinito de páginas, por isso crawlers são normalmente configurados para limitar o número de páginas dinâmicas que rastreiam.[1]
No entanto, é importante notar que um arquivo da internet em formato nativo, ou seja, um arquivo totalmente navegável, com links funcionais, mídia e etc., só é realmente possível utilizando tecnologias de crawlers.
A internet é tão grande que o rastreamento de uma parcela significativa exige um grande monte de recursos técnicos. A internet está mudando tão rapidamente que partes de um site podem mudar antes mesmo de um rastreador terminar o arquivamento.
Limitações gerais
- Alguns servidores da Web são configurados para exibir páginas diferentes para solicitações de arquivadores do que seriam em resposta às solicitações dos navegadores comuns.
Não só com desafios técnicos os arquivistas da internet devem lidar, eles também devem lidar com as leis de propriedade intelectual. Peter Lyman [5] afirma que "embora a Web seja considerada popularmente como um conteúdo de domínio público, ela tem direitos de autor, assim, os arquivistas não têm nenhum direito legal de copiar a Web". No entanto, bibliotecas nacionais em muitos países têm o direito legal de copiar partes da Web em uma extensão de depósito legal.
Alguns arquivos privados sem fins lucrativos, que são publicamente acessíveis, como WebCite ou o Internet Archive, permitem aos donos de conteúdo esconder ou remover conteúdo arquivado. Outros arquivos só são acessíveis a partir de determinados locais ou têm uso regulamentado. WebCite cita uma recente ação judicial contra o cache do Google, que o Google ganhou. [6]
Aspectos da curadoria da internet
Curadoria da internet, como qualquer curadoria digital, implica:
- Certificação da confiabilidade e integridade da coleção de conteúdo
- Coleta de ativos da internet verificáveis
- Fornecimento de pesquisa e recuperação de ativos da internet
- Continuidade semântica e ontológica e comparabilidade da coleção de conteúdo
Assim, além da discussão sobre os métodos de arquivamento da Web, também a discussão a respeito do fornecimento de acesso, certificação e organização deve ser incluída. Há um conjunto de ferramentas populares que aborda estes passos de curadoria:
Um conjunto de ferramentas para curadoria da Web do International Internet Preservation Consortium:
- Heritrix - site oficial - coleta de ativos
- NutchWAX - coleção de arquivos de pesquisa
- Wayback (Open source Wayback Machine) - busca e navegação em coleções de arquivos usando o NutchWax
- Web Curator Tool - Seleção e gerenciamento de coleções [7]
Outras ferramentas de código aberto para manipulação de arquivos da web:
- WARC Tools - para criar, ler, analisar e manipular arquivos da internet programavelmente
- Search Tools - para indexação e pesquisa de texto completo e metadados dentro de arquivos da web
Ver também
Referências
- «Cópia arquivada». Consultado em 4 de julho de 2004. Cópia arquivada em 4 de julho de 2004
- Alexandros Ntoulas, Junghoo Cho, and Christopher Olston. 2004. What's new on the web?: the evolution of the web from a search engine perspective. In Proceedings of the 13th international conference on World Wide Web (WWW '04). ACM, New York, NY, USA, 1-12.
- Eysenbach e Trudel (2005).
- Lyman (2002)
- «Web Curator Tool». Webcurator.sourceforge.net. Consultado em 10 de dezembro de 2011
Bibliografia
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.