HathiTrust – Uma biblioteca de pesquisa na escala web

HathiTrust é uma biblioteca digital colaborativa criada por universidades e bibliotecas de pesquisa para preservar, organizar e ampliar o acesso ao patrimônio bibliográfico mundial em escala digital. Fundada em 2008, a plataforma reúne atualmente mais de 19 milhões de itens digitalizados, provenientes de instituições acadêmicas da América do Norte e de outros países, consolidando-se como uma das maiores infraestruturas digitais voltadas à preservação e circulação do conhecimento acadêmico contemporâneo.

Seu surgimento está diretamente relacionado aos processos de digitalização em massa realizados em bibliotecas universitárias a partir dos anos 2000, especialmente em parceria com iniciativas como o Google Books. O HathiTrust nasce quando diferentes instituições decidem reunir essas digitalizações dispersas em uma coleção compartilhada, administrada coletivamente pelas próprias bibliotecas. Nesse sentido, o projeto desloca a lógica corporativa da digitalização para um modelo cooperativo de preservação e acesso de longo prazo, sustentado por universidades e centros de pesquisa.

A coleção reúne livros, periódicos, jornais, partituras, documentos governamentais e outros materiais impressos, abrangendo milhares de anos de produção escrita. O acervo cobre todos os grandes campos do conhecimento, com forte presença de literatura, história, filosofia, religião e ciências sociais, além de materiais publicados em mais de 400 idiomas. Entre os conjuntos disponíveis estão coleções de manuscritos islâmicos da Universidade de Michigan, publicações da U.S. Civil Rights Commission, documentos do Bureau of Indian Affairs e extensos acervos de documentos federais norte-americanos.

A plataforma também funciona como um espaço de preservação de larga escala. O HathiTrust se define como uma “research library at web scale”, operando não apenas como interface de consulta, mas como infraestrutura compartilhada para armazenamento, preservação digital e gestão colaborativa de acervos. Esse modelo permite que bibliotecas distribuam responsabilidades de preservação enquanto mantêm acesso contínuo aos materiais digitalizados.

O acesso aos conteúdos é regulado por legislações de direitos autorais dos Estados Unidos e de outros países. Parte significativa dos itens permanece em acesso restrito, permitindo apenas buscas internas nos textos. Já materiais em domínio público ou disponibilizados em acesso aberto podem ser lidos e, em muitos casos, baixados integralmente. O site enfatiza que não atua como serviço comercial de assinatura nem como plataforma de empréstimo digital, mas como biblioteca de preservação e acesso legalmente autorizado.

Entre seus programas, destaca-se o Copyright Review Program, responsável por revisar o status legal de obras presentes na coleção e liberar materiais identificados como domínio público. Outro núcleo importante é o HathiTrust Research Center, que transforma o acervo em um grande conjunto de dados para mineração textual e pesquisa computacional, apoiando estudos em humanidades digitais, análise de linguagem e ciência de dados aplicada ao patrimônio bibliográfico.

O HathiTrust também desenvolve serviços voltados à acessibilidade e à continuidade do acesso acadêmico. O Accessible Text Request Service permite que usuários com deficiência visual ou dificuldades de leitura tenham acesso adaptado a materiais protegidos por direitos autorais. Já o Emergency Temporary Access Service (ETAS) foi criado para garantir acesso emergencial às coleções em momentos de interrupção física de bibliotecas, como ocorreu durante a pandemia de Covid-19 ou em situações associadas a desastres climáticos.

Outro aspecto central do projeto é seu esforço contínuo de análise crítica da própria coleção. Documentos institucionais recentes apontam o compromisso da plataforma em enfrentar desigualdades estruturais presentes nos acervos digitais, reconhecendo que processos históricos de catalogação, seleção e digitalização reproduzem assimetrias raciais, linguísticas e geopolíticas. Nesse contexto, o HathiTrust afirma buscar ampliar representações, incorporar coleções localmente digitalizadas e incluir uma maior diversidade de vozes e perspectivas.

A plataforma também explicita as limitações e imperfeições inerentes aos processos de digitalização em massa. Erros de OCR, falhas de catalogação, páginas borradas ou até imagens das mãos dos operadores dos scanners permanecem visíveis em diversos documentos. Em vez de ocultar essas marcas, o site as apresenta como parte material do próprio processo de construção do arquivo digital contemporâneo.

Assim, o HathiTrust opera simultaneamente como biblioteca, infraestrutura técnica, sistema cooperativo de preservação e ambiente de pesquisa. Ao reunir milhões de documentos em uma coleção compartilhada, a plataforma transforma o acesso ao patrimônio bibliográfico em uma prática distribuída, sustentada por colaboração institucional, preservação digital e circulação pública do conhecimento.

Visite: https://www.hathitrust.org