Meta-Acervos: Navegador para Museus em Rede

Thiago Hersan

Meta-acervos é um navegador para museus em rede, criado pelo nosso Projeto Temático Fapesp, que propõe uma metodologia para um sistema de análise, processamento, organização e navegação em acervos abertos de imagens de obras de arte.

Neste post apresentamos: os conteúdo que trabalhamos (Coleções e Acervos); os principais aspectos do desenvolvimento tecnológico do projeto (itens 1 a 4); as principais funcionalidades da interface (itens 5 a 7).

Sumário

Coleções e Acervos

Esta primeira versão inclui 4.200 obras provenientes de duas fontes (Wikimedia GLAM project e Brasiliana Museus), que possuem seus arquivos em formatos abertos e com metadados estruturados. Foram incluídos, também, dados selecionados do acervo do MAC-USP.

Os seguintes acervos foram incluídas nesse estudo:

  • Wikimedia GLAM: MASP, Belas Artes, Pinacoteca de São Paulo, Museu Paulista, Museu Histórico Nacional, Instituto Hércules Florence, Coleção Brasiliana Itaú.
  • Brasiliana Museus: Museu da Inconfidência, Museu Victor Meirelles, Casa dos Ottoni, Museu de São João Del Rey, Museu Regional do Caeté, Casa da Hera, Museu Casa de Benjamin Constant, Museu de Arqueologia de Itaipu, Museu do Diamante
  • MAC-USP

Utilizando as APIs1 disponibilizadas por esses projetos, podemos selecionar, filtrar e agregar conteúdo relevante ao nosso projeto, tais como informações sobre autoria, data de criação, título da obra e técnica. Para esse primeiro protótipo focamos em desenhos e pinturas em coleções de museus brasileiros. Algumas das obras do banco de dados da Wikimedia também incluem informação sobre pessoas, objetos e eventos que estão retratados nos desenhos e pinturas, como na obra Desembarque de Pedro Álvares Cabral em Porto Seguro em 1500, de Oscar Pereira da Silva, pertencente ao acervo do Museu Paulista da USP. Essa informação pode ajudar em organizações, recortes e agrupamentos mais específicos das obras.

↑ Voltar ao sumário

Processamento de Imagens

Imagens de cada uma das 4.200 obras foram armazenadas em nosso servidor  e processadas usando o seguinte fluxo:

  1. Redimensionamento: as imagens são redimensionadas para terem tamanhos mais consistentes e padronizados.
  2. Análise de cores: processo de análise que extrai as 4 cores mais representativas de cada imagem. Esse processo é semelhante à posterização de softwares de edição de imagens, que reduz a quantidade de cores de uma imagem, mas modificado para evitar tons de cinza. Isso é importante porque tons de cinza são cores muito comuns que não servem para diferenciar ou caracterizar elementos específicos de cada imagem.
  3. Extração de características visuais: usando um modelo multimodal contrastivo, pré-treinado em pares de imagens e textos, extraímos embeddings de alta dimensão para cada uma das imagens das obras. Esse processo de embedding usa técnicas de aprendizagem profunda para representar o conteúdo das imagens usando 1.536 números.

↑ Voltar ao sumário

Análise de cores:

Exemplo de resultado de posterização usando software de edição de imagem
Resultado do nosso processo de extração de cores representativas que evita tons de cinza

↑ Voltar ao sumário

Extração de características visuais

A partir de um modelo que entende visão e linguagem ao mesmo tempo (modelo contrastivo), transformamos imagens em vetores (listas de 1.536 números que representam, de forma abstrata, o conteúdo e o estilo de cada imagem). Esse processo, chamado de embedding, utiliza técnicas de aprendizagem profunda para extrair informações visuais complexas, permitindo que as imagens sejam analisadas de maneira automatizada e inteligente.

Esses números representam o conteúdo e estilo de cada imagem. Por exemplo, um desses números pode ter informação sobre a quantidade de pessoas presentes em uma imagem; outro desses números pode representar se as pessoas estão longe ou perto da câmera; e um terceiro pode indicar em que parte da imagem essas pessoas estão. Na prática, o significado dos números desses embeddings é muito mais abstrato e complexo. Geralmente, não é possível saber exatamente o que cada um representa, mas é possível usar o conjunto desses 1.536 números para extrair relações e conexões entre imagens.

↑ Voltar ao sumário

Busca por Objetos de Interesse

Depois do processamento e análise inicial que leva em consideração a obra inteira, realizamos uma busca por objetos específicos dentro do conteúdo de cada obra.Essa busca foi feita usando um modelo de vocabulário aberto (OWLv2) que detecta objetos usando uma técnica chamada aprendizagem de zero exemplos. Esse tipo de modelo é capaz de detectar objetos que não estavam presentes nos datasets de treinamento. Isso acontece através de um processo que realiza duas buscas em paralelo: a primeira identifica regiões da imagem que contém coisas que podem ser consideradas “objetos”. Ao mesmo tempo, uma outra busca determina se sub-regiões da imagem contém os objetos que estamos buscando. Em síntese, uma busca é usada para determinar se esses objetos estão presentes e a outra onde esses objetos estão.Usamos o modelo OWLv2 para buscar termos relacionados a fauna e flora: árvores, flores, frutas, grama, palmeiras, cachorros, cavalos, aves, etc.

Exemplo de resultado de busca por frutas
Resultado de buscas por árvores e cavalos.

↑ Voltar ao sumário

Problemas

Uma deficiência desse modelo quando usado em obras de arte, é que algumas representações artísticas acabam confundindo o modelo, que erra na classificação de certos animais:

Animais incorretamente marcados como boi.

A situação mais problemática nesse caso é que alguns termos para animais também acabam marcando pessoas com certa frequência:

Pessoas incorretamente marcadas como boi.

Um modelo mais específico para detectar esses elementos em pinturas poderia ser treinado, mas para este protótipo de Navegação em Acervos, decidimos apenas evitar termos com alta probabilidade de erros.

↑ Voltar ao sumário

Agrupamento por Embedding

A última análise que realizamos para permitir a criação de novos recortes desses acervos foi usando um algoritmo de agrupamento automático por embedding.

A representação numérica de 1.536 números do embedding de cada uma das obras do nosso meta-acervo pode ser usada em um processo de agrupamento, ou clustering, para dividir as 4.200 obras em grupos de afinidade visual. Ou seja, pedimos para o algoritmo dividir o acervo em oito  grupos, sem saber quais seriam os grupos definidos pela inteligência artificial, mas sabendo que as obras,dentro de cada grupo, teriam características visuais ou temáticas em comum.

É possível olhar as imagens incluídas em cada um dos grupos e verificar que realmente fazem parte de um conjunto com características comuns. Mas, porque o processo separa as obras de acordo com os valores numéricos dos embeddings, não fornece nenhum tipo de descrição para os grupos.

Exemplo de dois grupos, um com foco em cenas externas e outro com retratos.

Experimentamos com alguns algoritmos para descrever esses grupos de imagens. Transformar os embeddings das imagens em texto não é algo muito fácil, mas o que podemos fazer é transformar as palavras chaves das descrições das obras da Wikimedia em embeddings, e comparar os embeddings dessas palavras com os embeddings de imagens representativas de cada grupo.

Processo experimental de recuperação da descrição dos grupos.

Ao todo foram extraídas mais de 5.000 palavras das descrições das obras. Uma vez feitas as comparações entrea as descrições, definimos oito grupos que chamamos de Curadorias das IAs em nosso experimento. São elas:

  • estudos de figuras, esboços 
  • figuras religiosas, madona e cristo
  • pinturas de paisagem
  • pinturas de retrato
  • figuras abstratas, formas fragmentadas
  • retratos formais, figuras históricas
  • desenhos arquitetônicos, painéis decorativos
  • formas geométricas

↑ Voltar ao sumário

Dados Abertos

Todas as informações sobre as obras, tanto a informação original/oficial, quanto a criada através do processamento de visão computacional, foram salvas em arquivos json e estão disponíveis neste repositório.

↑ Voltar ao sumário

Interface de navegação

Interface “Linha do Tempo”, para navegação cronológica simultânea em 17 acervos.

Por fim, criamos uma interface para navegar nos arquivos usando os vetores criados por visão computacional.

Interface “Curadoria das IAs” (menu “figuras abstratas”), a partir da visualização cromática

Nossa interface inclui filtros para selecionar obras de acordo com o seu acervo, tipo de obra (desenho ou pintura) e ano de criação. Também é possível selecionar obras baseadas nos objetos de fauna e flora encontrados e por agrupamento/embedding.

↑ Voltar ao sumário

Disponibilizamos dois tipos de visualizações principais: uma que organiza as obras escolhidas por ordem cronológica de criação, e outra que é capaz de organizar as obras a partir de suas cores representativas. É possível também visualizar o espaço latente entre as obras e navegar em curadorias feitas autonomamente com inteligência artificial.

↑ Voltar ao sumário

Crie sua Imagem

Mosaico criado com palmeiras encontradas em obras de 1880 a 1990, dos 17 acervos presentes no nosso navegador.

Além dessas visualizações interativas por cor e ano de criação, também experimentamos com a criação de visualizações estáticas que chamamos de mosaicos. Essas visualizações não são interativas porque processam um número grande de imagens e necessitam de mais recursos para serem geradas, o que nem sempre é possível dentro de um browser. De qualquer modo, podemos usar a interface para fazer um pedido  para nosso servidor que faz o processamento e devolve imagens que podem ser exibidas no browser, junto com uma listagem das obras utilizadas na sua criação, linkadas aos seus acervos originais.

Através desse sistema podemos criar dois tipos diferentes de imagens: que chamamos de Mosaico e Composição. Nas imagens de Mosaicos os objetos de fauna e flora encontrados são disponibilizados de maneira linear ao longo da imagem, e nas imagens de Composição esses mesmos objetos são colocados em posições relativas à sua localização original dentro da obra de arte onde foram encontrados.

Composição criada com palmeiras presentes nas obras do Museu Paulista.

↑ Voltar ao sumário

Equipe

Coordenação: Giselle Beiguelman

Tecnologia: Thiago Hersan

Revisão: Ana Gonçalves Magalhães, Bruna Keese e Cassia Hosni

↑ Voltar ao sumário

Conheça o Meta-Acervos, navegador para museus em rede

  1. API é a sigla para Application Programming Interface, ou em português, Interface de Programação de Aplicações. Uma API designa um conjunto de regras que permite que diferentes softwares “conversem” entre si. ↩︎

Leave A Comment