Visão Computacional e obras de arte: o AI Explorer dos Museus de Harvard

Harvard vem desenvolvendo, em seus museus desde 2016, um sistema de IA que gerou até o momento 68 milhões de descrições e tags para mais de 450 mil imagens.

Ao acessar o aplicativo e selecionar uma imagem do acervo, o usuário pode ver o resultado dos metadados criados por humanos e aqueles apresentados pelos modelos de IA. Os metadados gerados por humanos indicam o título da obra, o nome do artista, a data e a classificação da obra (escultura, pintura etc.). Os dados gerados por máquina estão divididos em tags, análise de cor, categoria e legendas, provenientes de diferentes sistemas de visão computacional, tais como Amazon, Google, Microsoft, Clarifai e Imagga. A proposta inicial da equipe é categorizar, etiquetar e descrever a coleção de arte de maneiras que a equipe de curadores não faz. Os dados revelam como os computadores interpretam pinturas, fotografias e esculturas, possibilitando a comparação das interpretações entre os sistemas.

É interessante observar como cada imagem é enriquecida com uma variedade de detalhes expressos na forma de tags. Além disso, fica evidente como diferentes sistemas interpretam elementos visuais—rostos, narizes, pessoas, animais—de acordo com as características gerais da obra e com base em categorias geradas automaticamente. Trata-se, portanto, de uma forma de compreender como as máquinas “enxergam” e de investigar seus métodos e vieses por meio dos resultados obtidos. Nesse sentido, podemos pensar no conceito de “caixa preta”, discutido por Bruno Latour (1994), uma vez que o autor propõe abrir essas caixas pretas para analisar e revelar os processos técnicos e sociais que permanecem ocultos nas tecnologias e nas redes de relações envolvidas em sua construção. Seguindo esse conceito, a equipe de desenvolvimento busca justamente expor os processos internos da visão computacional, revelando as formas de treinamento das máquinas com base nos conjuntos de dados extraídos do acervo digital do museu. Assim, a iniciativa permite compreender não apenas o funcionamento técnico, mas também a complexidade das relações entre dados, tecnologia e contexto cultural.

A visão computacional, portanto, nos oferece possibilidades de análise das imagens por meio de sua capacidade de encontrar estruturas e padrões em grandes conjuntos de dados numéricos desenvolvidos por meio da estatística e do aprendizado de máquina. Por outro lado, quando o AI Explorer torna visíveis os algoritmos de treinamento usados nos sistemas, torna-se possível identificar diferenças e vieses inerentes aos serviços de IA.

Além das tags geradas pelos sistemas de visão computacional darem um panorama do conteúdo de cada imagem, elas também indicam uma forma de navegação: cada tag serve como link para novos conjuntos de imagens, enriquecendo, assim, a pesquisa no acervo do museu.

Conheça: https://ai.harvardartmuseums.org

Referências:
Sobre o Disponível em: https://ai.harvardartmuseums.org/about
Latour, B. On technical mediation. Common knowledge, v. 3, n. 2, 1994.