Prompt para coletar imagens do Wikimedia Commons com critérios específicos (60-80 imagens) de forma reproduzível

Objetivo: Criar um fluxo de trabalho reproduzível que busque, filtra e baixe 60-80 imagens do Wikimedia Commons com critérios específicos (palavra-chave, resolução mínima, período de tempo, tipo de imagem) para uso em vídeos históricos longos. A solução deve evitar links incorretos/ilusórios e entregar um conjunto de metadados confiáveis junto com os arquivos de imagem.

Entradas (defina os parâmetros antes de rodar):
- keywords: string(s) de busca (ex.: Ottoman army, Battle of Kosovo, 15th century)
- min_width, min_height: inteiros para a resolução mínima desejada (em pixels)
- date_from, date_to: ano ou faixa de anos para restringir o período histórico (ex.: 1400-1499)
- image_type: one of ["photo", "painting", "drawing", "illustration", "other"]
- count: inteiro entre 60 e 80 (número de imagens desejadas)
- license_filter: lista de licenças aceitáveis (ex.: CC BY, CC0, Public Domain) ou "any" para não filtrar por licença

Requisitos técnicos e de implementação:
- Use a Wikimedia Commons API oficial (action=query, list=search; or generator=search; seguida de imageinfo) para evitar fontes não confiáveis e reduzir ambiguidades.
- Filtre resultados com base: resolução (width/height obtidos via imageinfo), tipo de arquivo (mime) e, quando possível, metadados como data de criação/descrição (<extmetadata> Date/DateTime).
- Atribua uma verificação de validação de links (HEAD ou GET) antes de aceitar cada URL de imagem.
- Construa uma lista final com 60-80 itens contendo pelo menos: id, title, page_url, image_url, width, height, license, mime, date (quando disponível), type (categorias inferidas a partir de metadata), keywords_used.
- Faça o download das imagens para um diretório local ou de armazenamento do usuário (ex.: Colab/Drive) com nomes únicos e copie as URLs para referência.
- Gere um JSON/CSV com o conjunto de metadados e um resumo (contagem de imagens coletadas, faltantes, e principais limitações de disponibilidade).
- Forneça um script Python (Colab-friendly) que execute end-to-end: autenticação opcional, consulta à API, filtragem, download e exportação de metadados. Inclua tratamento de exceções, logs, limites de taxa e mensagens de progresso.
- Inclua um modo de teste com exemplos de entrada para verificar o funcionamento rapidamente (com saída esperada de 5-7 itens para validação).

Plano de alto nível (passos a seguir pelo script):
1) Construir a query com keywords e filtros básicos (ns=6 para arquivos de imagem) executando a API de busca do Wikimedia Commons.
2) Iterar sobre os resultados, extrair page_id, título, e usar imageinfo (iiprop=url|size|mime|extmetadata) para obter image_url, width, height, license.
3) Filtrar por largura/altura >= min_width/min_height, tipo de imagem correspondente a image_type (quando presente em extmetadata ou pelo mime), e data dentro de date_from/date_to (quando disponível).
4) Validar cada URL com uma requisição HEAD para confirmar disponibilidade.
5) Recolher até count imagens válidas; se menos de count estiver disponível, reportar o número obtido e terminar com uma lista de alvos adicionais candidatos (com alerta de potencial limitações).
6) Baixar imagens para o diretório de destino e salvar metadados em JSON/CSV com campos consistentes.
7) Prover um relatório resumido com métricas de sucesso, falhas, e qualquer imagem sem metadados completos.

Formato de saída recomendado:
- Um JSON/CSV com as imagens coletadas contendo: id, title, page_url, image_url, width, height, license, mime, date, type, keywords_used.
- Um pequeno relatório de execução com contagem final e possíveis melhorias para futuras execuções.

Notas e boas práticas:
- Respeite limites de taxa da API (use delays entre requests se necessário) e utilize cache para evitar chamadas repetidas.
- Prefira imagens com licença apropriada para reutilização pública.
- Inclua instruções de depuração para casos em que o filtro de data não esteja disponível para muitas imagens.
- Opcional: permita que o usuário exporte o conjunto de imagens para um formato de vídeo (com um timelapse, se desejado) com os metadados preservados.

Exemplos de entrada para teste rápido:
- keywords: "Ottoman army 15th century"
- min_width: 1024
- min_height: 768
- date_from: 1400
- date_to: 1499
- image_type: "painting"
- count: 70
- license_filter: ["CC BY", "Public Domain", "CC0"]

Saída esperada:
- Lista de 60-80 itens com metadados completos e URLs válidas, além de um relatório de execução com estatísticas e notas de limitações.
Tags relacionadas

Como Usar este Prompt

Compartilhe