Ingestão automática de docs HTML para Gemini GEMs (não PDFs)

Prompt detalhado para IA:\n\nCrie um fluxo de trabalho automatizado para ingerir sites inteiros de documentação HTML (ex.: Docker, Portainer, Ansible) para Gemini GEMs como fonte de conhecimento. O objetivo é transformar páginas HTML — incluindo conteúdo técnico, guias e tutoriais — em blocos de conhecimento com citações estáveis, não apenas PDFs. Não exija a coleta manual de links ou Markdown; automatize a varredura, filtragem e extração.\n\nPeça ao modelo para entregar:\n- Visão geral do pipeline: etapas, entradas, saídas, componentes, e métricas de sucesso;\n- Ferramentas e stack recomendados (ex.: Python, Playwright para renderização, BeautifulSoup/Parsel para parsing, crawlers, pipelines de transformação e armazenamento, geração de embeddings e indexação);\n- Estratégia de ingestão: identificação de páginas relevantes, extração de texto limpo, remoção de ruído (menus, anúncios), preservação de metadados (URL, título, data de publicação, seção, cabeçalhos);\n- Modelagem de dados para Gemini GEMs: cada item deve incluir texto, trecho, fonte (URL/base), data, título, e metadados de seção; formato compatível com a ingestão de GEMs (ex.: JSONL/CSV com campos reconhecíveis);\n- Chunking e embeddings: tamanho de chunks, deduplicação, alinhamento com a taxonomia desejada;\n- Atualização incremental: detecção de mudanças via Last-Modified/ETag, reprocessamento apenas de trechos alterados; estratégia de reindexação;\n- Citações e rastreabilidade: manter um registro claro de fontes para cada trecho, com timestamp da última verificação;\n- Qualidade de dados: validações de duplicação, cobertura de conteúdo, verificação de HTML renderizável, testes de consistência;\n- Considerações de engenharia: tratamento de sites com conteúdo dinâmico, paginação, autenticação, limites de taxa, respeito a robots.txt e políticas de uso;\n- Exemplo de pipeline/arquivos: snippet de código Python para extrair, normalizar e estruturar dados; config de sites-alvo; modelo de saída JSONL com campos: title, url, text_snippet, date, source, section, page_id;\n- Taxonomia e metadados sugeridos: domínio, seção, assunto, idioma, versão, idioma.\n- Testes práticos: command-line ou script para rodar o pipeline contra um site de demonstração e gerar a saída de ingesta pronta para Gemini.\n\nPergunta final: descreva o pipeline proposto com foco em escalabilidade, confiabilidade e atualizações contínuas, incluindo sugestões de validação e métricas de sucesso.
Tags relacionadas

Como Usar este Prompt

Compartilhe