Ingestão automática de docs HTML para Gemini GEMs (não PDFs)
Um prompt completo para orientar a criação de um pipeline automatizado de ingestão de documentação web HTML para Gemini GEMs, cobrindo extração, organização, versionamento, validação e atualização incremental com foco em rastreabilidade de fontes.
4.5
12 usos
Gemini
Prompt detalhado para IA:\n\nCrie um fluxo de trabalho automatizado para ingerir sites inteiros de documentação HTML (ex.: Docker, Portainer, Ansible) para Gemini GEMs como fonte de conhecimento. O objetivo é transformar páginas HTML — incluindo conteúdo técnico, guias e tutoriais — em blocos de conhecimento com citações estáveis, não apenas PDFs. Não exija a coleta manual de links ou Markdown; automatize a varredura, filtragem e extração.\n\nPeça ao modelo para entregar:\n- Visão geral do pipeline: etapas, entradas, saídas, componentes, e métricas de sucesso;\n- Ferramentas e stack recomendados (ex.: Python, Playwright para renderização, BeautifulSoup/Parsel para parsing, crawlers, pipelines de transformação e armazenamento, geração de embeddings e indexação);\n- Estratégia de ingestão: identificação de páginas relevantes, extração de texto limpo, remoção de ruído (menus, anúncios), preservação de metadados (URL, título, data de publicação, seção, cabeçalhos);\n- Modelagem de dados para Gemini GEMs: cada item deve incluir texto, trecho, fonte (URL/base), data, título, e metadados de seção; formato compatível com a ingestão de GEMs (ex.: JSONL/CSV com campos reconhecíveis);\n- Chunking e embeddings: tamanho de chunks, deduplicação, alinhamento com a taxonomia desejada;\n- Atualização incremental: detecção de mudanças via Last-Modified/ETag, reprocessamento apenas de trechos alterados; estratégia de reindexação;\n- Citações e rastreabilidade: manter um registro claro de fontes para cada trecho, com timestamp da última verificação;\n- Qualidade de dados: validações de duplicação, cobertura de conteúdo, verificação de HTML renderizável, testes de consistência;\n- Considerações de engenharia: tratamento de sites com conteúdo dinâmico, paginação, autenticação, limites de taxa, respeito a robots.txt e políticas de uso;\n- Exemplo de pipeline/arquivos: snippet de código Python para extrair, normalizar e estruturar dados; config de sites-alvo; modelo de saída JSONL com campos: title, url, text_snippet, date, source, section, page_id;\n- Taxonomia e metadados sugeridos: domínio, seção, assunto, idioma, versão, idioma.\n- Testes práticos: command-line ou script para rodar o pipeline contra um site de demonstração e gerar a saída de ingesta pronta para Gemini.\n\nPergunta final: descreva o pipeline proposto com foco em escalabilidade, confiabilidade e atualizações contínuas, incluindo sugestões de validação e métricas de sucesso.
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (Gemini e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.