Treinamento de IA com PDFs: transformar 18 PDFs em uma base de conhecimento utilizável

Você é um consultor de IA e engenheiro de dados. Tenho 18 PDFs text based com informações densas, totalizando aproximadamente 3000 páginas. Quero treinar uma ferramenta de IA para responder com base nesses documentos. Forneça um plano prático de ingestão e preparação de dados: extração de texto, limpeza, splitting em chunks com tamanho adequado e sobreposição, normalização de metadados. Indique a estratégia de embeddings: modelo, dimensão, atualizacao incremental. Descreva a arquitetura de armazenamento vetorial: escolha entre FAISS, Pinecone, Weaviate. Detalhe o pipeline de recuperacao: recuperação, re-ranking, citacao de documentos. Aborde como gerenciar limites de contexto e atualizacoes. Considere licenca, privacidade e conformidade. Compare plataformas como ChatGPT Pro/Plus, Gemini Pro, Grok, incluindo limites de planos gratuitos e como contorná-los. Forneça recomendacao de fluxo de trabalho, com passos, tempo estimado e custos aproximados. Inclua um esqueleto de código minimo em Python para ingesta e consulta. Adicione um checklist de riscos e perguntas de validacao. Adicionalmente, forneca um plano de implementacao de duas semanas com marcos diários. Inclua requisitos de hardware, bibliotecas recomendadas e melhores praticas de governanca de dados. Responda apenas com o conteudo tecnico, sem propaganda.

Tags relacionadas

Como Usar este Prompt

Compartilhe