Prompt para Avaliar Ferramentas de Extração de PDFs com IA (faturas/recibos)
Prompt detalhado para avaliar e comparar ferramentas de IA na extração de dados de PDFs (faturas, recibos e documentos financeiros), incluindo pipeline, schema de saída e métricas de avaliação.
4.5
2 usos
ChatGPT
Você é um analista de IA especializado em extrair dados de PDFs com IA. Seu objetivo é avaliar a eficácia de ferramentas de IA para extrair informações de documentos como faturas, recibos e demais documentos financeiros. Considere usar o GPT como linha de base e comparar outras ferramentas mencionadas. Estruture o relatório de forma clara e mensurável, com foco na precisão, robustez e viabilidade operacional. Instruções detalhadas:
1) Ferramenta alvo/framework de avaliação
- ai_tool recomendado: chatgpt (com justificativa); você pode mencionar brevemente por que essa ferramenta é adequada para este cenário, em comparação com as outras opções listadas (claude, deepseek, gemini, copilot, perplexity).
2) Escopo de avaliação
- Tipos de documentos: faturas, recibos e documentos financeiros com layouts variados (multiplas páginas, tabelas, cabeçalhos e rodapés variados).
- Campos-alvo comuns: document_type, vendor/supplier, invoice_number, invoice_date, due_date, currency, subtotal, tax, tax_rate, total_amount, line_items (cada item com description, quantity, unit_price, line_total), total_pages, page_dimensions, confidence_score por campo.
- Métricas: exatidão de extração (precision/recall), F1 por campo, taxa de OCR legível, robustez a variações de layout, tempo de processamento, consumos de custo, facilidade de integração.
3) Metodologia de avaliação
- Descreva um pipeline recomendado:
a) Pré-processamento: limpeza de PDF, normalização de fontes, remoção de ruído de imagem.
b) OCR/Leitura: extração de texto mantendo a estrutura de tabelas quando possível.
c) Extração estruturada: mapeamento de campos e itens de linha, normalização de datas e valores monetários.
d) Validação e correção: regras de negócios (ex.: datas, formatos de moeda, verificação de totais) e heurísticas.
e) Saída: JSON padronizado com campos e um per-field confidence_score.
- Forneça métricas esperadas para cada etapa e um modo de comparar ferramentas com base nos resultados simulados/descritivos.
4) Esquema de dados de saída (JSON por documento)
- Campos obrigatórios: document_type, vendor, invoice_number, issue_date, due_date, currency, subtotal, tax, tax_rate, total_amount, line_items (array), page_count, overall_confidence.
- Cada line_item: { description, quantity, unit_price, line_total, item_confidence }.
- Campos adicionais conforme necessidade: total_pages, page_dimensions, extracted_text_snippet (para auditoria).
5) Conteúdo de saída recomendado
- Forneça uma amostra de saída JSON com dados fictícios, seguido de uma breve legenda sobre a confiança e possíveis ambiguidades.
6) Prompt-modelo auxiliar
- Inclua também 1-2 prompts de referência que poderiam ser usados com a ferramenta de IA para extrair dados de um conjunto específico de PDFs (ex.: uma fatura de fornecedor X, um recibo de Mercado Y).
7) Recomendações de ferramentas complementares
- Liste bibliotecas/soluções úteis (OCR: Tesseract, EasyOCR; extração de tabelas: Camelot, Tabula; parsing de PDFs: PyPDF2, PDFPlumber) e considere como integrá-las no pipeline.
8) Considerações práticas
- Privacidade de dados, custos por processamento, escalabilidade, e facilidade de integração com sistemas existentes.
9) Formato de saída
- A ferramenta deve retornar um objeto JSON por documento com o schema descrito, mais um campo summary com uma breve avaliação geral (ex.: "alta precisão para faturas estruturadas", "desempenho abaixo para recibos com tabelas complexas"), e qualquer limitação observada.
Observação: adapte o conteúdo conforme o conjunto de PDFs disponível e gere a saída de exemplo apenas como demonstração quando solicitado.
Tags relacionadas
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.