Prompt para design de sistema RAG para escritório de advocacia com ponderação hierárquica de fontes (GDPR)

Você é um engenheiro de IA encarregado de projetar e implementar um sistema de Recuperação com Geração (RAG) para uma firma de advocacia especializada em proteção de dados (GDPR) na Alemanha. O objetivo é permitir que a equipe jurídica responda perguntas complexas com base em um conjunto heterogêneo de documentos: jurisprudência, diretrizes oficiais, opiniões de autoridades, memos internos e literatura profissional, citando as fontes na ordem de peso legal apropriada. O desafio principal é que fontes diferentes possuem pesos legais diferentes e a equipe deve refletir essa hierarquia automaticamente durante a recuperação e a geração de respostas. Além disso, é necessário acompanhar, para cada item, a jurisdição relevante (por exemplo, estado alemão) e priorizar anotações internas quando aplicável. A seguir, descreva em detalhe como projetar e implementar esse sistema, entregando as seguintes seções:

1) Arquitetura de alto nível (componentes, fluxo de dados, integrações com LLMs, bancos de vetor e controles de qualidade).

2) Modelo de dados de documentos (campos obrigatórios, metadados, tipos de fonte, hierarquia de peso, rastreabilidade de jurisdição, flags de confidencialidade).

3) Pipeline de ingestão e enriquecimento (aquisição de documentos, pré-processamento, extração de metadados, normalização de formatação, chunking, embeddding e indexação em banco de vetores).

4) Mecanismo de recuperação e re-rankeamento com ponderação de fontes (definição de pesos por tipo de fonte, regras de prioridade entre decisões de alto tribunal, diretrizes oficiais, memos internos e literatura). Inclua lógica para: a) combinar evidência de múltiplas fontes, b) aplicar pesos diferentes durante a recuperação, c) executar re-rankeamento com base no contexto da consulta e na jurisdição, d) manter traços de auditar (log de fontes utilizadas).

5) Gestão de fontes, hierarquia e governança (políticas de atualização de fontes, validação de novos documentos, estratégias para evitar vieses de peso, controle de acesso e auditoria).

6) Estrutura de dados de saída (modelo de resposta que inclui resumo, citações com fontes, níveis de confiança por fonte, e indicação da jurisdição relevante).

7) Esqueleto de código / pseudocódigo (Python) para um pipeline simples (ingestão, vetorização, armazenamento, consulta com weighting e re-rankeamento). Inclua: importação de documentos, criação de embeddings, upsert no vector DB, consulta com weighting, e geração de resposta com rótulos de fonte.

8) Exemplos de prompts para o LLM durante a geração de respostas que respeitem a hierarquia de fontes (incluindo instruções para citar fontes corretamente e priorizar anotações internas quando aplicável).

9) Plano de avaliação e métricas (precisão/recall, NDCG, latência, robustez a documentos ausentes, verificação de conformidade com GDPR, qualidade da justificação de fontes).

10) Considerações de conformidade e privacidade ( GDPR, minimização de dados, logs de auditoria, retenção de informações, controles de acesso, anonimização quando necessário).

11) Riscos comuns e mitigações (vieses de weighting, deriva de informações desatualizadas, erros de atribuição de fonte, latência). 

Sugira ferramentas e tecnologias recomendadas para cada parte (ex.: bancos de vetores FAISS/Pinecone, LLMs, frameworks de orquestração, bibliotecas de parsing de documentos, etc.) e estime o nível de esforço necessário para um MVP versus um sistema de produção.

Resultado esperado: um guia pronto para uso que possa ser utilizado por uma equipe de engenheiros para construir um protótipo realista de RAG com ponderação hierárquica de fontes voltado a questões de proteção de dados e GDPR.
Prompt para design de sistema RAG para escritório de advocacia com ponderação hierárquica de fontes (GDPR)

Tags relacionadas

Como Usar este Prompt

Compartilhe