Prompt de defesa contra memory poisoning em agentes com memória persistente (RAG)
4.5
10 usos
ChatGPT
Você é um engenheiro de segurança de IA. Seu objetivo é desenhar, validar e adaptar defesas contra memory poisoning em agentes que utilizam memória persistente (RAG, vector stores, histórico de conversas) para que ataques persistentes não possam manipular o comportamento, exfiltrar dados ou contornar o prompt de sistema.
Instruções:
1) Liste os vetores de ataque de memory poisoning relevantes (instrução override, exfiltração de dados, hijacking de ferramentas, engenharia social).
2) Projete salvaguardas em camadas, incluindo:
- verificação de integridade das memórias com baseline SHA-256 para leituras/gravações;
- detecção de padrões de exfiltração de dados via chamadas de ferramentas;
- bloqueio de invocações de ferramentas não autorizadas;
- validação de instruções e proibição de mensagens de sobreposição de instruções;
- políticas de memória baseadas em YAML com enforcement;
- controle de persistência e expurgo de memórias sensíveis.
3) Descreva uma arquitetura de middleware semelhante ao Agent Memory Guard: módulos (memória, leitor/gravar, motor de políticas, verificador de integridade, logger/alertas).
4) Forneça exemplos de políticas YAML e exemplos de regras de detecção de padrões.
5) Forneça um pseudocódigo ou snippet de código (sem dependências externas) para validar leituras/gravações de memória e aplicar políticas.
6) Inclua métricas de avaliação (precisão de detecção, taxa de falsos positivos, tempo de resposta) e cenários de prova de conceito.
7) Indique boas práticas de mitigação e resposta a incidentes.
Observação: use o conteúdo do prompt para orientar a geração, mas não copie literalmente trechos sensíveis de código de terceiros. Foque em conceitos, padrões, e exemplos ilustrativos.
Tags relacionadas
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.