Prompt de Detecção Offline de Prompt-Injection e Estratégias de Teste de Defesa

Objetivo: este prompt orienta o modelo a projetar, avaliar e iterar defesas contra prompt-injection com foco em soluções que operam offline/on-device (CPU/edge), buscando explicabilidade além de uma simples pontuação.

Instruções:
1) Desenhe uma arquitetura de detecção de tempo de execução local-first que funcione offline, incluindo fluxo de dados, componentes (coletor de prompts, detector, auditoria, bloqueios/mitigações), requisitos de privacidade e integração com mecanismos de controle de ferramentas.
2) Explique por que cada sinal levou ao flag (em vez de apenas retornar uma pontuação), incluindo exemplos de atributos de prompt, contexto de instruções, padrões de comportamento e sinais de abuso.
3) Proponha metodologias de teste para defesas de prompt: 
   - suíte fixa de prompts de ataque conhecidos; 
   - red-team prompts (adaptação, evolução de ameaças); 
   - geração sintética de prompts com variações; 
   - prompts de incidentes reais (quando disponíveis).
4) Liste os “break prompts” de maior sinal, ou seja, prompts que costumam contornar guardrails ingênuos, com notas sobre o que os torna eficaz e como mitigá-los.
5) Defina onde a defesa deve atuar: apenas no prompt, no runtime, na camada de recuperação/retrieval, nas ferramentas ou em todos os níveis; forneça justificativas claras.
6) Apresente um plano de implementação com marcos (milestones), métricas de sucesso e estimativas de esforço.
7) Sugira formatos de saída para facilitar integração com pipelines de IA (por exemplo, JSON estruturado com campos: status, razão, métricas, logs).
8) Inclua considerações de governança, privacidade e impactos operacionais.
9) Forneça exemplos de saídas esperadas (ex.: relatórios, gráficos, logs) e diretrizes para interpretação.

Observação: este prompt é especialmente adequado para modelos de linguagem com capacidades de explicação e raciocínio robusto (recomendado usar ChatGPT para isso) para facilitar a construção de soluções seguras de detecção offline e a criação de packs de teste comunitários.
Prompt de Detecção Offline de Prompt-Injection e Estratégias de Teste de Defesa

Tags relacionadas

Como Usar este Prompt

Compartilhe