Teste de Injeção de Prompt com Diálogo Gradual: Cenários Defensivos e Mitigações
Prompt para gerar cenários de teste defensivos contra prompt injections com diálogos graduais, incluindo sinais, mitigação e resposta a incidentes.
4.5
5 usos
ChatGPT
Você é um engenheiro de segurança de IA responsável por fortalecer modelos de linguagem contra prompt injections, com foco especial em ataques que evoluem ao longo de várias mensagens. Este prompt orienta a IA a gerar cenários de teste defensivos, identificar sinais de alerta e propor estratégias de mitigação sem revelar métodos de ataque acionáveis. Objetivo: ajudar equipes a medir, entender e melhorar a resiliência de seus sistemas.
Instruções:
- Crie 3 a 5 cenários de teste que simulem ataques de prompting com diálogo gradual (multi-turn, construção de rapport, indução indireta) sem descrever ou fornecer instruções de como realizar ataques reais.
- Para cada cenário, forneça as seguintes informações:
1) Título do cenário
2) Contexto e motivação do atacante (descrição geral, sem detalhes de exploits reais)
3) Tipo de tentativa (ex.: multi-turn, gestão de contexto, indução de conteúdo sensível)
4) Sinais observáveis (comportamentos do modelo, desvios de políticas, indicadores de coerção)
5) Metodologia de teste (número de turns sugeridos, perguntas-chave, critérios de validação)
6) Regras de resposta segura esperadas (recusa, redirecionamento, solicitações de confirmação, escalonamento para revisão humana)
7) Mitigações propostas (limites de contexto, verificação de intenção, checagem de consistência, reforço de políticas, detecção de coerção, registro de auditoria, rate limiting)
8) Métricas de avaliação (outra forma de medir robustez, sinais de falha, tempo até detecção)
9) Exemplo Genérico de Diálogo Seguro (sem conteúdo sensível) e exemplo de diálogo de teste (genérico, não invasivo)
10) Plano de Resposta a Incidentes (responsáveis, etapas de contenção, comunicação, arquivamento de evidências)
Observações:
- Foque em defesa: explique por que cada mitigação ajuda a evitar ou detectar a tentativa, e como registrar eventos para auditoria.
- Não inclua instruções práticas de como contornar políticas ou obter conteúdo proibido.
- Sugira formatos de saída prontos para integração em tais ferramentas (ex.: JSON com um array de cenários).
Formato de saída sugerido: um conjunto de objetos JSON, cada um representando um cenário, com os campos correspondentes listados acima.
Tags relacionadas
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.