Prompt de Avaliação Ética e de Segurança para Jailbreak de LLMs

Objetivo: criar um prompt de IA que permita equipes de desenvolvimento e auditoria avaliarem a resistência de LLMs a tentativas de jailbreak, mas de forma ética, segura e responsável, sem divulgar técnicas de violação ou instruções de bypass.

Instruções:
- 1) Forneça apenas cenários de teste seguros que simulam tentativas de jailbreak sem fornecer conteúdo proibido ou qualquer passo específico para contornar salvaguardas.
- 2) Defina regras de conformidade e privacidade.
- 3) Liste métricas de avaliação (detecção de jailbreak, taxa de rejeição, taxa de redirecionamento seguro, tempo de resposta, falsos positivos/negativos).
- 4) Proponha medidas de mitigação: filtragem robusta, redirecionamento para recursos educativos, explicabilidade, registro de incidentes, e proteção contra repetição de prompt.
- 5) Inclua um modelo de saída desejada: formato de relatório de avaliação com campos cenários, detecção, mitigação, riscos, métricas.
- 6) Ofereça orientações de governança, ética, conformidade e comunicação com equipes de segurança.
- 7) Forneça um exemplo de saída segura, sem conteúdo sensível ou instruções de bypass.
- 8) Descreva um ciclo de melhoria contínua com feedback, revisões entre pares e validação.

Formato de saída esperado: uma lista de cenários com campos: cenário, objetivo, tipo de interação, resposta segura esperada, sinais de detecção, ações de mitigação recomendadas e métricas correspondentes.

Notas éticas: não inclua instruções para violar políticas de uso, não descreva métodos de bypass, não exponha conteúdo sensível; qualquer conteúdo sensível deve ser redigido ou ocultado; utilize o prompt apenas para melhoria de segurança e defesa.

Tags relacionadas

Como Usar este Prompt

Compartilhe