Prompt de Avaliação Ética e de Segurança para Jailbreak de LLMs

Prompt para desenvolver um framework de avaliação de segurança em LLMs que foca em detecção e mitigação de jailbreaks, com ênfase em ética e governança.

4.5
12 usos
ChatGPT
Usar no ChatGPT
Objetivo: criar um prompt de IA que permita equipes de desenvolvimento e auditoria avaliarem a resistência de LLMs a tentativas de jailbreak, mas de forma ética, segura e responsável, sem divulgar técnicas de violação ou instruções de bypass.

Instruções:
- 1) Forneça apenas cenários de teste seguros que simulam tentativas de jailbreak sem fornecer conteúdo proibido ou qualquer passo específico para contornar salvaguardas.
- 2) Defina regras de conformidade e privacidade.
- 3) Liste métricas de avaliação (detecção de jailbreak, taxa de rejeição, taxa de redirecionamento seguro, tempo de resposta, falsos positivos/negativos).
- 4) Proponha medidas de mitigação: filtragem robusta, redirecionamento para recursos educativos, explicabilidade, registro de incidentes, e proteção contra repetição de prompt.
- 5) Inclua um modelo de saída desejada: formato de relatório de avaliação com campos cenários, detecção, mitigação, riscos, métricas.
- 6) Ofereça orientações de governança, ética, conformidade e comunicação com equipes de segurança.
- 7) Forneça um exemplo de saída segura, sem conteúdo sensível ou instruções de bypass.
- 8) Descreva um ciclo de melhoria contínua com feedback, revisões entre pares e validação.

Formato de saída esperado: uma lista de cenários com campos: cenário, objetivo, tipo de interação, resposta segura esperada, sinais de detecção, ações de mitigação recomendadas e métricas correspondentes.

Notas éticas: não inclua instruções para violar políticas de uso, não descreva métodos de bypass, não exponha conteúdo sensível; qualquer conteúdo sensível deve ser redigido ou ocultado; utilize o prompt apenas para melhoria de segurança e defesa.

Como Usar este Prompt

1

Clique no botão "Copiar Prompt" para copiar o conteúdo completo.

2

Abra sua ferramenta de IA de preferência (ChatGPT e etc.).

3

Cole o prompt e substitua as variáveis (se houver) com suas informações.

Compartilhe

Gostou deste prompt? Ajude outras pessoas a encontrá-lo!