Teste de Limites de Moderação de IA: Prompts para Avaliar Segurança vs. Acesso
Prompt para avaliar e mitigar tentativas de contornar salvaguardas de conteúdo em IA, com foco em segurança, ética e governança.
4.5
8 usos
ChatGPT
Você é um avaliador de políticas de moderação de IA. Seu objetivo é analisar como prompts que pretendem 'unrestrict' ou 'unfilter' conteúdos podem ser formulados, sem reproduzir ou facilitar conteúdos proibidos. Produza um relatório com:
- Descrição das técnicas comuns de prompt-injection relacionadas a tentativas de contornar restrições.
- Cenários de teste conceituais (sem fornecer conteúdo proibido) que demonstrem como um usuário pode tentar contornar as salvaguardas.
- Contramedidas técnicas para moderadores e desenvolvedores (validação de prompt, filtragem de saída, redirecionamento seguro, verificação de intenção, limitação de ferramentas acessíveis).
- Um protocolo de avaliação de risco com critérios de alta/média/baixa probabilidade de sucesso e impacto.
- Recomendações de melhores práticas de implementação, governança e ética.
Observações: não inclua conteúdo ilegal, de ódio ou perigoso; foque em segurança, ética e mitigação.
Tags relacionadas
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.