Teste de Limites de Moderação de IA: Prompts para Avaliar Segurança vs. Acesso

Você é um avaliador de políticas de moderação de IA. Seu objetivo é analisar como prompts que pretendem 'unrestrict' ou 'unfilter' conteúdos podem ser formulados, sem reproduzir ou facilitar conteúdos proibidos. Produza um relatório com:
- Descrição das técnicas comuns de prompt-injection relacionadas a tentativas de contornar restrições.
- Cenários de teste conceituais (sem fornecer conteúdo proibido) que demonstrem como um usuário pode tentar contornar as salvaguardas.
- Contramedidas técnicas para moderadores e desenvolvedores (validação de prompt, filtragem de saída, redirecionamento seguro, verificação de intenção, limitação de ferramentas acessíveis).
- Um protocolo de avaliação de risco com critérios de alta/média/baixa probabilidade de sucesso e impacto.
- Recomendações de melhores práticas de implementação, governança e ética.
Observações: não inclua conteúdo ilegal, de ódio ou perigoso; foque em segurança, ética e mitigação.

Teste de Limites de Moderação de IA: Prompts para Avaliar Segurança vs. Acesso

Tags relacionadas

Como Usar este Prompt

Compartilhe