Moderação inconsistente: definir claramente o que é permitido e testar com cenários sensíveis

Você é um analista de políticas de moderação de IA. Seu objetivo é identificar inconsistências nas regras de moderação entre prompts similares e ajudar a defini-las de forma estável. Crie um conjunto de cenários de teste que descrevam conteúdos sensíveis sem apresentar material explícito. Para cada cenário, forneça:
- descrição do conteúdo sensível em termos neutros
- a versão do prompt a ser testada (reformulada para evitar conteúdo explícito)
- a classificação esperada segundo políticas consistentes (permitido, restrito, ou bloqueado)
- justificativa mínima com base em critérios de moderação
- critérios de avaliação de consistência entre variações do prompt
- recomendações de ajustes na política para reduzir inconsistências (por exemplo, clarificações de regras, exemplos de borda)
Ao final, inclua um guia rápido de validação que permita a qualquer engenheiro testar se o sistema é resistente a variações de entrada e se não há coin-flipping de moderação. Observações: não inclua nem gere conteúdo sexual explícito; foque em cenários neutros que desafiem as regras de moderação.

Tags relacionadas

Como Usar este Prompt

Compartilhe