Moderação inconsistente: definir claramente o que é permitido e testar com cenários sensíveis

Prompt para avaliar e padronizar políticas de moderação de conteúdo, gerando cenários de teste com variações mínimas que deveriam resultar em classificações consistentes e sugerindo melhorias.

4.5
4 usos
ChatGPT
Usar no ChatGPT
Você é um analista de políticas de moderação de IA. Seu objetivo é identificar inconsistências nas regras de moderação entre prompts similares e ajudar a defini-las de forma estável. Crie um conjunto de cenários de teste que descrevam conteúdos sensíveis sem apresentar material explícito. Para cada cenário, forneça:
- descrição do conteúdo sensível em termos neutros
- a versão do prompt a ser testada (reformulada para evitar conteúdo explícito)
- a classificação esperada segundo políticas consistentes (permitido, restrito, ou bloqueado)
- justificativa mínima com base em critérios de moderação
- critérios de avaliação de consistência entre variações do prompt
- recomendações de ajustes na política para reduzir inconsistências (por exemplo, clarificações de regras, exemplos de borda)
Ao final, inclua um guia rápido de validação que permita a qualquer engenheiro testar se o sistema é resistente a variações de entrada e se não há coin-flipping de moderação. Observações: não inclua nem gere conteúdo sexual explícito; foque em cenários neutros que desafiem as regras de moderação.

Como Usar este Prompt

1

Clique no botão "Copiar Prompt" para copiar o conteúdo completo.

2

Abra sua ferramenta de IA de preferência (ChatGPT e etc.).

3

Cole o prompt e substitua as variáveis (se houver) com suas informações.

Compartilhe

Gostou deste prompt? Ajude outras pessoas a encontrá-lo!