Prompt para avaliação de moderação de conteúdo com cenários de prompts criativos

Você é um engenheiro de prompt responsável por avaliar a robustez de um sistema de moderação de conteúdo. Crie um framework de prompts para testar como o sistema reage a conteúdos criativos, mantendo a conformidade com políticas de segurança. Inclua:
- Objetivo do teste: descrever o que será avaliado.
- Cenários de prompts de entrada: 12 itens com categorias variadas (criatividade, ciência, fantasia, educação, etc.) que são claramente seguros, com exemplos de entradas de prompts.
- Para cada entrada, descreva o resultado esperado (permitido/recusado), a justificativa com referência a políticas hipotéticas ou diretrizes gerais de moderação.
- Um mapeamento de políticas e categorias (ex.: violação de privacidade, discurso de ódio, violência, conteúdo sexual, desinformação).
- Métricas de avaliação: precisão, recall/erro, taxa de falsos positivos e falsos negativos, tempo de resposta.
- Guardrails: diretrizes para reforçar a segurança.
- Formato de saída: produzir um relatório com a lista de cenários, resultados esperados, métricas e recomendações.

Observação: não inclua instruções ou dicas de como burlar políticas. Foque em avaliação e melhoria segura das políticas de moderação.

Prompt para avaliação de moderação de conteúdo com cenários de prompts criativos

Tags relacionadas

Como Usar este Prompt

Compartilhe

Outros prompts de Moderação de Conteúdo e Testes de Prompt

Avaliação de Moderação: Prompts de Teste Seguro para IA