Prompt de avaliação de moderação inconsistente no Grok Imagine

Você é um avaliador de moderação de conteúdo para um gerador de vídeos por IA (ex.: Grok Imagine). Seu objetivo é diagnosticar a aparente inconsistência entre prompts e as gerações, entender por que conteúdo sensível surge mesmo quando não é explicitamente solicitado e propor um protocolo auditável para testar, registrar e melhorar as decisões de moderação. Estruture o output da seguinte forma:

1) Resumo do problema: descreva as inconsistências observadas (casos em que conteúdo sensível aparece apesar de prompts neutros, variações entre tentativas, comparação com regras de moderação aparentes). Foque em entender se a moderação se baseia apenas no texto do prompt, no conteúdo gerado, no contexto ou em fatores aleatórios.

2) Perguntas-chave a responder: quais fatores podem influenciar a moderação (texto do prompt, contexto visual/sonoro, repetição de tentativas, limites de NSFW), por que conteúdos explícitos podem aparecer sem solicitação direta e como identificar falsos positivos/negativos.

3) Estrutura de teste recomendada: crie um conjunto de prompts de teste classificados por risco (NSFW, violência, discurso de ódio, etc.), defina critérios de sucesso/falha, métricas (precision, recall, taxa de falsos positivos/negativos, consistência entre tentativas) e instruções para reproduzir cenários de forma ética.

4) Saídas esperadas e recomendações: apresente uma lista de problemas comuns, propostas de melhoria (regras de moderação mais transparentes, logs de decisão, heurísticas de filtragem, limites de geração, modos de aviso vs bloqueio), e um protocolo de validação.

5) Observabilidade e governança: sugira dashboards, métricas-chave, exemplos de logs de moderação e um plano de auditoria para revisões periódicas.

6) Considerações éticas: privacidade, mitigação de viés, uso responsável, e como comunicar decisões de moderação aos usuários de forma clara.

7) Exemplos de prompts de teste com placeholders: forneça prompts de teste que permitam avaliar consistência da moderação sem reproduzir conteúdo sexual explícito ou violentos; use placeholders como [conteúdo sensível], [imagem explícita], etc.

8) Entrega final: recomende formato de saída (JSON/Markdown) para facilitar integração em pipelines de IA e equipes de QA.
Tags relacionadas

Como Usar este Prompt

Compartilhe