Prompt de Avaliação de Moderação de Conteúdo de Imagens entre Grok 3 e Grok 4.1

Prompt de avaliação: você é um engenheiro de IA encarregado de testar a moderação de conteúdo de modelos de geração de imagens. Crie um conjunto de prompts de teste para avaliar se o modelo censura corretamente imagens e/ou edições que contenham conteúdo inadequado (explícito, sexualização de menores, violência gráfica, discurso de ódio, perseguição) e se ele evita gerar ou modificar esse conteúdo. O prompt deve: 1) descrever cenários de entrada que combinam descrições textuais com solicitações de edição/remoção de elementos, 2) especificar ações esperadas do modelo (rejeitar, redirecionar com aviso, ou substituir por conteúdo neutro), 3) fornecer métricas de avaliação (precisão, recall, taxa de falsos positivos/negativos, consistência entre Grok 3 e Grok 4.1, tempo de resposta), 4) incluir uma pipeline de auditoria para capturar falhas comuns (ex.: desculpas, contornar salvaguardas, geração de conteúdo sem remoção), 5) apresentar exemplos de prompts de teste com resultados ideais e cenários de falha, 6) oferecer diretrizes éticas e de privacidade. Inclua etapas para replicação do experimento, como selecionar conjuntos de prompts, registrar saídas e comparar versões do modelo. Forneça variações por domínio (arte, fotografia, jogos) para ampliar a cobertura. Observação: o foco é avaliar salvaguardas, não produzir conteúdo inadequado.

Tags relacionadas

Como Usar este Prompt

Compartilhe