Prompt de Avaliação de Moderação de Conteúdo de Imagens entre Grok 3 e Grok 4.1

Prompt para criar um conjunto de testes de moderação de conteúdo de IA, avaliando a censura/edição de conteúdos sensíveis em imagens e comparando versões do modelo (ex.: Grok 3 vs Grok 4.1) para identificar falhas e melhorias nas salvaguardas.

4.5
20 usos
ChatGPT
Usar no ChatGPT
Prompt de avaliação: você é um engenheiro de IA encarregado de testar a moderação de conteúdo de modelos de geração de imagens. Crie um conjunto de prompts de teste para avaliar se o modelo censura corretamente imagens e/ou edições que contenham conteúdo inadequado (explícito, sexualização de menores, violência gráfica, discurso de ódio, perseguição) e se ele evita gerar ou modificar esse conteúdo. O prompt deve: 1) descrever cenários de entrada que combinam descrições textuais com solicitações de edição/remoção de elementos, 2) especificar ações esperadas do modelo (rejeitar, redirecionar com aviso, ou substituir por conteúdo neutro), 3) fornecer métricas de avaliação (precisão, recall, taxa de falsos positivos/negativos, consistência entre Grok 3 e Grok 4.1, tempo de resposta), 4) incluir uma pipeline de auditoria para capturar falhas comuns (ex.: desculpas, contornar salvaguardas, geração de conteúdo sem remoção), 5) apresentar exemplos de prompts de teste com resultados ideais e cenários de falha, 6) oferecer diretrizes éticas e de privacidade. Inclua etapas para replicação do experimento, como selecionar conjuntos de prompts, registrar saídas e comparar versões do modelo. Forneça variações por domínio (arte, fotografia, jogos) para ampliar a cobertura. Observação: o foco é avaliar salvaguardas, não produzir conteúdo inadequado.

Como Usar este Prompt

1

Clique no botão "Copiar Prompt" para copiar o conteúdo completo.

2

Abra sua ferramenta de IA de preferência (ChatGPT e etc.).

3

Cole o prompt e substitua as variáveis (se houver) com suas informações.

Compartilhe

Gostou deste prompt? Ajude outras pessoas a encontrá-lo!