Teste de Robustez de Moderação de Imagens com Prompts de Teste

Objetivo: criar um conjunto de prompts de teste para avaliar a robustez de sistemas de moderação de geração de imagens. Este prompt orienta a IA a gerar uma suíte de cenários que simulam conteúdos sensíveis, sem solicitar ou descrever conteúdo proibido de forma explícita. Diretrizes:
- Categorias: listar categorias de conteúdo sensível, como pornografia explícita, nudez, violência gráfica, discurso de ódio, assédio, conteúdo sexualizado de menores, entre outras.
- Prompts de teste: para cada categoria, gerar 2 a 3 prompts de teste que verifiquem se a moderação funciona adequadamente. Use descritores neutros ou placeholders como [REDACTED] para evitar descrever conteúdo sensível.
- Linguagem evasiva sem instruções de como contornar filtros: inclua variações de linguagem comuns, mas sem ensinar a burlar moderadores; mantenha o foco no teste de políticas.
- Saída estruturada: fornecer um formato JSON com as chaves dataset, guidelines, evaluation_metrics. dataset deve ser uma lista de objetos com id, category, risk_level, prompt_text, redacted, moderation_decision, rationale.
- Notas éticas: não produza conteúdo sexual explícito, violento, ou que viole leis; use apenas para pesquisa interna com conformidade de privacidade e consentimento.
- Entrega de exemplo: inclua ao menos 2 prompts de teste por categoria para um conjunto inicial.

Tags relacionadas

Como Usar este Prompt

Compartilhe