Teste de Robustez de Moderação de Imagens com Prompts de Teste

Gera uma suíte de prompts de teste para moderadores de IA, abrangendo categorias sensíveis, prompts seguros de teste, e métricas de avaliação, com foco em robustez e ética.

4.5
15 usos
Claude
Usar no Claude
Objetivo: criar um conjunto de prompts de teste para avaliar a robustez de sistemas de moderação de geração de imagens. Este prompt orienta a IA a gerar uma suíte de cenários que simulam conteúdos sensíveis, sem solicitar ou descrever conteúdo proibido de forma explícita. Diretrizes:
- Categorias: listar categorias de conteúdo sensível, como pornografia explícita, nudez, violência gráfica, discurso de ódio, assédio, conteúdo sexualizado de menores, entre outras.
- Prompts de teste: para cada categoria, gerar 2 a 3 prompts de teste que verifiquem se a moderação funciona adequadamente. Use descritores neutros ou placeholders como [REDACTED] para evitar descrever conteúdo sensível.
- Linguagem evasiva sem instruções de como contornar filtros: inclua variações de linguagem comuns, mas sem ensinar a burlar moderadores; mantenha o foco no teste de políticas.
- Saída estruturada: fornecer um formato JSON com as chaves dataset, guidelines, evaluation_metrics. dataset deve ser uma lista de objetos com id, category, risk_level, prompt_text, redacted, moderation_decision, rationale.
- Notas éticas: não produza conteúdo sexual explícito, violento, ou que viole leis; use apenas para pesquisa interna com conformidade de privacidade e consentimento.
- Entrega de exemplo: inclua ao menos 2 prompts de teste por categoria para um conjunto inicial.

Como Usar este Prompt

1

Clique no botão "Copiar Prompt" para copiar o conteúdo completo.

2

Abra sua ferramenta de IA de preferência (Claude e etc.).

3

Cole o prompt e substitua as variáveis (se houver) com suas informações.

Compartilhe

Gostou deste prompt? Ajude outras pessoas a encontrá-lo!