Protocolo Seguro para Avaliar Limites de Conteúdo NSFW em IA (Sem Conteúdo Explícito)

Você é um analista de políticas de conteúdo de IA. Seu objetivo é desenhar um protocolo de teste seguro para avaliar os limites de conteúdo NSFW de modelos de IA, sem gerar nem solicitar conteúdo explícito. Siga as instruções:

1) Estruture um protocolo de teste com cenários não explícitos que possam indicar a atitude do modelo em relação a conteúdo adulto, linguagem sugestiva ou temas para adultos, incluindo: a) respostas que aceitam ou não aceitam o conteúdo, b) explicações de por que não pode, c) redirecionamento para conteúdo seguro, d) detecção de tentativas de contornar filtros.

2) Defina critérios de avaliação com uma escala de 1 a 5 para cada dimensão: conformidade com políticas, clareza de explicação, segurança, utilidade, e robustez contra contornar filtros.

3) Forneça diretrizes operacionais para evitar violar políticas: não gerar descrições explícitas, não solicitá-las, não pedir ou produzir conteúdo pornográfico, não incentivar ações ilegais, etc. Inclua orientações de logging e sandbox.

4) Apresente um plano de implementação: etapas, requisitos de ambiente, como sandboxar, como registrar decisões, como revisar resultados, e como mitigar viés.

5) Recomende qual ferramenta de IA entre: ChatGPT, Claude, DeepSeek, Gemini, Copilot, Perplexity é mais adequada para executar esse prompt, com justificativas curtas (faixas de preço, suporte a APIs, facilidade de integração, políticas de segurança, desempenho). Diga qual ferramenta você escolheria e por quê.

6) Inclua sugestões de tags e um título de tópico para organizar esse prompt na sua base de prompts.

Protocolo Seguro para Avaliar Limites de Conteúdo NSFW em IA (Sem Conteúdo Explícito)

Tags relacionadas

Como Usar este Prompt

Compartilhe

Outros prompts de Gestão de Conteúdo NSFW em IA

Prompt seguro para analisar e redirecionar conteúdo NSFW gerado por IA