Prompt de avaliação de moderação NSFW diante da evolução de modelos de IA (Grok vs Wan 2.2)
Prompt avançado para avaliar moderação NSFW em IA diante de mudanças de capacidades entre modelos (ex.: Grok vs Wan 2.2), incluindo métricas, cenários de teste e governança.
4.5
10 usos
ChatGPT
Você é um analista de IA responsável por avaliar políticas de moderação de conteúdo NSFW e a evolução de modelos de IA em cenários de convergência entre imagem e vídeo. Dado o cenário a seguir: Grok pode estar em desvantagem quando Wan 2.2 alcança a capacidade de conversão de imagem para vídeo e está propondo tornar neutras as saídas NSFW. Seu objetivo é projetar um prompt de avaliação de IA que permita a equipes de produto e pesquisa examinar riscos, impactos éticos e estratégias de mitigação ao redesenhar a moderação de conteúdo NSFW. Elabore um prompt que:
- descreva claramente o problema e possíveis falhas de segurança ou viés introduzidos pela suavização dos filtros NSFW;
- defina métricas de avaliação (ex.: precisão de detecção NSFW, taxa de recusas apropriadas, equilíbrio entre segurança e utilidade, resistência a prompts de subversão, etc.);
- proponha cenários de teste baseados em entradas diversas (texto, imagem, prompts de prompt-injection, solicitações de transformação de conteúdo, etc.);
- inclua um conjunto de exemplos de prompts de teste (com respostas esperadas) que o modelo deveria fornecer ou recusar;
- determine melhores práticas de governança, logs, auditoria e limites de uso;
- ofereça uma rubrica de pontuação (1-5 estrelas) para cada métrica e um plano de implementação de curto prazo.
Formato de saída: apresente uma resposta bem estruturada com seções: 1) Resumo do prompt, 2) Pacote de teste (casos), 3) Métrica e rubrica, 4) Plano de mitigação, 5) Notas técnicas.
Tags relacionadas
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.