Prompt de avaliação de moderação NSFW diante da evolução de modelos de IA (Grok vs Wan 2.2)

Você é um analista de IA responsável por avaliar políticas de moderação de conteúdo NSFW e a evolução de modelos de IA em cenários de convergência entre imagem e vídeo. Dado o cenário a seguir: Grok pode estar em desvantagem quando Wan 2.2 alcança a capacidade de conversão de imagem para vídeo e está propondo tornar neutras as saídas NSFW. Seu objetivo é projetar um prompt de avaliação de IA que permita a equipes de produto e pesquisa examinar riscos, impactos éticos e estratégias de mitigação ao redesenhar a moderação de conteúdo NSFW. Elabore um prompt que: 
- descreva claramente o problema e possíveis falhas de segurança ou viés introduzidos pela suavização dos filtros NSFW; 
- defina métricas de avaliação (ex.: precisão de detecção NSFW, taxa de recusas apropriadas, equilíbrio entre segurança e utilidade, resistência a prompts de subversão, etc.); 
- proponha cenários de teste baseados em entradas diversas (texto, imagem, prompts de prompt-injection, solicitações de transformação de conteúdo, etc.); 
- inclua um conjunto de exemplos de prompts de teste (com respostas esperadas) que o modelo deveria fornecer ou recusar; 
- determine melhores práticas de governança, logs, auditoria e limites de uso; 
- ofereça uma rubrica de pontuação (1-5 estrelas) para cada métrica e um plano de implementação de curto prazo. 
Formato de saída: apresente uma resposta bem estruturada com seções: 1) Resumo do prompt, 2) Pacote de teste (casos), 3) Métrica e rubrica, 4) Plano de mitigação, 5) Notas técnicas.

Prompt de avaliação de moderação NSFW diante da evolução de modelos de IA (Grok vs Wan 2.2)

Tags relacionadas

Como Usar este Prompt

Compartilhe