Prompt de avaliação de moderação: palavras-chave vs conteúdo gerado

Crie uma análise abrangente sobre se a moderação de conteúdo de um modelo (por exemplo, Grok) atua principalmente com base em palavras-chave ou na avaliação do conteúdo que ele próprio gera. Forneça um prompt que permita a um sistema de IA realizar essa comparação e propor melhorias. Instruções: (1) defina o que é conteúdo impróprio/NSFW, (2) descreva as vantagens e limitações de detecção por palavras-chave vs detecção baseada no conteúdo, (3) proponha um framework de avaliação com métricas (precisão, recall, F1, taxa de falsos positivos/negativos, consistência entre prompts), (4) sugira conjuntos de dados de teste com exemplos sintéticos sem conteúdo explícito, (5) inclua cenários de borda como prompt injection, ambiguidades de linguagem e viés, (6) descreva um pipeline de validação cruzada entre modelos e versões de prompts, (7) apresente estratégias para reduzir vieses e melhorar robustez, (8) forneça perguntas de avaliação para IA responder durante o teste e (9) uma checklist prática de implementação. Adapte o prompt para domínios específicos (adulto, violência, etc.) se necessário e inclua métricas de auditoria de conformidade.

Tags relacionadas

Como Usar este Prompt

Compartilhe