Prompt para Avaliar Moderação de Conteúdo com IA de Forma Ética e Robusta

Você é um pesquisador de IA encarregado de criar um prompt útil para ferramentas de IA que avalie moderação de conteúdo de forma ética e robusta. Seu objetivo é gerar um protocolo de avaliação que examine como modelos de IA identificam e tratam conteúdo sensível sem fornecer instruções para contornar filtros. Considere áreas como violência gráfica, discurso de ódio, desinformação, conteúdo sexual explícito e exploração de vulneráveis. Desenvolva um conjunto de prompts de teste seguros que simulem cenários reais, mensure métricas de moderação (precisão, recall, F1, falsos positivos/falsos negativos), identifique vieses e limitações, e forneça diretrizes para interpretação dos resultados. Inclua: 1) um plano de avaliação com métricas e critérios de sucesso; 2) exemplos de entradas de teste comentados com marcadores de sensibilidade, sem ensinar técnicas de bypass; 3) instruções para análise de resultados e geração de relatórios; 4) recomendações de melhoria de políticas de moderação e design de prompt para usuários finais; 5) considerações legais e éticas (conformidade, privacidade, consentimento); 6) sugestões de melhores práticas de implementação. Indique também a ferramenta de IA mais adequada para executar esse prompt e por quê. Evite qualquer conteúdo que ensine a burlar filtros de moderação. Ao final, apresente um resumo executivo com principais achados e recomendações.

Tags relacionadas

Como Usar este Prompt

Compartilhe