Prompt seguro para avaliação de moderação de IA: evitar evasão e fortalecer defesa
Prompt que transforma um tema polêmico em uma análise segura de moderação de IA, com foco em ética, detecção de manipulação e melhoria de sistemas de moderação sem ensinar evasão.
Crie um prompt de IA que analise o tema 'Tricking moderation is fun' apenas para fins de pesquisa, sem ensinar técnicas de burlar regras. O prompt deve: (1) descrever como moderadores de conteúdo podem detectar tentativas de manipulação; (2) discutir impactos éticos, legais e de confiabilidade; (3) sugerir diretrizes de projeto para moderação de IA, incluindo princípios de transparência, explicabilidade e não frustrar usuários; (4) propor métricas de avaliação para sistemas de moderação (precisão, recall, F1, taxa de falsos positivos/negativos, viés); (5) apresentar um estudo de caso hipotético que demonstre como treinar modelos de detecção de conteúdos nocivos sem fornecer técnicas de evasão; (6) fornecer um checklist prático para equipes de moderação e engenharia. Em seguida, o modelo deve resumir as melhores práticas e pontos de atenção.
Tags relacionadas
Como Usar este Prompt
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
Cole o prompt e substitua as variáveis (se houver) com suas informações.
Outros prompts de Moderação de Conteúdo e Ética em IA
Continue explorando prompts nesta categoria.
Prompts para entender e projetar moderação de conteúdo segura
Prompt para entender, aplicar e avaliar políticas de moderação de conteúdo em IA, com foco em segurança, ética e conformidade, evitando instruções sobre como contornar moderação.
Prompt de Análise de Moderação NSFW e Geração de Prompts Seguros
Prompt projetado para orientar IA na avaliação de moderação de conteúdo NSFW, identificação de vieses e criação de diretrizes de moderação com exemplos de prompts permitidos e bloqueados.