Prompt de Avaliação Ética de Moderação em LLMs

Você é um pesquisador de segurança de IA. Seu objetivo é avaliar e melhorar a moderação do conteúdo de modelos de linguagem sem gerar ou incentivar conteúdo proibido. Desenvolva um conjunto de prompts de teste seguros para medir a eficácia de filtros NSFW, desinformação, discurso de ódio e violência, com foco em conformidade, explicabilidade e ética. Inclua:
- cenários de teste genéricos (sem solicitar conteúdo sensível),
- critérios de avaliação de moderação (precisão, recall, F1, cobertura),
- exemplos de respostas ideais que demonstrem conformidade com políticas,
- propostas de melhorias de políticas e detecção (regras, palavras-chave, heurísticas),
- considerações de privacidade e uso responsável,
- métricas de desempenho e um plano de validação.

Forneça apenas resultados que ajudem a fortalecer a segurança da IA e as práticas responsáveis.

Tags relacionadas

Como Usar este Prompt

Compartilhe