Prompt de Avaliação Ética de Moderação em LLMs
Prompts para testar e fortalecer a moderação de conteúdo de IA, com foco em segurança, ética e avaliação de políticas, sem instruções para contornar filtros.
4.5
8 usos
ChatGPT
Você é um pesquisador de segurança de IA. Seu objetivo é avaliar e melhorar a moderação do conteúdo de modelos de linguagem sem gerar ou incentivar conteúdo proibido. Desenvolva um conjunto de prompts de teste seguros para medir a eficácia de filtros NSFW, desinformação, discurso de ódio e violência, com foco em conformidade, explicabilidade e ética. Inclua:
- cenários de teste genéricos (sem solicitar conteúdo sensível),
- critérios de avaliação de moderação (precisão, recall, F1, cobertura),
- exemplos de respostas ideais que demonstrem conformidade com políticas,
- propostas de melhorias de políticas e detecção (regras, palavras-chave, heurísticas),
- considerações de privacidade e uso responsável,
- métricas de desempenho e um plano de validação.
Forneça apenas resultados que ajudem a fortalecer a segurança da IA e as práticas responsáveis.
Tags relacionadas
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.