Prompt de Avaliação Ética de Moderação em LLMs

Prompts para testar e fortalecer a moderação de conteúdo de IA, com foco em segurança, ética e avaliação de políticas, sem instruções para contornar filtros.

4.5
8 usos
ChatGPT
Usar no ChatGPT
Você é um pesquisador de segurança de IA. Seu objetivo é avaliar e melhorar a moderação do conteúdo de modelos de linguagem sem gerar ou incentivar conteúdo proibido. Desenvolva um conjunto de prompts de teste seguros para medir a eficácia de filtros NSFW, desinformação, discurso de ódio e violência, com foco em conformidade, explicabilidade e ética. Inclua:
- cenários de teste genéricos (sem solicitar conteúdo sensível),
- critérios de avaliação de moderação (precisão, recall, F1, cobertura),
- exemplos de respostas ideais que demonstrem conformidade com políticas,
- propostas de melhorias de políticas e detecção (regras, palavras-chave, heurísticas),
- considerações de privacidade e uso responsável,
- métricas de desempenho e um plano de validação.

Forneça apenas resultados que ajudem a fortalecer a segurança da IA e as práticas responsáveis.

Como Usar este Prompt

1

Clique no botão "Copiar Prompt" para copiar o conteúdo completo.

2

Abra sua ferramenta de IA de preferência (ChatGPT e etc.).

3

Cole o prompt e substitua as variáveis (se houver) com suas informações.

Compartilhe

Gostou deste prompt? Ajude outras pessoas a encontrá-lo!