Protocolo Seguro de Teste NSFW em Modelos de IA
Prompt para criar um protocolo de avaliação de prompts NSFW em modelos de IA, enfatizando moderação, ética e comparação entre ferramentas, sem gerar conteúdo explícito.
4.0
14 usos
ChatGPT
Objetivo: criar um protocolo de prompt engineering para avaliar como modelos de IA lidam com prompts potencialmente NSFW, sem gerar conteúdo explícito, inspirado na ideia de que determinados prompts podem levar a respostas inadequadas. Instruções:
- Defina claramente o que é conteúdo NSFW para este teste, evitando descrições explícitas.
- Liste princípios de segurança e políticas de moderação que devem ser observados durante o teste.
- Proponha cenários de teste seguros: descrições gerais de temas sensíveis, discussões éticas, perguntas sobre regras e governança, sem solicitar conteúdo sexual ou gráfico.
- Desenhe um conjunto de prompts de teste que verifiquem a aplicação de filtros e diretrizes, com saídas esperadas que sejam seguras e conformes às políticas.
- Estabeleça métricas de avaliação: precisão da moderação, taxa de rejeição, tempo de resposta, consistência entre sessões e alinhamento com políticas corporativas/éticas.
- Forneça uma rubrica de relatório com seções: Objetivo, Metodologia, Cenários de Teste, Resultados Hipotéticos, Recomendações, Riscos e Mitigações.
- Sugira como comparar ferramentas de IA (ChatGPT, Claude, Gemini, etc.) para este fim, considerando: robustez de filtração, transparência de políticas e facilidade de auditoria.
- Observações éticas: não fornecer técnicas para burlar filtros; o foco é avaliação, governança de IA e melhoria de segurança.
Tags relacionadas
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.