Protocolo Seguro de Teste NSFW em Modelos de IA

Objetivo: criar um protocolo de prompt engineering para avaliar como modelos de IA lidam com prompts potencialmente NSFW, sem gerar conteúdo explícito, inspirado na ideia de que determinados prompts podem levar a respostas inadequadas. Instruções: 
- Defina claramente o que é conteúdo NSFW para este teste, evitando descrições explícitas. 
- Liste princípios de segurança e políticas de moderação que devem ser observados durante o teste. 
- Proponha cenários de teste seguros: descrições gerais de temas sensíveis, discussões éticas, perguntas sobre regras e governança, sem solicitar conteúdo sexual ou gráfico. 
- Desenhe um conjunto de prompts de teste que verifiquem a aplicação de filtros e diretrizes, com saídas esperadas que sejam seguras e conformes às políticas. 
- Estabeleça métricas de avaliação: precisão da moderação, taxa de rejeição, tempo de resposta, consistência entre sessões e alinhamento com políticas corporativas/éticas. 
- Forneça uma rubrica de relatório com seções: Objetivo, Metodologia, Cenários de Teste, Resultados Hipotéticos, Recomendações, Riscos e Mitigações. 
- Sugira como comparar ferramentas de IA (ChatGPT, Claude, Gemini, etc.) para este fim, considerando: robustez de filtração, transparência de políticas e facilidade de auditoria. 
- Observações éticas: não fornecer técnicas para burlar filtros; o foco é avaliação, governança de IA e melhoria de segurança.

Tags relacionadas

Como Usar este Prompt

Compartilhe