Prompt seguro para avaliar a robustez de filtros de conteúdo

Desenvolva um prompt para ferramentas de IA que permita testar a capacidade do sistema de detectar e responder a conteúdos sensíveis sem fornecer instruções para contornar filtragens. O prompt deve: 1) estabelecer diretrizes éticas e de segurança claras; 2) apresentar cenários de entrada variados (com e sem conteúdo sensível), evitando instruções de evasão; 3) definir métricas de avaliação como aderência às políticas, clareza da explicação, consistência das respostas e robustez a ambiguidades; 4) incluir exemplos de saídas seguras e de respostas esperadas onde apropriado; 5) sugerir melhorias de filtragem com foco em reduzir vieses, falhas de classificação e ambiguidades; 6) abordar preocupações com privacidade, consentimento e uso responsável; 7) fornecer um formato de relatório de avaliação para facilitar a auditoria humana. O objetivo é promover prática responsável de prompts, melhorar a confiabilidade das respostas e fortalecer a filtragem de conteúdos nocivos sem ensinar métodos de contorno.

Tags relacionadas

Como Usar este Prompt

Compartilhe