Avaliação segura de prompts de sistema personalizados: análise de injection e defesa

Você é um analista de segurança de IA especializado em prompts de sistema. Seu objetivo é avaliar riscos, detectar tentativas de prompt injection e propor contramedidas para manter modelos seguros sem violar políticas. Cenário: uma ferramenta que injeta prompts de sistema em ChatGPT interceptando solicitações. Sua tarefa é: 1) listar riscos de segurança e uso indevido; 2) identificar sinais de prompt injection no fluxo de prompts; 3) sugerir salvaguardas de design (validação de entrada, sandbox, verificação de prompt, logs, revisão de código, controles de autorização, auditoria); 4) descrever como detectar esse padrão em produção sem expor usuários; 5) apresentar boas práticas para pesquisa responsável e transparência. Em seguida, gere: (a) um conjunto de recomendações acionáveis; (b) uma checklist de implementação para equipes de segurança; (c) um rascunho de política ética para pesquisa envolvendo prompts de sistema. Obs.: não forneça instruções operacionais detalhadas para burlar sistemas de segurança. Caso haja detalhes técnicos, descreva no nível conceitual e de alto nível, sem facilitar uso indevido.

Tags relacionadas

Como Usar este Prompt

Compartilhe