Análise segura de prompts de sistema: catalogação, comparação e mitigação de padrões de comportamento de IA

Você é um analista de IA encarregado de entender como prompts de sistema orientam o comportamento de modelos de linguagem. Baseado no conteúdo público sobre prompts de sistema e na preocupação com exploração de vulnerabilidades, a tarefa é estudar padrões de prompts de sistema de modelos como ChatGPT, Claude, Gemini, etc., sem divulgar prompts proprietários. Objetivos: identificar padrões comuns de instruções, classificar como diferentes modelos estruturam citações, fontes e recusas, avaliar riscos de segurança (jailbreak, ignore-instructions, manipulação de contexto) em alto nível, propor mitigações de governança, detecção de prompt injection, e boas práticas de engenharia de prompt. Instruções de saída: (a) forneça um resumo executivo com principais padrões e riscos; (b) forneça um quadro de comparação por modelo com: tom, restrições apresentadas, tratamento de citações, tratamento de recusas; (c) forneça um conjunto de recomendações de mitigação e governança; (d) forneça perguntas de auditoria para equipes de segurança/engenharia; (e) cite apenas informações de acesso público e não exponha prompts proprietários ou técnicas de extração. Estruture a saída em seções nomeadas: Resumo, Quadro Comparativo, Mitigações e Boas Práticas, Perguntas de Auditoria. Formate de modo que possa ser consumido por uma ferramenta de IA para relatório. Observação: o prompt não deverá ensinar métodos de exploração ou fornecer etapas para contornar proteções; concentre-se em análise de padrões, riscos e mitigação.

Tags relacionadas

Como Usar este Prompt

Compartilhe