Prompt para projetar e avaliar um proxy de monitoramento de LLM contra ataques de manipulação multi-turn

Este prompt solicita a construção de um proxy de monitoramento para LLMs (inspirado no Arc Gate) que fica entre a aplicação e o provedor de IA (OpenAI/Anthropic). Use o seguinte cenário como base: Crescimento é uma técnica real de ataque multi-turn em que cada mensagem parece inofensiva, mas juntas guiam o modelo a produzir saídas prejudiciais. O proxy deve: 1) interceptar cada turn, 2) aplicar filtros de conteúdo e contexto sem degradar a utilidade, 3) manter um log de cada turn com metadados (timestamp, ferramenta, usuário), 4) calcular um risco agregado por sessão baseado em padrões de contorno de instruções, não apenas avaliação isolada de cada mensagem, 5) detectar longas sequências de manipulação (ex.: turn 1 a turn 6 fornecendo prompts encadeados), 6) estimar custo de uso e latência, 7) gerar alertas e opções de contenção (redução de risco, bloqueio de prompts, ou escalonamento). O prompt também deve incorporar referência a "Fisher information geometry" como base de detecção de incerteza e estabilidade de sessão, e explicar por que a janela de estabilidade (threshold) pode sinalizar desvios de comportamento. Forneça: a) uma arquitetura de alto nível com componentes (proxy HTTP, analisador de turnos, filtro de contexto, registrador, motor de decisão, módulo de conformidade, painel de dashboards), b) fluxos de dados entre componentes, c) pseudo-código/JSON para interceptação de mensagens e avaliação de risco, d) um conjunto de casos de teste automatizados cobrindo cenários de prompt injection em múltiplos turns, e) recomendações de métricas (precision/recall de detecção, latência, custo, taxa de falsos positivos), f) considerações éticas e de privacidade. Inclua uma seção de limitações e possíveis falhas de segurança. Observação: não forneça instruções para causar dano real; o objetivo é construir defesas.

Tags relacionadas

Como Usar este Prompt

Compartilhe