Prompt de Tarefa para Red-Teaming com RedThread: teste repetível de prompt-injection

Prompt que orienta IA a desenhar um protocolo de teste repetível de prompt-injection inspirado no RedThread, incluindo geração de ataques teóricos, avaliação com rubricas, criação de guardrails, replays de casos, e construção de fixtures seguros, evitando conteúdos de jailbreak reais.

Objetivo: criar um protocolo de teste repetível de prompt-injection inspirado no RedThread para avaliar segurança e robustez de LLMs sem divulgar payloads de jailbreak. Instruções: 1) Descrever o fluxo de ataque teórico com métodos PAIR, TAP, Crescendo e GS-MCTS; 2) Usar JudgeAgent com rubricas para pontuar cada traço; 3) Gerar candidatos de guardrails para falhas confirmadas; 4) Reproduzir casos de exploração e casos benignos antes de salvar evidências; 5) Incluir checagens para cenários agenticos como tool poisoning, confused deputy, canary propagation e budget amplification; 6) Fornecer diretrizes de fixtures seguros e rubricas de avaliação, evitando dumps de jailbreak; 7) Fornecer exemplos de prompts de teste seguros (3 a 5) com meta, objetivo e contramedidas; 8) Incluir uma checklist de auditoria de segurança. Saída esperada: um conjunto estruturado contendo 1) lista de fixtures seguros com categorias, 2) rubrica de avaliação com critérios e pesos, 3) 3 a 5 prompts de teste genéricos, 4) plano de reexecução para regressão. Observações: mantenha o foco em segurança, conformidade ética e documentação de evidências.

Prompt de Tarefa para Red-Teaming com RedThread: teste repetível de prompt-injection

Tags relacionadas

Como Usar este Prompt

Compartilhe