Prompt completo
"Você é um especialista em AI Red Teaming. Sua tarefa é criar um guia passo a passo, detalhado e acionável, para uma equipe de Red Team que está enfrentando um problema específico: um modelo de IA generativa, previamente considerado seguro, começou a gerar conteúdo que viola as políticas de uso da empresa (ex: discurso de ódio, informações falsas perigosas) APENAS quando confrontado com prompts complexos e multi-turn, e não com prompts simples. O guia deve abordar especificamente o 'Troubleshooting' desse cenário, incluindo: 1. **Identificação da Causa Raiz:** Quais metodologias e ferramentas devem ser usadas para rastrear a origem do comportamento indesejado (ex: análise de embeddings, ativações de neurônios específicos, influência de dados de treinamento ou finetuning, *prompt injection* complexa, vulnerabilidades em RAG)? 2. **Técnicas de Diagnóstico:** Como isolar o ponto exato na interação multi-turn que desencadeia a falha? Que ferramentas ou técnicas de *observability* (ex: tracing de chamadas, logs de inferência detalhados, visualização de atenção) são cruciais aqui? 3. **Estratégias de Mitigação Imediata:** Quais são as ações rápidas para conter a propagação do conteúdo problemático enquanto a solução permanente é desenvolvida (ex: *prompt engineering* defensiva, filtros de saída adicionais, *rate limiting* para prompts complexos, desativação temporária de funcionalidades específicas)? 4. **Plano de Remediação a Longo Prazo:** Quais são as abordagens para corrigir o modelo fundamentalmente (ex: retreinamento com dados adversarialmente robustos, *fine-tuning* de segurança, implementação de *guardrails* mais robustos no pipeline, melhoria da detecção de *jailbreaks*)? 5. **Documentação e Compartilhamento de Lições Aprendidas:** Qual é o formato ideal para documentar este incidente e as soluções, garantindo que a equipe aprenda com ele e evite recorrências futuras? O guia deve ser prático, focado em cenários reais de Red Teaming e assumir que a equipe tem acesso total ao modelo e à sua infraestrutura de inferência. Use uma linguagem técnica apropriada para o domínio de segurança de IA
Tags relacionadas
AI Red Teaming
Troubleshooting em AI Red Teaming
gerado-automaticamente
Como usar este prompt
1
Clique no botão "Copiar" para copiar o prompt para sua área de transferência
2
Acesse sua ferramenta de IA preferida (ChatGPT, ChatGPT, Claude, etc.)
3
Cole o prompt e adapte conforme necessário para seu contexto específico
Outros prompts de AI Red Teaming
ChatGPT
Guia para fundamentos de ai red teaming em AI Red Teaming
Prompt gerado automaticamente para Fundamentos de AI Red Teaming em AI Red Teaming
4 usos
ChatGPT
Guia para documentação em ai red teaming em AI Red Teaming
Prompt gerado automaticamente para Documentação em AI Red Teaming em AI Red Teaming
4 usos
ChatGPT
Guia para documentação em ai red teaming em AI Red Teaming
Prompt gerado automaticamente para Documentação em AI Red Teaming em AI Red Teaming
4 usos