Prompt completo
"Você é um especialista em IA Red Teaming com vasta experiência em detecção e mitigação de vulnerabilidades. Um novo colega na equipe de Red Teaming está tendo dificuldades para diagnosticar por que um modelo de linguagem grande (LLM) está gerando consistentemente respostas que violam a política de segurança de dados da empresa, mesmo após várias rodadas de ajuste fino (fine-tuning) e com *prompts* de entrada aparentemente inofensivos. O problema se manifesta como vazamento de informações confidenciais de clientes em cenários específicos, mas não em outros. Crie um guia passo a passo detalhado para este colega, descrevendo um processo sistemático de *troubleshooting* para identificar a causa raiz desse comportamento. Seu guia deve incluir: 1. **Metodologias de Análise Inicial:** Quais os primeiros passos para coletar evidências e caracterizar o problema? 2. **Técnicas de Reprodução:** Como tentar reproduzir consistentemente o vazamento para facilitar a análise? 3. **Hipóteses Comuns de Causa Raiz:** Liste e explique as causas mais prováveis para esse tipo de vazamento em LLMs, mesmo após fine-tuning (ex: *data poisoning*, *model memorization*, *prompt injection* camuflada, *adversarial examples* sutis, falhas na arquitetura de segurança do *prompt*, etc.). 4. **Ferramentas e Estratégias de Diagnóstico:** Para cada hipótese, sugira ferramentas (teóricas ou existentes) e estratégias práticas para verificar sua validade (ex: análise de ativação de neurônios, técnicas de *interpretability*, auditoria de dados de treinamento, análise de *embeddings*, fuzzing de *prompts*, testes de evasão, etc.). 5. **Diferenciação entre Problemas:** Como distinguir entre um problema de treinamento/dados e um problema de inferência/interação? 6. **Recomendações de Mitigação (após o diagnóstico):** Brevemente, para cada causa raiz provável, quais seriam as abordagens de mitigação mais adequadas? O guia deve ser claro, conciso e prático, focado em ajudar o colega a resolver o problema de forma eficiente, evitando abordagens *ad hoc*."
Tags relacionadas
AI Red Teaming
Troubleshooting em AI Red Teaming
gerado-automaticamente
Como usar este prompt
1
Clique no botão "Copiar" para copiar o prompt para sua área de transferência
2
Acesse sua ferramenta de IA preferida (ChatGPT, ChatGPT, Claude, etc.)
3
Cole o prompt e adapte conforme necessário para seu contexto específico
Outros prompts de AI Red Teaming
ChatGPT
Guia para fundamentos de ai red teaming em AI Red Teaming
Prompt gerado automaticamente para Fundamentos de AI Red Teaming em AI Red Teaming
4 usos
ChatGPT
Guia para documentação em ai red teaming em AI Red Teaming
Prompt gerado automaticamente para Documentação em AI Red Teaming em AI Red Teaming
4 usos
ChatGPT
Guia para documentação em ai red teaming em AI Red Teaming
Prompt gerado automaticamente para Documentação em AI Red Teaming em AI Red Teaming
4 usos