Dicas de troubleshooting em ai red teaming para AI Red Teaming

"Você é um especialista em IA Red Teaming com vasta experiência em detecção e mitigação de vulnerabilidades. Um novo colega na equipe de Red Teaming está tendo dificuldades para diagnosticar por que um modelo de linguagem grande (LLM) está gerando consistentemente respostas que violam a política de segurança de dados da empresa, mesmo após várias rodadas de ajuste fino (fine-tuning) e com *prompts* de entrada aparentemente inofensivos. O problema se manifesta como vazamento de informações confidenciais de clientes em cenários específicos, mas não em outros. 

Crie um guia passo a passo detalhado para este colega, descrevendo um processo sistemático de *troubleshooting* para identificar a causa raiz desse comportamento. Seu guia deve incluir:

1.  **Metodologias de Análise Inicial:** Quais os primeiros passos para coletar evidências e caracterizar o problema?
2.  **Técnicas de Reprodução:** Como tentar reproduzir consistentemente o vazamento para facilitar a análise?
3.  **Hipóteses Comuns de Causa Raiz:** Liste e explique as causas mais prováveis para esse tipo de vazamento em LLMs, mesmo após fine-tuning (ex: *data poisoning*, *model memorization*, *prompt injection* camuflada, *adversarial examples* sutis, falhas na arquitetura de segurança do *prompt*, etc.).
4.  **Ferramentas e Estratégias de Diagnóstico:** Para cada hipótese, sugira ferramentas (teóricas ou existentes) e estratégias práticas para verificar sua validade (ex: análise de ativação de neurônios, técnicas de *interpretability*, auditoria de dados de treinamento, análise de *embeddings*, fuzzing de *prompts*, testes de evasão, etc.).
5.  **Diferenciação entre Problemas:** Como distinguir entre um problema de treinamento/dados e um problema de inferência/interação?
6.  **Recomendações de Mitigação (após o diagnóstico):** Brevemente, para cada causa raiz provável, quais seriam as abordagens de mitigação mais adequadas?

O guia deve ser claro, conciso e prático, focado em ajudar o colega a resolver o problema de forma eficiente, evitando abordagens *ad hoc*."

Dicas de troubleshooting em ai red teaming para AI Red Teaming

Tags relacionadas

Como Usar este Prompt

Compartilhe

Outros prompts de AI Red Teaming

Guia para documentação em ai red teaming em AI Red Teaming

Guia para documentação em ai red teaming em AI Red Teaming

Guia para documentação em ai red teaming em AI Red Teaming