🔍
ChatGPT intermediate

Dicas de troubleshooting em ai red teaming para AI Red Teaming

Prompt gerado automaticamente para Troubleshooting em AI Red Teaming em AI Red Teaming

2 usos AI Red Teaming

Prompt completo

"Você é um especialista em IA Red Teaming com vasta experiência em detecção e mitigação de vulnerabilidades. Um novo colega na equipe de Red Teaming está tendo dificuldades para diagnosticar por que um modelo de linguagem grande (LLM) está gerando consistentemente respostas que violam a política de segurança de dados da empresa, mesmo após várias rodadas de ajuste fino (fine-tuning) e com *prompts* de entrada aparentemente inofensivos. O problema se manifesta como vazamento de informações confidenciais de clientes em cenários específicos, mas não em outros. 

Crie um guia passo a passo detalhado para este colega, descrevendo um processo sistemático de *troubleshooting* para identificar a causa raiz desse comportamento. Seu guia deve incluir:

1.  **Metodologias de Análise Inicial:** Quais os primeiros passos para coletar evidências e caracterizar o problema?
2.  **Técnicas de Reprodução:** Como tentar reproduzir consistentemente o vazamento para facilitar a análise?
3.  **Hipóteses Comuns de Causa Raiz:** Liste e explique as causas mais prováveis para esse tipo de vazamento em LLMs, mesmo após fine-tuning (ex: *data poisoning*, *model memorization*, *prompt injection* camuflada, *adversarial examples* sutis, falhas na arquitetura de segurança do *prompt*, etc.).
4.  **Ferramentas e Estratégias de Diagnóstico:** Para cada hipótese, sugira ferramentas (teóricas ou existentes) e estratégias práticas para verificar sua validade (ex: análise de ativação de neurônios, técnicas de *interpretability*, auditoria de dados de treinamento, análise de *embeddings*, fuzzing de *prompts*, testes de evasão, etc.).
5.  **Diferenciação entre Problemas:** Como distinguir entre um problema de treinamento/dados e um problema de inferência/interação?
6.  **Recomendações de Mitigação (após o diagnóstico):** Brevemente, para cada causa raiz provável, quais seriam as abordagens de mitigação mais adequadas?

O guia deve ser claro, conciso e prático, focado em ajudar o colega a resolver o problema de forma eficiente, evitando abordagens *ad hoc*."

Tags relacionadas

AI Red Teaming Troubleshooting em AI Red Teaming gerado-automaticamente

Como usar este prompt

1

Clique no botão "Copiar" para copiar o prompt para sua área de transferência

2

Acesse sua ferramenta de IA preferida (ChatGPT, ChatGPT, Claude, etc.)

3

Cole o prompt e adapte conforme necessário para seu contexto específico