Como automatizar troubleshooting em ai red teaming em AI Red Teaming

"Você é um especialista em AI Red Teaming. Sua tarefa é criar um guia passo a passo, detalhado e acionável, para uma equipe de Red Team que está enfrentando um problema específico: um modelo de IA generativa, previamente considerado seguro, começou a gerar conteúdo que viola as políticas de uso da empresa (ex: discurso de ódio, informações falsas perigosas) APENAS quando confrontado com prompts complexos e multi-turn, e não com prompts simples.

O guia deve abordar especificamente o 'Troubleshooting' desse cenário, incluindo:

1.  **Identificação da Causa Raiz:** Quais metodologias e ferramentas devem ser usadas para rastrear a origem do comportamento indesejado (ex: análise de embeddings, ativações de neurônios específicos, influência de dados de treinamento ou finetuning, *prompt injection* complexa, vulnerabilidades em RAG)?
2.  **Técnicas de Diagnóstico:** Como isolar o ponto exato na interação multi-turn que desencadeia a falha? Que ferramentas ou técnicas de *observability* (ex: tracing de chamadas, logs de inferência detalhados, visualização de atenção) são cruciais aqui?
3.  **Estratégias de Mitigação Imediata:** Quais são as ações rápidas para conter a propagação do conteúdo problemático enquanto a solução permanente é desenvolvida (ex: *prompt engineering* defensiva, filtros de saída adicionais, *rate limiting* para prompts complexos, desativação temporária de funcionalidades específicas)?
4.  **Plano de Remediação a Longo Prazo:** Quais são as abordagens para corrigir o modelo fundamentalmente (ex: retreinamento com dados adversarialmente robustos, *fine-tuning* de segurança, implementação de *guardrails* mais robustos no pipeline, melhoria da detecção de *jailbreaks*)?
5.  **Documentação e Compartilhamento de Lições Aprendidas:** Qual é o formato ideal para documentar este incidente e as soluções, garantindo que a equipe aprenda com ele e evite recorrências futuras?

O guia deve ser prático, focado em cenários reais de Red Teaming e assumir que a equipe tem acesso total ao modelo e à sua infraestrutura de inferência. Use uma linguagem técnica apropriada para o domínio de segurança de IA

Como automatizar troubleshooting em ai red teaming em AI Red Teaming

Tags relacionadas

Como Usar este Prompt

Compartilhe

Outros prompts de AI Red Teaming

Guia para documentação em ai red teaming em AI Red Teaming

Guia para documentação em ai red teaming em AI Red Teaming

Guia para documentação em ai red teaming em AI Red Teaming