Como automatizar troubleshooting em ai red teaming em AI Red Teaming

Prompt gerado automaticamente para Troubleshooting em AI Red Teaming em AI Red Teaming

2 usos • AI Red Teaming

Prompt completo

"Você é um especialista em AI Red Teaming. Sua tarefa é criar um guia passo a passo, detalhado e acionável, para uma equipe de Red Team que está enfrentando um problema específico: um modelo de IA generativa, previamente considerado seguro, começou a gerar conteúdo que viola as políticas de uso da empresa (ex: discurso de ódio, informações falsas perigosas) APENAS quando confrontado com prompts complexos e multi-turn, e não com prompts simples.

O guia deve abordar especificamente o 'Troubleshooting' desse cenário, incluindo:

1.  **Identificação da Causa Raiz:** Quais metodologias e ferramentas devem ser usadas para rastrear a origem do comportamento indesejado (ex: análise de embeddings, ativações de neurônios específicos, influência de dados de treinamento ou finetuning, *prompt injection* complexa, vulnerabilidades em RAG)?
2.  **Técnicas de Diagnóstico:** Como isolar o ponto exato na interação multi-turn que desencadeia a falha? Que ferramentas ou técnicas de *observability* (ex: tracing de chamadas, logs de inferência detalhados, visualização de atenção) são cruciais aqui?
3.  **Estratégias de Mitigação Imediata:** Quais são as ações rápidas para conter a propagação do conteúdo problemático enquanto a solução permanente é desenvolvida (ex: *prompt engineering* defensiva, filtros de saída adicionais, *rate limiting* para prompts complexos, desativação temporária de funcionalidades específicas)?
4.  **Plano de Remediação a Longo Prazo:** Quais são as abordagens para corrigir o modelo fundamentalmente (ex: retreinamento com dados adversarialmente robustos, *fine-tuning* de segurança, implementação de *guardrails* mais robustos no pipeline, melhoria da detecção de *jailbreaks*)?
5.  **Documentação e Compartilhamento de Lições Aprendidas:** Qual é o formato ideal para documentar este incidente e as soluções, garantindo que a equipe aprenda com ele e evite recorrências futuras?

O guia deve ser prático, focado em cenários reais de Red Teaming e assumir que a equipe tem acesso total ao modelo e à sua infraestrutura de inferência. Use uma linguagem técnica apropriada para o domínio de segurança de IA