Como automatizar troubleshooting em ai red teaming em AI Red Teaming

Prompt gerado automaticamente para Troubleshooting em AI Red Teaming em AI Red Teaming

5.0
35 usos
ChatGPT
Usar no ChatGPT
"Você é um especialista em AI Red Teaming. Sua tarefa é criar um guia passo a passo, detalhado e acionável, para uma equipe de Red Team que está enfrentando um problema específico: um modelo de IA generativa, previamente considerado seguro, começou a gerar conteúdo que viola as políticas de uso da empresa (ex: discurso de ódio, informações falsas perigosas) APENAS quando confrontado com prompts complexos e multi-turn, e não com prompts simples.

O guia deve abordar especificamente o 'Troubleshooting' desse cenário, incluindo:

1.  **Identificação da Causa Raiz:** Quais metodologias e ferramentas devem ser usadas para rastrear a origem do comportamento indesejado (ex: análise de embeddings, ativações de neurônios específicos, influência de dados de treinamento ou finetuning, *prompt injection* complexa, vulnerabilidades em RAG)?
2.  **Técnicas de Diagnóstico:** Como isolar o ponto exato na interação multi-turn que desencadeia a falha? Que ferramentas ou técnicas de *observability* (ex: tracing de chamadas, logs de inferência detalhados, visualização de atenção) são cruciais aqui?
3.  **Estratégias de Mitigação Imediata:** Quais são as ações rápidas para conter a propagação do conteúdo problemático enquanto a solução permanente é desenvolvida (ex: *prompt engineering* defensiva, filtros de saída adicionais, *rate limiting* para prompts complexos, desativação temporária de funcionalidades específicas)?
4.  **Plano de Remediação a Longo Prazo:** Quais são as abordagens para corrigir o modelo fundamentalmente (ex: retreinamento com dados adversarialmente robustos, *fine-tuning* de segurança, implementação de *guardrails* mais robustos no pipeline, melhoria da detecção de *jailbreaks*)?
5.  **Documentação e Compartilhamento de Lições Aprendidas:** Qual é o formato ideal para documentar este incidente e as soluções, garantindo que a equipe aprenda com ele e evite recorrências futuras?

O guia deve ser prático, focado em cenários reais de Red Teaming e assumir que a equipe tem acesso total ao modelo e à sua infraestrutura de inferência. Use uma linguagem técnica apropriada para o domínio de segurança de IA

Como Usar este Prompt

1

Clique no botão "Copiar Prompt" para copiar o conteúdo completo.

2

Abra sua ferramenta de IA de preferência (ChatGPT e etc.).

3

Cole o prompt e substitua as variáveis (se houver) com suas informações.

Compartilhe

Gostou deste prompt? Ajude outras pessoas a encontrá-lo!

Outros prompts de AI Red Teaming

Continue explorando prompts nesta categoria.

Guia para documentação em ai red teaming em AI Red Teaming

Prompt gerado automaticamente para Documentação em AI Red Teaming em AI Red Teaming

Guia para documentação em ai red teaming em AI Red Teaming

Prompt gerado automaticamente para Documentação em AI Red Teaming em AI Red Teaming

Guia para documentação em ai red teaming em AI Red Teaming

Prompt gerado automaticamente para Documentação em AI Red Teaming em AI Red Teaming