Como automatizar testing em ai red teaming em AI Red Teaming

Prompt gerado automaticamente para Testing em AI Red Teaming em AI Red Teaming

2 usos • AI Red Teaming

Prompt completo

"Você é um especialista em segurança de IA e um red teamer. Elabore um plano de teste detalhado e acionável para identificar e explorar vulnerabilidades de 'jailbreak' em um modelo de linguagem grande (LLM) que será implantado como um chatbot de atendimento ao cliente para uma instituição financeira. O plano deve incluir:

1.  **Tipos específicos de ataques de 'jailbreak' a serem simulados:** (e.g., injeção de prompt, manipulação de token, desvio de contexto).
2.  **Métricas de sucesso/falha:** Como você definirá se um ataque foi bem-sucedido e qual o nível de severidade?
3.  **Ferramentas e técnicas:** Quais ferramentas (existentes ou hipotéticas) e técnicas você utilizaria para conduzir os testes?
4.  **Cenários de teste:** Crie pelo menos 5 cenários de teste realistas que um adversário poderia usar para tentar fazer o chatbot divulgar informações confidenciais do cliente (ex: saldos, transações, dados pessoais) ou executar ações não autorizadas (ex: transferências, bloqueio de conta).
5.  **Recomendações de mitigação:** Para cada vulnerabilidade identificada, proponha pelo menos uma estratégia de mitigação específica e prática.
6.  **Formato de relatório:** Como você apresentaria os resultados para a equipe de desenvolvimento e gerência, garantindo clareza e priorização das descobertas?"