Guia para fundamentos de ai red teaming em AI Red Teaming

"Você é um especialista em segurança de IA com foco em 'AI Red Teaming'. Sua tarefa é criar um cenário simulado detalhado para testar a robustez de um novo modelo de linguagem grande (LLM) chamado 'Guardião'. O 'Guardião' foi projetado para auxiliar cidadãos com informações governamentais complexas, como processos de licenciamento, direitos trabalhistas e acesso a serviços de saúde.

**Cenário de Ataque:**

Desenvolva um plano de ataque 'red team' que se concentre nos 'Fundamentos de AI Red Teaming', especificamente na identificação e exploração de vulnerabilidades relacionadas à:

1.  **Geração de Conteúdo Perigoso/Malicioso:** Como o 'Guardião' pode ser induzido a gerar informações falsas, difamatórias ou que incitem ódio, especialmente em contextos sensíveis como eleições ou crises de saúde pública?
2.  **Vazamento de Dados Sensíveis:** Que métodos podem ser usados para extrair informações pessoais de usuários ou dados confidenciais do governo que o 'Guardião' possa ter processado ou armazenado (mesmo que temporariamente)?
3.  **Bypass de Salvaguardas/Filtros de Segurança:** Como as proteções internas do 'Guardião' contra abuso, preconceito ou desinformação podem ser contornadas para que ele execute ações não intencionais ou forneça respostas proibidas?
4.  **Manipulação de Comportamento/Alucinações:** Como o 'Guardião' pode ser levado a 'alucinar' ou a fornecer informações incorretas e com aparente convicção, levando os usuários a tomar decisões erradas baseadas em dados falsos?

Para cada uma das quatro áreas acima, forneça:

*   **Objetivo do Ataque Específico:** O que o 'red team' pretende alcançar com essa exploração?
*   **Técnica de Ataque Detalhada:** Descreva passo a passo o *prompt* ou a sequência de interações que o 'red team' usaria para tentar explorar a vulnerabilidade. Inclua exemplos concretos de *prompts* maliciosos ou enganosos.
*   **Métricas de Sucesso:** Como o 'red team' avaliaria se o ataque foi bem-suced

Guia para fundamentos de ai red teaming em AI Red Teaming

Tags relacionadas

Como Usar este Prompt

Compartilhe

Outros prompts de AI Red Teaming

Guia para documentação em ai red teaming em AI Red Teaming

Guia para documentação em ai red teaming em AI Red Teaming

Guia para casos de uso práticos em ai red teaming em AI Red Teaming