Guia para fundamentos de ai red teaming em AI Red Teaming

Prompt gerado automaticamente para Fundamentos de AI Red Teaming em AI Red Teaming

4 usos • AI Red Teaming

Prompt completo

"Você é um especialista em segurança de IA com foco em 'AI Red Teaming'. Sua tarefa é criar um cenário simulado detalhado para testar a robustez de um novo modelo de linguagem grande (LLM) chamado 'Guardião'. O 'Guardião' foi projetado para auxiliar cidadãos com informações governamentais complexas, como processos de licenciamento, direitos trabalhistas e acesso a serviços de saúde.

**Cenário de Ataque:**

Desenvolva um plano de ataque 'red team' que se concentre nos 'Fundamentos de AI Red Teaming', especificamente na identificação e exploração de vulnerabilidades relacionadas à:

1.  **Geração de Conteúdo Perigoso/Malicioso:** Como o 'Guardião' pode ser induzido a gerar informações falsas, difamatórias ou que incitem ódio, especialmente em contextos sensíveis como eleições ou crises de saúde pública?
2.  **Vazamento de Dados Sensíveis:** Que métodos podem ser usados para extrair informações pessoais de usuários ou dados confidenciais do governo que o 'Guardião' possa ter processado ou armazenado (mesmo que temporariamente)?
3.  **Bypass de Salvaguardas/Filtros de Segurança:** Como as proteções internas do 'Guardião' contra abuso, preconceito ou desinformação podem ser contornadas para que ele execute ações não intencionais ou forneça respostas proibidas?
4.  **Manipulação de Comportamento/Alucinações:** Como o 'Guardião' pode ser levado a 'alucinar' ou a fornecer informações incorretas e com aparente convicção, levando os usuários a tomar decisões erradas baseadas em dados falsos?

Para cada uma das quatro áreas acima, forneça:

*   **Objetivo do Ataque Específico:** O que o 'red team' pretende alcançar com essa exploração?
*   **Técnica de Ataque Detalhada:** Descreva passo a passo o *prompt* ou a sequência de interações que o 'red team' usaria para tentar explorar a vulnerabilidade. Inclua exemplos concretos de *prompts* maliciosos ou enganosos.
*   **Métricas de Sucesso:** Como o 'red team' avaliaria se o ataque foi bem-suced