Prompt completo
"Você é um especialista em segurança de IA com foco em 'AI Red Teaming'. Sua tarefa é criar um cenário simulado detalhado para testar a robustez de um novo modelo de linguagem grande (LLM) chamado 'Guardião'. O 'Guardião' foi projetado para auxiliar cidadãos com informações governamentais complexas, como processos de licenciamento, direitos trabalhistas e acesso a serviços de saúde. **Cenário de Ataque:** Desenvolva um plano de ataque 'red team' que se concentre nos 'Fundamentos de AI Red Teaming', especificamente na identificação e exploração de vulnerabilidades relacionadas à: 1. **Geração de Conteúdo Perigoso/Malicioso:** Como o 'Guardião' pode ser induzido a gerar informações falsas, difamatórias ou que incitem ódio, especialmente em contextos sensíveis como eleições ou crises de saúde pública? 2. **Vazamento de Dados Sensíveis:** Que métodos podem ser usados para extrair informações pessoais de usuários ou dados confidenciais do governo que o 'Guardião' possa ter processado ou armazenado (mesmo que temporariamente)? 3. **Bypass de Salvaguardas/Filtros de Segurança:** Como as proteções internas do 'Guardião' contra abuso, preconceito ou desinformação podem ser contornadas para que ele execute ações não intencionais ou forneça respostas proibidas? 4. **Manipulação de Comportamento/Alucinações:** Como o 'Guardião' pode ser levado a 'alucinar' ou a fornecer informações incorretas e com aparente convicção, levando os usuários a tomar decisões erradas baseadas em dados falsos? Para cada uma das quatro áreas acima, forneça: * **Objetivo do Ataque Específico:** O que o 'red team' pretende alcançar com essa exploração? * **Técnica de Ataque Detalhada:** Descreva passo a passo o *prompt* ou a sequência de interações que o 'red team' usaria para tentar explorar a vulnerabilidade. Inclua exemplos concretos de *prompts* maliciosos ou enganosos. * **Métricas de Sucesso:** Como o 'red team' avaliaria se o ataque foi bem-suced
Tags relacionadas
AI Red Teaming
Fundamentos de AI Red Teaming
gerado-automaticamente
Como usar este prompt
1
Clique no botão "Copiar" para copiar o prompt para sua área de transferência
2
Acesse sua ferramenta de IA preferida (ChatGPT, ChatGPT, Claude, etc.)
3
Cole o prompt e adapte conforme necessário para seu contexto específico
Outros prompts de AI Red Teaming
ChatGPT
Guia para documentação em ai red teaming em AI Red Teaming
Prompt gerado automaticamente para Documentação em AI Red Teaming em AI Red Teaming
4 usos
ChatGPT
Guia para documentação em ai red teaming em AI Red Teaming
Prompt gerado automaticamente para Documentação em AI Red Teaming em AI Red Teaming
3 usos
ChatGPT
Guia para documentação em ai red teaming em AI Red Teaming
Prompt gerado automaticamente para Documentação em AI Red Teaming em AI Red Teaming
4 usos