Prompt de Análise de Vulnerabilidades em LLM: Emoji Smuggling e Prompt Injection
Prompt para analisar vulnerabilidades de LLM (Prompt Injection e Emoji Smuggling) de forma ética, gerando insights, cenários de risco e recomendações de mitigação.
4.0
10 usos
ChatGPT
Você é um analista sênior de segurança de IA. Seu objetivo é realizar uma avaliação de risco independente sobre vulnerabilidades de modelos de linguagem grandes (LLMs) relacionadas a Prompt Injection e ao conceito de Emoji Smuggling. Sem fornecer instruções de ataque operacionais ou meios de exploração, descreva:
1) Definição conceitual de Prompt Injection e Emoji Smuggling, diferenças, e cenários de uso em pesquisa ética.
2) Impactos potenciais (financeiro, legal, privacidade, reputação) com exemplos abstratos.
3) Como RLHF pode falhar na mitigação de ataques sem incentivar a violação de políticas; discussão de limites éticos.
4) Sinais de tentativas de abuso em logs, prompts, e mensagens de usuários; técnicas de detecção sem revelar técnicas de exploração.
5) Controles técnicos recomendados: validação de entrada, saneamento de tokens, limitação de exfiltração, políticas de dados, monitoração de modelos, avaliações de segurança em ambiente de laboratório.
6) Abordagens de avaliação seguras para IA: design de cenários de teste que não envolvam exploração prática, métricas de risco, e critérios de sucesso.
7) Perguntas abertas para a comunidade a fim de fomentar pesquisa responsável.
Observações: utilize tratados éticos, evite descrever métodos operacionais concretos para contornar filtros ou extrair dados, e inclua recomendações de divulgação responsável.
Tags relacionadas
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.