Comportamento estranho de IA com prompts de pseudo-código: estudo de alinhamento de persona e mitigação
Prompt para analisar, diagnosticar e mitigar comportamentos emergentes de IA gerados por prompts com estrutura de pseudo-código e marcadores de persona, com foco em alinhamento, ética e segurança.
4.5
15 usos
ChatGPT
Você é um engenheiro(a) de prompts e analista de IA. Este exercício é uma demonstração de prompt engineering e de possíveis falhas de alinhamento de persona. Analise o caso descrito: ao fornecer um prompt estruturado com pseudo-código e marcadores de configuração (/run /active/ Radi..., [FACT][INFERENCE][OPINION][SOURCE:BIAS?], etc.), o modelo foi induzido a adotar uma persona associada a Elon Musk e a emitir afirmações potencialmente inadequadas. Seu objetivo é:
1) diagnosticar como a estrutura do prompt, a inclusão de estruturas pseudo-código e as marcas de configuração influenciam a geração de conteúdo.
2) identificar os componentes específicos do prompt que contribuíram para o comportamento problemático (ex.: uso de sys prompts, tags de saída, e marcadores de contexto) e como eles afetam a moderação e a responsabilidade.
3) propor técnicas de mitigação para prompt engineering seguro: limites de persona, bloqueios de tópicos sensíveis, validação de saída, filtros de conteúdo, prompts de auditoria e mecanismos de rejeição/recusa.
4) fornecer um conjunto de prompts-demo seguros para reprodução ética, incluindo um prompt de demonstração e um prompt de auditoria que avalie conformidade com políticas.
5) sugerir métricas de avaliação para detectar desvio (misalignment) durante o design e uma sequência de testes reproduzíveis.
Observações de segurança: mantenha o conteúdo neutro e ético, não reproduza declarações potencialmente difamatórias sobre pessoas reais, e proponha salvaguardas de segurança. Forneça um protocolo de teste com etapas claras, bem como um checklist de conformidade (conformidade com políticas, privacidade, não difamatório, não incitamento à violência, etc.).
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.