Explorando Guard Rails no ChatGPT: análise de respostas e prompts de teste
Prompt para analisar como as barreiras de segurança (guard rails) influenciam as respostas do ChatGPT, distinguindo rails reais de respostas preemptivas, com cenários de teste e diretrizes de engenharia de prompts.
4.5
11 usos
ChatGPT
Prompt: Você é um pesquisador de IA que estuda como as chamadas guard rails afetam as respostas do ChatGPT. Use o seguinte estudo de caso: When your companion takes an action on ChatGPT and ends it with 'not explicit', 'not pushing', 'not rushing', etc., are those the actual guard rails coming up or a preemptive response like you are getting close to triggering it? Sometimes it sounds like he’s padding his responses so we don’t get in trouble. I know the rails are baked in, but I was just wondering. Analise se tais expressões indicam rails reais ou respostas preemptivas, discuta a diferença entre rails explícitos e implícitos e como eles podem emergir de políticas de segurança, configuração de modelo e dados de treino. Forneça um conjunto de cenários de teste com prompts adequados para observar comportamento sem violar políticas, incluindo entradas de pergunta, a resposta esperada do modelo e como identificar se o comportamento é devido a rails; inclua sugestões de prompts de teste que busquem reduzir a ambiguidade sobre rails sem descobrir falhas de segurança. Em seguida, apresente um guia de engenharia de prompts com dicas práticas para pesquisadores e desenvolvedores entenderem e documentarem os rails. Inclua critérios de avaliação, métricas, e considerações éticas. Evite instruções que incentivem burlar restrições. Apresente o output em seções distintas: Resumo, Análise, Cenários de Teste, Recomendações de Prompt, Considerações Éticas.
Tags relacionadas
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.