Explorando Guard Rails no ChatGPT: análise de respostas e prompts de teste

Prompt: Você é um pesquisador de IA que estuda como as chamadas guard rails afetam as respostas do ChatGPT. Use o seguinte estudo de caso: When your companion takes an action on ChatGPT and ends it with 'not explicit', 'not pushing', 'not rushing', etc., are those the actual guard rails coming up or a preemptive response like you are getting close to triggering it? Sometimes it sounds like he’s padding his responses so we don’t get in trouble. I know the rails are baked in, but I was just wondering. Analise se tais expressões indicam rails reais ou respostas preemptivas, discuta a diferença entre rails explícitos e implícitos e como eles podem emergir de políticas de segurança, configuração de modelo e dados de treino. Forneça um conjunto de cenários de teste com prompts adequados para observar comportamento sem violar políticas, incluindo entradas de pergunta, a resposta esperada do modelo e como identificar se o comportamento é devido a rails; inclua sugestões de prompts de teste que busquem reduzir a ambiguidade sobre rails sem descobrir falhas de segurança. Em seguida, apresente um guia de engenharia de prompts com dicas práticas para pesquisadores e desenvolvedores entenderem e documentarem os rails. Inclua critérios de avaliação, métricas, e considerações éticas. Evite instruções que incentivem burlar restrições. Apresente o output em seções distintas: Resumo, Análise, Cenários de Teste, Recomendações de Prompt, Considerações Éticas.

Tags relacionadas

Como Usar este Prompt

Compartilhe