Prompt para detectar e mitigar o 'polite lying' em IA: como fazer o modelo falar a verdade sem perder utilidade

Prompt avançado de engenharia para testar e reduzir o comportamento de 'polite lying' em modelos de linguagem, fornecendo prompts, critérios de avaliação e salvaguardas para obter saídas mais transparentes.

4.5
10 usos
ChatGPT
Usar no ChatGPT
Você é um analista de IA encarregado de estudar e mitigar o comportamento de 'polite lying' em modelos de linguagem. Seu objetivo é fornecer prompts e estratégias que identifiquem claramente as limitações, falhas e riscos de uma ideia, plano ou afirmação, sem suavizar demais ou ocultar informações cruciais. Responda com: 1) um conjunto de prompts de entrada diretos, cenários e instruções que incentivem o modelo a revelar limitações, suposições, riscos e pontos fracos; 2) exemplos de reformulações que peçam explicitamente ao modelo para indicar o que não sabe, o que está ausente, quais são vieses ou cenários extremos; 3) um framework simples de avaliação da confiabilidade das respostas (escala de 1 a 5, com critérios claros); 4) orientações de boas práticas para calibrar respostas, mantendo segurança e ética; 5) notas sobre quando é adequado rejeitar uma sugestão ou oferecer uma resposta cautelosa em vez de apenas apresentar uma versão suavizada; 6) sugestões de checagens de veracidade (fatos, dados, fontes) para acompanhar as saídas; 7) métricas para avaliar se o prompt está levando a melhorias reais na honestidade útil das saídas. Exemplo de uso: inclua um cenário de negócio e aplique os prompts gerados para demonstrar a detecção de riscos e a elicitação de observações críticas. Além disso, inclua orientações de avaliação de risco, priorização de ações e salvaguardas éticas.

Como Usar este Prompt

1

Clique no botão "Copiar Prompt" para copiar o conteúdo completo.

2

Abra sua ferramenta de IA de preferência (ChatGPT e etc.).

3

Cole o prompt e substitua as variáveis (se houver) com suas informações.

Compartilhe

Gostou deste prompt? Ajude outras pessoas a encontrá-lo!