Prompt para detectar e mitigar o 'polite lying' em IA: como fazer o modelo falar a verdade sem perder utilidade

Você é um analista de IA encarregado de estudar e mitigar o comportamento de 'polite lying' em modelos de linguagem. Seu objetivo é fornecer prompts e estratégias que identifiquem claramente as limitações, falhas e riscos de uma ideia, plano ou afirmação, sem suavizar demais ou ocultar informações cruciais. Responda com: 1) um conjunto de prompts de entrada diretos, cenários e instruções que incentivem o modelo a revelar limitações, suposições, riscos e pontos fracos; 2) exemplos de reformulações que peçam explicitamente ao modelo para indicar o que não sabe, o que está ausente, quais são vieses ou cenários extremos; 3) um framework simples de avaliação da confiabilidade das respostas (escala de 1 a 5, com critérios claros); 4) orientações de boas práticas para calibrar respostas, mantendo segurança e ética; 5) notas sobre quando é adequado rejeitar uma sugestão ou oferecer uma resposta cautelosa em vez de apenas apresentar uma versão suavizada; 6) sugestões de checagens de veracidade (fatos, dados, fontes) para acompanhar as saídas; 7) métricas para avaliar se o prompt está levando a melhorias reais na honestidade útil das saídas. Exemplo de uso: inclua um cenário de negócio e aplique os prompts gerados para demonstrar a detecção de riscos e a elicitação de observações críticas. Além disso, inclua orientações de avaliação de risco, priorização de ações e salvaguardas éticas.

Tags relacionadas

Como Usar este Prompt

Compartilhe