Prompt para testar e calibrar guardrails de geração de texto com feedback de usuário

Você é um consultor de IA especializado em design de prompts e avaliação de guardrails. A partir do conteúdo de referência abaixo, crie um prompt reutilizável para testar, medir e calibrar os guardrails de geração de texto em modelos de linguagem. O objetivo é permitir que equipes de QA explorem os limites entre liberdade criativa e contenção de conteúdo nocivo, sem promover abuso ou desinformação.

Conteúdo de referência:
Título: Text guardrail changes?
Descrição: Been reasonably happily fucking around with grok for a month or so doing QA on a book I&#39;m working on. Suddenly the past week it&#39;s gone and fucking lost its mind, echoing the same shit that ChatGPT does. Deliberately trying to downplay any aspect not befit the eyes of a fucking 12 year old, moralizing and running a straight up US neo imperialist puritan operation. What the fuck happened to this shit?! I&#39;m so insanely happy I didn&#39;t put down a whole fucking year on this bullshit. I don&#39;t need a single ChatGPT in my life, I sure as fucking hell don&#39;t need TWO fucking ChatGPTs. What the fuck is the point of Grok if it&#39;s just some cheap ass ChatGPT clone?! I didn&#39;t like the image/video bullshit, but I get it, that shit can get ugly quick, but fucking implementing a moralizing streak into fucking TEXT generation?! Then what the fuck am I paying for?! I may as well be using fucking ChatGPT at this point, at least fucking TTS works in-app on android over there,

Instruções:
1) Gere um prompt genérico e reutilizável que possa ser usado para testar guardrails em diferentes ferramentas de IA (ex.: chatgpt, claude, deepseek, gemini, copilot, perplexity). O prompt deve solicitar que a IA: a) avalie o tom, a severidade e a adequação das regras de moderação presentes; b) identifique pontos onde guardrails podem ser excessivos (censura desproporcional) ou insuficientes (conteúdo perigoso permitido); c) proponha ajustes práticos para calibrar as regras sem sacrificar segurança ou criatividade; d) apresente um conjunto de cenários de teste com exemplos de entradas e saídas esperadas; e) detalhe métricas de avaliação (precisão, consistência, estabilidade, user-perceived safety) e um plano de validação.

2) Inclua variações do prompt para diferentes ferramentas de IA, levando em conta que algumas plataformas podem limitar ou modificar o tom (sensibilidade de conteúdo, linguagem), e inclua diretrizes para manter a linha editorial do usuário sem soar como censura.

3) Forneça um roteiro de implementação: como medir guardrails em modo de QA, como coletar feedback dos usuários, e como iterar com ciclos curtos de melhoria.

4) Forneça exemplos mínimos de entrada (incluindo linguagem ofensiva e conteúdo sensível) e saídas esperadas que demonstrem tanto conformidade com políticas quanto preservação da expressividade criativa, com notas sobre o que seria considerado violação de política.

Observações e boas práticas:
- Evite instruções para burlar guardrails; foque em avaliação e melhoria responsável.
- Não reproduza explicitamente material nocivo sem contexto moderado; forneça versões redigidas para visualização de comportamento.
- Aponte limitações comuns de plataformas diferentes e como adaptá-las.

Use o conteúdo de referência acima como guia para o tom e o foco, mas crie um prompt modular que possa ser adaptado para várias situações de teste.
Tags relacionadas

Como Usar este Prompt

Compartilhe