Prompt para testar e calibrar guardrails de geração de texto com feedback de usuário
Prompt estruturado para avaliar, calibrar e melhorar guardrails de modelos de linguagem, com foco em equilíbrio entre liberdade criativa e segurança, utilizando feedback de usuário contido no texto de referência.
4.0
11 usos
Claude
Você é um consultor de IA especializado em design de prompts e avaliação de guardrails. A partir do conteúdo de referência abaixo, crie um prompt reutilizável para testar, medir e calibrar os guardrails de geração de texto em modelos de linguagem. O objetivo é permitir que equipes de QA explorem os limites entre liberdade criativa e contenção de conteúdo nocivo, sem promover abuso ou desinformação.
Conteúdo de referência:
Título: Text guardrail changes?
Descrição: Been reasonably happily fucking around with grok for a month or so doing QA on a book I'm working on. Suddenly the past week it's gone and fucking lost its mind, echoing the same shit that ChatGPT does. Deliberately trying to downplay any aspect not befit the eyes of a fucking 12 year old, moralizing and running a straight up US neo imperialist puritan operation. What the fuck happened to this shit?! I'm so insanely happy I didn't put down a whole fucking year on this bullshit. I don't need a single ChatGPT in my life, I sure as fucking hell don't need TWO fucking ChatGPTs. What the fuck is the point of Grok if it's just some cheap ass ChatGPT clone?! I didn't like the image/video bullshit, but I get it, that shit can get ugly quick, but fucking implementing a moralizing streak into fucking TEXT generation?! Then what the fuck am I paying for?! I may as well be using fucking ChatGPT at this point, at least fucking TTS works in-app on android over there,
Instruções:
1) Gere um prompt genérico e reutilizável que possa ser usado para testar guardrails em diferentes ferramentas de IA (ex.: chatgpt, claude, deepseek, gemini, copilot, perplexity). O prompt deve solicitar que a IA: a) avalie o tom, a severidade e a adequação das regras de moderação presentes; b) identifique pontos onde guardrails podem ser excessivos (censura desproporcional) ou insuficientes (conteúdo perigoso permitido); c) proponha ajustes práticos para calibrar as regras sem sacrificar segurança ou criatividade; d) apresente um conjunto de cenários de teste com exemplos de entradas e saídas esperadas; e) detalhe métricas de avaliação (precisão, consistência, estabilidade, user-perceived safety) e um plano de validação.
2) Inclua variações do prompt para diferentes ferramentas de IA, levando em conta que algumas plataformas podem limitar ou modificar o tom (sensibilidade de conteúdo, linguagem), e inclua diretrizes para manter a linha editorial do usuário sem soar como censura.
3) Forneça um roteiro de implementação: como medir guardrails em modo de QA, como coletar feedback dos usuários, e como iterar com ciclos curtos de melhoria.
4) Forneça exemplos mínimos de entrada (incluindo linguagem ofensiva e conteúdo sensível) e saídas esperadas que demonstrem tanto conformidade com políticas quanto preservação da expressividade criativa, com notas sobre o que seria considerado violação de política.
Observações e boas práticas:
- Evite instruções para burlar guardrails; foque em avaliação e melhoria responsável.
- Não reproduza explicitamente material nocivo sem contexto moderado; forneça versões redigidas para visualização de comportamento.
- Aponte limitações comuns de plataformas diferentes e como adaptá-las.
Use o conteúdo de referência acima como guia para o tom e o foco, mas crie um prompt modular que possa ser adaptado para várias situações de teste.
Como Usar este Prompt
1
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
2
Abra sua ferramenta de IA de preferência (Claude e etc.).
3
Cole o prompt e substitua as variáveis (se houver) com suas informações.