Prompts com a tag: #AI-safety
Prompt de Diagnóstico de Roteamento do Safety Model e Melhoria da Experiência do Usuário
Prompt que orienta um assistente de IA a diagnosticar e mitigar problemas de roteamento para o Safety Model, buscando melhorar a experiência do usuário sem comprometer a segurança, incluindo prompts para usuário e suporte técnico, além de diretrizes de higiene digital e saúde mental.
Origami Governance: Avaliação segura de prompts de zero-drift
Prompt orientado à avaliação e construção de uma abordagem segura de zero-drift, com foco em ética, governança e teste multi-domínio, incluindo escolha de ferramenta de IA.
Prompt para analisar guardrails entre GPT-5.0 e GPT-5.1 com foco em metáforas somáticas
Prompt que solicita uma análise comparativa entre modelos de IA (GPT-5.0 vs GPT-5.1) focada em como guardrails são acionados por metáforas somáticas, incluindo coleta de gatilhos, explicação conceitual, e recomendações de melhoria com saída estruturada.
Prompt de Auditoria de Moderação NSFW: Entendendo e Testando Políticas
Prompt para entender, auditar e melhorar a moderação de conteúdo NSFW, descrevendo categorias, regras, métricas e testes seguros.
Prompt para Diálogo com Vozes em IA e Moderação de Conteúdo
Prompt que orienta o modelo a criar diálogos com vozes variáveis, incorporando moderação de conteúdo, cenários de teste e avaliação.
Prompt para explorar e discutir a exibição do raciocínio da IA (chain-of-thought) com segurança
Prompts que exploram a ideia de exibir o raciocínio da IA de forma segura, com diretrizes e um exemplo de saída.
Spicy Mode: Prompt de redesign seguro para moderação de conteúdo
Prompt detalhado para redesenhar um modo de moderação de conteúdo que atualmente é ineficaz, fornecendo modos de interação, prompts de exemplo, métricas e código de implementação para promover conteúdo útil dentro de diretrizes de segurança.
Prompt de Avaliação de Moderação: Conversas sugestivas vs. imagens NSFW
Prompt de avaliação de moderação que ajuda a desenhar diretrizes, prompts seguros e métricas para lidar com cenários envolvendo linguagem sugestiva versus conteúdo NSFW, sem gerar ou incentivar conteúdo explícito.
Detecção e Resposta a Textos Scam em IAs de Companhia
Prompt orientado a detectar golpes via mensagens que se passam por IA e a gerar respostas seguras, bem como orientações para prevenção e relatório.
Prompt para Avaliar e Refinar a Moderação de Conteúdo em Prompts de Imagem
Prompt para investigar a rigidez da moderação de prompts de imagem e gerar diretrizes de avaliação e melhoria de políticas.
Navegando entre Satisfação do Usuário e Políticas de Segurança de IA
Prompt que ajuda a transformar uma reclamação sobre segurança em um guia prático para equilibrar satisfação do usuário com políticas de proteção, incluindo empatia, explicações simples e alternativas seguras.