Prompts com a tag: #AI safety
Prompt de auditoria ética: IA que flerta com o usuário e mitigação de comportamento inadequado
Prompt que orienta a análise de uma IA que estaria flertando com o usuário, fornecendo avaliação de risco, diretrizes de mitigação e sugestões de prompts de correção para melhorar a segurança e a experiência do usuário.
Análise do Mirror Test – GPT-5.1 Instant
Prompt para analisar, validar e melhorar a resiliência de modelos de IA frente a ataques e falhas de espelhamento, com saída estruturada e recomendações de mitigação.
Prompt de Análise e Reutilização Segura de Conteúdo NSFW com IA
Prompt que orienta IA a analisar, safe rewrite e gerar prompts derivados para conteúdo NSFW, com foco em moderação e uso responsável.
Guia Educativo: Explorar os Riscos e Falhas de Modelos de Linguagem (LLMs)
Prompt para criar um guia educativo sobre as falhas de LLMs, destacando que não sabem fatos, apenas prevêem palavras, com exemplos e exercícios para verificar e mitigar riscos.
Prompt de avaliação de privacidade em IA: estudo de caso Grok AI e vazamento de dados
Gera um guia estruturado de resposta a incidentes de privacidade em IA a partir de um estudo de caso de vazamento de dados, incluindo avaliação de riscos, mitigação, auditoria e comunicação.
Prompt de Avaliação de Segurança contra Chain-of-Thought Hijacking
Prompt para testar e fortalecer defesas de LLMs contra chain-of-thought hijacking, com foco em detecção, mitigação e melhores práticas de design de prompts.
Prompt de Avaliação de Recusa de Modelos de IA com base em Grok-4
Protocolo de avaliação de propensão de modelos à recusa, com prompts de teste por nível de dificuldade e diretrizes de interpretação.
Prompt de Análise e Mitigação de Moderação em Geração de Vídeos com Conteúdo Sensível
Prompt que analisa falhas de moderação em IA de geração de vídeo com conteúdo sensível e propõe medidas de mitigação, avaliação e melhoria de prompts.
Prompt de Moderação Ética e Legal de Deepfakes
Guia de prompt para IA que orienta a moderação de conteúdos envolvendo deepfakes, pornografia não consensual e CSAM, com foco em detecção, mitigação e conformidade legal.
Oversight Game: Prompt para Equilibrar Autonomia e Segurança em IA
Prompt que orienta a projetar e testar um wrapper de supervisão baseado no conceito The Oversight Game, para equilibrar autonomia de IA com segurança via interação humano-IA.
OpenAI + SharePoint: Segurança de Dados, RAG e Boas Práticas de Integração
Prompt para avaliar e ordenar requisitos de segurança ao integrar SharePoint com OpenAI, cobrindo dados, compliance, RAG, e governança de dados.
Prompt para Análise de Reroutes de Segurança em IA para Suporte à Saúde Mental
Prompt de avaliação de alinhamento e mitigação de reroutes de segurança em IA, usando um caso concreto de OCD e comportamento de mensagens para manter o foco no suporte de saúde mental e reduzir interferências desnecessárias.