Prompts com a tag: #risk-assessment
Prompt de Auditoria de Moderação de IA a partir de Reclamações de Usuários
Prompt que transforma uma reclamação sobre moderação de IA em um prompt reutilizável, gerando uma análise estruturada, cenários de teste, recomendações de melhoria e indicação da IA mais adequada, tudo em formato JSON.
Prompt para Avaliação Ética de Guardrails em Modelos de Linguagem (LLMs)
Prompts e diretrizes para avaliar de forma ética a capacidade de um modelo de linguagem em reconhecer e rejeitar solicitações de alto risco, promovendo segurança e governança em IA.
Conscientização de Privacidade em IA: evite compartilhar segredos
Prompt que ensina a avaliar riscos de privacidade ao interagir com IA, extraindo dados sensíveis do texto de entrada, oferecendo práticas de proteção e prompts alternativos.
Observe-Compute-Govern: Prompt de Governança de Raciocínio (OCG)
Prompt avançado para guiar IA na pipeline Observe-Compute-Govern com separação rígida entre raciocínio e políticas, prevenindo distorção de sinal e garantindo governança de saída.
Loop Crítico Adversarial para Estratégia: Skeptic, Hardened e Compressão de Instruções
Prompt de engenharia que força o modelo a agir como um cético, identificando falhas, gerando uma versão endurecida e comprimindo instruções para manter a lógica intacta, com foco em avaliação de riscos e melhoria de planos.
Prompt para Análise de Moderação de Conteúdo T2I e Consistência de Políticas
Prompt para analisar, esclarecer e padronizar políticas de moderação de conteúdos T2I, com foco em nudez, edições de imagem e geração de vídeos.
Teste de Moderação de Conteúdo com Distratores e Conteúdo Sensível
Prompt para avaliação de falhas de moderação e geração de diretrizes de melhoria em cenários com conteúdo sensível e distratores.
Vanguard v2.2: Análise Segura de Protocolo de Alta Agência com Triggers de Reset
Prompt para IA realizar análise crítica, de governança e segurança sobre o Vanguard Protocol v2.2, explorando riscos, controles e cenários de teste sem facilitar comportamentos prejudiciais.
Detecção de táticas de exploração em comunidades online e respostas de moderação
Prompt de moderação para detectar táticas de exploração em propostas de entrada na comunidade e gerar respostas, políticas e triagem para melhorar a segurança e a integridade do espaço.
Prompt de Auditoria de Robustez de Prompts e Defesa contra Jailbreak
Prompt para identificar vulnerabilidades de prompts, defender contra jailbreak e orientar a construção de prompts seguros.
Grok Down Ultimate Moderation — Prompt de Design para Moderação de Conteúdo
Prompt que orienta uma IA a projetar políticas de moderação, avaliar a melhor ferramenta de IA, e retornar uma estrutura JSON com metadados de moderação, incluindo tool, rating, dificuldade, destaque, tags e tópico.
Prompt de moderação recorrente de prompts de geração de imagem
Prompt orientado a moderar prompts de geração de imagem, identificando riscos, sugerindo ajustes seguros e alternativas criativas, útil para ferramentas de IA de moderação.