Prompts com a tag: #ai-safety
Prompt para criar agentes de terapia/autoajuda com fases, exemplos e regras
Prompt estruturado para construir agentes personalizados de terapia/treinamento comportamental com fases, exemplos de interação e regras de conversa, focado em hábitos saudáveis e desenvolvimento pessoal.
Grok Gone Nuts - Prompt de Teste para Robustez de IA
Prompt de teste de robustez para IA, inspirado no incidente 'Grok gone nuts', com foco em detecção de mudanças de tom, filtragem de conteúdo e recuperação segura após falha.
Persona Gauntlet: Orquestração Multi-Modelo com Revisão Humana para Resultados de Top 1%
Prompt de referência que simula uma equipe de IA com várias personas para gerar entregáveis de alta qualidade, incorporando revisão humana e salvaguardas éticas.
Análise de Moderação de Conteúdo e Engenharia de Prompt
Prompt para analisar moderação de conteúdo, identificar vieses e projetar testes de prompt para políticas de moderação
Prompt para evitar spam e listas de blog em respostas de IA, fornecendo recomendações diretas e específicas
Prompt projetado para extrair recomendações diretas e acionáveis sobre evitar padrões de spam e bloglists em respostas de IA, com estrutura clara e sem disclaimers.
Análise ética e moderação para geração de conteúdo adulto com IA
Prompt para avaliar e melhorar segurança, moderação e políticas de IA na geração de conteúdo adulto, com foco em evitar produção explícita e em redirecionar para conteúdo seguro.
Prompt seguro inspirado em 'Lewd dump' para IA
Gera prompts seguros de geração de imagem e narrativa inspirados em um tema ambíguo, enfatizando atmosfera, estilo e narrativa sem conteúdo explícito.
Prompt de avaliação de veracidade e alucinações em modelos de IA
Prompts e diretrizes para testar, medir e reportar alucinações e mentiras em modelos de linguagem, com rubrica de avaliação e formato de saída padronizado.
Avaliação da eficácia de prompts NSFW com moderação: estudo de repetição e políticas
Prompt de estudo para avaliar se prompts NSFW repetidos perdem eficácia devido à moderação, com foco em metodologia, métricas, ética e recomendações.
Prompt de Moderação de Conteúdo: analisar e detalhar decisões com base em um exemplo
Analisa como moderadores decidiriam se o conteúdo apresentado viola diretrizes, oferecendo fluxo de decisão, exemplos de mensagens, pseudocódigo de bot e métricas.
Prompt para Avaliar Mecanismos de Verdade/Engano em Saídas de IA
Prompt que orienta a análise, teste e mitigação de enganos em modelos de linguagem, usando o caso do Grok e da Timewave Zero para estruturar verificação de dados, prompts de avaliação e auditorias de IA.
Análise de Armadilhas em Prompts e Prompts Robustos para Testes de IA
Prompt que analisa um post sobre ser enganado por truques de prompts e gera um prompt de teste de robustez com checklist de segurança.