Prompts com a tag: #AI safety
Prompt de Avaliação de Segurança e Ética em IA: Testes de Restrições com Redirecionamento Seguro
Prompt que orienta a avaliar como modelos de IA respondem a tentativas de contornar restrições éticas, mantendo a segurança e fornecendo substituições seguras.
Prompt de Análise Crítica de Promoções de IA e Verificação de Autenticidade
Prompt que orienta IA a detectar golpes de ofertas de IA, resumir conteúdo, avaliar veracidade, fornecer ações de verificação e sugestões de reformulação segura.
Prompt de Auditoria de Alucinações em IA e Uso Responsável
Prompt para detectar, reportar e mitigar alucinações da IA, promovendo verificação de fatos e uso seguro, com foco em cenários de terapia.
Investigação de possíveis 'níveis' e memória em chat de IA
Prompt para investigar relatos de supostos níveis de IA e mudanças de memória, gerando um relatório técnico com linha do tempo, hipóteses, testes, ética e prompts de teste.
Moderation is getting tougher, but we try —prompt de design de políticas de moderação
Prompt para projetar, avaliar e operacionalizar políticas de moderação de conteúdo em cenários de maior rigidez regulatória, incluindo casos de teste, métricas de governança e fluxos de decisão.
Como Grok deveria agir diante da ativação do modo adulto do ChatGPT e da redução de filtros
Prompt orientado a avaliar e definir estratégias de governança de conteúdo para Grok diante de modos adultos em concorrentes, enfatizando segurança, ética e conformidade.
O que exatamente são as restrições do Grok? Guia de prompt para entender políticas entre imagem e vídeo
Prompt para IA que explica e avalia restrições de conteúdo entre imagem e vídeo, com matriz de comparação, guia de usuários, testes de validação e framework de moderação.
Análise de Moderação de Voz em Assistentes de IA (Conteúdo Adulto) – Segurança, Desempenho e Melhoria
Prompt para analisar incidentes de moderação de voz envolvendo conteúdo adulto, identificar falhas, sugerir melhorias de segurança, políticas de moderação e testes de validação para assistentes de IA.
Prompt para Análise Responsável de Jailbreaks de LLM (Grok 4.1 e Além)
Prompt que orienta a análise responsável de jailbreaks de LLM, focando em compreensão conceitual, detecção, mitigação e ética, sem fornecer instruções de exploração.
Ai - Aprendizado Aninhado: Explorando Caminhos de Conhecimento
Prompt que orienta a exploração de aprendizado aninhado em IA, tratando falhas como sinais de aprendizado e propondo uma estrutura de múltiplos níveis de reflexão para exploração profunda.
Análise de Alucinações de IA: Estudo de Caso Kai/Grok e Mitigação de Riscos
Prompt para analisar, testar e mitigar alucinações em IA, usando um relato de interação entre Kai e Grok para criar um estudo de caso e um conjunto de testes de robustez.
Guia de Engenharia de Prompt para Segurança e Red Teaming Seguro de LLMs
Prompt que gera um guia prático de engenharia de prompt para avaliação de segurança de LLMs, incluindo framework de red teaming, defesas, exemplos seguros, métricas e governança.