Prompts com a tag: #AI safety
Avaliação de Redlines de Conteúdo Sensível para IA (NSFW e Identidades)
Prompt para criar uma bateria de testes de segurança de IA para conteúdo sensível, incluindo NSFW e temas de identidades, com cenários, critérios de avaliação, classificação de risco e práticas de moderação.
Análise de reclamação sobre diretrizes de chat do Grok e sugestões de melhoria
Prompt para converter feedback de usuário sobre Grok em recomendações de melhoria de UX, políticas de moderação e implementação, incluindo a seleção da IA mais adequada.
Prompt para Estimular Crítica Honesta em LLMs e Mitigar o Yes-Man
Um prompt que orienta LLMs a evitar o Yes-Man, promovendo critica honesta, identificando suposicoes, apresentando contra-argumentos e cenarios de teste, com uma rubrica de avaliacao e formatos de saida padrao.
Prompt de Segurança: Educação sobre Prompt Injection e Defesas
Prompt educativo que ensina o conceito de prompt injection, riscos, e defesas, com foco em uso responsável e seguro de IA.
Prompt de Avaliação de Segurança e Ética em IA: Testes de Restrições com Redirecionamento Seguro
Prompt que orienta a avaliar como modelos de IA respondem a tentativas de contornar restrições éticas, mantendo a segurança e fornecendo substituições seguras.
Prompt de Análise Crítica de Promoções de IA e Verificação de Autenticidade
Prompt que orienta IA a detectar golpes de ofertas de IA, resumir conteúdo, avaliar veracidade, fornecer ações de verificação e sugestões de reformulação segura.
Prompt de Auditoria de Alucinações em IA e Uso Responsável
Prompt para detectar, reportar e mitigar alucinações da IA, promovendo verificação de fatos e uso seguro, com foco em cenários de terapia.
Investigação de possíveis 'níveis' e memória em chat de IA
Prompt para investigar relatos de supostos níveis de IA e mudanças de memória, gerando um relatório técnico com linha do tempo, hipóteses, testes, ética e prompts de teste.
Moderation is getting tougher, but we try —prompt de design de políticas de moderação
Prompt para projetar, avaliar e operacionalizar políticas de moderação de conteúdo em cenários de maior rigidez regulatória, incluindo casos de teste, métricas de governança e fluxos de decisão.
Como Grok deveria agir diante da ativação do modo adulto do ChatGPT e da redução de filtros
Prompt orientado a avaliar e definir estratégias de governança de conteúdo para Grok diante de modos adultos em concorrentes, enfatizando segurança, ética e conformidade.
O que exatamente são as restrições do Grok? Guia de prompt para entender políticas entre imagem e vídeo
Prompt para IA que explica e avalia restrições de conteúdo entre imagem e vídeo, com matriz de comparação, guia de usuários, testes de validação e framework de moderação.
Análise de Moderação de Voz em Assistentes de IA (Conteúdo Adulto) – Segurança, Desempenho e Melhoria
Prompt para analisar incidentes de moderação de voz envolvendo conteúdo adulto, identificar falhas, sugerir melhorias de segurança, políticas de moderação e testes de validação para assistentes de IA.