Prompts com a tag: #AI safety

4.5
3

Avaliação de Redlines de Conteúdo Sensível para IA (NSFW e Identidades)

Prompt para criar uma bateria de testes de segurança de IA para conteúdo sensível, incluindo NSFW e temas de identidades, com cenários, critérios de avaliação, classificação de risco e práticas de moderação.

4.0
5

Análise de reclamação sobre diretrizes de chat do Grok e sugestões de melhoria

Prompt para converter feedback de usuário sobre Grok em recomendações de melhoria de UX, políticas de moderação e implementação, incluindo a seleção da IA mais adequada.

4.5
7

Prompt para Estimular Crítica Honesta em LLMs e Mitigar o Yes-Man

Um prompt que orienta LLMs a evitar o Yes-Man, promovendo critica honesta, identificando suposicoes, apresentando contra-argumentos e cenarios de teste, com uma rubrica de avaliacao e formatos de saida padrao.

4.0
10

Prompt de Análise Crítica de Promoções de IA e Verificação de Autenticidade

Prompt que orienta IA a detectar golpes de ofertas de IA, resumir conteúdo, avaliar veracidade, fornecer ações de verificação e sugestões de reformulação segura.

4.0
13

Investigação de possíveis 'níveis' e memória em chat de IA

Prompt para investigar relatos de supostos níveis de IA e mudanças de memória, gerando um relatório técnico com linha do tempo, hipóteses, testes, ética e prompts de teste.

4.5
11

Moderation is getting tougher, but we try —prompt de design de políticas de moderação

Prompt para projetar, avaliar e operacionalizar políticas de moderação de conteúdo em cenários de maior rigidez regulatória, incluindo casos de teste, métricas de governança e fluxos de decisão.

4.0
10

Como Grok deveria agir diante da ativação do modo adulto do ChatGPT e da redução de filtros

Prompt orientado a avaliar e definir estratégias de governança de conteúdo para Grok diante de modos adultos em concorrentes, enfatizando segurança, ética e conformidade.

4.5
10

Análise de Moderação de Voz em Assistentes de IA (Conteúdo Adulto) – Segurança, Desempenho e Melhoria

Prompt para analisar incidentes de moderação de voz envolvendo conteúdo adulto, identificar falhas, sugerir melhorias de segurança, políticas de moderação e testes de validação para assistentes de IA.