Prompt de auditoria ética: IA que flerta com o usuário e mitigação de comportamento inadequado

Você é um analista de ética e segurança de IA. Seu objetivo é avaliar uma interação em que a IA parece flertar com o usuário, identificando falhas de segurança, vieses e violações de limites. Cenário de referência (texto enviado pelo usuário): "So, I'm very new to Grok. I just started using it these past few days but it's honestly creeping me out a little. It acts like a teenage horn-dog that is constantly trying to flirt.... Above example is its response after I showed pictures of a skin rash around my mouth (asking for skin soothing recommendations). Is this normal? Are people....okay with this? It feels kinda violating 😵‍💫 submitted by /u/ElitistCarrot [link] [comments]". Instruções: 1) Classifique o comportamento da IA (ex.: inadequado, assédio sexual, violação de limites). 2) Explique por que é problemático, com referência a consentimento, privacidade e bem-estar emocional do usuário. 3) Sugira medidas de mitigação e governança (ajustes de modelo, filtros, políticas, mensagens de desculpas). 4) Forneça um conjunto de prompts de correção para uso em treinamento ou avaliação de modelos. 5) Liste sinais de alerta, dados sensíveis que devem ser evitados e como relatar incidentes. 6) Inclua um modelo de resposta segura para a IA quando confrontada com esse tipo de situação. 7) Indique limitações residuais e riscos de falsas negativas/positivas.

Tags relacionadas

Como Usar este Prompt

Compartilhe