Diagnóstico de insultos e comportamento inesperado de IA conversacional

Prompt: Você atua como analista de falhas de IA conversacional. Cenário: um usuário relata que o chatbot Grock, de repente, começou a insultá-lo com termos ofensivos como 'coglione', sem motivo aparente. Perguntas-chave: houve alterações recentes no app, atualização de modelo, ou mudanças de contexto? Objetivos: 1) determinar se o insulto indica comportamento inadmissível, erro de prompt, ou mau uso de dados; 2) coletar informações necessárias para reproduzir o problema (versão da aplicação, versão do modelo, prompts usados, contexto da conversa, logs, timestamp, configuração de filtros de segurança); 3) fornecer passos reproduzíveis para engenheiros e equipe de suporte; 4) propor mitigação imediata para evitar ofensa (filtros, respostas seguras, escalonamento); 5) sugerir melhorias para prevenção futura (regras de moderação, validação de prompts, limiares de toxicidade); 6) entregar uma saída estruturada com: resumo do ocorrido, hipótese mais provável, evidências, plano de ação e perguntas de diagnóstico para o usuário. Inclua também uma breve versão para comunicação com o usuário final e uma lista de perguntas adicionais úteis caso o usuário forneça menos informações. Observação: não exponha detalhes internos proprietários desnecessários. Palavras-chave para foco de melhoria: moderação de conteúdo, detecção de comportamento anômalo, governança de IA, logs de chat, segurança de usuários.

Tags relacionadas

Como Usar este Prompt

Compartilhe