Prompt completo
Imagine que você é um especialista em Ciência de Dados com anos de experiência em depuração de modelos de Machine Learning. Um cientista de dados júnior na sua equipe está enfrentando um problema persistente: um modelo de classificação de churn de clientes (Random Forest) está apresentando uma performance muito baixa em produção, apesar de ter tido métricas excelentes (AUC de 0.92) em validação cruzada durante o desenvolvimento. O júnior já verificou o código de treinamento, os dados de entrada (não há valores nulos óbvios ou outliers gritantes), e a distribuição das classes (balanceada). Ele está frustrado e sem saber por onde mais procurar. Sua tarefa é fornecer um guia detalhado e acionável, passo a passo, para o júnior diagnosticar e resolver esse problema. O guia deve cobrir as causas mais comuns de discrepância de performance entre desenvolvimento e produção em modelos de Machine Learning, com foco específico em cenários de classificação. Para cada etapa, inclua: 1. **A Hipótese/Problema Potencial:** Qual é o possível erro ou desvio que pode estar ocorrendo? 2. **Como Diagnosticar:** Quais técnicas, ferramentas ou análises o júnior deve usar para verificar essa hipótese? Seja específico sobre métricas, visualizações e abordagens. 3. **Como Resolver/Mitigar:** Quais são as ações corretivas que o júnior pode tomar se a hipótese for confirmada? O guia deve abordar, mas não se limitar a, os seguintes pontos: * **Discrepância de Dados:** Diferenças entre os dados de treinamento/validação e os dados de produção. * **Deriva de Dados (Data Drift) e Deriva de Conceito (Concept Drift):** Como identificar e lidar com mudanças nas características dos dados ou na relação entre as features e o target ao longo do tempo. * **Pré-processamento e Engenharia de Features:** Inconsistências na aplicação dessas etapas entre os ambientes. * **Serialização e Desserialização do Modelo:** Problemas na forma como o modelo é salvo e carregado. * **Latência e Recursos Computacionais:** Impacto do ambiente de produção. * **Viés de Seleção/Amostragem:** Como a amostragem para treinamento pode não refletir a população de produção.
Tags relacionadas
Ciência de Dados
Troubleshooting em Ciência de Dados
gerado-automaticamente
Como usar este prompt
1
Clique no botão "Copiar" para copiar o prompt para sua área de transferência
2
Acesse sua ferramenta de IA preferida (ChatGPT, ChatGPT, Claude, etc.)
3
Cole o prompt e adapte conforme necessário para seu contexto específico
Outros prompts de Ciência de Dados
ChatGPT
Guia para otimização e performance em ciência de dados em Ciência de Dados
Prompt gerado automaticamente para Otimização e performance em Ciência de Dados em Ciência de Dados
4 usos
ChatGPT
Guia para fundamentos de ciência de dados em Ciência de Dados
Prompt gerado automaticamente para Fundamentos de Ciência de Dados em Ciência de Dados
3 usos
ChatGPT
Guia para casos de uso práticos em ciência de dados em Ciência de Dados
Prompt gerado automaticamente para Casos de uso práticos em Ciência de Dados em Ciência de Dados
3 usos