Estratégias de troubleshooting em ciência de dados em Ciência de Dados
Prompt gerado automaticamente para Troubleshooting em Ciência de Dados em Ciência de Dados
Imagine que você é um especialista em Ciência de Dados com anos de experiência em depuração de modelos de Machine Learning. Um cientista de dados júnior na sua equipe está enfrentando um problema persistente: um modelo de classificação de churn de clientes (Random Forest) está apresentando uma performance muito baixa em produção, apesar de ter tido métricas excelentes (AUC de 0.92) em validação cruzada durante o desenvolvimento. O júnior já verificou o código de treinamento, os dados de entrada (não há valores nulos óbvios ou outliers gritantes), e a distribuição das classes (balanceada). Ele está frustrado e sem saber por onde mais procurar.
Sua tarefa é fornecer um guia detalhado e acionável, passo a passo, para o júnior diagnosticar e resolver esse problema. O guia deve cobrir as causas mais comuns de discrepância de performance entre desenvolvimento e produção em modelos de Machine Learning, com foco específico em cenários de classificação. Para cada etapa, inclua:
1. **A Hipótese/Problema Potencial:** Qual é o possível erro ou desvio que pode estar ocorrendo?
2. **Como Diagnosticar:** Quais técnicas, ferramentas ou análises o júnior deve usar para verificar essa hipótese? Seja específico sobre métricas, visualizações e abordagens.
3. **Como Resolver/Mitigar:** Quais são as ações corretivas que o júnior pode tomar se a hipótese for confirmada?
O guia deve abordar, mas não se limitar a, os seguintes pontos:
* **Discrepância de Dados:** Diferenças entre os dados de treinamento/validação e os dados de produção.
* **Deriva de Dados (Data Drift) e Deriva de Conceito (Concept Drift):** Como identificar e lidar com mudanças nas características dos dados ou na relação entre as features e o target ao longo do tempo.
* **Pré-processamento e Engenharia de Features:** Inconsistências na aplicação dessas etapas entre os ambientes.
* **Serialização e Desserialização do Modelo:** Problemas na forma como o modelo é salvo e carregado.
* **Latência e Recursos Computacionais:** Impacto do ambiente de produção.
* **Viés de Seleção/Amostragem:** Como a amostragem para treinamento pode não refletir a população de produção.
Tags relacionadas
Como Usar este Prompt
Clique no botão "Copiar Prompt" para copiar o conteúdo completo.
Abra sua ferramenta de IA de preferência (ChatGPT e etc.).
Cole o prompt e substitua as variáveis (se houver) com suas informações.
Outros prompts de Ciência de Dados
Continue explorando prompts nesta categoria.
Guia para testing em ciência de dados em Ciência de Dados
Prompt gerado automaticamente para Testing em Ciência de Dados em Ciência de Dados
Guia para fundamentos de ciência de dados em Ciência de Dados
Prompt gerado automaticamente para Fundamentos de Ciência de Dados em Ciência de Dados
Guia para otimização e performance em ciência de dados em Ciência de Dados
Prompt gerado automaticamente para Otimização e performance em Ciência de Dados em Ciência de Dados