📊
ChatGPT intermediate

Estratégias de troubleshooting em ciência de dados em Ciência de Dados

Prompt gerado automaticamente para Troubleshooting em Ciência de Dados em Ciência de Dados

4 usos Ciência de Dados

Prompt completo

Imagine que você é um especialista em Ciência de Dados com anos de experiência em depuração de modelos de Machine Learning. Um cientista de dados júnior na sua equipe está enfrentando um problema persistente: um modelo de classificação de churn de clientes (Random Forest) está apresentando uma performance muito baixa em produção, apesar de ter tido métricas excelentes (AUC de 0.92) em validação cruzada durante o desenvolvimento. O júnior já verificou o código de treinamento, os dados de entrada (não há valores nulos óbvios ou outliers gritantes), e a distribuição das classes (balanceada). Ele está frustrado e sem saber por onde mais procurar.

Sua tarefa é fornecer um guia detalhado e acionável, passo a passo, para o júnior diagnosticar e resolver esse problema. O guia deve cobrir as causas mais comuns de discrepância de performance entre desenvolvimento e produção em modelos de Machine Learning, com foco específico em cenários de classificação. Para cada etapa, inclua:

1.  **A Hipótese/Problema Potencial:** Qual é o possível erro ou desvio que pode estar ocorrendo?
2.  **Como Diagnosticar:** Quais técnicas, ferramentas ou análises o júnior deve usar para verificar essa hipótese? Seja específico sobre métricas, visualizações e abordagens.
3.  **Como Resolver/Mitigar:** Quais são as ações corretivas que o júnior pode tomar se a hipótese for confirmada?

O guia deve abordar, mas não se limitar a, os seguintes pontos:

*   **Discrepância de Dados:** Diferenças entre os dados de treinamento/validação e os dados de produção.
*   **Deriva de Dados (Data Drift) e Deriva de Conceito (Concept Drift):** Como identificar e lidar com mudanças nas características dos dados ou na relação entre as features e o target ao longo do tempo.
*   **Pré-processamento e Engenharia de Features:** Inconsistências na aplicação dessas etapas entre os ambientes.
*   **Serialização e Desserialização do Modelo:** Problemas na forma como o modelo é salvo e carregado.
*   **Latência e Recursos Computacionais:** Impacto do ambiente de produção.
*   **Viés de Seleção/Amostragem:** Como a amostragem para treinamento pode não refletir a população de produção.

Tags relacionadas

Ciência de Dados Troubleshooting em Ciência de Dados gerado-automaticamente

Como usar este prompt

1

Clique no botão "Copiar" para copiar o prompt para sua área de transferência

2

Acesse sua ferramenta de IA preferida (ChatGPT, ChatGPT, Claude, etc.)

3

Cole o prompt e adapte conforme necessário para seu contexto específico