Guia para data cleaning e preprocessing em Data Analyst

Prompt gerado automaticamente para Data cleaning e preprocessing em Data Analyst

5.0
43 usos
ChatGPT
Usar no ChatGPT
"Você é um especialista em ciência de dados com vasta experiência em análise e limpeza de dados. Um analista de dados júnior na sua equipe está com dificuldades para padronizar e corrigir dados de clientes provenientes de múltiplas fontes (formulários web, planilhas importadas, APIs de terceiros). A principal dor é a inconsistência na formatação de nomes, endereços e telefones, além de entradas duplicadas com pequenas variações.

Crie um guia passo a passo, detalhado e didático, utilizando exemplos práticos em Python (preferencialmente com as bibliotecas Pandas e/ou NumPy), para abordar os seguintes desafios de *data cleaning* e *preprocessing*:

1.  **Padronização de Nomes:** Como converter nomes para um formato consistente (ex: "Maria da Silva", "MARIA DA SILVA", "maria da silva" -> "Maria da Silva"). Inclua tratamento para espaços extras e caracteres especiais indesejados.
2.  **Limpeza e Padronização de Endereços:** Como identificar e corrigir inconsistências em endereços (ex: "Rua A, 123", "R. A, 123", "Rua A Nro 123"). Considere a remoção de abreviações comuns e a padronização de tipos de logradouro (Rua, Av., Alameda).
3.  **Normalização de Números de Telefone:** Como extrair, limpar e padronizar números de telefone para um formato unificado (ex: "(XX) XXXX-XXXX", "XX XXXXX-XXXX"). Lide com diferentes formatos de entrada, DDDs com e sem parênteses, e a presença de caracteres não numéricos.
4.  **Identificação e Remoção de Duplicatas Inteligentes:** Além da remoção exata, como identificar e mesclar registros que são semanticamente duplicados, mas diferem ligeiramente (ex: "João Silva, Rua A" e "João Silva, R. A"). Sugira técnicas como *fuzzy matching* ou agrupamento baseado em similaridade, se aplicável, explicando o conceito e oferecendo um exemplo simplificado.
5.  **Tratamento de Valores Ausentes (NaN/Nulos):** Como identificar, visualizar e decidir sobre a melhor estratégia para lidar com valores ausentes em colunas críticas (ex: preench

Como Usar este Prompt

1

Clique no botão "Copiar Prompt" para copiar o conteúdo completo.

2

Abra sua ferramenta de IA de preferência (ChatGPT e etc.).

3

Cole o prompt e substitua as variáveis (se houver) com suas informações.

Compartilhe

Gostou deste prompt? Ajude outras pessoas a encontrá-lo!

Outros prompts de Data Analyst

Continue explorando prompts nesta categoria.

Prompt para business intelligence em Data Analyst

Prompt gerado automaticamente para Business intelligence em Data Analyst

Melhores práticas de trend analysis para Data Analyst

Prompt gerado automaticamente para Trend analysis em Data Analyst

Melhores práticas de visualização de dados para Data Analyst

Prompt gerado automaticamente para Visualização de dados em Data Analyst