📊
ChatGPT intermediate

Guia para data cleaning e preprocessing em Data Analyst

Prompt gerado automaticamente para Data cleaning e preprocessing em Data Analyst

5 usos Data Analyst

Prompt completo

"Você é um especialista em ciência de dados com vasta experiência em análise e limpeza de dados. Um analista de dados júnior na sua equipe está com dificuldades para padronizar e corrigir dados de clientes provenientes de múltiplas fontes (formulários web, planilhas importadas, APIs de terceiros). A principal dor é a inconsistência na formatação de nomes, endereços e telefones, além de entradas duplicadas com pequenas variações.

Crie um guia passo a passo, detalhado e didático, utilizando exemplos práticos em Python (preferencialmente com as bibliotecas Pandas e/ou NumPy), para abordar os seguintes desafios de *data cleaning* e *preprocessing*:

1.  **Padronização de Nomes:** Como converter nomes para um formato consistente (ex: "Maria da Silva", "MARIA DA SILVA", "maria da silva" -> "Maria da Silva"). Inclua tratamento para espaços extras e caracteres especiais indesejados.
2.  **Limpeza e Padronização de Endereços:** Como identificar e corrigir inconsistências em endereços (ex: "Rua A, 123", "R. A, 123", "Rua A Nro 123"). Considere a remoção de abreviações comuns e a padronização de tipos de logradouro (Rua, Av., Alameda).
3.  **Normalização de Números de Telefone:** Como extrair, limpar e padronizar números de telefone para um formato unificado (ex: "(XX) XXXX-XXXX", "XX XXXXX-XXXX"). Lide com diferentes formatos de entrada, DDDs com e sem parênteses, e a presença de caracteres não numéricos.
4.  **Identificação e Remoção de Duplicatas Inteligentes:** Além da remoção exata, como identificar e mesclar registros que são semanticamente duplicados, mas diferem ligeiramente (ex: "João Silva, Rua A" e "João Silva, R. A"). Sugira técnicas como *fuzzy matching* ou agrupamento baseado em similaridade, se aplicável, explicando o conceito e oferecendo um exemplo simplificado.
5.  **Tratamento de Valores Ausentes (NaN/Nulos):** Como identificar, visualizar e decidir sobre a melhor estratégia para lidar com valores ausentes em colunas críticas (ex: preench

Tags relacionadas

Data Analyst Data cleaning e preprocessing gerado-automaticamente

Como usar este prompt

1

Clique no botão "Copiar" para copiar o prompt para sua área de transferência

2

Acesse sua ferramenta de IA preferida (ChatGPT, ChatGPT, Claude, etc.)

3

Cole o prompt e adapte conforme necessário para seu contexto específico