|
2 weeks ago | |
---|---|---|
.. | ||
README.md | 2 weeks ago | |
assignment.ipynb | 3 weeks ago | |
assignment.md | 3 weeks ago | |
notebook.ipynb | 3 weeks ago |
README.md
O Ciclo de Vida da Ciência de Dados: Análise
![]() |
---|
Ciclo de Vida da Ciência de Dados: Análise - Sketchnote por @nitya |
Quiz Pré-Aula
A análise no ciclo de vida dos dados confirma se os dados podem responder às perguntas propostas ou resolver um problema específico. Esta etapa também pode se concentrar em confirmar se um modelo está abordando corretamente essas questões e problemas. Esta lição é focada na Análise Exploratória de Dados (EDA), que são técnicas para definir características e relações dentro dos dados e podem ser usadas para preparar os dados para modelagem.
Usaremos um conjunto de dados de exemplo do Kaggle para mostrar como isso pode ser aplicado com Python e a biblioteca Pandas. Este conjunto de dados contém uma contagem de algumas palavras comuns encontradas em e-mails, sendo que as fontes desses e-mails são anônimas. Use o notebook neste diretório para acompanhar.
Análise Exploratória de Dados
A fase de captura do ciclo de vida é onde os dados são adquiridos, bem como os problemas e questões em questão, mas como sabemos se os dados podem ajudar a apoiar o resultado final?
Lembre-se de que um cientista de dados pode fazer as seguintes perguntas ao adquirir os dados:
- Eu tenho dados suficientes para resolver este problema?
- Os dados têm qualidade aceitável para este problema?
- Se eu descobrir informações adicionais por meio desses dados, devemos considerar mudar ou redefinir os objetivos?
A Análise Exploratória de Dados é o processo de conhecer os dados e pode ser usada para responder a essas perguntas, além de identificar os desafios de trabalhar com o conjunto de dados. Vamos nos concentrar em algumas das técnicas usadas para alcançar isso.
Perfilamento de Dados, Estatísticas Descritivas e Pandas
Como avaliamos se temos dados suficientes para resolver este problema? O perfilamento de dados pode resumir e reunir algumas informações gerais sobre nosso conjunto de dados por meio de técnicas de estatísticas descritivas. O perfilamento de dados nos ajuda a entender o que está disponível para nós, e as estatísticas descritivas nos ajudam a entender quantas coisas estão disponíveis para nós.
Em algumas das lições anteriores, usamos o Pandas para fornecer algumas estatísticas descritivas com a função describe()
. Ela fornece a contagem, valores máximos e mínimos, média, desvio padrão e quantis nos dados numéricos. Usar estatísticas descritivas como a função describe()
pode ajudar você a avaliar quanto você tem e se precisa de mais.
Amostragem e Consultas
Explorar tudo em um grande conjunto de dados pode ser muito demorado e geralmente é uma tarefa deixada para o computador. No entanto, a amostragem é uma ferramenta útil para entender os dados e nos permite ter uma melhor compreensão do que está no conjunto de dados e o que ele representa. Com uma amostra, você pode aplicar probabilidade e estatísticas para chegar a algumas conclusões gerais sobre seus dados. Embora não haja uma regra definida sobre quanto dos dados você deve amostrar, é importante notar que quanto mais dados você amostrar, mais precisa será a generalização que você pode fazer sobre os dados.
O Pandas possui a função sample()
em sua biblioteca, onde você pode passar um argumento de quantas amostras aleatórias gostaria de receber e usar.
Consultas gerais aos dados podem ajudar você a responder algumas perguntas e teorias gerais que possa ter. Em contraste com a amostragem, as consultas permitem que você tenha controle e se concentre em partes específicas dos dados sobre as quais tem perguntas.
A função query()
na biblioteca Pandas permite selecionar colunas e receber respostas simples sobre os dados por meio das linhas recuperadas.
Explorando com Visualizações
Você não precisa esperar até que os dados estejam completamente limpos e analisados para começar a criar visualizações. Na verdade, ter uma representação visual enquanto explora pode ajudar a identificar padrões, relações e problemas nos dados. Além disso, as visualizações fornecem um meio de comunicação com aqueles que não estão envolvidos no gerenciamento dos dados e podem ser uma oportunidade para compartilhar e esclarecer questões adicionais que não foram abordadas na etapa de captura. Consulte a seção sobre Visualizações para aprender mais sobre algumas formas populares de explorar visualmente.
Explorando para Identificar Inconsistências
Todos os tópicos desta lição podem ajudar a identificar valores ausentes ou inconsistentes, mas o Pandas fornece funções para verificar alguns deles. isna() ou isnull() podem verificar valores ausentes. Uma parte importante de explorar esses valores dentro de seus dados é investigar por que eles acabaram dessa forma. Isso pode ajudar você a decidir quais ações tomar para resolvê-los.
Quiz Pós-Aula
Tarefa
Aviso Legal:
Este documento foi traduzido utilizando o serviço de tradução por IA Co-op Translator. Embora nos esforcemos para garantir a precisão, esteja ciente de que traduções automáticas podem conter erros ou imprecisões. O documento original em seu idioma nativo deve ser considerado a fonte oficial. Para informações críticas, recomenda-se a tradução profissional realizada por humanos. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações equivocadas decorrentes do uso desta tradução.