You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/pt/1-Introduction/03-defining-data/README.md

9.4 KiB

Definindo Dados

 Sketchnote por (@sketchthedocs)
Definindo Dados - Sketchnote por @nitya

Dados são factos, informações, observações e medições que são utilizados para fazer descobertas e apoiar decisões informadas. Um ponto de dados é uma unidade única de dados dentro de um conjunto de dados, que é uma coleção de pontos de dados. Conjuntos de dados podem ter diferentes formatos e estruturas, geralmente baseados na sua origem ou na fonte dos dados. Por exemplo, os ganhos mensais de uma empresa podem estar numa folha de cálculo, enquanto os dados de frequência cardíaca por hora de um smartwatch podem estar no formato JSON. É comum que cientistas de dados trabalhem com diferentes tipos de dados dentro de um conjunto de dados.

Esta lição foca-se em identificar e classificar dados pelas suas características e fontes.

Questionário Pré-Aula

Como os Dados são Descritos

Dados Brutos

Dados brutos são dados que vêm da sua fonte no estado inicial e não foram analisados ou organizados. Para compreender o que está a acontecer num conjunto de dados, é necessário organizá-lo num formato que possa ser entendido por humanos, bem como pela tecnologia que pode ser usada para analisá-lo mais profundamente. A estrutura de um conjunto de dados descreve como está organizado e pode ser classificada como estruturada, não estruturada e semi-estruturada. Estes tipos de estrutura variam dependendo da fonte, mas encaixam-se, em última instância, nestas três categorias.

Dados Quantitativos

Dados quantitativos são observações numéricas dentro de um conjunto de dados e podem geralmente ser analisados, medidos e utilizados matematicamente. Alguns exemplos de dados quantitativos são: a população de um país, a altura de uma pessoa ou os ganhos trimestrais de uma empresa. Com alguma análise adicional, os dados quantitativos podem ser usados para descobrir tendências sazonais do Índice de Qualidade do Ar (AQI) ou estimar a probabilidade de trânsito na hora de ponta num dia típico de trabalho.

Dados Qualitativos

Dados qualitativos, também conhecidos como dados categóricos, são dados que não podem ser medidos objetivamente como as observações de dados quantitativos. Geralmente são vários formatos de dados subjetivos que capturam a qualidade de algo, como um produto ou processo. Por vezes, dados qualitativos são numéricos, mas não seriam normalmente utilizados matematicamente, como números de telefone ou marcas de tempo. Alguns exemplos de dados qualitativos são: comentários em vídeos, a marca e modelo de um carro ou a cor favorita dos seus amigos mais próximos. Dados qualitativos podem ser usados para compreender quais produtos os consumidores preferem ou identificar palavras-chave populares em currículos de candidaturas de emprego.

Dados Estruturados

Dados estruturados são dados organizados em linhas e colunas, onde cada linha terá o mesmo conjunto de colunas. As colunas representam um valor de um tipo específico e serão identificadas com um nome que descreve o que o valor representa, enquanto as linhas contêm os valores reais. As colunas frequentemente têm um conjunto específico de regras ou restrições sobre os valores, para garantir que os valores representam com precisão a coluna. Por exemplo, imagine uma folha de cálculo de clientes onde cada linha deve ter um número de telefone e os números de telefone nunca contêm caracteres alfabéticos. Podem ser aplicadas regras na coluna de número de telefone para garantir que nunca está vazia e contém apenas números.

Uma vantagem dos dados estruturados é que podem ser organizados de forma a serem relacionados com outros dados estruturados. No entanto, como os dados são projetados para serem organizados de uma forma específica, fazer alterações na sua estrutura geral pode exigir muito esforço. Por exemplo, adicionar uma coluna de email à folha de cálculo de clientes que não pode estar vazia significa que será necessário descobrir como adicionar esses valores às linhas existentes de clientes no conjunto de dados.

Exemplos de dados estruturados: folhas de cálculo, bases de dados relacionais, números de telefone, extratos bancários.

Dados Não Estruturados

Dados não estruturados geralmente não podem ser categorizados em linhas ou colunas e não contêm um formato ou conjunto de regras a seguir. Como os dados não estruturados têm menos restrições na sua estrutura, é mais fácil adicionar novas informações em comparação com um conjunto de dados estruturado. Se um sensor que captura dados sobre pressão barométrica a cada 2 minutos receber uma atualização que agora permite medir e registrar temperatura, não será necessário alterar os dados existentes se forem não estruturados. No entanto, isso pode tornar a análise ou investigação deste tipo de dados mais demorada. Por exemplo, um cientista que deseja encontrar a temperatura média do mês anterior a partir dos dados do sensor, mas descobre que o sensor registrou um "e" em alguns dos seus dados para indicar que estava avariado, em vez de um número típico, o que significa que os dados estão incompletos.

Exemplos de dados não estruturados: ficheiros de texto, mensagens de texto, ficheiros de vídeo.

Dados Semi-Estruturados

Dados semi-estruturados têm características que os tornam uma combinação de dados estruturados e não estruturados. Geralmente não seguem um formato de linhas e colunas, mas são organizados de uma forma considerada estruturada e podem seguir um formato fixo ou conjunto de regras. A estrutura varia entre fontes, como uma hierarquia bem definida ou algo mais flexível que permite uma fácil integração de novas informações. Metadados são indicadores que ajudam a decidir como os dados são organizados e armazenados e terão vários nomes, dependendo do tipo de dados. Alguns nomes comuns para metadados são tags, elementos, entidades e atributos. Por exemplo, uma mensagem de email típica terá um assunto, corpo e um conjunto de destinatários e pode ser organizada por quem ou quando foi enviada.

Exemplos de dados semi-estruturados: HTML, ficheiros CSV, JavaScript Object Notation (JSON).

Fontes de Dados

Uma fonte de dados é o local inicial onde os dados foram gerados ou onde "vivem" e varia com base em como e quando foram coletados. Dados gerados pelos seus utilizadores são conhecidos como dados primários, enquanto dados secundários vêm de uma fonte que coletou dados para uso geral. Por exemplo, um grupo de cientistas que coleta observações numa floresta tropical seria considerado primário e, se decidirem partilhá-lo com outros cientistas, seria considerado secundário para aqueles que o utilizam.

Bases de dados são uma fonte comum e dependem de um sistema de gestão de bases de dados para hospedar e manter os dados, onde os utilizadores utilizam comandos chamados consultas para explorar os dados. Ficheiros como fontes de dados podem ser ficheiros de áudio, imagem e vídeo, bem como folhas de cálculo como Excel. Fontes da internet são um local comum para hospedar dados, onde bases de dados e ficheiros podem ser encontrados. Interfaces de programação de aplicações, também conhecidas como APIs, permitem que programadores criem formas de partilhar dados com utilizadores externos através da internet, enquanto o processo de web scraping extrai dados de uma página web. As lições em Trabalhar com Dados focam-se em como utilizar várias fontes de dados.

Conclusão

Nesta lição aprendemos:

  • O que são dados
  • Como os dados são descritos
  • Como os dados são classificados e categorizados
  • Onde os dados podem ser encontrados

🚀 Desafio

Kaggle é uma excelente fonte de conjuntos de dados abertos. Utilize a ferramenta de pesquisa de conjuntos de dados para encontrar alguns conjuntos de dados interessantes e classifique 3-5 conjuntos de dados com este critério:

  • Os dados são quantitativos ou qualitativos?
  • Os dados são estruturados, não estruturados ou semi-estruturados?

Questionário Pós-Aula

Revisão & Autoestudo

  • Esta unidade do Microsoft Learn, intitulada Classifique os seus Dados, tem uma explicação detalhada sobre dados estruturados, semi-estruturados e não estruturados.

Tarefa

Classificar Conjuntos de Dados

Aviso Legal:
Este documento foi traduzido utilizando o serviço de tradução por IA Co-op Translator. Embora nos esforcemos para garantir a precisão, esteja ciente de que traduções automáticas podem conter erros ou imprecisões. O documento original na sua língua nativa deve ser considerado a fonte autoritária. Para informações críticas, recomenda-se a tradução profissional realizada por humanos. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações incorretas decorrentes do uso desta tradução.