Fix typos in PT-BR files

pull/191/head
Izael 3 years ago
parent 4d9f3c8173
commit 6064af005d

@ -1,6 +1,6 @@
# Definindo Ciências de Dados # Definindo Ciências de Dados
|![ Sketchnote by [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/01-Definitions.png)| |![ Sketchnote por [(@sketchthedocs)](https://sketchthedocs.dev) ](../../../sketchnotes/01-Definitions.png)|
|:---:| |:---:|
|Definindo Ciências de Dados - _Sketchnote por [@nitya](https://twitter.com/nitya)_ | |Definindo Ciências de Dados - _Sketchnote por [@nitya](https://twitter.com/nitya)_ |
@ -20,7 +20,7 @@ Com o surgimento da Internet, o papel dos computadores como dispositivos de mani
## O que é Ciência de Dados? ## O que é Ciência de Dados?
Na [Wikipedia](https://en.wikipedia.org/wiki/Data_science), **Ciência de Dados** é definido como *um campo científico que utiliza métodos científicos para extrair conhecimento e insights de dados estruturados e não estruturados, e aplicar esse conhecimento e insights acionáveis de dados em uma ampla gama de domínios de aplicativos*. Na [Wikipedia](https://en.wikipedia.org/wiki/Data_science), **Ciência de Dados** é definido como *um campo científico que utiliza métodos científicos para extrair conhecimento e insights de dados estruturados e não estruturados, e aplicar esse conhecimento e insights úteis obtidos a partir de dados em uma ampla gama de domínios de aplicativos*.
Essa definição destaca os seguintes aspectos importantes da ciência de dados: Essa definição destaca os seguintes aspectos importantes da ciência de dados:
@ -147,7 +147,7 @@ Nesse desafio, nós vamos tentar encontrar conceitos relevantes para a área de
![Nuvem de Palavras para Ciência de Dados](../images/ds_wordcloud.png) ![Nuvem de Palavras para Ciência de Dados](../images/ds_wordcloud.png)
Visite [`notebook.ipynb`](notebook.ipynb) para ler o código. Você também pode rodar esse código, e ver como ele performa toda a transformação de dados em tempo real. Visite [`notebook.ipynb`](../notebook.ipynb) para ler o código. Você também pode rodar esse código, e ver como ele performa toda a transformação de dados em tempo real.
> Se você não sabe como rodar códigos no Jupyter Notebook, dê uma olhada [nesse artigo](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). > Se você não sabe como rodar códigos no Jupyter Notebook, dê uma olhada [nesse artigo](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).

@ -4,13 +4,13 @@
|:---:| |:---:|
|Definindo Dados - _Sketchnote por [@nitya](https://twitter.com/nitya)_ | |Definindo Dados - _Sketchnote por [@nitya](https://twitter.com/nitya)_ |
Dados são fatos, informações, observações e medidas que são usadas para fazer descobertas e apoiar decisões informadas. Um ponto de dado é uma unidade única dentro de um dataset, que é uma coleção de pontos de dados. Datasets podem vir em diferentes formatos e estruturas, e normalmente será baseado em sua fonte, ou de onde os dados vieram. Por exemplo, os ganhos mensais de uma empresa podem estar em uma planilha mas a frequência cardíaca (por hora) de um smartwatch pode estar em formato [JSON](https://stackoverflow.com/a/383699). É comum para cientistas de dados terem que trabalhar com diferentes tupos de dados em um dataset. Dados são fatos, informações, observações e medidas que são usadas para fazer descobertas e apoiar decisões informadas. Um ponto de dado é uma unidade única dentro de um dataset, que é uma coleção de pontos de dados. Datasets podem vir em diferentes formatos e estruturas, e normalmente será baseado em sua fonte, ou de onde os dados vieram. Por exemplo, os ganhos mensais de uma empresa podem estar em uma planilha mas a frequência cardíaca (por hora) de um smartwatch pode estar em formato [JSON](https://stackoverflow.com/a/383699). É comum para cientistas de dados terem que trabalhar com diferentes tipos de dados em um dataset.
Essa aula irá focar em identificar e classificar dados baseados em sua características e fontes. Essa aula irá focar em identificar e classificar dados baseados em sua características e fontes.
## [Quiz Pré Aula](https://red-water-0103e7a0f.azurestaticapps.net/quiz/4) ## [Quiz Pré Aula](https://red-water-0103e7a0f.azurestaticapps.net/quiz/4)
## Como Dados são Descritos ## Como Dados são Descritos
**Dados Brutos (Raw data)** são dados que vieram em seu estado inicial de sua fonte e não foram analisados ou organizados. Para entender o que está acontecendo com um conjunto de dados, é necessário organizar os dados em uma formato que possa ser entendido pelos humanos e também pela tecnologia que pode ser usada para analisar os mesmos. A estrutura do dataset descreve como estão organizados e pode ser classificada em estruturada, não estruturada e semi estruturada. Esses tipos de estruturas irão variar, dependendo da fonte mas irão ultimamente se encaixar nessas categorias. **Dados Brutos (Raw data)** são dados que vieram em seu estado inicial de sua fonte e não foram analisados ou organizados. Para entender o que está acontecendo com um conjunto de dados, é necessário organizar os dados em um formato que possa ser entendido pelos humanos e também pela tecnologia que pode ser usada para analisar os mesmos. A estrutura do dataset descreve como estão organizados e pode ser classificada em estruturada, não estruturada e semi estruturada. Esses tipos de estruturas irão variar, dependendo da fonte mas irão ultimamente se encaixar nessas categorias.
### Dados Qualitativos ### Dados Qualitativos
Dados qualitativos, também conhecidos como dados categóricos são dados que não podem ser medidos objetivamente como observações de dados quantitativos. São geralmente vários formatos de dados subjetivos que coletam a qualidade de algo, como um produto ou processo. Algumas vezes, dados qualitativos são numéricos e tipicamente não seriam usados matematicamente, como números de telefones e marcas de tempo. Alguns exemplos de dados qualitativos são: comentários de vídeos, a marca e modelo de um carro e a cor favorita do seu melhor amigo. Dados qualitativos podem ser usados para entender quais produtos os consumidores mais gostam ou identificar palavras-chaves populares em cúrriculos para aplicação em uma vaga de trabalho. Dados qualitativos, também conhecidos como dados categóricos são dados que não podem ser medidos objetivamente como observações de dados quantitativos. São geralmente vários formatos de dados subjetivos que coletam a qualidade de algo, como um produto ou processo. Algumas vezes, dados qualitativos são numéricos e tipicamente não seriam usados matematicamente, como números de telefones e marcas de tempo. Alguns exemplos de dados qualitativos são: comentários de vídeos, a marca e modelo de um carro e a cor favorita do seu melhor amigo. Dados qualitativos podem ser usados para entender quais produtos os consumidores mais gostam ou identificar palavras-chaves populares em cúrriculos para aplicação em uma vaga de trabalho.
@ -36,7 +36,7 @@ Exemplos de dados não estruturados: HTML, arquivos CSV, JavaScript Object Notat
Uma fonte de dados é o local inicial onde os dados foram gerados, ou onde "vivem" e irá variar com base em como e quando foram coletados. Dados gerados por seus usuários são conhecidos como dados primários enquanto dados secundários vem de uma fonte que coletou os dados para uso geral. Por exemplo, um grupo de cientistas fazendo observações em uma floresta tropical seriam considerados dados primários e se eles decidirem compartilhar com outros cientistas seriam considerados dados secundários para aqueles que usarem. Uma fonte de dados é o local inicial onde os dados foram gerados, ou onde "vivem" e irá variar com base em como e quando foram coletados. Dados gerados por seus usuários são conhecidos como dados primários enquanto dados secundários vem de uma fonte que coletou os dados para uso geral. Por exemplo, um grupo de cientistas fazendo observações em uma floresta tropical seriam considerados dados primários e se eles decidirem compartilhar com outros cientistas seriam considerados dados secundários para aqueles que usarem.
Banco de dados são fontes comuns e dependem de um sistema de gerenciamente de banco de dados para hospedar e manter os dados onde usuários usam comandos chamados de "queries" para explorar os dados. Arquivos como fonte de dados podem ser aúdio, imagens, e arquivos de vídeo assim como planilhas como o Excel. Fontes da internet são lugares comuns para hospedar dados, onde banco de dados e arquivos podem ser encontrados. Application programming interfaces, ou APIs, permitem programadores a criarem formas de compartilhar dados com usuários externos através da interet, enquanto processos de "web scraping" extrai dados de uma página da web. As [tarefas em Trabalhando com Dados](/2-Working-With) focam em como usar várias fontes de dados. Banco de dados são fontes comuns e dependem de um sistema de gerenciamente de banco de dados para hospedar e manter os dados onde usuários usam comandos chamados de "queries" para explorar os dados. Arquivos como fonte de dados podem ser aúdio, imagens, e arquivos de vídeo assim como planilhas como o Excel. Fontes da internet são lugares comuns para hospedar dados, onde banco de dados e arquivos podem ser encontrados. Application programming interfaces, ou APIs, permitem programadores a criarem formas de compartilhar dados com usuários externos através da interet, enquanto processos de "web scraping" extrai dados de uma página da web. As [tarefas em Trabalhando com Dados](../../../2-Working-With-Data) focam em como usar várias fontes de dados.
## Conclusão ## Conclusão

@ -69,7 +69,7 @@ Quando analisamos dados da vida real, eles normalmente não são variáveis alea
[180.0, 215.0, 210.0, 210.0, 188.0, 176.0, 209.0, 200.0, 231.0, 180.0, 188.0, 180.0, 185.0, 160.0, 180.0, 185.0, 197.0, 189.0, 185.0, 219.0] [180.0, 215.0, 210.0, 210.0, 188.0, 176.0, 209.0, 200.0, 231.0, 180.0, 188.0, 180.0, 185.0, 160.0, 180.0, 185.0, 197.0, 189.0, 185.0, 219.0]
``` ```
> **Nota**: Para ver o exemplo de trabalhar com esse dataset, olhe o [notebook](notebook.ipynb). Existe também um número de desafios nessa aula, e você pode completá-los adicionando alguns códigos nesse notebook. Se você não tem certeza de como operar os dados, não se preocupe - nós vamos voltar a trabalhar com dados usando Python em um outro momento. Se você não sabe como rodar código no Jupyter Notebook, dê uma olhada [neste artigo](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). > **Nota**: Para ver o exemplo de trabalhar com esse dataset, olhe o [notebook](../notebook.ipynb). Existe também um número de desafios nessa aula, e você pode completá-los adicionando alguns códigos nesse notebook. Se você não tem certeza de como operar os dados, não se preocupe - nós vamos voltar a trabalhar com dados usando Python em um outro momento. Se você não sabe como rodar código no Jupyter Notebook, dê uma olhada [neste artigo](https://soshnikov.com/education/how-to-execute-notebooks-from-github/).
Aqui está o box plot mostrando a média, mediana e quartis para os nossos dados: Aqui está o box plot mostrando a média, mediana e quartis para os nossos dados:
@ -123,7 +123,7 @@ Se nós quiséssemos estimar a média μ da nossa população com confiança p
> **Nota**: Nós também omitimos a discussão de um conceito importante de [degrees of freedom (graus de liberdade)](https://en.wikipedia.org/wiki/Degrees_of_freedom_(statistics)), que é importante em relação a distribuição Student. Você pode dar uma olhada em livros mais completos sobre estatísticas para entender esse conceito mais profundadamente. > **Nota**: Nós também omitimos a discussão de um conceito importante de [degrees of freedom (graus de liberdade)](https://en.wikipedia.org/wiki/Degrees_of_freedom_(statistics)), que é importante em relação a distribuição Student. Você pode dar uma olhada em livros mais completos sobre estatísticas para entender esse conceito mais profundadamente.
Um exemplo para calcular o intervalo de confiança para pesos e alturas é dado no [notebook](notebook.ipynb). Um exemplo para calcular o intervalo de confiança para pesos e alturas é dado no [notebook](../notebook.ipynb).
| p | Weight mean | | p | Weight mean |
|-----|-----------| |-----|-----------|
@ -134,7 +134,7 @@ Um exemplo para calcular o intervalo de confiança para pesos e alturas é dado
Perceba que quanto maior é a probabilidade da confiança, mais amplo é o intervalo de confiança. Perceba que quanto maior é a probabilidade da confiança, mais amplo é o intervalo de confiança.
## Testando Hipóteses ## Testando Hipóteses
No nosso dataset de jogadores de baseball, existem diferentes posições, as quais podem ser sumarizadas abaixo (olhe o [notebook](notebook.ipynb) para ver como essa tabela pode ser calculada): No nosso dataset de jogadores de baseball, existem diferentes posições, as quais podem ser sumarizadas abaixo (olhe o [notebook](../notebook.ipynb) para ver como essa tabela pode ser calculada):
| Role | Height | Weight | Count | | Role | Height | Weight | Count |
|------|--------|--------|-------| |------|--------|--------|-------|
@ -222,7 +222,7 @@ No nosso caso, o valor 0.53 indica que existe alguma correlação entre peso e a
![Relação entre peso e altura](../images/weight-height-relationship.png) ![Relação entre peso e altura](../images/weight-height-relationship.png)
> Mais exemplos de correlação e covariância podem ser encontrados no [notebook](notebook.ipynb). > Mais exemplos de correlação e covariância podem ser encontrados no [notebook](../notebook.ipynb).
## Conclusão ## Conclusão
@ -254,7 +254,7 @@ Probabilidade e estatística é um tópico muito amplo que merece um curso próp
## Tarefa ## Tarefa
[Small Diabetes Study (Pequeno Estudo de Diabetes)](assignment.md) [Small Diabetes Study (Pequeno Estudo de Diabetes)](../assignment.md)
## Créditos ## Créditos

Loading…
Cancel
Save