# Preparação de Dados

[Origem do Notebook original de *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio by Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## Explorando informações de um `DataFrame`

> **Objetivo de aprendizagem:** No final desta subseção, deverá sentir-se confortável em encontrar informações gerais sobre os dados armazenados em pandas DataFrames.

Depois de carregar os seus dados no pandas, é muito provável que estejam num `DataFrame`. No entanto, se o conjunto de dados no seu `DataFrame` tiver 60.000 linhas e 400 colunas, como começar a ter uma ideia do que está a trabalhar? Felizmente, o pandas fornece algumas ferramentas práticas para rapidamente obter informações gerais sobre um `DataFrame`, além de visualizar as primeiras e últimas linhas.

Para explorar esta funcionalidade, iremos importar a biblioteca Python scikit-learn e utilizar um conjunto de dados icónico que todos os cientistas de dados já viram centenas de vezes: o conjunto de dados *Iris* do biólogo britânico Ronald Fisher, usado no seu artigo de 1936 "The use of multiple measurements in taxonomic problems":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Carregámos o Conjunto de Dados Iris na variável `iris_df`. Antes de explorarmos os dados, seria útil saber o número de pontos de dados que temos e o tamanho total do conjunto de dados. É importante ter uma ideia do volume de dados com que estamos a lidar.


In [2]:
iris_df.shape

(150, 4)

Portanto, estamos a lidar com 150 linhas e 4 colunas de dados. Cada linha representa um ponto de dados e cada coluna representa uma única característica associada ao quadro de dados. Basicamente, existem 150 pontos de dados, cada um contendo 4 características.

`shape` aqui é um atributo do quadro de dados e não uma função, razão pela qual não termina com um par de parênteses.


### `DataFrame.columns`
Vamos agora analisar as 4 colunas de dados. O que exatamente cada uma delas representa? O atributo `columns` fornece-nos o nome das colunas no dataframe.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Como podemos ver, existem quatro (4) colunas. O atributo `columns` indica-nos o nome das colunas e basicamente nada mais. Este atributo assume importância quando queremos identificar as características que um conjunto de dados contém.


### `DataFrame.info`
A quantidade de dados (dada pelo atributo `shape`) e o nome das características ou colunas (dado pelo atributo `columns`) dizem-nos algo sobre o conjunto de dados. Agora, queremos explorar o conjunto de dados mais a fundo. A função `DataFrame.info()` é bastante útil para isso.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


A partir daqui, podemos fazer algumas observações:  
1. O tipo de dados de cada coluna: Neste conjunto de dados, todos os dados estão armazenados como números de ponto flutuante de 64 bits.  
2. Número de valores não nulos: Lidar com valores nulos é um passo importante na preparação de dados. Isso será tratado mais tarde no notebook.  


### DataFrame.describe()
Suponha que temos muitos dados numéricos no nosso conjunto de dados. Cálculos estatísticos univariados, como a média, mediana, quartis, etc., podem ser realizados individualmente em cada uma das colunas. A função `DataFrame.describe()` fornece-nos um resumo estatístico das colunas numéricas de um conjunto de dados.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


O resultado acima mostra o número total de pontos de dados, média, desvio padrão, mínimo, primeiro quartil (25%), mediana (50%), terceiro quartil (75%) e o valor máximo de cada coluna.


### `DataFrame.head`
Com todas as funções e atributos mencionados acima, obtivemos uma visão geral do conjunto de dados. Sabemos quantos pontos de dados existem, quantas características estão presentes, o tipo de dado de cada característica e o número de valores não nulos para cada uma delas.

Agora é hora de olhar para os próprios dados. Vamos ver como são as primeiras linhas (os primeiros pontos de dados) do nosso `DataFrame`:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Como resultado aqui, podemos ver cinco (5) entradas do conjunto de dados. Se olharmos para o índice à esquerda, descobrimos que estas são as primeiras cinco linhas.


### Exercício:

Pelo exemplo dado acima, é claro que, por padrão, `DataFrame.head` retorna as primeiras cinco linhas de um `DataFrame`. Na célula de código abaixo, consegue descobrir uma forma de exibir mais de cinco linhas?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
Outra forma de visualizar os dados pode ser a partir do final (em vez do início). O oposto de `DataFrame.head` é `DataFrame.tail`, que devolve as últimas cinco linhas de um `DataFrame`:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


Na prática, é útil poder examinar facilmente as primeiras ou as últimas linhas de um `DataFrame`, especialmente quando se procura por valores atípicos em conjuntos de dados ordenados.

Todas as funções e atributos mostrados acima, com a ajuda de exemplos de código, ajudam-nos a ter uma visão geral dos dados.

> **Conclusão:** Apenas ao observar os metadados sobre a informação num DataFrame ou os primeiros e últimos valores, pode-se obter uma ideia imediata sobre o tamanho, a forma e o conteúdo dos dados com que se está a lidar.


### Dados em Falta
Vamos explorar o tema dos dados em falta. Dados em falta ocorrem quando não há nenhum valor armazenado em algumas das colunas.

Vamos considerar um exemplo: imagine que alguém está preocupado com o seu peso e decide não preencher o campo de peso num inquérito. Nesse caso, o valor do peso para essa pessoa estará em falta.

Na maioria das vezes, em conjuntos de dados do mundo real, é comum encontrar valores em falta.

**Como o Pandas lida com dados em falta**

O Pandas lida com valores em falta de duas formas. A primeira, que já viu em secções anteriores, é o `NaN`, ou Not a Number (Não é um Número). Este é, na verdade, um valor especial que faz parte da especificação IEEE para números de ponto flutuante e é usado apenas para indicar valores de ponto flutuante em falta.

Para valores em falta que não sejam de ponto flutuante, o Pandas utiliza o objeto `None` do Python. Embora possa parecer confuso encontrar dois tipos diferentes de valores que essencialmente indicam a mesma coisa, existem razões programáticas válidas para esta escolha de design. Na prática, esta abordagem permite que o Pandas ofereça um bom compromisso para a grande maioria dos casos. Apesar disso, tanto `None` como `NaN` têm restrições que deve ter em mente no que diz respeito à forma como podem ser utilizados.


### `None`: dados ausentes não numéricos
Como `None` vem do Python, não pode ser utilizado em arrays do NumPy e pandas que não sejam do tipo de dados `'object'`. Lembre-se de que os arrays do NumPy (e as estruturas de dados no pandas) podem conter apenas um tipo de dado. É isso que lhes confere um enorme poder para trabalhar com grandes volumes de dados e cálculos, mas também limita a sua flexibilidade. Esses arrays precisam ser convertidos para o “menor denominador comum”, ou seja, o tipo de dado que abrange todos os elementos do array. Quando `None` está presente no array, significa que está a trabalhar com objetos do Python.

Para ver isto em ação, considere o seguinte exemplo de array (note o `dtype` associado):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

A realidade dos tipos de dados promovidos traz consigo dois efeitos secundários. Primeiro, as operações serão realizadas ao nível do código interpretado em Python, em vez do código compilado do NumPy. Essencialmente, isto significa que quaisquer operações envolvendo `Series` ou `DataFrames` com `None` serão mais lentas. Embora provavelmente não note este impacto na performance, em conjuntos de dados grandes pode tornar-se um problema.

O segundo efeito secundário decorre do primeiro. Como `None` essencialmente faz com que `Series` ou `DataFrames` regressem ao mundo do Python puro, utilizar agregações do NumPy/pandas como `sum()` ou `min()` em arrays que contêm um valor ``None`` geralmente produzirá um erro:


In [10]:
example1.sum()

TypeError: ignored

### `NaN`: valores de ponto flutuante em falta

Ao contrário de `None`, o NumPy (e, consequentemente, o pandas) suporta `NaN` para as suas operações rápidas, vetorizadas e ufuncs. A má notícia é que qualquer operação aritmética realizada com `NaN` resulta sempre em `NaN`. Por exemplo:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

A boa notícia: as agregações executadas em arrays com `NaN` não geram erros. A má notícia: os resultados não são uniformemente úteis:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### Exercício:


In [11]:
# What happens if you add np.nan and None together?


### `NaN` e `None`: valores nulos no pandas

Embora `NaN` e `None` possam comportar-se de forma ligeiramente diferente, o pandas foi concebido para lidar com ambos de forma intercambiável. Para perceber melhor, considere uma `Series` de números inteiros:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### Exercício:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


No processo de promoção de tipos de dados para estabelecer homogeneidade em `Series` e `DataFrame`s, o pandas troca de forma natural os valores em falta entre `None` e `NaN`. Devido a esta característica de design, pode ser útil pensar em `None` e `NaN` como duas variantes diferentes de "nulo" no pandas. De facto, alguns dos métodos principais que irá utilizar para lidar com valores em falta no pandas refletem esta ideia nos seus nomes:

- `isnull()`: Gera uma máscara booleana que indica os valores em falta
- `notnull()`: O oposto de `isnull()`
- `dropna()`: Retorna uma versão filtrada dos dados
- `fillna()`: Retorna uma cópia dos dados com os valores em falta preenchidos ou imputados

Estes são métodos importantes para dominar e com os quais deve sentir-se confortável, por isso vamos analisá-los com algum detalhe.


### Detetar valores nulos

Agora que compreendemos a importância dos valores em falta, precisamos de os identificar no nosso conjunto de dados antes de os tratar.  
Tanto `isnull()` como `notnull()` são os seus métodos principais para detetar dados nulos. Ambos retornam máscaras booleanas sobre os seus dados.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Olhe atentamente para o resultado. Alguma coisa nele surpreende você? Embora `0` seja um nulo aritmético, ainda assim é um número inteiro perfeitamente válido, e o pandas trata-o como tal. `''` é um pouco mais subtil. Embora o tenhamos usado na Secção 1 para representar um valor de string vazio, ainda assim é um objeto de string e não uma representação de nulo no que diz respeito ao pandas.

Agora, vamos inverter a abordagem e usar estes métodos de uma forma mais parecida com a que você os usará na prática. Pode usar máscaras Booleanas diretamente como um índice de ``Series`` ou ``DataFrame``, o que pode ser útil ao tentar trabalhar com valores ausentes (ou presentes) isolados.

Se quisermos o número total de valores ausentes, podemos simplesmente fazer uma soma sobre a máscara produzida pelo método `isnull()`.


In [19]:
example3.isnull().sum()

2

### Exercício:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Conclusão principal**: Tanto os métodos `isnull()` como `notnull()` produzem resultados semelhantes quando os utiliza em DataFrames: mostram os resultados e o índice desses resultados, o que o ajudará imensamente enquanto trabalha com os seus dados.


### Lidando com dados em falta

> **Objetivo de aprendizagem:** No final desta subseção, deverá saber como e quando substituir ou remover valores nulos de DataFrames.

Os modelos de Machine Learning não conseguem lidar diretamente com dados em falta. Por isso, antes de passar os dados para o modelo, é necessário tratar esses valores ausentes.

A forma como os dados em falta são tratados envolve escolhas subtis, podendo influenciar a sua análise final e os resultados no mundo real.

Existem principalmente duas maneiras de lidar com dados em falta:

1.   Remover a linha que contém o valor em falta
2.   Substituir o valor em falta por outro valor

Vamos discutir ambos os métodos e os seus prós e contras em detalhe.


### Eliminar valores nulos

A quantidade de dados que passamos para o nosso modelo tem um efeito direto no seu desempenho. Eliminar valores nulos significa que estamos a reduzir o número de pontos de dados e, consequentemente, o tamanho do conjunto de dados. Por isso, é recomendável eliminar linhas com valores nulos quando o conjunto de dados é bastante grande.

Outro caso pode ser que uma determinada linha ou coluna tenha muitos valores em falta. Nesse caso, podem ser eliminadas porque não acrescentariam muito valor à nossa análise, já que a maior parte dos dados está em falta nessa linha/coluna.

Para além de identificar valores em falta, pandas oferece uma forma prática de remover valores nulos de `Series` e `DataFrame`s. Para ver isto em ação, vamos voltar ao `example3`. A função `DataFrame.dropna()` ajuda a eliminar as linhas com valores nulos.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Note que isto deve parecer com o seu resultado de `example3[example3.notnull()]`. A diferença aqui é que, em vez de apenas indexar os valores mascarados, `dropna` removeu esses valores em falta da `Series` `example3`.

Como os DataFrames têm duas dimensões, oferecem mais opções para eliminar dados.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Reparaste que o pandas converteu duas das colunas para floats para acomodar os `NaN`s?)

Não podes eliminar um único valor de um `DataFrame`, por isso tens de eliminar linhas ou colunas inteiras. Dependendo do que estás a fazer, podes preferir uma ou outra opção, e o pandas oferece-te alternativas para ambas. Como na ciência de dados as colunas geralmente representam variáveis e as linhas representam observações, é mais provável que elimines linhas de dados; a configuração padrão de `dropna()` é eliminar todas as linhas que contenham quaisquer valores nulos:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Se necessário, pode remover valores NA das colunas. Use `axis=1` para o fazer:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Note que isto pode eliminar muitos dados que talvez queira manter, especialmente em conjuntos de dados mais pequenos. E se apenas quiser eliminar linhas ou colunas que contenham vários ou mesmo todos os valores nulos? Pode especificar essas configurações em `dropna` com os parâmetros `how` e `thresh`.

Por padrão, `how='any'` (se quiser verificar por si mesmo ou ver que outros parâmetros o método possui, execute `example4.dropna?` numa célula de código). Alternativamente, pode especificar `how='all'` para eliminar apenas linhas ou colunas que contenham todos os valores nulos. Vamos expandir o nosso exemplo de `DataFrame` para ver isto em ação no próximo exercício.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Principais pontos:  
1. Eliminar valores nulos é uma boa ideia apenas se o conjunto de dados for suficientemente grande.  
2. Linhas ou colunas inteiras podem ser eliminadas se a maior parte dos seus dados estiver em falta.  
3. O método `DataFrame.dropna(axis=)` ajuda a eliminar valores nulos. O argumento `axis` indica se devem ser eliminadas linhas ou colunas.  
4. O argumento `how` também pode ser utilizado. Por padrão, está definido como `any`. Assim, elimina apenas as linhas/colunas que contêm qualquer valor nulo. Pode ser definido como `all` para especificar que eliminaremos apenas as linhas/colunas onde todos os valores são nulos.  


### Exercício:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


O parâmetro `thresh` dá-lhe um controlo mais detalhado: define o número de valores *não nulos* que uma linha ou coluna precisa de ter para ser mantida:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


Aqui, a primeira e a última linha foram removidas, porque contêm apenas dois valores não nulos.


### Preenchimento de valores nulos

Por vezes, faz sentido preencher valores em falta com outros que possam ser válidos. Existem algumas técnicas para preencher valores nulos. A primeira é utilizar Conhecimento do Domínio (conhecimento sobre o tema no qual o conjunto de dados se baseia) para, de alguma forma, aproximar os valores em falta.

Pode utilizar `isnull` para fazer isso diretamente, mas isso pode ser trabalhoso, especialmente se tiver muitos valores para preencher. Como esta é uma tarefa tão comum em ciência de dados, o pandas oferece o método `fillna`, que devolve uma cópia da `Series` ou do `DataFrame` com os valores em falta substituídos por um valor à sua escolha. Vamos criar outra `Series` de exemplo para ver como isso funciona na prática.


### Dados Categóricos (Não numéricos)
Primeiro, vamos considerar dados não numéricos. Em conjuntos de dados, temos colunas com dados categóricos. Por exemplo, Género, Verdadeiro ou Falso, etc.

Na maioria destes casos, substituímos os valores em falta pelo `moda` da coluna. Por exemplo, temos 100 pontos de dados, 90 indicaram Verdadeiro, 8 indicaram Falso e 2 não preencheram. Então, podemos preencher os 2 com Verdadeiro, considerando a coluna inteira.

Novamente, aqui podemos usar conhecimento do domínio. Vamos considerar um exemplo de preenchimento com a moda.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Como podemos ver, o valor nulo foi substituído. Nem é preciso dizer que poderíamos ter escrito qualquer coisa em vez de `'True'` e teria sido substituído.


### Dados Numéricos
Agora, falando sobre dados numéricos. Aqui, temos duas formas comuns de substituir valores em falta:

1. Substituir pela mediana da linha
2. Substituir pela média da linha

Substituímos pela mediana no caso de dados enviesados com valores extremos. Isto porque a mediana é robusta a valores extremos.

Quando os dados estão normalizados, podemos usar a média, pois, nesse caso, a média e a mediana estarão bastante próximas.

Primeiro, vamos pegar uma coluna que segue uma distribuição normal e preencher o valor em falta com a média da coluna.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


A média da coluna é


In [33]:
np.mean(fill_with_mean[0])

0.0

In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Como podemos ver, o valor em falta foi substituído pela sua média.


Agora vamos experimentar outro dataframe, e desta vez iremos substituir os valores None pela mediana da coluna.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


A mediana da segunda coluna é


In [36]:
fill_with_median[1].median()

4.0

In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Como podemos ver, o valor NaN foi substituído pela mediana da coluna


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Pode preencher todas as entradas nulas com um único valor, como `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Principais pontos a reter:  
1. Preencher valores em falta deve ser feito quando há poucos dados ou quando existe uma estratégia para preencher os dados em falta.  
2. O conhecimento do domínio pode ser utilizado para preencher valores em falta, aproximando-os.  
3. Para dados categóricos, na maioria das vezes, os valores em falta são substituídos pela moda da coluna.  
4. Para dados numéricos, os valores em falta são geralmente preenchidos com a média (para conjuntos de dados normalizados) ou com a mediana das colunas.  


### Exercício:


In [40]:
# What happens if you try to fill null values with a string, like ''?


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Pode também **preencher para trás** para propagar o próximo valor válido para trás e preencher um nulo:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Como pode imaginar, isto funciona da mesma forma com DataFrames, mas também pode especificar um `axis` ao longo do qual preencher valores nulos:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Note que, quando um valor anterior não está disponível para preenchimento para a frente, o valor nulo permanece.


### Exercício:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Pode ser criativo na forma como utiliza `fillna`. Por exemplo, vejamos novamente o `example4`, mas desta vez vamos preencher os valores em falta com a média de todos os valores no `DataFrame`:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Note que a coluna 3 ainda está sem valores: a direção padrão é preencher os valores linha a linha.

> **Conclusão:** Existem várias formas de lidar com valores em falta nos seus conjuntos de dados. A estratégia específica que escolher (removê-los, substituí-los ou até mesmo como os substitui) deve ser orientada pelas particularidades desses dados. Desenvolverá uma melhor noção de como lidar com valores em falta à medida que trabalhar e interagir mais com conjuntos de dados.


### Codificação de Dados Categóricos

Os modelos de aprendizagem automática lidam apenas com números e qualquer tipo de dados numéricos. Eles não conseguem distinguir entre um Sim e um Não, mas conseguem diferenciar entre 0 e 1. Assim, depois de preencher os valores em falta, é necessário codificar os dados categóricos para uma forma numérica que o modelo consiga compreender.

A codificação pode ser feita de duas maneiras. Vamos discuti-las a seguir.


**CODIFICAÇÃO DE ETIQUETAS**

A codificação de etiquetas consiste basicamente em converter cada categoria num número. Por exemplo, imagine que temos um conjunto de dados de passageiros de uma companhia aérea e há uma coluna que contém a classe deles entre as seguintes ['business class', 'economy class', 'first class']. Se aplicarmos a codificação de etiquetas, isso seria transformado em [0,1,2]. Vamos ver um exemplo através de código. Como iremos aprender `scikit-learn` nos próximos cadernos, não o utilizaremos aqui.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Para realizar a codificação de etiquetas na 1ª coluna, temos primeiro de descrever um mapeamento de cada classe para um número, antes de substituir


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Como podemos ver, o resultado corresponde ao que esperávamos. Então, quando devemos usar a codificação de rótulos? A codificação de rótulos é utilizada em um ou ambos os seguintes casos:  
1. Quando o número de categorias é grande  
2. Quando as categorias estão ordenadas.  


**ONE HOT ENCODING**

Outro tipo de codificação é o One Hot Encoding. Neste tipo de codificação, cada categoria da coluna é adicionada como uma coluna separada, e cada ponto de dados recebe um 0 ou um 1, dependendo de conter ou não essa categoria. Assim, se houver n categorias diferentes, n colunas serão adicionadas ao dataframe.

Por exemplo, vejamos o mesmo exemplo da classe de avião. As categorias eram: ['business class', 'economy class', 'first class']. Portanto, se realizarmos o One Hot Encoding, as seguintes três colunas serão adicionadas ao conjunto de dados: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Vamos realizar one hot encoding na 1ª coluna


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Cada coluna codificada como one-hot contém 0 ou 1, o que especifica se essa categoria existe para esse ponto de dados.


Quando usamos one hot encoding? One hot encoding é utilizado em um ou ambos os seguintes casos:

1. Quando o número de categorias e o tamanho do conjunto de dados são menores.
2. Quando as categorias não seguem nenhuma ordem específica.


> Principais Conclusões:  
1. A codificação é utilizada para converter dados não numéricos em dados numéricos.  
2. Existem dois tipos de codificação: Codificação de Rótulos (Label encoding) e Codificação One Hot (One Hot encoding), ambas podem ser realizadas conforme as necessidades do conjunto de dados.  


## Remover dados duplicados

> **Objetivo de aprendizagem:** No final desta subseção, deverá sentir-se à vontade para identificar e remover valores duplicados de DataFrames.

Além de dados em falta, é comum encontrar dados duplicados em conjuntos de dados do mundo real. Felizmente, o pandas oferece uma forma simples de detetar e remover entradas duplicadas.


### Identificar duplicados: `duplicated`

Pode identificar facilmente valores duplicados utilizando o método `duplicated` no pandas, que devolve uma máscara Booleana indicando se uma entrada num `DataFrame` é um duplicado de uma anterior. Vamos criar outro exemplo de `DataFrame` para ver isto em ação.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Remoção de duplicados: `drop_duplicates`
`drop_duplicates` simplesmente devolve uma cópia dos dados em que todos os valores `duplicated` são `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Tanto `duplicated` como `drop_duplicates` consideram por defeito todas as colunas, mas pode especificar que analisem apenas um subconjunto de colunas no seu `DataFrame`:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2



---

**Aviso Legal**:  
Este documento foi traduzido utilizando o serviço de tradução por IA [Co-op Translator](https://github.com/Azure/co-op-translator). Embora nos esforcemos para garantir a precisão, esteja ciente de que traduções automáticas podem conter erros ou imprecisões. O documento original no seu idioma nativo deve ser considerado a fonte oficial. Para informações críticas, recomenda-se uma tradução profissional realizada por humanos. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações incorretas resultantes do uso desta tradução.
