# Preparação de Dados

[Notebook original de *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio by Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## Explorando informações do `DataFrame`

> **Objetivo de aprendizado:** Ao final desta subseção, você deve se sentir confortável em encontrar informações gerais sobre os dados armazenados em DataFrames do pandas.

Depois de carregar seus dados no pandas, é muito provável que eles estejam em um `DataFrame`. No entanto, se o conjunto de dados no seu `DataFrame` tiver 60.000 linhas e 400 colunas, como você começa a ter uma noção do que está lidando? Felizmente, o pandas oferece algumas ferramentas convenientes para rapidamente obter informações gerais sobre um `DataFrame`, além de visualizar as primeiras e últimas linhas.

Para explorar essa funcionalidade, vamos importar a biblioteca scikit-learn do Python e usar um conjunto de dados icônico que todo cientista de dados já viu centenas de vezes: o conjunto de dados *Iris* do biólogo britânico Ronald Fisher, usado em seu artigo de 1936 "The use of multiple measurements in taxonomic problems":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Carregamos o Conjunto de Dados Iris na variável `iris_df`. Antes de explorar os dados, seria interessante saber o número de pontos de dados que temos e o tamanho geral do conjunto de dados. É útil observar o volume de dados com o qual estamos lidando.


In [2]:
iris_df.shape

(150, 4)

Portanto, estamos lidando com 150 linhas e 4 colunas de dados. Cada linha representa um ponto de dados e cada coluna representa uma única característica associada ao dataframe. Basicamente, existem 150 pontos de dados contendo 4 características cada.

`shape` aqui é um atributo do dataframe e não uma função, por isso não termina com um par de parênteses.


### `DataFrame.columns`
Agora vamos explorar as 4 colunas de dados. O que exatamente cada uma delas representa? O atributo `columns` nos fornecerá os nomes das colunas no dataframe.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Como podemos ver, há quatro (4) colunas. O atributo `columns` nos informa o nome das colunas e basicamente nada mais. Este atributo assume importância quando queremos identificar as características que um conjunto de dados contém.


### `DataFrame.info`
A quantidade de dados (fornecida pelo atributo `shape`) e o nome das características ou colunas (fornecido pelo atributo `columns`) nos dizem algo sobre o conjunto de dados. Agora, queremos explorar o conjunto de dados mais a fundo. A função `DataFrame.info()` é bastante útil para isso.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


A partir daqui, podemos fazer algumas observações:  
1. O tipo de dado de cada coluna: Neste conjunto de dados, todas as informações estão armazenadas como números de ponto flutuante de 64 bits.  
2. Número de valores não nulos: Lidar com valores nulos é uma etapa importante na preparação de dados. Isso será tratado mais adiante no notebook.  


### DataFrame.describe()
Digamos que temos muitos dados numéricos em nosso conjunto de dados. Cálculos estatísticos univariados, como média, mediana, quartis, etc., podem ser realizados individualmente em cada uma das colunas. A função `DataFrame.describe()` nos fornece um resumo estatístico das colunas numéricas de um conjunto de dados.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


O resultado acima mostra o número total de pontos de dados, média, desvio padrão, mínimo, quartil inferior (25%), mediana (50%), quartil superior (75%) e o valor máximo de cada coluna.


### `DataFrame.head`
Com todas as funções e atributos mencionados acima, obtivemos uma visão geral do conjunto de dados. Sabemos quantos pontos de dados existem, quantas características estão presentes, o tipo de dado de cada característica e o número de valores não nulos para cada uma delas.

Agora é hora de olhar para os dados em si. Vamos ver como são as primeiras linhas (os primeiros pontos de dados) do nosso `DataFrame`:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Como resultado aqui, podemos ver cinco (5) entradas do conjunto de dados. Se olharmos para o índice à esquerda, descobrimos que estas são as primeiras cinco linhas.


### Exercício:

Pelo exemplo dado acima, fica claro que, por padrão, `DataFrame.head` retorna as primeiras cinco linhas de um `DataFrame`. Na célula de código abaixo, você consegue descobrir uma maneira de exibir mais de cinco linhas?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
Outra maneira de visualizar os dados pode ser a partir do final (em vez do início). O oposto de `DataFrame.head` é `DataFrame.tail`, que retorna as últimas cinco linhas de um `DataFrame`:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


Na prática, é útil poder examinar facilmente as primeiras ou as últimas linhas de um `DataFrame`, especialmente quando você está procurando por valores atípicos em conjuntos de dados ordenados.

Todas as funções e atributos mostrados acima com a ajuda de exemplos de código nos ajudam a ter uma visão geral e uma sensação dos dados.

> **Conclusão:** Apenas ao observar os metadados sobre as informações em um DataFrame ou os primeiros e últimos valores em um, você pode obter uma ideia imediata sobre o tamanho, a forma e o conteúdo dos dados com os quais está lidando.


### Dados Ausentes
Vamos explorar os dados ausentes. Dados ausentes ocorrem quando nenhum valor é armazenado em algumas das colunas.

Vamos usar um exemplo: imagine que alguém está preocupado com seu peso e não preenche o campo de peso em uma pesquisa. Nesse caso, o valor do peso para essa pessoa estará ausente.

Na maioria das vezes, em conjuntos de dados do mundo real, valores ausentes são comuns.

**Como o Pandas lida com dados ausentes**

O Pandas lida com valores ausentes de duas maneiras. A primeira, que você já viu em seções anteriores, é o `NaN`, ou Not a Number. Este é, na verdade, um valor especial que faz parte da especificação de ponto flutuante IEEE e é usado apenas para indicar valores ausentes de ponto flutuante.

Para valores ausentes que não sejam de ponto flutuante, o Pandas utiliza o objeto `None` do Python. Embora possa parecer confuso encontrar dois tipos diferentes de valores que essencialmente indicam a mesma coisa, há razões programáticas sólidas para essa escolha de design e, na prática, essa abordagem permite que o Pandas ofereça um bom equilíbrio para a grande maioria dos casos. Apesar disso, tanto `None` quanto `NaN` possuem restrições que você precisa ter em mente em relação à forma como podem ser utilizados.


### `None`: dados ausentes não numéricos
Como `None` vem do Python, ele não pode ser usado em arrays do NumPy e pandas que não sejam do tipo de dado `'object'`. Lembre-se, arrays do NumPy (e as estruturas de dados no pandas) podem conter apenas um tipo de dado. Isso é o que lhes dá um enorme poder para trabalho com dados e computação em larga escala, mas também limita sua flexibilidade. Esses arrays precisam ser convertidos para o "menor denominador comum", ou seja, o tipo de dado que abrange tudo no array. Quando `None` está no array, significa que você está lidando com objetos do Python.

Para ver isso em ação, considere o seguinte exemplo de array (observe o `dtype` dele):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

A realidade dos tipos de dados promovidos traz consigo dois efeitos colaterais. Primeiro, as operações serão realizadas no nível do código interpretado do Python, em vez do código compilado do NumPy. Essencialmente, isso significa que quaisquer operações envolvendo `Series` ou `DataFrames` com `None` serão mais lentas. Embora você provavelmente não perceba essa queda de desempenho, para conjuntos de dados grandes isso pode se tornar um problema.

O segundo efeito colateral decorre do primeiro. Como `None` essencialmente faz com que `Series` ou `DataFrames` retornem ao mundo do Python puro, usar agregações do NumPy/pandas como `sum()` ou `min()` em arrays que contêm um valor ``None`` geralmente resultará em um erro:


In [10]:
example1.sum()

TypeError: ignored

### `NaN`: valores float ausentes

Ao contrário de `None`, o NumPy (e, consequentemente, o pandas) suporta `NaN` para suas operações rápidas, vetorizadas e ufuncs. A má notícia é que qualquer operação aritmética realizada com `NaN` sempre resulta em `NaN`. Por exemplo:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

A boa notícia: agregações executadas em arrays com `NaN` não geram erros. A má notícia: os resultados não são uniformemente úteis:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

In [11]:
# What happens if you add np.nan and None together?


### `NaN` e `None`: valores nulos no pandas

Embora `NaN` e `None` possam se comportar de maneira um pouco diferente, o pandas foi projetado para lidar com eles de forma intercambiável. Para entender o que isso significa, considere uma `Series` de inteiros:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


No processo de conversão de tipos de dados para estabelecer homogeneidade em `Series` e `DataFrame`s, o pandas irá, sem problemas, alternar valores ausentes entre `None` e `NaN`. Por causa dessa característica de design, pode ser útil pensar em `None` e `NaN` como dois tipos diferentes de "nulo" no pandas. De fato, alguns dos métodos principais que você usará para lidar com valores ausentes no pandas refletem essa ideia em seus nomes:

- `isnull()`: Gera uma máscara booleana indicando valores ausentes
- `notnull()`: O oposto de `isnull()`
- `dropna()`: Retorna uma versão filtrada dos dados
- `fillna()`: Retorna uma cópia dos dados com valores ausentes preenchidos ou imputados

Esses são métodos importantes para dominar e se familiarizar, então vamos analisá-los com mais profundidade.


### Detectando valores nulos

Agora que entendemos a importância dos valores ausentes, precisamos detectá-los em nosso conjunto de dados antes de lidar com eles.  
Tanto `isnull()` quanto `notnull()` são seus métodos principais para detectar dados nulos. Ambos retornam máscaras booleanas sobre seus dados.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Observe atentamente o resultado. Alguma coisa te surpreende? Embora `0` seja um nulo aritmético, ele ainda é um número inteiro perfeitamente válido, e o pandas o trata dessa forma. `''` é um pouco mais sutil. Embora o tenhamos usado na Seção 1 para representar um valor de string vazio, ele ainda é um objeto de string e não uma representação de nulo no que diz respeito ao pandas.

Agora, vamos inverter isso e usar esses métodos de uma forma mais parecida com a prática. Você pode usar máscaras Booleanas diretamente como um índice de ``Series`` ou ``DataFrame``, o que pode ser útil ao tentar trabalhar com valores ausentes (ou presentes) isolados.

Se quisermos o número total de valores ausentes, podemos simplesmente fazer uma soma sobre a máscara produzida pelo método `isnull()`.


In [19]:
example3.isnull().sum()

2

In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Conclusão principal**: Tanto os métodos `isnull()` quanto `notnull()` produzem resultados semelhantes quando usados em DataFrames: eles mostram os resultados e o índice desses resultados, o que será de grande ajuda enquanto você lida com seus dados.


### Lidando com dados ausentes

> **Objetivo de aprendizado:** Ao final desta subseção, você deverá saber como e quando substituir ou remover valores nulos de DataFrames.

Modelos de Machine Learning não conseguem lidar com dados ausentes por conta própria. Portanto, antes de passar os dados para o modelo, precisamos tratar esses valores ausentes.

A forma como os dados ausentes são tratados envolve sutis compensações, podendo impactar sua análise final e os resultados no mundo real.

Existem basicamente duas maneiras de lidar com dados ausentes:

1.   Remover a linha que contém o valor ausente  
2.   Substituir o valor ausente por algum outro valor  

Discutiremos ambos os métodos e seus prós e contras em detalhes.


### Eliminando valores nulos

A quantidade de dados que passamos para o nosso modelo tem um efeito direto em seu desempenho. Eliminar valores nulos significa que estamos reduzindo o número de pontos de dados e, consequentemente, o tamanho do conjunto de dados. Portanto, é recomendável eliminar linhas com valores nulos quando o conjunto de dados for bastante grande.

Outro caso pode ser quando uma determinada linha ou coluna possui muitos valores ausentes. Nesse caso, elas podem ser eliminadas porque não adicionariam muito valor à nossa análise, já que a maior parte dos dados está ausente para essa linha/coluna.

Além de identificar valores ausentes, pandas oferece um meio prático para remover valores nulos de `Series` e `DataFrame`s. Para ver isso em ação, vamos voltar ao `example3`. A função `DataFrame.dropna()` ajuda a eliminar as linhas com valores nulos.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Note que isso deve se parecer com o resultado de `example3[example3.notnull()]`. A diferença aqui é que, em vez de apenas indexar os valores mascarados, `dropna` removeu esses valores ausentes da `Series` `example3`.

Como os DataFrames possuem duas dimensões, eles oferecem mais opções para remover dados.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Você percebeu que o pandas converteu duas das colunas para floats para acomodar os `NaN`s?)

Você não pode remover um único valor de um `DataFrame`, então é necessário remover linhas ou colunas inteiras. Dependendo do que você está fazendo, pode ser mais adequado optar por uma ou outra opção, e o pandas oferece alternativas para ambas. Como na ciência de dados as colunas geralmente representam variáveis e as linhas representam observações, é mais comum remover linhas de dados; a configuração padrão para `dropna()` é remover todas as linhas que contêm qualquer valor nulo:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Se necessário, você pode remover valores NA das colunas. Use `axis=1` para fazer isso:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Observe que isso pode descartar muitos dados que você pode querer manter, especialmente em conjuntos de dados menores. E se você quiser apenas remover linhas ou colunas que contenham vários ou até mesmo todos os valores nulos? Você pode especificar essas configurações em `dropna` com os parâmetros `how` e `thresh`.

Por padrão, `how='any'` (se você quiser verificar por conta própria ou ver quais outros parâmetros o método possui, execute `example4.dropna?` em uma célula de código). Alternativamente, você pode especificar `how='all'` para remover apenas linhas ou colunas que contenham todos os valores nulos. Vamos expandir nosso exemplo de `DataFrame` para ver isso em ação no próximo exercício.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Principais pontos:  
1. Remover valores nulos é uma boa ideia apenas se o conjunto de dados for grande o suficiente.  
2. Linhas ou colunas inteiras podem ser removidas se a maior parte de seus dados estiver ausente.  
3. O método `DataFrame.dropna(axis=)` ajuda a remover valores nulos. O argumento `axis` indica se as linhas ou colunas devem ser removidas.  
4. O argumento `how` também pode ser utilizado. Por padrão, ele é definido como `any`. Assim, ele remove apenas as linhas/colunas que contêm qualquer valor nulo. Pode ser configurado como `all` para especificar que removeremos apenas as linhas/colunas onde todos os valores são nulos.  


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


O parâmetro `thresh` oferece um controle mais detalhado: você define o número de valores *não nulos* que uma linha ou coluna precisa ter para ser mantida:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


Aqui, a primeira e a última linha foram removidas, porque contêm apenas dois valores não nulos.


### Preenchendo valores nulos

Às vezes, faz sentido preencher valores ausentes com aqueles que poderiam ser válidos. Existem algumas técnicas para preencher valores nulos. A primeira é usar o Conhecimento de Domínio (conhecimento sobre o assunto no qual o conjunto de dados se baseia) para, de alguma forma, aproximar os valores ausentes.

Você poderia usar `isnull` para fazer isso diretamente, mas isso pode ser trabalhoso, especialmente se você tiver muitos valores para preencher. Como essa é uma tarefa tão comum em ciência de dados, pandas fornece `fillna`, que retorna uma cópia do `Series` ou `DataFrame` com os valores ausentes substituídos por um de sua escolha. Vamos criar outro exemplo de `Series` para ver como isso funciona na prática.


### Dados Categóricos (Não Numéricos)
Primeiro, vamos considerar dados não numéricos. Em conjuntos de dados, temos colunas com dados categóricos. Por exemplo, Gênero, Verdadeiro ou Falso, etc.

Na maioria desses casos, substituímos os valores ausentes pelo `moda` da coluna. Suponha que temos 100 pontos de dados, 90 disseram Verdadeiro, 8 disseram Falso e 2 não preencheram. Então, podemos preencher os 2 com Verdadeiro, considerando a coluna inteira.

Novamente, aqui podemos usar conhecimento de domínio. Vamos considerar um exemplo de preenchimento com a moda.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Como podemos ver, o valor nulo foi substituído. Nem é preciso dizer que poderíamos ter escrito qualquer coisa no lugar de `'True'` e ela teria sido substituída.


### Dados Numéricos
Agora, falando sobre dados numéricos. Aqui, temos duas maneiras comuns de substituir valores ausentes:

1. Substituir pela mediana da linha
2. Substituir pela média da linha

Substituímos pela mediana no caso de dados distorcidos com outliers. Isso ocorre porque a mediana é robusta contra outliers.

Quando os dados estão normalizados, podemos usar a média, já que, nesse caso, a média e a mediana seriam bastante próximas.

Primeiro, vamos pegar uma coluna que segue uma distribuição normal e preencher o valor ausente com a média da coluna.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


A média da coluna é


In [33]:
np.mean(fill_with_mean[0])

0.0

In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Como podemos ver, o valor ausente foi substituído pela sua média.


Agora, vamos tentar outro dataframe, e desta vez substituiremos os valores None pela mediana da coluna.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


A mediana da segunda coluna é


In [36]:
fill_with_median[1].median()

4.0

In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Como podemos ver, o valor NaN foi substituído pela mediana da coluna


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Você pode preencher todas as entradas nulas com um único valor, como `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Principais pontos:
1. Preencher valores ausentes deve ser feito quando há poucos dados ou quando existe uma estratégia para preencher os dados faltantes.
2. O conhecimento do domínio pode ser usado para preencher valores ausentes por meio de aproximações.
3. Para dados categóricos, geralmente, os valores ausentes são substituídos pela moda da coluna.
4. Para dados numéricos, os valores ausentes são normalmente preenchidos com a média (para conjuntos de dados normalizados) ou a mediana das colunas.


In [40]:
# What happens if you try to fill null values with a string, like ''?


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Você também pode **preencher para trás** para propagar o próximo valor válido para trás e preencher um nulo:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Como você pode imaginar, isso funciona da mesma forma com DataFrames, mas você também pode especificar um `axis` ao longo do qual preencher valores nulos:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Observe que, quando um valor anterior não está disponível para preenchimento, o valor nulo permanece.


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Você pode ser criativo sobre como usar `fillna`. Por exemplo, vamos olhar para o `example4` novamente, mas desta vez vamos preencher os valores ausentes com a média de todos os valores no `DataFrame`:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Observe que a coluna 3 ainda está sem valor: a direção padrão é preencher os valores linha por linha.

> **Conclusão:** Existem várias maneiras de lidar com valores ausentes em seus conjuntos de dados. A estratégia específica que você utiliza (removê-los, substituí-los ou até mesmo como substituí-los) deve ser ditada pelas particularidades desses dados. Você desenvolverá uma melhor noção de como lidar com valores ausentes à medida que manipular e interagir mais com conjuntos de dados.


### Codificação de Dados Categóricos

Modelos de aprendizado de máquina lidam apenas com números e qualquer tipo de dado numérico. Eles não conseguem diferenciar entre um "Sim" e um "Não", mas conseguem distinguir entre 0 e 1. Portanto, após preencher os valores ausentes, precisamos codificar os dados categóricos em alguma forma numérica para que o modelo possa entendê-los.

A codificação pode ser feita de duas maneiras. Vamos discutir essas formas a seguir.


**CODIFICAÇÃO DE RÓTULOS**

A codificação de rótulos basicamente consiste em converter cada categoria em um número. Por exemplo, suponha que temos um conjunto de dados de passageiros de uma companhia aérea e há uma coluna contendo suas classes entre as seguintes ['classe executiva', 'classe econômica', 'primeira classe']. Se a codificação de rótulos for aplicada, isso seria transformado em [0,1,2]. Vamos ver um exemplo por meio de código. Como aprenderemos `scikit-learn` nos próximos notebooks, não o utilizaremos aqui.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Para realizar a codificação de rótulos na 1ª coluna, primeiro precisamos descrever um mapeamento de cada classe para um número, antes de substituir


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Como podemos ver, o resultado corresponde ao que esperávamos. Então, quando usamos a codificação de rótulos? A codificação de rótulos é usada em um ou ambos os seguintes casos:  
1. Quando o número de categorias é grande  
2. Quando as categorias estão em ordem.  


**ONE HOT ENCODING**

Outro tipo de codificação é o One Hot Encoding. Nesse tipo de codificação, cada categoria da coluna é adicionada como uma coluna separada, e cada ponto de dado recebe um 0 ou 1, dependendo se contém ou não aquela categoria. Assim, se houver n categorias diferentes, n colunas serão adicionadas ao dataframe.

Por exemplo, vamos usar o mesmo exemplo da classe de avião. As categorias eram: ['business class', 'economy class', 'first class']. Então, se realizarmos o One Hot Encoding, as seguintes três colunas serão adicionadas ao conjunto de dados: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Vamos realizar a codificação one hot na primeira coluna


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Cada coluna codificada em one-hot contém 0 ou 1, o que especifica se aquela categoria existe para aquele ponto de dados.


Quando usamos one hot encoding? One hot encoding é utilizado em um ou ambos os seguintes casos:

1. Quando o número de categorias e o tamanho do conjunto de dados são menores.
2. Quando as categorias não seguem nenhuma ordem específica.


> Principais pontos:
1. A codificação é feita para converter dados não numéricos em dados numéricos.
2. Existem dois tipos de codificação: Codificação de Rótulos e Codificação One Hot, ambas podem ser realizadas conforme as necessidades do conjunto de dados.


## Removendo dados duplicados

> **Objetivo de aprendizado:** Ao final desta subseção, você deverá se sentir à vontade para identificar e remover valores duplicados de DataFrames.

Além de dados ausentes, você frequentemente encontrará dados duplicados em conjuntos de dados do mundo real. Felizmente, o pandas oferece um meio fácil de detectar e remover entradas duplicadas.


### Identificando duplicatas: `duplicated`

Você pode identificar valores duplicados facilmente usando o método `duplicated` do pandas, que retorna uma máscara booleana indicando se uma entrada em um `DataFrame` é uma duplicata de uma anterior. Vamos criar outro exemplo de `DataFrame` para ver isso em ação.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Removendo duplicados: `drop_duplicates`
`drop_duplicates` simplesmente retorna uma cópia dos dados em que todos os valores `duplicated` são `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Tanto `duplicated` quanto `drop_duplicates` consideram todas as colunas por padrão, mas você pode especificar que eles examinem apenas um subconjunto de colunas no seu `DataFrame`:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2



---

**Aviso Legal**:  
Este documento foi traduzido utilizando o serviço de tradução por IA [Co-op Translator](https://github.com/Azure/co-op-translator). Embora nos esforcemos para garantir a precisão, esteja ciente de que traduções automáticas podem conter erros ou imprecisões. O documento original em seu idioma nativo deve ser considerado a fonte oficial. Para informações críticas, recomenda-se a tradução profissional feita por humanos. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações equivocadas decorrentes do uso desta tradução.
