# Preparación de Datos

[Fuente original del Notebook de *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio por Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## Explorando información de `DataFrame`

> **Objetivo de aprendizaje:** Al final de esta subsección, deberías sentirte cómodo encontrando información general sobre los datos almacenados en pandas DataFrames.

Una vez que hayas cargado tus datos en pandas, lo más probable es que estén en un `DataFrame`. Sin embargo, si el conjunto de datos en tu `DataFrame` tiene 60,000 filas y 400 columnas, ¿cómo puedes empezar a entender con qué estás trabajando? Afortunadamente, pandas proporciona herramientas convenientes para observar rápidamente información general sobre un `DataFrame`, además de las primeras y últimas filas.

Para explorar esta funcionalidad, importaremos la biblioteca Python scikit-learn y utilizaremos un conjunto de datos icónico que todo científico de datos ha visto cientos de veces: el conjunto de datos *Iris* del biólogo británico Ronald Fisher, utilizado en su artículo de 1936 "El uso de mediciones múltiples en problemas taxonómicos":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Hemos cargado el conjunto de datos Iris en la variable `iris_df`. Antes de profundizar en los datos, sería valioso conocer la cantidad de puntos de datos que tenemos y el tamaño general del conjunto de datos. Es útil observar el volumen de datos con el que estamos trabajando.


In [2]:
iris_df.shape

(150, 4)

Entonces, estamos trabajando con 150 filas y 4 columnas de datos. Cada fila representa un punto de datos y cada columna representa una característica asociada al marco de datos. Básicamente, hay 150 puntos de datos que contienen 4 características cada uno.

`shape` aquí es un atributo del marco de datos y no una función, por lo que no termina con un par de paréntesis.


### `DataFrame.columns`
Pasemos ahora a las 4 columnas de datos. ¿Qué representa exactamente cada una de ellas? El atributo `columns` nos dará el nombre de las columnas en el dataframe.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Como podemos ver, hay cuatro (4) columnas. El atributo `columns` nos indica el nombre de las columnas y básicamente nada más. Este atributo adquiere importancia cuando queremos identificar las características que contiene un conjunto de datos.


### `DataFrame.info`
La cantidad de datos (dada por el atributo `shape`) y el nombre de las características o columnas (dado por el atributo `columns`) nos dicen algo sobre el conjunto de datos. Ahora, querríamos profundizar más en el conjunto de datos. La función `DataFrame.info()` es bastante útil para esto.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


A partir de aquí, podemos hacer algunas observaciones:  
1. El tipo de dato de cada columna: En este conjunto de datos, toda la información está almacenada como números de punto flotante de 64 bits.  
2. Número de valores no nulos: Manejar valores nulos es un paso importante en la preparación de datos. Esto se abordará más adelante en el cuaderno.  


### DataFrame.describe()
Supongamos que tenemos muchos datos numéricos en nuestro conjunto de datos. Los cálculos estadísticos univariados, como la media, la mediana, los cuartiles, etc., se pueden realizar en cada una de las columnas de forma individual. La función `DataFrame.describe()` nos proporciona un resumen estadístico de las columnas numéricas de un conjunto de datos.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


El resultado anterior muestra el número total de puntos de datos, la media, la desviación estándar, el mínimo, el cuartil inferior (25%), la mediana (50%), el cuartil superior (75%) y el valor máximo de cada columna.


### `DataFrame.head`
Con todas las funciones y atributos mencionados anteriormente, hemos obtenido una visión general del conjunto de datos. Sabemos cuántos puntos de datos hay, cuántas características existen, el tipo de dato de cada característica y el número de valores no nulos para cada una.

Ahora es momento de observar los datos en sí. Veamos cómo lucen las primeras filas (los primeros puntos de datos) de nuestro `DataFrame`:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Como resultado aquí, podemos ver cinco (5) entradas del conjunto de datos. Si miramos el índice a la izquierda, descubrimos que estas son las primeras cinco filas.


### Ejercicio:

A partir del ejemplo dado anteriormente, queda claro que, por defecto, `DataFrame.head` devuelve las primeras cinco filas de un `DataFrame`. En la celda de código a continuación, ¿puedes encontrar una forma de mostrar más de cinco filas?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
Otra forma de observar los datos puede ser desde el final (en lugar del principio). La contraparte de `DataFrame.head` es `DataFrame.tail`, que devuelve las últimas cinco filas de un `DataFrame`:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


En la práctica, es útil poder examinar fácilmente las primeras filas o las últimas filas de un `DataFrame`, especialmente cuando estás buscando valores atípicos en conjuntos de datos ordenados.

Todas las funciones y atributos mostrados anteriormente con la ayuda de ejemplos de código nos ayudan a obtener una visión general y una sensación del conjunto de datos.

> **Conclusión:** Incluso solo mirando los metadatos sobre la información en un DataFrame o los primeros y últimos valores en uno, puedes obtener una idea inmediata sobre el tamaño, la forma y el contenido de los datos con los que estás trabajando.


### Datos Faltantes
Vamos a profundizar en los datos faltantes. Los datos faltantes ocurren cuando no se almacena un valor en algunas de las columnas.

Tomemos un ejemplo: supongamos que alguien está consciente de su peso y no completa el campo de peso en una encuesta. Entonces, el valor del peso para esa persona estará ausente.

La mayoría de las veces, en conjuntos de datos del mundo real, ocurren valores faltantes.

**Cómo Pandas maneja los datos faltantes**

Pandas maneja los valores faltantes de dos maneras. La primera, que ya has visto en secciones anteriores, es `NaN`, o Not a Number (No es un número). Este es en realidad un valor especial que forma parte de la especificación de punto flotante IEEE y se utiliza únicamente para indicar valores de punto flotante faltantes.

Para los valores faltantes que no son de tipo flotante, pandas utiliza el objeto `None` de Python. Aunque pueda parecer confuso encontrarse con dos tipos diferentes de valores que esencialmente indican lo mismo, hay razones programáticas sólidas para esta elección de diseño y, en la práctica, seguir este enfoque permite a pandas ofrecer un buen compromiso en la gran mayoría de los casos. No obstante, tanto `None` como `NaN` tienen restricciones que debes tener en cuenta en relación con cómo pueden ser utilizados.


### `None`: datos faltantes no flotantes
Debido a que `None` proviene de Python, no puede ser utilizado en arrays de NumPy y pandas que no tengan el tipo de dato `'object'`. Recuerda, los arrays de NumPy (y las estructuras de datos en pandas) solo pueden contener un tipo de dato. Esto es lo que les da su enorme poder para trabajar con datos y cálculos a gran escala, pero también limita su flexibilidad. Dichos arrays tienen que convertir los datos al "denominador común más bajo", es decir, al tipo de dato que abarque todo en el array. Cuando `None` está en el array, significa que estás trabajando con objetos de Python.

Para ver esto en acción, considera el siguiente ejemplo de array (nota el `dtype` que tiene):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

La realidad de los tipos de datos promovidos conlleva dos efectos secundarios. Primero, las operaciones se realizarán a nivel de código interpretado de Python en lugar de código compilado de NumPy. Básicamente, esto significa que cualquier operación que involucre `Series` o `DataFrames` con `None` será más lenta. Aunque probablemente no notarías esta disminución de rendimiento, en conjuntos de datos grandes podría convertirse en un problema.

El segundo efecto secundario deriva del primero. Debido a que `None` esencialmente arrastra a las `Series` o `DataFrames` de vuelta al mundo de Python estándar, usar agregaciones de NumPy/pandas como `sum()` o `min()` en arreglos que contienen un valor ``None`` generalmente producirá un error:


In [10]:
example1.sum()

TypeError: ignored

### `NaN`: valores flotantes faltantes

A diferencia de `None`, NumPy (y por ende pandas) admite `NaN` para sus operaciones rápidas, vectorizadas y ufuncs. La mala noticia es que cualquier operación aritmética realizada con `NaN` siempre da como resultado `NaN`. Por ejemplo:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

La buena noticia: las agregaciones que se ejecutan en arreglos con `NaN` no generan errores. La mala noticia: los resultados no son uniformemente útiles:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### Ejercicio:


In [11]:
# What happens if you add np.nan and None together?


### `NaN` y `None`: valores nulos en pandas

Aunque `NaN` y `None` pueden comportarse de manera algo diferente, pandas está diseñado para manejarlos de forma intercambiable. Para entenderlo mejor, considera una `Series` de enteros:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### Ejercicio:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


En el proceso de convertir tipos de datos para establecer homogeneidad en los `Series` y `DataFrame`s, pandas cambiará sin problemas los valores faltantes entre `None` y `NaN`. Debido a esta característica de diseño, puede ser útil pensar en `None` y `NaN` como dos variantes diferentes de "nulo" en pandas. De hecho, algunos de los métodos principales que usarás para manejar valores faltantes en pandas reflejan esta idea en sus nombres:

- `isnull()`: Genera una máscara booleana que indica valores faltantes
- `notnull()`: Opuesto a `isnull()`
- `dropna()`: Devuelve una versión filtrada de los datos
- `fillna()`: Devuelve una copia de los datos con los valores faltantes rellenados o imputados

Estos son métodos importantes que debes dominar y con los que debes familiarizarte, así que repasémoslos en detalle.


### Detectar valores nulos

Ahora que hemos entendido la importancia de los valores faltantes, necesitamos detectarlos en nuestro conjunto de datos antes de manejarlos.  
Tanto `isnull()` como `notnull()` son tus métodos principales para detectar datos nulos. Ambos devuelven máscaras booleanas sobre tus datos.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Mira detenidamente el contenido. ¿Hay algo que te sorprenda? Aunque `0` es un nulo aritmético, sigue siendo un número entero perfectamente válido, y pandas lo trata como tal. `''` es un poco más sutil. Aunque lo usamos en la Sección 1 para representar un valor de cadena vacío, sigue siendo un objeto de cadena y no una representación de nulo según pandas.

Ahora, vamos a darle la vuelta y usar estos métodos de una manera más parecida a cómo los usarás en la práctica. Puedes usar máscaras booleanas directamente como un índice de ``Series`` o ``DataFrame``, lo cual puede ser útil cuando intentas trabajar con valores faltantes (o presentes) de forma aislada.

Si queremos el número total de valores faltantes, simplemente podemos hacer una suma sobre la máscara producida por el método `isnull()`.


In [19]:
example3.isnull().sum()

2

### Ejercicio:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Conclusión clave**: Tanto los métodos `isnull()` como `notnull()` producen resultados similares cuando los utilizas en DataFrames: muestran los resultados y el índice de esos resultados, lo cual te ayudará enormemente mientras trabajas con tus datos.


### Cómo manejar datos faltantes

> **Objetivo de aprendizaje:** Al final de esta subsección, deberías saber cómo y cuándo reemplazar o eliminar valores nulos de los DataFrames.

Los modelos de Machine Learning no pueden manejar datos faltantes por sí mismos. Por lo tanto, antes de pasar los datos al modelo, necesitamos tratar estos valores faltantes.

La forma en que se manejan los datos faltantes implica sutiles compensaciones, puede afectar tu análisis final y los resultados en el mundo real.

Existen principalmente dos maneras de tratar los datos faltantes:

1.   Eliminar la fila que contiene el valor faltante
2.   Reemplazar el valor faltante con algún otro valor

Discutiremos ambos métodos y sus ventajas y desventajas en detalle.


### Eliminando valores nulos

La cantidad de datos que pasamos a nuestro modelo tiene un efecto directo en su rendimiento. Eliminar valores nulos significa que estamos reduciendo el número de puntos de datos y, por lo tanto, el tamaño del conjunto de datos. Por eso, es recomendable eliminar filas con valores nulos cuando el conjunto de datos es bastante grande.

Otro caso podría ser que una fila o columna específica tenga muchos valores faltantes. En ese caso, podrían eliminarse porque no aportarían mucho valor a nuestro análisis, ya que la mayor parte de los datos están ausentes para esa fila/columna.

Más allá de identificar valores faltantes, pandas ofrece una forma conveniente de eliminar valores nulos de `Series` y `DataFrame`s. Para ver esto en acción, volvamos a `example3`. La función `DataFrame.dropna()` ayuda a eliminar las filas con valores nulos.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Ten en cuenta que esto debería verse como tu salida de `example3[example3.notnull()]`. La diferencia aquí es que, en lugar de simplemente indexar los valores enmascarados, `dropna` ha eliminado esos valores faltantes del `Series` `example3`.

Debido a que los DataFrames tienen dos dimensiones, ofrecen más opciones para eliminar datos.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(¿Notaste que pandas convirtió dos de las columnas a flotantes para acomodar los `NaN`?)

No puedes eliminar un solo valor de un `DataFrame`, por lo que tienes que eliminar filas o columnas completas. Dependiendo de lo que estés haciendo, podrías querer hacer una cosa u otra, y por eso pandas te da opciones para ambas. Dado que en ciencia de datos las columnas generalmente representan variables y las filas representan observaciones, es más probable que elimines filas de datos; la configuración predeterminada de `dropna()` es eliminar todas las filas que contengan cualquier valor nulo:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Si es necesario, puedes eliminar los valores NA de las columnas. Usa `axis=1` para hacerlo:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Ten en cuenta que esto puede eliminar una gran cantidad de datos que podrías querer conservar, especialmente en conjuntos de datos más pequeños. ¿Qué pasa si solo quieres eliminar filas o columnas que contienen varios o incluso todos los valores nulos? Puedes especificar esas configuraciones en `dropna` con los parámetros `how` y `thresh`.

Por defecto, `how='any'` (si deseas comprobarlo por ti mismo o ver qué otros parámetros tiene el método, ejecuta `example4.dropna?` en una celda de código). Alternativamente, podrías especificar `how='all'` para eliminar únicamente las filas o columnas que contienen todos los valores nulos. Ampliemos nuestro ejemplo de `DataFrame` para ver esto en acción en el próximo ejercicio.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Puntos clave:  
1. Eliminar valores nulos es una buena idea solo si el conjunto de datos es lo suficientemente grande.  
2. Se pueden eliminar filas o columnas completas si la mayor parte de sus datos están ausentes.  
3. El método `DataFrame.dropna(axis=)` ayuda a eliminar valores nulos. El argumento `axis` indica si se deben eliminar filas o columnas.  
4. También se puede usar el argumento `how`. Por defecto, está configurado como `any`. Por lo tanto, elimina solo aquellas filas/columnas que contienen algún valor nulo. Se puede configurar como `all` para especificar que eliminaremos solo aquellas filas/columnas donde todos los valores sean nulos.  


### Ejercicio:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


El parámetro `thresh` te da un control más detallado: estableces el número de valores *no nulos* que una fila o columna necesita tener para ser conservada:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


Aquí, la primera y última fila se han eliminado, porque contienen solo dos valores no nulos.


### Rellenar valores nulos

A veces tiene sentido completar los valores faltantes con otros que podrían ser válidos. Existen varias técnicas para rellenar valores nulos. La primera es usar Conocimiento del Dominio (conocimiento del tema en el que se basa el conjunto de datos) para aproximar de alguna manera los valores faltantes.

Podrías usar `isnull` para hacer esto directamente, pero puede ser tedioso, especialmente si tienes muchos valores que rellenar. Dado que esta es una tarea tan común en ciencia de datos, pandas proporciona `fillna`, que devuelve una copia del `Series` o `DataFrame` con los valores faltantes reemplazados por uno de tu elección. Vamos a crear otro ejemplo de `Series` para ver cómo funciona esto en la práctica.


### Datos Categóricos (No numéricos)
Primero, consideremos los datos no numéricos. En los conjuntos de datos, tenemos columnas con datos categóricos. Por ejemplo, Género, Verdadero o Falso, etc.

En la mayoría de estos casos, reemplazamos los valores faltantes con la `moda` de la columna. Supongamos que tenemos 100 puntos de datos, 90 han respondido Verdadero, 8 han respondido Falso y 2 no han respondido. Entonces, podemos completar los 2 con Verdadero, considerando toda la columna.

Nuevamente, aquí podemos usar conocimiento del dominio. Consideremos un ejemplo de cómo completar con la moda.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Como podemos ver, el valor nulo ha sido reemplazado. No hace falta decir que podríamos haber escrito cualquier cosa en lugar de `'True'` y habría sido sustituido.


### Datos Numéricos
Ahora, pasando a los datos numéricos. Aquí, tenemos dos formas comunes de reemplazar valores faltantes:

1. Reemplazar con la mediana de la fila  
2. Reemplazar con el promedio de la fila  

Reemplazamos con la mediana en caso de datos sesgados con valores atípicos. Esto se debe a que la mediana es robusta frente a los valores atípicos.

Cuando los datos están normalizados, podemos usar el promedio, ya que en ese caso, el promedio y la mediana estarían bastante cerca.

Primero, tomemos una columna que esté distribuida normalmente y rellenemos el valor faltante con el promedio de la columna.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


La media de la columna es


In [33]:
np.mean(fill_with_mean[0])

0.0

In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Como podemos ver, el valor faltante ha sido reemplazado por su media.


Ahora intentemos con otro dataframe, y esta vez reemplazaremos los valores None con la mediana de la columna.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


La mediana de la segunda columna es


In [36]:
fill_with_median[1].median()

4.0

In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Como podemos ver, el valor NaN ha sido reemplazado por la mediana de la columna


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Puedes llenar todas las entradas nulas con un único valor, como `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Puntos clave:
1. Completar los valores faltantes debe hacerse cuando hay poca información o cuando existe una estrategia para llenar los datos faltantes.
2. El conocimiento del dominio puede utilizarse para completar los valores faltantes aproximándolos.
3. Para datos categóricos, generalmente, los valores faltantes se sustituyen con la moda de la columna.
4. Para datos numéricos, los valores faltantes suelen completarse con la media (para conjuntos de datos normalizados) o la mediana de las columnas.


### Ejercicio:


In [40]:
# What happens if you try to fill null values with a string, like ''?


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

También puedes **rellenar hacia atrás** para propagar el siguiente valor válido hacia atrás y llenar un nulo:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Como podrías imaginar, esto funciona de la misma manera con DataFrames, pero también puedes especificar un `axis` a lo largo del cual llenar valores nulos:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Ten en cuenta que cuando no se dispone de un valor previo para completar hacia adelante, el valor nulo permanece.


### Ejercicio:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Puedes ser creativo con cómo usas `fillna`. Por ejemplo, veamos nuevamente `example4`, pero esta vez llenemos los valores faltantes con el promedio de todos los valores en el `DataFrame`:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Ten en cuenta que la columna 3 aún no tiene valores: la dirección predeterminada es completar los valores fila por fila.

> **Conclusión:** Hay múltiples maneras de tratar los valores faltantes en tus conjuntos de datos. La estrategia específica que utilices (eliminarlos, reemplazarlos, o incluso cómo los reemplazas) debe estar dictada por las particularidades de esos datos. Desarrollarás un mejor sentido de cómo manejar los valores faltantes cuanto más trabajes e interactúes con conjuntos de datos.


### Codificación de Datos Categóricos

Los modelos de aprendizaje automático solo trabajan con números y cualquier tipo de datos numéricos. No podrán diferenciar entre un Sí y un No, pero sí podrán distinguir entre 0 y 1. Por lo tanto, después de completar los valores faltantes, necesitamos codificar los datos categóricos en alguna forma numérica para que el modelo los entienda.

La codificación se puede realizar de dos maneras. Las discutiremos a continuación.


**CODIFICACIÓN DE ETIQUETAS**

La codificación de etiquetas consiste básicamente en convertir cada categoría en un número. Por ejemplo, supongamos que tenemos un conjunto de datos de pasajeros de aerolíneas y hay una columna que contiene su clase entre las siguientes ['clase ejecutiva', 'clase económica', 'primera clase']. Si se realiza la codificación de etiquetas en esto, se transformaría en [0,1,2]. Veamos un ejemplo mediante código. Como estaremos aprendiendo `scikit-learn` en los próximos cuadernos, no lo utilizaremos aquí.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Para realizar la codificación de etiquetas en la primera columna, primero debemos describir un mapeo de cada clase a un número, antes de reemplazar


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Como podemos ver, el resultado coincide con lo que esperábamos. Entonces, ¿cuándo usamos la codificación de etiquetas? La codificación de etiquetas se utiliza en uno o ambos de los siguientes casos:
1. Cuando el número de categorías es grande
2. Cuando las categorías tienen un orden.


**CODIFICACIÓN ONE HOT**

Otro tipo de codificación es la Codificación One Hot. En este tipo de codificación, cada categoría de la columna se agrega como una columna separada y cada punto de datos recibirá un 0 o un 1 dependiendo de si contiene esa categoría. Por lo tanto, si hay n categorías diferentes, se añadirán n columnas al dataframe.

Por ejemplo, tomemos el mismo ejemplo de clases de avión. Las categorías eran: ['business class', 'economy class', 'first class']. Entonces, si realizamos la codificación one hot, se agregarán las siguientes tres columnas al conjunto de datos: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Realicemos la codificación one hot en la primera columna


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Cada columna codificada en caliente contiene 0 o 1, lo que especifica si esa categoría existe para ese punto de datos.


¿Cuándo usamos la codificación one hot? La codificación one hot se utiliza en uno o ambos de los siguientes casos:

1. Cuando el número de categorías y el tamaño del conjunto de datos son pequeños.
2. Cuando las categorías no siguen ningún orden en particular.


> Puntos clave:  
1. La codificación se utiliza para convertir datos no numéricos en datos numéricos.  
2. Existen dos tipos de codificación: Codificación de etiquetas (Label encoding) y Codificación One Hot (One Hot encoding), ambas pueden realizarse según las necesidades del conjunto de datos.  


## Eliminando datos duplicados

> **Objetivo de aprendizaje:** Al final de esta subsección, deberías sentirte cómodo identificando y eliminando valores duplicados de DataFrames.

Además de los datos faltantes, a menudo encontrarás datos duplicados en conjuntos de datos del mundo real. Afortunadamente, pandas ofrece una forma sencilla de detectar y eliminar entradas duplicadas.


### Identificando duplicados: `duplicated`

Puedes identificar fácilmente valores duplicados utilizando el método `duplicated` en pandas, el cual devuelve una máscara booleana que indica si una entrada en un `DataFrame` es un duplicado de una anterior. Vamos a crear otro ejemplo de `DataFrame` para ver esto en acción.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Eliminando duplicados: `drop_duplicates`
`drop_duplicates` simplemente devuelve una copia de los datos en los que todos los valores `duplicated` son `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Tanto `duplicated` como `drop_duplicates` consideran por defecto todas las columnas, pero puedes especificar que examinen solo un subconjunto de columnas en tu `DataFrame`:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2



---

**Descargo de responsabilidad**:  
Este documento ha sido traducido utilizando el servicio de traducción automática [Co-op Translator](https://github.com/Azure/co-op-translator). Aunque nos esforzamos por garantizar la precisión, tenga en cuenta que las traducciones automatizadas pueden contener errores o imprecisiones. El documento original en su idioma nativo debe considerarse como la fuente autorizada. Para información crítica, se recomienda una traducción profesional realizada por humanos. No nos hacemos responsables de malentendidos o interpretaciones erróneas que puedan surgir del uso de esta traducción.
