# Подготовка данных

[Оригинальный источник блокнота из *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio by Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## Изучение информации о `DataFrame`

> **Цель обучения:** К концу этого раздела вы должны уверенно находить общую информацию о данных, хранящихся в pandas DataFrame.

После того как вы загрузили свои данные в pandas, скорее всего, они будут находиться в `DataFrame`. Однако если ваш набор данных в `DataFrame` содержит 60,000 строк и 400 столбцов, с чего вообще начать, чтобы понять, с чем вы работаете? К счастью, pandas предоставляет удобные инструменты для быстрого получения общей информации о `DataFrame`, а также для просмотра первых и последних строк.

Чтобы изучить эту функциональность, мы импортируем библиотеку Python scikit-learn и воспользуемся знаковым набором данных, который каждый специалист по данным видел сотни раз: набор данных британского биолога Рональда Фишера *Iris*, использованный в его статье 1936 года "Использование множественных измерений в таксономических задачах":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Мы загрузили набор данных Iris в переменную `iris_df`. Прежде чем углубляться в данные, полезно узнать количество точек данных и общий размер набора данных. Это помогает оценить объем данных, с которыми мы работаем.


In [2]:
iris_df.shape

(150, 4)

Итак, у нас есть 150 строк и 4 столбца данных. Каждая строка представляет одну точку данных, а каждый столбец — одну характеристику, связанную с таблицей данных. Таким образом, у нас есть 150 точек данных, каждая из которых содержит 4 характеристики.

`shape` здесь является атрибутом таблицы данных, а не функцией, поэтому он не заканчивается парой круглых скобок.


### `DataFrame.columns`
Теперь давайте рассмотрим 4 столбца данных. Что именно представляет каждый из них? Атрибут `columns` предоставит нам названия столбцов в датафрейме.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Как мы видим, есть четыре (4) столбца. Атрибут `columns` сообщает нам названия столбцов и, по сути, ничего больше. Этот атрибут приобретает значение, когда мы хотим определить признаки, содержащиеся в наборе данных.


### `DataFrame.info`
Объем данных (определяется атрибутом `shape`) и названия признаков или столбцов (определяются атрибутом `columns`) дают нам некоторое представление о наборе данных. Теперь мы хотели бы изучить набор данных более подробно. Функция `DataFrame.info()` очень полезна для этого.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


Из этого можно сделать несколько наблюдений:  
1. Тип данных каждого столбца: В этом наборе данных все данные хранятся в виде 64-битных чисел с плавающей запятой.  
2. Количество ненулевых значений: Работа с пропущенными значениями — важный этап подготовки данных. Этот вопрос будет рассмотрен позже в ноутбуке.  


### DataFrame.describe()
Предположим, у нас есть много числовых данных в наборе данных. Одномерные статистические расчёты, такие как среднее, медиана, квартили и т.д., могут быть выполнены для каждого столбца отдельно. Функция `DataFrame.describe()` предоставляет нам статистическое резюме числовых столбцов набора данных.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Вывод выше показывает общее количество точек данных, среднее значение, стандартное отклонение, минимум, нижний квартиль (25%), медиану (50%), верхний квартиль (75%) и максимальное значение каждого столбца.


### `DataFrame.head`
С помощью всех вышеупомянутых функций и атрибутов мы получили общее представление о наборе данных. Мы знаем, сколько данных в наборе, сколько признаков, тип данных каждого признака и количество ненулевых значений для каждого признака.

Теперь пришло время взглянуть на сами данные. Давайте посмотрим, как выглядят первые несколько строк (первые несколько точек данных) нашего `DataFrame`:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


В результате здесь мы видим пять (5) записей набора данных. Если посмотреть на индекс слева, мы обнаружим, что это первые пять строк.


### Упражнение:

Из приведенного выше примера ясно, что по умолчанию `DataFrame.head` возвращает первые пять строк `DataFrame`. В кодовой ячейке ниже, сможете ли вы найти способ отобразить больше пяти строк?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
Другой способ просмотра данных — это начать с конца (вместо начала). Противоположностью `DataFrame.head` является `DataFrame.tail`, который возвращает последние пять строк `DataFrame`:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


На практике полезно иметь возможность легко просматривать первые несколько строк или последние несколько строк `DataFrame`, особенно когда вы ищете выбросы в упорядоченных наборах данных.

Все функции и атрибуты, показанные выше с помощью примеров кода, помогают нам получить общее представление о данных.

> **Вывод:** Даже просто взглянув на метаданные о информации в DataFrame или на первые и последние несколько значений, вы можете сразу получить представление о размере, форме и содержании данных, с которыми вы работаете.


### Отсутствующие данные
Давайте разберемся с отсутствующими данными. Отсутствующие данные возникают, когда в некоторых столбцах не указано значение.

Рассмотрим пример: допустим, кто-то стесняется своего веса и не заполняет поле "вес" в анкете. Тогда значение веса для этого человека будет отсутствовать.

В большинстве случаев в реальных наборах данных встречаются отсутствующие значения.

**Как Pandas обрабатывает отсутствующие данные**

Pandas обрабатывает отсутствующие значения двумя способами. Первый способ вы уже видели в предыдущих разделах: `NaN`, или Not a Number (не число). Это специальное значение, которое является частью спецификации IEEE для чисел с плавающей точкой и используется исключительно для обозначения отсутствующих значений с плавающей точкой.

Для отсутствующих значений, которые не являются числами с плавающей точкой, pandas использует объект Python `None`. Хотя может показаться запутанным, что вы сталкиваетесь с двумя разными типами значений, которые по сути означают одно и то же, у такого подхода есть веские программные причины. На практике это решение позволяет pandas предложить хороший компромисс для подавляющего большинства случаев. Тем не менее, и `None`, и `NaN` имеют ограничения, о которых нужно помнить в контексте их использования.


### `None`: отсутствие данных не в формате float
Поскольку `None` происходит из Python, его нельзя использовать в массивах NumPy и pandas, которые не имеют тип данных `'object'`. Помните, что массивы NumPy (и структуры данных в pandas) могут содержать только один тип данных. Это и обеспечивает их огромную мощность для работы с большими объемами данных и вычислений, но также ограничивает их гибкость. Такие массивы должны быть приведены к "наименьшему общему знаменателю" — типу данных, который охватывает все элементы массива. Если в массиве присутствует `None`, это означает, что вы работаете с объектами Python.

Чтобы увидеть это на практике, рассмотрим следующий пример массива (обратите внимание на его `dtype`):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

Реальность повышения типов данных несет с собой два побочных эффекта. Во-первых, операции будут выполняться на уровне интерпретируемого кода Python, а не скомпилированного кода NumPy. По сути, это означает, что любые операции, связанные с `Series` или `DataFrame`, содержащими `None`, будут выполняться медленнее. Хотя вы, вероятно, не заметите этого снижения производительности, для больших наборов данных это может стать проблемой.

Второй побочный эффект вытекает из первого. Поскольку `None` фактически возвращает `Series` или `DataFrame` в мир стандартного Python, использование агрегатных функций NumPy/pandas, таких как `sum()` или `min()`, на массивах, содержащих значение `None`, обычно приведет к ошибке:


In [10]:
example1.sum()

TypeError: ignored

### `NaN`: отсутствующие значения с плавающей точкой

В отличие от `None`, NumPy (а следовательно, и pandas) поддерживает `NaN` для своих быстрых векторизованных операций и ufuncs. Плохая новость заключается в том, что любые арифметические операции с `NaN` всегда приводят к `NaN`. Например:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

Хорошие новости: агрегации, выполняемые на массивах с `NaN`, не вызывают ошибок. Плохие новости: результаты не всегда полезны:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

In [11]:
# What happens if you add np.nan and None together?


### `NaN` и `None`: нулевые значения в pandas

Хотя `NaN` и `None` могут вести себя немного по-разному, pandas всё же разработан так, чтобы обрабатывать их взаимозаменяемо. Чтобы понять, о чём идёт речь, рассмотрим `Series` из целых чисел:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


В процессе приведения типов данных к единому формату в `Series` и `DataFrame`, pandas легко заменяет пропущенные значения между `None` и `NaN`. Благодаря этой особенности дизайна, полезно рассматривать `None` и `NaN` как два разных варианта "null" в pandas. На самом деле, некоторые основные методы, которые вы будете использовать для работы с пропущенными значениями в pandas, отражают эту идею в своих названиях:

- `isnull()`: Создает булевую маску, указывающую на пропущенные значения
- `notnull()`: Противоположность `isnull()`
- `dropna()`: Возвращает отфильтрованную версию данных
- `fillna()`: Возвращает копию данных с заполненными или восстановленными пропущенными значениями

Эти методы важно освоить и привыкнуть к их использованию, поэтому давайте рассмотрим каждый из них более подробно.


### Обнаружение пустых значений

Теперь, когда мы поняли важность отсутствующих значений, необходимо выявить их в нашем наборе данных, прежде чем приступать к их обработке.  
Методы `isnull()` и `notnull()` являются основными для обнаружения пустых данных. Оба возвращают булевы маски для ваших данных.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Посмотрите внимательно на результат. Есть ли что-то, что вас удивляет? Хотя `0` является арифметическим нулем, он, тем не менее, вполне себе целое число, и pandas рассматривает его именно так. `''` немного более тонкий случай. Хотя мы использовали его в Разделе 1 для представления пустого строкового значения, он, тем не менее, является строковым объектом, а не представлением null с точки зрения pandas.

Теперь давайте перевернем ситуацию и используем эти методы так, как вы будете применять их на практике. Вы можете использовать булевы маски непосредственно в качестве индекса ``Series`` или ``DataFrame``, что может быть полезно при работе с изолированными отсутствующими (или присутствующими) значениями.

Если мы хотим получить общее количество отсутствующих значений, мы можем просто выполнить суммирование по маске, созданной методом `isnull()`.


In [19]:
example3.isnull().sum()

2

In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Основной вывод**: Оба метода `isnull()` и `notnull()` дают схожие результаты при их использовании в DataFrame: они показывают результаты и индекс этих результатов, что окажет вам огромную помощь при работе с вашими данными.


### Работа с отсутствующими данными

> **Цель обучения:** К концу этого раздела вы должны понимать, как и когда заменять или удалять отсутствующие значения в DataFrame.

Модели машинного обучения не могут самостоятельно работать с отсутствующими данными. Поэтому перед передачей данных в модель необходимо обработать эти пропущенные значения.

Способ обработки отсутствующих данных связан с тонкими компромиссами, которые могут повлиять на ваш итоговый анализ и результаты в реальном мире.

Существует два основных способа работы с отсутствующими данными:

1.   Удалить строку, содержащую отсутствующее значение
2.   Заменить отсутствующее значение на другое значение

Мы подробно обсудим оба этих метода, а также их преимущества и недостатки.


### Удаление пустых значений

Количество данных, которые мы передаем в нашу модель, напрямую влияет на ее производительность. Удаление пустых значений означает сокращение количества точек данных, а следовательно, и уменьшение размера набора данных. Поэтому рекомендуется удалять строки с пустыми значениями, если набор данных достаточно большой.

Другой случай может быть, когда в определенной строке или столбце много пропущенных значений. Тогда их можно удалить, так как они не добавят особой ценности нашему анализу, поскольку большая часть данных для этой строки/столбца отсутствует.

Помимо выявления пропущенных значений, pandas предоставляет удобный способ удаления пустых значений из `Series` и `DataFrame`. Чтобы увидеть это на практике, вернемся к `example3`. Функция `DataFrame.dropna()` помогает удалять строки с пустыми значениями.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Обратите внимание, что это должно выглядеть как ваш вывод из `example3[example3.notnull()]`. Разница здесь в том, что вместо индексации только по маскированным значениям, `dropna` удалил эти пропущенные значения из `Series` `example3`.

Поскольку DataFrame имеет две измерения, он предоставляет больше возможностей для удаления данных.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Вы заметили, что pandas преобразовал два столбца в тип float, чтобы учесть значения `NaN`?)

Вы не можете удалить одно значение из `DataFrame`, поэтому вам придется удалять целые строки или столбцы. В зависимости от ваших задач, вам может понадобиться одно или другое, и поэтому pandas предоставляет вам варианты для обоих случаев. Поскольку в науке о данных столбцы обычно представляют переменные, а строки — наблюдения, вы, скорее всего, будете удалять строки данных; настройка по умолчанию для `dropna()` — удалять все строки, содержащие любые пустые значения:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Если необходимо, вы можете удалить значения NA из столбцов. Используйте `axis=1`, чтобы сделать это:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Обратите внимание, что это может привести к удалению большого количества данных, которые вы, возможно, захотите сохранить, особенно в небольших наборах данных. Что, если вы хотите удалить только строки или столбцы, содержащие несколько или даже все значения null? Вы можете задать эти параметры в `dropna` с помощью параметров `how` и `thresh`.

По умолчанию используется `how='any'` (если вы хотите проверить это самостоятельно или посмотреть, какие еще параметры есть у метода, выполните `example4.dropna?` в ячейке кода). Вы также можете указать `how='all'`, чтобы удалять только строки или столбцы, содержащие исключительно значения null. Давайте расширим наш пример `DataFrame`, чтобы увидеть это в действии в следующем упражнении.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Основные моменты:
1. Удаление пустых значений имеет смысл только в том случае, если набор данных достаточно большой.
2. Полные строки или столбцы можно удалить, если в них отсутствует большая часть данных.
3. Метод `DataFrame.dropna(axis=)` помогает удалять пустые значения. Аргумент `axis` указывает, следует ли удалять строки или столбцы.
4. Также можно использовать аргумент `how`. По умолчанию он установлен на `any`, поэтому удаляются только те строки/столбцы, которые содержат любые пустые значения. Его можно установить на `all`, чтобы указать, что будут удалены только те строки/столбцы, где все значения пустые.


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


Параметр `thresh` дает вам более точный контроль: вы задаете количество *ненулевых* значений, которые строка или столбец должны иметь, чтобы быть сохраненными:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


### Заполнение пропущенных значений

Иногда имеет смысл заполнить пропущенные значения теми, которые могут быть допустимыми. Существует несколько методов для заполнения null-значений. Первый — использование предметных знаний (знаний о теме, на которой основан набор данных) для приблизительного определения пропущенных значений.

Вы можете использовать `isnull` для выполнения этой задачи на месте, но это может быть трудоемко, особенно если у вас много значений для заполнения. Поскольку это очень распространенная задача в области анализа данных, pandas предоставляет метод `fillna`, который возвращает копию `Series` или `DataFrame` с заменой пропущенных значений на выбранные вами. Давайте создадим еще один пример `Series`, чтобы увидеть, как это работает на практике.


### Категориальные данные (нечисловые)
Сначала рассмотрим нечисловые данные. В наборах данных у нас есть столбцы с категориальными данными, например, Пол, Истина или Ложь и т.д.

В большинстве таких случаев мы заменяем пропущенные значения на `моду` столбца. Допустим, у нас есть 100 точек данных: 90 указали Истина, 8 указали Ложь, а 2 не заполнили. Тогда мы можем заполнить эти 2 пропущенных значения Истиной, учитывая весь столбец.

Опять же, здесь мы можем использовать знания предметной области. Рассмотрим пример заполнения с использованием моды.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Как мы видим, значение null было заменено. Само собой разумеется, мы могли написать что угодно вместо `'True'`, и это было бы подставлено.


### Числовые данные
Теперь перейдем к числовым данным. Здесь есть два распространенных способа замены пропущенных значений:

1. Замена на медиану строки
2. Замена на среднее значение строки

Мы используем медиану в случае перекошенных данных с выбросами. Это связано с тем, что медиана устойчива к выбросам.

Когда данные нормализованы, можно использовать среднее значение, так как в этом случае среднее и медиана будут довольно близки.

Сначала возьмем столбец с нормальным распределением и заполним пропущенные значения средним значением столбца.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


Среднее значение столбца равно


In [33]:
np.mean(fill_with_mean[0])

0.0

In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Как мы видим, отсутствующее значение было заменено его средним.


Теперь давайте попробуем другой датафрейм, и на этот раз заменим значения None на медиану столбца.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


Медиана второго столбца равна


In [36]:
fill_with_median[1].median()

4.0

In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Как мы видим, значение NaN было заменено медианой столбца


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Вы можете заполнить все пустые записи одним значением, например, `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Основные выводы:  
1. Заполнение пропущенных значений следует выполнять, когда данных мало или есть стратегия для их заполнения.  
2. Для заполнения пропущенных значений можно использовать знания предметной области, чтобы приблизительно восстановить их.  
3. Для категориальных данных чаще всего пропущенные значения заменяются модой столбца.  
4. Для числовых данных пропущенные значения обычно заполняются средним значением (для нормализованных наборов данных) или медианой столбцов.  


In [40]:
# What happens if you try to fill null values with a string, like ''?


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Вы также можете **заполнить назад**, чтобы распространить следующее допустимое значение назад для заполнения null:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Как вы могли догадаться, это работает так же с DataFrame, но вы также можете указать `axis`, вдоль которого будут заполняться значения null:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Обратите внимание, что когда предыдущее значение недоступно для заполнения вперед, остается значение null.


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Вы можете творчески использовать `fillna`. Например, давайте снова посмотрим на `example4`, но на этот раз заполним пропущенные значения средним значением всех значений в `DataFrame`:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Обратите внимание, что третий столбец все еще пуст: значения по умолчанию заполняются построчно.

> **Вывод:** Существует множество способов справляться с отсутствующими значениями в ваших наборах данных. Конкретная стратегия (удаление, замена или способ замены) должна определяться особенностями этих данных. Чем больше вы работаете с наборами данных и взаимодействуете с ними, тем лучше вы будете понимать, как справляться с отсутствующими значениями.


### Кодирование категориальных данных

Модели машинного обучения работают только с числами и любыми формами числовых данных. Они не смогут различить "Да" и "Нет", но смогут отличить 0 от 1. Поэтому, после заполнения пропущенных значений, необходимо закодировать категориальные данные в числовую форму, чтобы модель могла их понять.

Кодирование можно выполнить двумя способами. Мы обсудим их далее.


**КОДИРОВАНИЕ МЕТКИ**

Кодирование метки — это процесс преобразования каждой категории в число. Например, предположим, у нас есть набор данных о пассажирах авиалиний, и в нем есть столбец, содержащий их класс из следующих вариантов: ['бизнес-класс', 'эконом-класс', 'первый класс']. Если выполнить кодирование метки для этого столбца, он будет преобразован в [0, 1, 2]. Давайте рассмотрим пример с помощью кода. Так как мы будем изучать `scikit-learn` в следующих ноутбуках, здесь мы его использовать не будем.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Чтобы выполнить кодирование меток для первого столбца, сначала необходимо описать отображение каждого класса на число, прежде чем заменить


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Как мы видим, результат соответствует нашим ожиданиям. Итак, когда же использовать кодирование меток? Кодирование меток применяется в одном или обоих из следующих случаев:
1. Когда количество категорий велико
2. Когда категории имеют определённый порядок.


**ONE HOT ENCODING**

Другой вид кодирования — это One Hot Encoding. При таком способе кодирования каждая категория столбца добавляется как отдельный столбец, и каждая точка данных получает 0 или 1 в зависимости от того, содержит ли она эту категорию. Таким образом, если есть n различных категорий, к датафрейму будет добавлено n столбцов.

Например, возьмем тот же пример с классами самолета. Категории были: ['business class', 'economy class', 'first class']. Если мы применим One Hot Encoding, то в набор данных будут добавлены следующие три столбца: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Давайте выполним one hot encoding для первого столбца


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Каждый закодированный методом one-hot столбец содержит 0 или 1, что указывает, существует ли эта категория для данной точки данных.


Когда мы используем one hot encoding? One hot encoding используется в одном или обоих из следующих случаев:

1. Когда количество категорий и размер набора данных невелики.
2. Когда категории не имеют определенного порядка.


> Основные выводы:
1. Кодирование используется для преобразования ненумерических данных в числовые.
2. Существует два типа кодирования: кодирование меток и One Hot кодирование, которые можно применять в зависимости от требований набора данных.


## Удаление дублирующихся данных

> **Цель обучения:** К концу этого раздела вы должны уверенно определять и удалять дублирующиеся значения из DataFrame.

Помимо отсутствующих данных, в реальных наборах данных вы часто будете сталкиваться с дублирующимися данными. К счастью, pandas предоставляет простой способ обнаружения и удаления дублирующихся записей.


### Определение дубликатов: `duplicated`

Вы можете легко обнаружить повторяющиеся значения с помощью метода `duplicated` в pandas. Этот метод возвращает булеву маску, указывающую, является ли запись в `DataFrame` дубликатом более ранней записи. Давайте создадим еще один пример `DataFrame`, чтобы увидеть, как это работает.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Удаление дубликатов: `drop_duplicates`
`drop_duplicates` просто возвращает копию данных, для которых все значения, отмеченные как `duplicated`, равны `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Оба метода `duplicated` и `drop_duplicates` по умолчанию учитывают все столбцы, но вы можете указать, чтобы они рассматривали только подмножество столбцов в вашем `DataFrame`:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2



---

**Отказ от ответственности**:  
Этот документ был переведен с использованием сервиса автоматического перевода [Co-op Translator](https://github.com/Azure/co-op-translator). Хотя мы стремимся к точности, пожалуйста, имейте в виду, что автоматические переводы могут содержать ошибки или неточности. Оригинальный документ на его исходном языке следует считать авторитетным источником. Для получения критически важной информации рекомендуется профессиональный перевод человеком. Мы не несем ответственности за любые недоразумения или неправильные толкования, возникшие в результате использования данного перевода.
