# Підготовка даних

[Оригінальний блокнот із *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio by Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## Дослідження інформації про `DataFrame`

> **Мета навчання:** До кінця цього підрозділу ви повинні впевнено знаходити загальну інформацію про дані, що зберігаються в pandas DataFrame.

Коли ви завантажуєте свої дані в pandas, вони, швидше за все, будуть у форматі `DataFrame`. Але якщо ваш набір даних у `DataFrame` містить 60,000 рядків і 400 стовпців, як взагалі почати розуміти, з чим ви працюєте? На щастя, pandas надає зручні інструменти для швидкого перегляду загальної інформації про `DataFrame`, а також перших і останніх кількох рядків.

Щоб дослідити цю функціональність, ми імпортуємо бібліотеку Python scikit-learn і використаємо знаковий набір даних, який кожен дата-сайєнтист бачив сотні разів: набір даних британського біолога Рональда Фішера *Iris*, використаний у його статті 1936 року "Використання множинних вимірювань у таксономічних проблемах":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Ми завантажили набір даних Iris у змінну `iris_df`. Перед тим як заглиблюватися в дані, буде корисно дізнатися кількість точок даних, які ми маємо, і загальний розмір набору даних. Це допоможе оцінити обсяг даних, з якими ми працюємо.


In [2]:
iris_df.shape

(150, 4)

Отже, ми маємо 150 рядків і 4 стовпці даних. Кожен рядок представляє одну точку даних, а кожен стовпець відповідає за одну характеристику, пов’язану з фреймом даних. Тобто, у нас є 150 точок даних, кожна з яких містить 4 характеристики.

`shape` тут є атрибутом фрейму даних, а не функцією, тому він не закінчується парою круглих дужок.


### `DataFrame.columns`
Тепер перейдемо до 4 колонок даних. Що саме кожна з них представляє? Атрибут `columns` надасть нам назви колонок у датафреймі.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Як ми можемо бачити, є чотири (4) стовпці. Атрибут `columns` повідомляє нам назви стовпців і, в основному, нічого більше. Цей атрибут набуває важливості, коли ми хочемо визначити характеристики, які містить набір даних.


### `DataFrame.info`
Кількість даних (визначається атрибутом `shape`) і назви ознак або стовпців (визначаються атрибутом `columns`) дають нам певну інформацію про набір даних. Тепер ми хотіли б заглибитися в набір даних. Функція `DataFrame.info()` є досить корисною для цього.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


Звідси можна зробити кілька спостережень:  
1. Тип даних кожного стовпця: У цьому наборі даних усі дані зберігаються у вигляді 64-бітних чисел з плаваючою комою.  
2. Кількість ненульових значень: Робота з нульовими значеннями є важливим етапом підготовки даних. Це буде розглянуто пізніше у зошиті.  


### DataFrame.describe()
Припустимо, у нас є багато числових даних у нашому наборі даних. Одновимірні статистичні розрахунки, такі як середнє, медіана, квартилі тощо, можуть бути виконані для кожного стовпця окремо. Функція `DataFrame.describe()` надає нам статистичний огляд числових стовпців набору даних.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Вихідні дані вище показують загальну кількість точок даних, середнє значення, стандартне відхилення, мінімальне значення, нижній квартиль (25%), медіану (50%), верхній квартиль (75%) та максимальне значення кожного стовпця.


### `DataFrame.head`
З усіма вищезазначеними функціями та атрибутами ми отримали загальний огляд набору даних. Ми знаємо, скільки є точок даних, скільки є ознак, який тип даних у кожної ознаки та скільки ненульових значень має кожна ознака.

Тепер настав час подивитися на самі дані. Давайте подивимося, як виглядають перші кілька рядків (перші кілька точок даних) нашого `DataFrame`:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Як видно з результату, тут представлено п'ять (5) записів набору даних. Якщо подивитися на індекс зліва, то можна побачити, що це перші п'ять рядків.


### Вправа:

З наведеного прикладу видно, що за замовчуванням `DataFrame.head` повертає перші п'ять рядків `DataFrame`. У кодовій комірці нижче, чи можете ви знайти спосіб відобразити більше ніж п'ять рядків?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
Інший спосіб перегляду даних — це почати з кінця (замість початку). Протилежністю до `DataFrame.head` є `DataFrame.tail`, який повертає останні п'ять рядків `DataFrame`:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


На практиці корисно мати можливість легко переглядати перші кілька рядків або останні кілька рядків `DataFrame`, особливо коли ви шукаєте аномалії в упорядкованих наборах даних.

Усі функції та атрибути, показані вище за допомогою прикладів коду, допомагають нам отримати уявлення про дані.

> **Висновок:** Навіть просто переглянувши метадані про інформацію в DataFrame або перші й останні кілька значень, ви можете одразу отримати уявлення про розмір, форму та зміст даних, з якими ви працюєте.


### Відсутні дані
Давайте розглянемо тему відсутніх даних. Відсутні дані виникають, коли в деяких стовпцях не збережено жодного значення.

Розглянемо приклад: припустимо, хтось дуже переймається своєю вагою і не заповнює поле "вага" в опитуванні. У такому випадку значення ваги для цієї людини буде відсутнім.

У більшості випадків у реальних наборах даних зустрічаються відсутні значення.

**Як Pandas обробляє відсутні дані**

Pandas обробляє відсутні значення двома способами. Перший ви вже бачили в попередніх розділах: `NaN`, або Not a Number (не число). Це насправді спеціальне значення, яке є частиною специфікації IEEE для чисел з плаваючою комою, і воно використовується лише для позначення відсутніх значень з плаваючою комою.

Для відсутніх значень, які не є числами з плаваючою комою, pandas використовує об'єкт Python `None`. Хоча може здатися заплутаним, що ви зустрічаєте два різних типи значень, які по суті означають одне й те саме, існують обґрунтовані програмні причини для такого вибору дизайну. На практиці це дозволяє pandas забезпечити хороший компроміс для переважної більшості випадків. Незважаючи на це, і `None`, і `NaN` мають обмеження, про які вам потрібно пам'ятати щодо того, як їх можна використовувати.


### `None`: відсутні дані не типу float
Оскільки `None` походить із Python, його не можна використовувати в масивах NumPy та pandas, які не мають типу даних `'object'`. Пам’ятайте, що масиви NumPy (і структури даних у pandas) можуть містити лише один тип даних. Це надає їм величезну потужність для роботи з великими обсягами даних і обчислень, але також обмежує їхню гнучкість. Такі масиви повинні бути приведені до "найменшого спільного знаменника", тобто до типу даних, який охоплює все в масиві. Коли в масиві є `None`, це означає, що ви працюєте з об’єктами Python.

Щоб побачити це на практиці, розгляньте наступний приклад масиву (зверніть увагу на його `dtype`):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

Реальність підвищення типів даних має два побічні ефекти. По-перше, операції виконуватимуться на рівні інтерпретованого коду Python, а не скомпільованого коду NumPy. По суті, це означає, що будь-які операції, які включають `Series` або `DataFrames` з `None`, будуть повільнішими. Хоча ви, ймовірно, не помітите цього впливу на продуктивність, для великих наборів даних це може стати проблемою.

Другий побічний ефект випливає з першого. Оскільки `None` фактично повертає `Series` або `DataFrame` у світ звичайного Python, використання агрегацій NumPy/pandas, таких як `sum()` або `min()`, на масивах, які містять значення ``None``, зазвичай призведе до помилки:


In [10]:
example1.sum()

TypeError: ignored

### `NaN`: відсутні значення типу float

На відміну від `None`, NumPy (а отже, і pandas) підтримує `NaN` для швидких, векторизованих операцій та ufuncs. Погана новина полягає в тому, що будь-яка арифметична операція з `NaN` завжди дає результат `NaN`. Наприклад:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

Хороша новина: агрегації, які виконуються на масивах із `NaN`, не викликають помилок. Погана новина: результати не завжди корисні:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

In [11]:
# What happens if you add np.nan and None together?


### `NaN` та `None`: нульові значення в pandas

Хоча `NaN` і `None` можуть поводитися трохи по-різному, pandas все ж створений для роботи з ними як взаємозамінними. Щоб зрозуміти, про що йдеться, розглянемо `Series` цілих чисел:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


У процесі підвищення типів даних для забезпечення однорідності даних у `Series` та `DataFrame`, pandas охоче змінює відсутні значення між `None` та `NaN`. Через цю особливість дизайну корисно розглядати `None` та `NaN` як два різні варіанти "нульових" значень у pandas. Дійсно, деякі основні методи, які ви будете використовувати для роботи з відсутніми значеннями в pandas, відображають цю ідею у своїх назвах:

- `isnull()`: Генерує булеву маску, що вказує на відсутні значення
- `notnull()`: Протилежність `isnull()`
- `dropna()`: Повертає відфільтровану версію даних
- `fillna()`: Повертає копію даних із заповненими або заміщеними відсутніми значеннями

Це важливі методи, які варто освоїти та навчитися використовувати впевнено, тому давайте розглянемо кожен із них детальніше.


### Виявлення нульових значень

Тепер, коли ми зрозуміли важливість пропущених значень, нам потрібно виявити їх у нашому наборі даних, перш ніж працювати з ними. 
Методи `isnull()` і `notnull()` є основними для виявлення нульових даних. Обидва повертають булеві маски для ваших даних.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Подивіться уважно на результат. Чи щось у ньому вас дивує? Хоча `0` є арифметичним нулем, він все ж таки є цілком коректним цілим числом, і pandas розглядає його саме так. `''` є трохи більш тонким випадком. Хоча ми використовували його в Розділі 1 для позначення порожнього рядка, він все ж таки є об'єктом рядка, а не представленням null з точки зору pandas.

Тепер давайте розглянемо це з іншого боку і використаємо ці методи так, як ви, ймовірно, будете використовувати їх на практиці. Ви можете використовувати булеві маски безпосередньо як індекс для ``Series`` або ``DataFrame``, що може бути корисним, коли ви працюєте з ізольованими відсутніми (або присутніми) значеннями.

Якщо ми хочемо отримати загальну кількість відсутніх значень, ми можемо просто виконати сумування за маскою, створеною методом `isnull()`.


In [19]:
example3.isnull().sum()

2

In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Основний висновок**: Обидва методи `isnull()` та `notnull()` дають схожі результати, коли ви використовуєте їх у DataFrame: вони показують результати та індекс цих результатів, що значно допоможе вам у роботі з вашими даними.


### Робота з відсутніми даними

> **Ціль навчання:** Після завершення цього підрозділу ви повинні знати, як і коли замінювати або видаляти нульові значення з DataFrame.

Моделі машинного навчання не можуть самостійно працювати з відсутніми даними. Тому перед тим, як передати дані в модель, необхідно впоратися з цими відсутніми значеннями.

Те, як ви обробляєте відсутні дані, має свої тонкі компроміси, які можуть вплинути на ваш остаточний аналіз і результати в реальному світі.

Існує два основних способи роботи з відсутніми даними:

1.   Видалити рядок, що містить відсутнє значення
2.   Замінити відсутнє значення на інше значення

Ми обговоримо обидва ці методи, а також їхні переваги та недоліки детально.


### Видалення порожніх значень

Кількість даних, які ми передаємо нашій моделі, безпосередньо впливає на її продуктивність. Видалення порожніх значень означає, що ми зменшуємо кількість точок даних, а отже, і розмір набору даних. Тому рекомендується видаляти рядки з порожніми значеннями, якщо набір даних є досить великим.

Інший випадок може бути, коли певний рядок або стовпець має багато відсутніх значень. Тоді їх можна видалити, оскільки вони не додадуть великої цінності до нашого аналізу, адже більшість даних для цього рядка/стовпця відсутня.

Окрім ідентифікації відсутніх значень, pandas надає зручний спосіб видалення порожніх значень із `Series` та `DataFrame`. Щоб побачити це на практиці, повернемося до `example3`. Функція `DataFrame.dropna()` допомагає видаляти рядки з порожніми значеннями.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Зверніть увагу, що це має виглядати як ваш результат з `example3[example3.notnull()]`. Різниця тут у тому, що, замість просто індексації за замаскованими значеннями, `dropna` видалив ці відсутні значення з `Series` `example3`.

Оскільки DataFrame мають два виміри, вони надають більше можливостей для видалення даних.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Чи помітили ви, що pandas перетворив два стовпці на тип float, щоб врахувати `NaN`?)

Ви не можете видалити окреме значення з `DataFrame`, тому доведеться видаляти цілі рядки або стовпці. Залежно від того, що ви робите, вам може знадобитися один або інший варіант, і pandas надає можливості для обох. Оскільки в аналізі даних стовпці зазвичай представляють змінні, а рядки — спостереження, частіше за все ви будете видаляти рядки даних; налаштування за замовчуванням для `dropna()` — видаляти всі рядки, які містять будь-які null-значення:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Якщо необхідно, ви можете видалити значення NA зі стовпців. Використовуйте `axis=1`, щоб зробити це:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Зверніть увагу, що це може призвести до втрати значної кількості даних, які ви, можливо, хотіли б зберегти, особливо у менших наборах даних. Що робити, якщо ви хочете видалити лише ті рядки або стовпці, які містять кілька або навіть усі значення, що дорівнюють null? Ви можете налаштувати ці параметри у `dropna` за допомогою параметрів `how` та `thresh`.

За замовчуванням `how='any'` (якщо ви хочете перевірити самостійно або побачити, які інші параметри має цей метод, запустіть `example4.dropna?` у кодовій комірці). Ви також можете вказати `how='all'`, щоб видалити лише ті рядки або стовпці, які містять усі значення, що дорівнюють null. Давайте розширимо наш приклад `DataFrame`, щоб побачити це в дії у наступній вправі.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Основні висновки:  
1. Видаляти порожні значення доцільно лише тоді, коли набір даних є достатньо великим.  
2. Повні рядки або стовпці можна видаляти, якщо в них відсутня більшість даних.  
3. Метод `DataFrame.dropna(axis=)` допомагає видаляти порожні значення. Аргумент `axis` вказує, чи потрібно видаляти рядки, чи стовпці.  
4. Також можна використовувати аргумент `how`. За замовчуванням він встановлений на `any`. Таким чином, видаляються лише ті рядки/стовпці, які містять будь-які порожні значення. Його можна встановити на `all`, щоб вказати, що будуть видалені лише ті рядки/стовпці, де всі значення є порожніми.  


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


Параметр `thresh` надає вам більш детальний контроль: ви встановлюєте кількість *ненульових* значень, які рядок або стовпець повинні мати, щоб бути збереженими:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


### Заповнення пропущених значень

Іноді має сенс заповнити пропущені значення такими, які можуть бути допустимими. Існує кілька методів для заповнення null-значень. Перший — використання галузевих знань (знання предметної області, на якій базується набір даних) для приблизного визначення пропущених значень.

Ви можете використовувати `isnull` для цього безпосередньо, але це може бути трудомістким, особливо якщо потрібно заповнити багато значень. Оскільки це дуже поширене завдання в аналізі даних, pandas надає метод `fillna`, який повертає копію `Series` або `DataFrame` з пропущеними значеннями, заміненими на ті, які ви обрали. Давайте створимо ще один приклад `Series`, щоб побачити, як це працює на практиці.


### Категоричні дані (нечислові)
Спочатку розглянемо нечислові дані. У наборах даних є стовпці з категоричними даними, наприклад, Стать, Правда чи Неправда тощо.

У більшості таких випадків ми замінюємо пропущені значення на `моду` стовпця. Наприклад, у нас є 100 точок даних, з яких 90 відповіли Правда, 8 відповіли Неправда, а 2 не заповнили. Тоді ми можемо заповнити ці 2 значення як Правда, враховуючи весь стовпець.

Знову ж таки, тут можна використовувати знання домену. Розглянемо приклад заповнення за модою.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Як ми бачимо, значення null було замінено. Безумовно, ми могли написати будь-що замість `'True'`, і це було б підставлено.


### Числові дані
Тепер перейдемо до числових даних. Тут є два поширені способи заміни відсутніх значень:

1. Замінити на медіану рядка
2. Замінити на середнє значення рядка

Медіану використовують у випадку, якщо дані мають перекіс із викидами. Це тому, що медіана стійка до викидів.

Коли дані нормалізовані, можна використовувати середнє значення, оскільки в такому випадку середнє і медіана будуть досить близькими.

Спочатку візьмемо стовпець, який має нормальний розподіл, і заповнимо відсутнє значення середнім значенням цього стовпця.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


Середнє значення стовпця становить


In [33]:
np.mean(fill_with_mean[0])

0.0

In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Тепер спробуємо інший датафрейм, і цього разу ми замінимо значення None на медіану стовпця.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


Медіана другого стовпця становить


In [36]:
fill_with_median[1].median()

4.0

In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Як ми бачимо, значення NaN було замінено на медіану стовпця


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Ви можете заповнити всі порожні записи одним значенням, наприклад, `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Основні висновки:
1. Заповнення відсутніх значень слід виконувати, коли даних недостатньо або є стратегія для заповнення відсутніх даних.
2. Домашні знання можуть бути використані для заповнення відсутніх значень шляхом їх наближення.
3. Для категоріальних даних найчастіше відсутні значення замінюються модою стовпця.
4. Для числових даних відсутні значення зазвичай заповнюються середнім значенням (для нормалізованих наборів даних) або медіаною стовпців.


In [40]:
# What happens if you try to fill null values with a string, like ''?


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Ви також можете **заповнити назад**, щоб поширити наступне допустиме значення назад для заповнення null:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Як ви могли здогадатися, це працює так само з DataFrames, але ви також можете вказати `axis`, уздовж якого заповнювати null значення:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Ви можете творчо використовувати `fillna`. Наприклад, давайте знову розглянемо `example4`, але цього разу заповнимо відсутні значення середнім значенням усіх значень у `DataFrame`:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Зверніть увагу, що третя колонка все ще порожня: за замовчуванням значення заповнюються по рядках.

> **Висновок:** Існує кілька способів вирішення проблеми з відсутніми значеннями у ваших наборах даних. Конкретна стратегія, яку ви оберете (видалення, заміна або навіть спосіб заміни), повинна залежати від особливостей цих даних. Ви краще зрозумієте, як працювати з відсутніми значеннями, чим більше будете взаємодіяти з наборами даних.


### Кодування категоріальних даних

Моделі машинного навчання працюють лише з числами та будь-якими формами числових даних. Вони не можуть розрізняти "Так" і "Ні", але можуть відрізнити 0 від 1. Тому, після заповнення відсутніх значень, нам потрібно закодувати категоріальні дані в числову форму, щоб модель могла їх зрозуміти.

Кодування можна виконати двома способами. Ми розглянемо їх далі.


**КОДУВАННЯ МІТКИ**

Кодування мітки — це процес перетворення кожної категорії на число. Наприклад, уявімо, що у нас є набір даних про пасажирів авіаліній, і є стовпець, який містить їхній клас серед наступних ['бізнес-клас', 'економ-клас', 'перший клас']. Якщо виконати кодування мітки, це буде перетворено на [0,1,2]. Давайте розглянемо приклад за допомогою коду. Оскільки ми будемо вивчати `scikit-learn` у наступних блокнотах, тут ми його використовувати не будемо.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Щоб виконати кодування міток для першого стовпця, спочатку потрібно описати відображення кожного класу на число, перед заміною


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Як ми бачимо, результат відповідає нашим очікуванням. Отже, коли слід використовувати кодування міток? Кодування міток використовується в одному або обох наступних випадках:
1. Коли кількість категорій велика
2. Коли категорії мають порядок.


**КОДУВАННЯ ONE HOT**

Інший тип кодування — це One Hot Encoding. У цьому типі кодування кожна категорія стовпця додається як окремий стовпець, і кожна точка даних отримує 0 або 1 залежно від того, чи містить вона цю категорію. Отже, якщо є n різних категорій, до датафрейму буде додано n стовпців.

Наприклад, візьмемо той самий приклад класів літака. Категорії були: ['бізнес-клас', 'економ-клас', 'перший клас']. Отже, якщо ми виконаємо кодування One Hot, до набору даних будуть додані наступні три стовпці: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Давайте виконаємо one hot encoding для першого стовпця


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Кожен закодований стовпець містить 0 або 1, що вказує, чи існує ця категорія для даної точки даних.


Коли ми використовуємо one hot encoding? One hot encoding використовується в одному або обох із наступних випадків:

1. Коли кількість категорій і розмір набору даних є невеликими.
2. Коли категорії не мають певного порядку.


> Основні моменти:
1. Кодування здійснюється для перетворення ненумеричних даних у числові.
2. Існує два типи кодування: кодування міток і One Hot кодування, які можна виконувати залежно від потреб набору даних.


## Видалення дубльованих даних

> **Мета навчання:** Після завершення цього підрозділу ви повинні впевнено визначати та видаляти дубльовані значення з DataFrame.

Окрім відсутніх даних, у реальних наборах даних ви часто зустрічатимете дубльовані дані. На щастя, pandas надає простий спосіб виявлення та видалення дубльованих записів.


### Виявлення дублювань: `duplicated`

Ви можете легко знайти дубльовані значення за допомогою методу `duplicated` у pandas, який повертає булеву маску, що вказує, чи є запис у `DataFrame` дубльованим щодо попереднього. Давайте створимо ще один приклад `DataFrame`, щоб побачити це в дії.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Видалення дублікатів: `drop_duplicates`
`drop_duplicates` просто повертає копію даних, для яких всі значення `duplicated` є `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Як `duplicated`, так і `drop_duplicates` за замовчуванням враховують усі стовпці, але ви можете вказати, щоб вони перевіряли лише підмножину стовпців у вашому `DataFrame`:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2



---

**Відмова від відповідальності**:  
Цей документ був перекладений за допомогою сервісу автоматичного перекладу [Co-op Translator](https://github.com/Azure/co-op-translator). Хоча ми прагнемо до точності, будь ласка, майте на увазі, що автоматичні переклади можуть містити помилки або неточності. Оригінальний документ на його рідній мові слід вважати авторитетним джерелом. Для критичної інформації рекомендується професійний людський переклад. Ми не несемо відповідальності за будь-які непорозуміння або неправильні тлумачення, що виникають внаслідок використання цього перекладу.
