# Przygotowanie danych

[Oryginalne źródło notatnika z *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio by Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## Eksplorowanie informacji o `DataFrame`

> **Cel nauki:** Po zakończeniu tej sekcji powinieneś swobodnie znajdować ogólne informacje o danych przechowywanych w pandas DataFrames.

Kiedy załadujesz swoje dane do pandas, najprawdopodobniej będą one znajdować się w obiekcie `DataFrame`. Jednak jeśli zbiór danych w Twoim `DataFrame` zawiera 60 000 wierszy i 400 kolumn, jak w ogóle zacząć orientować się, z czym masz do czynienia? Na szczęście pandas oferuje kilka wygodnych narzędzi, które pozwalają szybko uzyskać ogólne informacje o `DataFrame`, a także podejrzeć kilka pierwszych i ostatnich wierszy.

Aby zbadać tę funkcjonalność, zaimportujemy bibliotekę Python scikit-learn i użyjemy ikonicznego zbioru danych, który każdy data scientist widział setki razy: zbioru danych *Iris* brytyjskiego biologa Ronalda Fishera, użytego w jego pracy z 1936 roku "The use of multiple measurements in taxonomic problems":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Załadowaliśmy zbiór danych Iris do zmiennej `iris_df`. Zanim zagłębimy się w dane, warto wiedzieć, ile mamy punktów danych i jaki jest ogólny rozmiar zbioru danych. Dobrze jest przyjrzeć się, z jaką ilością danych mamy do czynienia.


In [2]:
iris_df.shape

(150, 4)

Mamy do czynienia z 150 wierszami i 4 kolumnami danych. Każdy wiersz reprezentuje jeden punkt danych, a każda kolumna odpowiada pojedynczej cesze związanej z ramką danych. Innymi słowy, mamy 150 punktów danych, z których każdy zawiera 4 cechy.

`shape` tutaj jest atrybutem ramki danych, a nie funkcją, dlatego nie kończy się parą nawiasów.


### `DataFrame.columns`
Przejdźmy teraz do 4 kolumn danych. Co dokładnie każda z nich reprezentuje? Atrybut `columns` pokaże nam nazwy kolumn w dataframe.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Jak widzimy, są cztery (4) kolumny. Atrybut `columns` informuje nas o nazwach kolumn i w zasadzie o niczym więcej. Ten atrybut nabiera znaczenia, gdy chcemy zidentyfikować cechy zawarte w zbiorze danych.


### `DataFrame.info`
Ilość danych (podana przez atrybut `shape`) oraz nazwy cech lub kolumn (podane przez atrybut `columns`) dostarczają nam informacji o zbiorze danych. Teraz chcielibyśmy zagłębić się bardziej w ten zbiór danych. Funkcja `DataFrame.info()` jest bardzo przydatna w tym celu.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


Z tego miejsca możemy wyciągnąć kilka obserwacji:  
1. Typ danych każdej kolumny: W tym zbiorze danych wszystkie dane są przechowywane jako liczby zmiennoprzecinkowe 64-bitowe.  
2. Liczba wartości niepustych: Radzenie sobie z brakującymi wartościami to ważny krok w przygotowaniu danych. Zostanie to omówione później w notebooku.  


### DataFrame.describe()
Załóżmy, że mamy dużo danych numerycznych w naszym zbiorze danych. Jednowymiarowe obliczenia statystyczne, takie jak średnia, mediana, kwartyle itp., mogą być wykonane dla każdej kolumny osobno. Funkcja `DataFrame.describe()` dostarcza nam statystyczne podsumowanie numerycznych kolumn w zbiorze danych.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Powyższy wynik pokazuje całkowitą liczbę punktów danych, średnią, odchylenie standardowe, minimum, dolny kwartyl (25%), medianę (50%), górny kwartyl (75%) oraz maksymalną wartość każdej kolumny.


### `DataFrame.head`
Dzięki wszystkim powyższym funkcjom i atrybutom uzyskaliśmy ogólny obraz zbioru danych. Wiemy, ile jest punktów danych, ile jest cech, jaki jest typ danych każdej cechy oraz ile wartości niepustych przypada na każdą cechę.

Teraz nadszedł czas, aby przyjrzeć się samym danym. Zobaczmy, jak wyglądają pierwsze wiersze (pierwsze punkty danych) naszego `DataFrame`:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


W wyniku tutaj widzimy pięć (5) wpisów zestawu danych. Jeśli spojrzymy na indeks po lewej stronie, dowiemy się, że są to pierwsze pięć wierszy.


### Ćwiczenie:

Na podstawie powyższego przykładu widać, że domyślnie `DataFrame.head` zwraca pierwsze pięć wierszy `DataFrame`. Czy w poniższej komórce kodu potrafisz znaleźć sposób na wyświetlenie więcej niż pięciu wierszy?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
Inny sposób przeglądania danych to spojrzenie na ich koniec (zamiast na początek). Odpowiednikiem `DataFrame.head` jest `DataFrame.tail`, który zwraca ostatnie pięć wierszy `DataFrame`:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


W praktyce przydatne jest móc łatwo przejrzeć pierwsze kilka wierszy lub ostatnie kilka wierszy `DataFrame`, szczególnie gdy szukasz wartości odstających w uporządkowanych zbiorach danych.

Wszystkie funkcje i atrybuty pokazane powyżej za pomocą przykładów kodu pomagają nam uzyskać wgląd w dane.

> **Wniosek:** Nawet samo spojrzenie na metadane dotyczące informacji w `DataFrame` lub na pierwsze i ostatnie kilka wartości pozwala szybko zorientować się w rozmiarze, kształcie i zawartości danych, z którymi pracujesz.


### Brakujące dane
Przyjrzyjmy się brakującym danym. Brakujące dane pojawiają się, gdy w niektórych kolumnach nie ma zapisanej wartości.

Weźmy przykład: załóżmy, że ktoś jest świadomy swojej wagi i nie wypełnia pola dotyczącego wagi w ankiecie. Wtedy wartość wagi dla tej osoby będzie brakująca.

W większości przypadków, w rzeczywistych zbiorach danych, występują brakujące wartości.

**Jak Pandas radzi sobie z brakującymi danymi**

Pandas obsługuje brakujące wartości na dwa sposoby. Pierwszy z nich widziałeś już wcześniej w poprzednich sekcjach: `NaN`, czyli Not a Number. Jest to w rzeczywistości specjalna wartość będąca częścią specyfikacji IEEE dla liczb zmiennoprzecinkowych i jest używana wyłącznie do wskazywania brakujących wartości zmiennoprzecinkowych.

W przypadku brakujących wartości innych niż liczby zmiennoprzecinkowe, pandas używa obiektu `None` w Pythonie. Choć może wydawać się to mylące, że spotkasz dwa różne typy wartości oznaczające zasadniczo to samo, istnieją uzasadnione programistyczne powody dla takiego wyboru projektowego. W praktyce takie podejście pozwala pandas na osiągnięcie dobrego kompromisu w zdecydowanej większości przypadków. Niemniej jednak zarówno `None`, jak i `NaN` mają ograniczenia, o których należy pamiętać w kontekście ich użycia.


### `None`: brakujące dane nie będące liczbami zmiennoprzecinkowymi
Ponieważ `None` pochodzi z Pythona, nie może być używane w tablicach NumPy i pandas, które nie mają typu danych `'object'`. Pamiętaj, że tablice NumPy (oraz struktury danych w pandas) mogą zawierać tylko jeden typ danych. To właśnie daje im ogromną moc w pracy z dużymi zbiorami danych i obliczeniami, ale jednocześnie ogranicza ich elastyczność. Takie tablice muszą być "podniesione" do „najniższego wspólnego mianownika”, czyli typu danych, który obejmie wszystko w tablicy. Gdy w tablicy znajduje się `None`, oznacza to, że pracujesz z obiektami Pythona.

Aby zobaczyć to w praktyce, rozważ poniższą przykładową tablicę (zwróć uwagę na jej `dtype`):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

Rzeczywistość związana z podnoszeniem typów danych niesie ze sobą dwa skutki uboczne. Po pierwsze, operacje będą wykonywane na poziomie interpretowanego kodu Python, a nie skompilowanego kodu NumPy. W praktyce oznacza to, że wszelkie operacje obejmujące `Series` lub `DataFrames` zawierające `None` będą wolniejsze. Chociaż prawdopodobnie nie zauważysz tego spadku wydajności, w przypadku dużych zbiorów danych może to stać się problemem.

Drugi skutek uboczny wynika z pierwszego. Ponieważ `None` zasadniczo sprowadza `Series` lub `DataFrame` z powrotem do świata czystego Pythona, użycie agregacji NumPy/pandas, takich jak `sum()` czy `min()` na tablicach zawierających wartość ``None`` zazwyczaj spowoduje błąd:


In [10]:
example1.sum()

TypeError: ignored

**Kluczowa informacja**: Dodawanie (i inne operacje) między liczbami całkowitymi a wartościami `None` jest niezdefiniowane, co może ograniczać możliwości pracy z zestawami danych, które je zawierają.


### `NaN`: brakujące wartości zmiennoprzecinkowe

W przeciwieństwie do `None`, NumPy (a co za tym idzie pandas) obsługuje `NaN` dla swoich szybkich, wektorowych operacji i funkcji uniwersalnych (ufuncs). Złą wiadomością jest to, że każda operacja arytmetyczna wykonana na `NaN` zawsze daje w wyniku `NaN`. Na przykład:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

Dobra wiadomość: agregacje wykonywane na tablicach zawierających `NaN` nie generują błędów. Zła wiadomość: wyniki nie zawsze są użyteczne:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### Ćwiczenie:


In [11]:
# What happens if you add np.nan and None together?


### `NaN` i `None`: wartości null w pandas

Chociaż `NaN` i `None` mogą zachowywać się nieco inaczej, pandas zostało zaprojektowane tak, aby obsługiwać je zamiennie. Aby zobaczyć, co mamy na myśli, rozważ `Series` liczb całkowitych:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### Ćwiczenie:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


W procesie podnoszenia typów danych w celu zapewnienia jednorodności danych w `Series` i `DataFrame`, pandas bez problemu zamienia brakujące wartości między `None` a `NaN`. Ze względu na tę cechę projektową, warto myśleć o `None` i `NaN` jako o dwóch różnych odmianach "wartości pustych" w pandas. W rzeczywistości, niektóre z podstawowych metod, które będziesz używać do obsługi brakujących wartości w pandas, odzwierciedlają tę ideę w swoich nazwach:

- `isnull()`: Tworzy maskę logiczną wskazującą brakujące wartości
- `notnull()`: Przeciwieństwo `isnull()`
- `dropna()`: Zwraca przefiltrowaną wersję danych
- `fillna()`: Zwraca kopię danych z uzupełnionymi lub imputowanymi brakującymi wartościami

Te metody są kluczowe do opanowania i warto się z nimi dobrze zapoznać, więc omówmy je każdą z osobna bardziej szczegółowo.


### Wykrywanie wartości null

Teraz, gdy zrozumieliśmy znaczenie brakujących wartości, musimy je wykryć w naszym zbiorze danych, zanim zaczniemy je obsługiwać.  
Zarówno `isnull()`, jak i `notnull()` to podstawowe metody do wykrywania danych null. Obie zwracają maski logiczne dla Twoich danych.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Przyjrzyj się uważnie wynikowi. Czy coś Cię w nim zaskakuje? Chociaż `0` jest arytmetycznym zerem, to mimo wszystko jest pełnoprawną liczbą całkowitą i pandas traktuje go właśnie w ten sposób. `''` jest nieco bardziej subtelne. Chociaż w Rozdziale 1 używaliśmy go do reprezentowania pustego ciągu znaków, to mimo wszystko jest to obiekt typu string, a nie reprezentacja wartości null w rozumieniu pandas.

Teraz odwróćmy sytuację i użyjmy tych metod w sposób bardziej zbliżony do praktycznego zastosowania. Możesz używać masek logicznych bezpośrednio jako indeksu ``Series`` lub ``DataFrame``, co może być przydatne, gdy próbujesz pracować z izolowanymi brakującymi (lub obecnymi) wartościami.

Jeśli chcemy uzyskać całkowitą liczbę brakujących wartości, możemy po prostu wykonać sumowanie maski wygenerowanej przez metodę `isnull()`.


In [19]:
example3.isnull().sum()

2

### Ćwiczenie:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Kluczowa informacja**: Zarówno metody `isnull()`, jak i `notnull()` dają podobne wyniki, gdy używasz ich w DataFrame'ach: pokazują wyniki oraz indeks tych wyników, co będzie ogromną pomocą podczas pracy z danymi.


### Radzenie sobie z brakującymi danymi

> **Cel nauki:** Po zakończeniu tej sekcji powinieneś wiedzieć, jak i kiedy zastępować lub usuwać brakujące wartości w DataFrames.

Modele uczenia maszynowego nie potrafią samodzielnie radzić sobie z brakującymi danymi. Dlatego przed przekazaniem danych do modelu musimy zająć się tymi brakującymi wartościami.

Sposób, w jaki radzimy sobie z brakującymi danymi, wiąże się z subtelnymi kompromisami i może wpłynąć na końcową analizę oraz wyniki w rzeczywistych zastosowaniach.

Istnieją głównie dwa sposoby radzenia sobie z brakującymi danymi:

1.   Usunięcie wiersza zawierającego brakującą wartość
2.   Zastąpienie brakującej wartości inną wartością

Omówimy obie te metody oraz ich zalety i wady w szczegółach.


### Usuwanie wartości null

Ilość danych, które przekazujemy do naszego modelu, ma bezpośredni wpływ na jego wydajność. Usuwanie wartości null oznacza zmniejszenie liczby punktów danych, a co za tym idzie, zmniejszenie rozmiaru zbioru danych. Dlatego zaleca się usuwanie wierszy z wartościami null, gdy zbiór danych jest dość duży.

Innym przypadkiem może być sytuacja, gdy dany wiersz lub kolumna ma wiele brakujących wartości. W takim przypadku można je usunąć, ponieważ nie wniosą one zbyt wiele do naszej analizy, gdy większość danych dla tego wiersza/kolumny jest nieobecna.

Oprócz identyfikowania brakujących wartości, pandas oferuje wygodne narzędzie do usuwania wartości null z `Series` i `DataFrame`. Aby zobaczyć to w praktyce, wróćmy do `example3`. Funkcja `DataFrame.dropna()` pomaga w usuwaniu wierszy z wartościami null.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Należy zauważyć, że wynik powinien wyglądać jak wynik z `example3[example3.notnull()]`. Różnica polega na tym, że zamiast indeksować na podstawie wartości maskowanych, `dropna` usunął te brakujące wartości z `Series` `example3`.

Ponieważ DataFrames mają dwa wymiary, oferują więcej opcji usuwania danych.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Czy zauważyłeś, że pandas przekonwertował dwie kolumny na typ float, aby uwzględnić `NaN`?)

Nie możesz usunąć pojedynczej wartości z `DataFrame`, więc musisz usunąć całe wiersze lub kolumny. W zależności od tego, co chcesz osiągnąć, możesz wybrać jedną z tych opcji, a pandas daje możliwość wykonania obu. Ponieważ w nauce o danych kolumny zazwyczaj reprezentują zmienne, a wiersze reprezentują obserwacje, częściej usuwa się wiersze danych; domyślne ustawienie dla `dropna()` to usunięcie wszystkich wierszy zawierających jakiekolwiek wartości null:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Jeśli to konieczne, możesz usunąć wartości NA z kolumn. Użyj `axis=1`, aby to zrobić:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Zauważ, że może to spowodować utratę dużej ilości danych, które mogą być dla Ciebie istotne, szczególnie w przypadku mniejszych zbiorów danych. Co zrobić, jeśli chcesz usunąć tylko te wiersze lub kolumny, które zawierają kilka lub nawet wszystkie wartości null? Możesz określić te ustawienia w `dropna` za pomocą parametrów `how` i `thresh`.

Domyślnie `how='any'` (jeśli chcesz to sprawdzić samodzielnie lub zobaczyć, jakie inne parametry ma ta metoda, uruchom `example4.dropna?` w komórce kodu). Alternatywnie możesz określić `how='all'`, aby usunąć tylko te wiersze lub kolumny, które zawierają wyłącznie wartości null. Rozszerzmy nasz przykład `DataFrame`, aby zobaczyć to w praktyce w następnym ćwiczeniu.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Kluczowe informacje:  
1. Usuwanie wartości null jest dobrym pomysłem tylko wtedy, gdy zbiór danych jest wystarczająco duży.  
2. Całe wiersze lub kolumny można usunąć, jeśli większość ich danych jest brakująca.  
3. Metoda `DataFrame.dropna(axis=)` pomaga w usuwaniu wartości null. Argument `axis` określa, czy mają być usunięte wiersze, czy kolumny.  
4. Można również użyć argumentu `how`. Domyślnie jest ustawiony na `any`, co oznacza, że usuwane są tylko te wiersze/kolumny, które zawierają jakiekolwiek wartości null. Można go ustawić na `all`, aby określić, że usunięte zostaną tylko te wiersze/kolumny, w których wszystkie wartości są null.  


### Ćwiczenie:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


Parametr `thresh` daje bardziej szczegółową kontrolę: ustawiasz liczbę wartości *niepustych*, które wiersz lub kolumna muszą mieć, aby zostały zachowane:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


Tutaj pierwszy i ostatni wiersz zostały usunięte, ponieważ zawierają tylko dwie niepuste wartości.


### Wypełnianie brakujących wartości

Czasami warto uzupełnić brakujące wartości takimi, które mogą być uznane za prawidłowe. Istnieje kilka technik wypełniania braków. Pierwszą z nich jest wykorzystanie wiedzy dziedzinowej (znajomości tematu, na którym opiera się zestaw danych), aby w przybliżeniu określić brakujące wartości.

Możesz użyć `isnull`, aby zrobić to bezpośrednio, ale może to być czasochłonne, szczególnie jeśli masz wiele wartości do uzupełnienia. Ponieważ jest to tak częste zadanie w analizie danych, pandas oferuje funkcję `fillna`, która zwraca kopię `Series` lub `DataFrame` z brakującymi wartościami zastąpionymi wybranymi przez Ciebie. Stwórzmy kolejny przykład `Series`, aby zobaczyć, jak to działa w praktyce.


### Dane kategoryczne (nienumeryczne)
Najpierw rozważmy dane nienumeryczne. W zbiorach danych mamy kolumny zawierające dane kategoryczne, np. płeć, Prawda lub Fałsz itp.

W większości takich przypadków zastępujemy brakujące wartości `modą` kolumny. Załóżmy, że mamy 100 punktów danych, z czego 90 wskazało Prawda, 8 wskazało Fałsz, a 2 nie zostały wypełnione. Wtedy możemy uzupełnić te 2 brakujące wartości jako Prawda, biorąc pod uwagę całą kolumnę.

Tutaj również możemy wykorzystać wiedzę dziedzinową. Rozważmy przykład uzupełniania braków za pomocą mody.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Jak widzimy, wartość null została zastąpiona. Nie trzeba dodawać, że moglibyśmy wpisać cokolwiek zamiast `'True'` i zostałoby to podstawione.


### Dane Liczbowe
Przechodząc teraz do danych liczbowych. Tutaj mamy dwa powszechne sposoby zastępowania brakujących wartości:

1. Zastąpienie medianą wiersza  
2. Zastąpienie średnią wiersza  

Zastępujemy medianą w przypadku danych skośnych z wartościami odstającymi. Dzieje się tak, ponieważ mediana jest odporna na wartości odstające.

Gdy dane są znormalizowane, możemy użyć średniej, ponieważ w takim przypadku średnia i mediana będą do siebie bardzo zbliżone.

Najpierw weźmy kolumnę, która ma rozkład normalny, i uzupełnijmy brakujące wartości średnią tej kolumny.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


Średnia kolumny wynosi


In [33]:
np.mean(fill_with_mean[0])

0.0

In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Jak widzimy, brakująca wartość została zastąpiona jej średnią.


Teraz spróbujmy innej ramki danych, a tym razem zastąpimy wartości None medianą kolumny.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


Mediana drugiej kolumny to


In [36]:
fill_with_median[1].median()

4.0

In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Jak widzimy, wartość NaN została zastąpiona medianą kolumny


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Możesz wypełnić wszystkie puste wpisy jedną wartością, taką jak `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Kluczowe wnioski:  
1. Uzupełnianie brakujących wartości powinno być przeprowadzane, gdy danych jest niewiele lub istnieje strategia na ich uzupełnienie.  
2. Wiedza domenowa może być wykorzystana do przybliżonego uzupełnienia brakujących wartości.  
3. W przypadku danych kategorycznych brakujące wartości najczęściej zastępuje się modą kolumny.  
4. W przypadku danych numerycznych brakujące wartości zazwyczaj uzupełnia się średnią (dla znormalizowanych zbiorów danych) lub medianą kolumn.  


Ćwiczenie:


In [40]:
# What happens if you try to fill null values with a string, like ''?


Możesz **uzupełnić w przód** wartości null, czyli użyć ostatniej prawidłowej wartości do wypełnienia null:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Możesz również **uzupełnić wstecz**, aby propagować następną prawidłową wartość wstecz w celu wypełnienia wartości null:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Jak możesz się domyślić, działa to tak samo z DataFrames, ale możesz również określić `axis`, wzdłuż którego wypełniane będą wartości null:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Zauważ, że gdy poprzednia wartość nie jest dostępna do uzupełnienia, wartość null pozostaje.


### Ćwiczenie:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Możesz być kreatywny w używaniu `fillna`. Na przykład, spójrzmy ponownie na `example4`, ale tym razem wypełnijmy brakujące wartości średnią wszystkich wartości w `DataFrame`:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Zauważ, że kolumna 3 nadal nie ma wartości: domyślny kierunek to wypełnianie wartości wierszami.

> **Wniosek:** Istnieje wiele sposobów radzenia sobie z brakującymi wartościami w zbiorach danych. Konkretna strategia, którą zastosujesz (usuwanie, zastępowanie lub sposób zastępowania), powinna być uzależniona od specyfiki tych danych. Im więcej będziesz pracować z zestawami danych, tym lepiej zrozumiesz, jak radzić sobie z brakującymi wartościami.


### Kodowanie danych kategorycznych

Modele uczenia maszynowego operują wyłącznie na liczbach i wszelkiego rodzaju danych numerycznych. Nie są w stanie rozróżnić "Tak" od "Nie", ale potrafią odróżnić 0 od 1. Dlatego po uzupełnieniu brakujących wartości musimy zakodować dane kategoryczne w formie numerycznej, aby model mógł je zrozumieć.

Kodowanie można przeprowadzić na dwa sposoby. Omówimy je w dalszej części.


**KODOWANIE ETYKIET**  

Kodowanie etykiet polega na zamianie każdej kategorii na liczbę. Na przykład, załóżmy, że mamy zbiór danych pasażerów linii lotniczych i znajduje się w nim kolumna zawierająca ich klasę spośród następujących ['klasa biznesowa', 'klasa ekonomiczna', 'klasa pierwsza']. Jeśli zastosujemy kodowanie etykiet, zostanie to przekształcone na [0,1,2]. Zobaczmy przykład w kodzie. Ponieważ będziemy uczyć się `scikit-learn` w kolejnych notatnikach, tutaj go nie użyjemy.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Aby wykonać kodowanie etykiet na pierwszej kolumnie, musimy najpierw opisać mapowanie każdej klasy na liczbę, zanim zastąpimy


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Jak widzimy, wynik jest zgodny z naszymi przewidywaniami. Kiedy więc stosujemy kodowanie etykiet? Kodowanie etykiet stosuje się w jednym lub obu z poniższych przypadków:  
1. Gdy liczba kategorii jest duża  
2. Gdy kategorie są uporządkowane.  


**JEDNOZNACZNE KODOWANIE (ONE HOT ENCODING)**

Innym rodzajem kodowania jest jednoznaczne kodowanie (One Hot Encoding). W tym typie kodowania każda kategoria z kolumny zostaje dodana jako osobna kolumna, a każdemu punktowi danych przypisywana jest wartość 0 lub 1 w zależności od tego, czy zawiera daną kategorię. Jeśli więc istnieje n różnych kategorii, do ramki danych zostanie dodanych n kolumn.

Na przykład, weźmy ten sam przykład klas w samolocie. Kategorie to: ['business class', 'economy class', 'first class']. Jeśli zastosujemy jednoznaczne kodowanie, do zbioru danych zostaną dodane następujące trzy kolumny: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Wykonajmy one hot encoding na pierwszej kolumnie


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Każda zakodowana kolumna one-hot zawiera 0 lub 1, co określa, czy dana kategoria istnieje dla tego punktu danych.


Kiedy używamy kodowania one hot? Kodowanie one hot stosuje się w jednym lub obu z poniższych przypadków:

1. Gdy liczba kategorii i rozmiar zbioru danych są niewielkie.
2. Gdy kategorie nie mają określonego porządku.


> Kluczowe wnioski:  
1. Kodowanie służy do przekształcania danych nienumerycznych na dane numeryczne.  
2. Istnieją dwa rodzaje kodowania: kodowanie etykiet (Label encoding) i kodowanie One Hot, które można zastosować w zależności od wymagań zbioru danych.  


## Usuwanie zduplikowanych danych

> **Cel nauki:** Po zakończeniu tej sekcji powinieneś swobodnie identyfikować i usuwać zduplikowane wartości z DataFrames.

Oprócz brakujących danych, w rzeczywistych zbiorach danych często napotkasz zduplikowane dane. Na szczęście pandas oferuje prosty sposób na wykrywanie i usuwanie zduplikowanych wpisów.


### Identyfikacja duplikatów: `duplicated`

Możesz łatwo zidentyfikować duplikaty za pomocą metody `duplicated` w pandas. Zwraca ona maskę logiczną wskazującą, czy dany wpis w `DataFrame` jest duplikatem wcześniejszego. Stwórzmy kolejny przykład `DataFrame`, aby zobaczyć, jak to działa w praktyce.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Usuwanie duplikatów: `drop_duplicates`
`drop_duplicates` po prostu zwraca kopię danych, dla których wszystkie wartości oznaczone jako `duplicated` są `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Zarówno `duplicated`, jak i `drop_duplicates` domyślnie uwzględniają wszystkie kolumny, ale możesz określić, że mają sprawdzać tylko podzbiór kolumn w Twoim `DataFrame`:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2



---

**Zastrzeżenie**:  
Ten dokument został przetłumaczony za pomocą usługi tłumaczeniowej AI [Co-op Translator](https://github.com/Azure/co-op-translator). Chociaż dokładamy wszelkich starań, aby tłumaczenie było precyzyjne, prosimy pamiętać, że automatyczne tłumaczenia mogą zawierać błędy lub nieścisłości. Oryginalny dokument w jego rodzimym języku powinien być uznawany za wiarygodne źródło. W przypadku informacji krytycznych zaleca się skorzystanie z profesjonalnego tłumaczenia wykonanego przez człowieka. Nie ponosimy odpowiedzialności za jakiekolwiek nieporozumienia lub błędne interpretacje wynikające z korzystania z tego tłumaczenia.
