# Pregătirea Datelor

[Notebook-ul original din *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio by Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## Explorarea informațiilor din `DataFrame`

> **Obiectiv de învățare:** Până la finalul acestei subsecțiuni, ar trebui să te simți confortabil să găsești informații generale despre datele stocate în pandas DataFrames.

Odată ce ai încărcat datele în pandas, cel mai probabil acestea vor fi într-un `DataFrame`. Totuși, dacă setul de date din `DataFrame` are 60.000 de rânduri și 400 de coloane, de unde începi să înțelegi cu ce lucrezi? Din fericire, pandas oferă câteva instrumente convenabile pentru a analiza rapid informațiile generale despre un `DataFrame`, pe lângă primele și ultimele câteva rânduri.

Pentru a explora această funcționalitate, vom importa biblioteca Python scikit-learn și vom folosi un set de date iconic pe care fiecare specialist în date l-a văzut de sute de ori: setul de date *Iris* al biologului britanic Ronald Fisher, utilizat în lucrarea sa din 1936 "The use of multiple measurements in taxonomic problems":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Am încărcat setul de date Iris în variabila `iris_df`. Înainte de a analiza datele, ar fi util să știm câte puncte de date avem și dimensiunea generală a setului de date. Este important să ne uităm la volumul de date cu care lucrăm.


In [2]:
iris_df.shape

(150, 4)

Așadar, lucrăm cu 150 de rânduri și 4 coloane de date. Fiecare rând reprezintă un punct de date, iar fiecare coloană reprezintă o caracteristică asociată cu cadrul de date. Practic, există 150 de puncte de date, fiecare conținând 4 caracteristici.

`shape` aici este un atribut al cadrului de date și nu o funcție, motiv pentru care nu se termină cu o pereche de paranteze.


### `DataFrame.columns`
Să trecem acum la cele 4 coloane de date. Ce reprezintă exact fiecare dintre ele? Atributul `columns` ne va oferi numele coloanelor din dataframe.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Așa cum putem vedea, există patru (4) coloane. Atributul `columns` ne spune numele coloanelor și, practic, nimic altceva. Acest atribut devine important atunci când dorim să identificăm caracteristicile pe care le conține un set de date.


### `DataFrame.info`
Cantitatea de date (indicată de atributul `shape`) și numele caracteristicilor sau coloanelor (indicată de atributul `columns`) ne oferă informații despre setul de date. Acum, am dori să explorăm mai în detaliu setul de date. Funcția `DataFrame.info()` este foarte utilă pentru acest lucru.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


Din acest punct, putem face câteva observații:  
1. Tipul de date al fiecărei coloane: În acest set de date, toate valorile sunt stocate ca numere în virgulă mobilă pe 64 de biți.  
2. Numărul de valori non-nule: Gestionarea valorilor nule este un pas important în pregătirea datelor. Acest aspect va fi abordat mai târziu în notebook.  


### DataFrame.describe()
Să presupunem că avem multe date numerice în setul nostru de date. Calculele statistice univariate, cum ar fi media, mediana, quartilele etc., pot fi realizate individual pe fiecare coloană. Funcția `DataFrame.describe()` ne oferă un rezumat statistic al coloanelor numerice dintr-un set de date.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Rezultatul de mai sus arată numărul total de puncte de date, media, abaterea standard, valoarea minimă, primul quartil (25%), mediana (50%), al treilea quartil (75%) și valoarea maximă pentru fiecare coloană.


### `DataFrame.head`
Cu toate funcțiile și atributele de mai sus, avem o perspectivă de ansamblu asupra setului de date. Știm câte puncte de date există, câte caracteristici sunt, tipul de date al fiecărei caracteristici și numărul de valori nenule pentru fiecare caracteristică.

Acum este momentul să ne uităm la datele propriu-zise. Să vedem cum arată primele câteva rânduri (primele câteva puncte de date) ale `DataFrame`:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Ca rezultat aici, putem vedea cinci (5) intrări ale setului de date. Dacă ne uităm la indexul din stânga, aflăm că acestea sunt primele cinci rânduri.


### Exercițiu:

Din exemplul dat mai sus, este clar că, în mod implicit, `DataFrame.head` returnează primele cinci rânduri ale unui `DataFrame`. În celula de cod de mai jos, poți găsi o modalitate de a afișa mai mult de cinci rânduri?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
O altă modalitate de a analiza datele poate fi de la sfârșit (în loc de început). Opusul lui `DataFrame.head` este `DataFrame.tail`, care returnează ultimele cinci rânduri ale unui `DataFrame`:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


În practică, este util să poți examina cu ușurință primele câteva rânduri sau ultimele câteva rânduri ale unui `DataFrame`, mai ales atunci când cauți valori anormale în seturi de date ordonate.

Toate funcțiile și atributele prezentate mai sus, cu ajutorul exemplelor de cod, ne ajută să obținem o perspectivă asupra datelor.

> **Concluzie:** Chiar și doar uitându-te la metadatele despre informațiile dintr-un DataFrame sau la primele și ultimele câteva valori din acesta, poți obține imediat o idee despre dimensiunea, forma și conținutul datelor cu care lucrezi.


### Date Lipsă
Să explorăm datele lipsă. Datele lipsă apar atunci când nu există nicio valoare stocată în unele dintre coloane.

Să luăm un exemplu: să presupunem că cineva este preocupat de greutatea sa și nu completează câmpul pentru greutate într-un sondaj. În acest caz, valoarea greutății pentru acea persoană va fi lipsă.

De cele mai multe ori, în seturile de date din lumea reală, apar valori lipsă.

**Cum gestionează Pandas datele lipsă**

Pandas gestionează valorile lipsă în două moduri. Primul mod, pe care l-ai văzut deja în secțiunile anterioare, este `NaN`, sau Not a Number. Aceasta este, de fapt, o valoare specială care face parte din specificația IEEE pentru numere în virgulă mobilă și este utilizată doar pentru a indica valori lipsă de tip float.

Pentru valorile lipsă care nu sunt de tip float, pandas folosește obiectul `None` din Python. Deși poate părea confuz să întâlnești două tipuri diferite de valori care exprimă, în esență, același lucru, există motive programatice solide pentru această alegere de design, iar, în practică, această abordare permite pandas să ofere un compromis bun pentru marea majoritate a cazurilor. Cu toate acestea, atât `None`, cât și `NaN` au restricții de care trebuie să ții cont în ceea ce privește modul în care pot fi utilizate.


### `None`: date lipsă non-float
Deoarece `None` provine din Python, acesta nu poate fi utilizat în array-urile NumPy și pandas care nu au tipul de date `'object'`. Rețineți că array-urile NumPy (și structurile de date din pandas) pot conține un singur tip de date. Aceasta este ceea ce le oferă o putere extraordinară pentru lucrul cu date la scară largă și pentru calcule, dar le limitează și flexibilitatea. Astfel de array-uri trebuie să fie convertite la „cel mai mic numitor comun,” adică tipul de date care poate cuprinde totul din array. Când `None` este prezent în array, înseamnă că lucrați cu obiecte Python.

Pentru a vedea acest lucru în practică, luați în considerare următorul exemplu de array (observați `dtype` pentru acesta):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

Realitatea tipurilor de date promovate vine cu două efecte secundare. În primul rând, operațiunile vor fi efectuate la nivelul codului Python interpretat, mai degrabă decât la nivelul codului compilat NumPy. Practic, acest lucru înseamnă că orice operațiuni care implică `Series` sau `DataFrames` ce conțin `None` vor fi mai lente. Deși probabil nu vei observa această scădere a performanței, pentru seturi de date mari ar putea deveni o problemă.

Al doilea efect secundar derivă din primul. Deoarece `None` trage, practic, `Series` sau `DataFrame`s înapoi în lumea Python-ului simplu, utilizarea agregărilor NumPy/pandas precum `sum()` sau `min()` pe array-uri care conțin o valoare ``None`` va produce, în general, o eroare:


In [10]:
example1.sum()

TypeError: ignored

### `NaN`: valori float lipsă

Spre deosebire de `None`, NumPy (și, prin urmare, pandas) acceptă `NaN` pentru operațiunile sale rapide, vectorizate și ufuncs. Vestea proastă este că orice operație aritmetică efectuată pe `NaN` va rezulta întotdeauna în `NaN`. De exemplu:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

Vestea bună: agregările care rulează pe șiruri cu `NaN` în ele nu generează erori. Vestea proastă: rezultatele nu sunt uniform utile:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

In [11]:
# What happens if you add np.nan and None together?


### `NaN` și `None`: valori nule în pandas

Deși `NaN` și `None` pot avea comportamente ușor diferite, pandas este totuși conceput să le gestioneze interschimbabil. Pentru a înțelege ce vrem să spunem, luați în considerare un `Series` de numere întregi:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


În procesul de conversie a tipurilor de date pentru a stabili omogenitatea datelor în `Series` și `DataFrame`-uri, pandas va schimba fără probleme valorile lipsă între `None` și `NaN`. Datorită acestei caracteristici de design, poate fi util să consideri `None` și `NaN` ca două variante diferite ale valorii "null" în pandas. De fapt, unele dintre metodele de bază pe care le vei folosi pentru a gestiona valorile lipsă în pandas reflectă această idee în denumirile lor:

- `isnull()`: Generează o mască booleană care indică valorile lipsă
- `notnull()`: Opusul lui `isnull()`
- `dropna()`: Returnează o versiune filtrată a datelor
- `fillna()`: Returnează o copie a datelor cu valorile lipsă completate sau imputate

Acestea sunt metode importante pe care trebuie să le stăpânești și cu care să te familiarizezi, așa că haide să le analizăm pe fiecare în detaliu.


### Detectarea valorilor nule

Acum că am înțeles importanța valorilor lipsă, trebuie să le detectăm în setul nostru de date înainte de a le gestiona. 
Atât `isnull()`, cât și `notnull()` sunt metodele principale pentru detectarea datelor nule. Ambele returnează măști booleene aplicate asupra datelor tale.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Privește cu atenție rezultatul. Te surprinde ceva? Deși `0` este un nul aritmetic, este totuși un număr întreg valid, iar pandas îl tratează ca atare. `''` este puțin mai subtil. Deși l-am folosit în Secțiunea 1 pentru a reprezenta o valoare de șir de caractere gol, este totuși un obiect de tip șir de caractere și nu o reprezentare a valorii nule din perspectiva pandas.

Acum, să schimbăm perspectiva și să folosim aceste metode într-un mod mai apropiat de cum le vei utiliza în practică. Poți folosi măști booleene direct ca index pentru un ``Series`` sau un ``DataFrame``, ceea ce poate fi util atunci când încerci să lucrezi cu valori lipsă (sau prezente) izolate.

Dacă dorim numărul total de valori lipsă, putem pur și simplu să facem o sumă peste masca produsă de metoda `isnull()`.


In [19]:
example3.isnull().sum()

2

In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Concluzie principală**: Atât metodele `isnull()`, cât și `notnull()` produc rezultate similare atunci când le utilizați în DataFrame-uri: ele afișează rezultatele și indexul acelor rezultate, ceea ce vă va ajuta enorm în lucrul cu datele dumneavoastră.


### Gestionarea datelor lipsă

> **Obiectiv de învățare:** Până la finalul acestei subsecțiuni, ar trebui să știi cum și când să înlocuiești sau să elimini valorile nule din DataFrame-uri.

Modelele de Machine Learning nu pot gestiona singure datele lipsă. Așadar, înainte de a introduce datele în model, trebuie să rezolvăm aceste valori lipsă.

Modul în care sunt gestionate datele lipsă implică compromisuri subtile, care pot influența analiza finală și rezultatele din lumea reală.

Există în principal două moduri de a gestiona datele lipsă:

1.   Eliminarea rândului care conține valoarea lipsă  
2.   Înlocuirea valorii lipsă cu o altă valoare  

Vom discuta în detaliu ambele metode, împreună cu avantajele și dezavantajele lor.


### Eliminarea valorilor nule

Cantitatea de date pe care o transmitem modelului nostru are un efect direct asupra performanței acestuia. Eliminarea valorilor nule înseamnă că reducem numărul de puncte de date și, prin urmare, dimensiunea setului de date. Așadar, este recomandat să eliminăm rândurile cu valori nule atunci când setul de date este destul de mare.

O altă situație poate fi aceea în care un anumit rând sau o anumită coloană are multe valori lipsă. În acest caz, acestea pot fi eliminate, deoarece nu ar adăuga prea multă valoare analizei noastre, având în vedere că majoritatea datelor lipsesc pentru acel rând/coloană.

Dincolo de identificarea valorilor lipsă, pandas oferă un mijloc convenabil de a elimina valorile nule din `Series` și `DataFrame`-uri. Pentru a vedea acest lucru în practică, să revenim la `example3`. Funcția `DataFrame.dropna()` ajută la eliminarea rândurilor cu valori nule.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Rețineți că acest lucru ar trebui să arate ca rezultatul din `example3[example3.notnull()]`. Diferența aici este că, în loc să indexeze doar valorile mascate, `dropna` a eliminat acele valori lipsă din `Series` `example3`.

Deoarece DataFrame-urile au două dimensiuni, acestea oferă mai multe opțiuni pentru eliminarea datelor.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Ai observat că pandas a convertit două dintre coloane în tipul float pentru a acomoda valorile `NaN`?)

Nu poți elimina o singură valoare dintr-un `DataFrame`, așa că trebuie să elimini rânduri sau coloane întregi. În funcție de ceea ce faci, s-ar putea să vrei să alegi una dintre aceste opțiuni, iar pandas îți oferă posibilitatea de a face ambele. Deoarece, în știința datelor, coloanele reprezintă, în general, variabile, iar rândurile reprezintă observații, este mai probabil să elimini rânduri de date; setarea implicită pentru `dropna()` este să elimine toate rândurile care conțin orice valori nule:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Dacă este necesar, poți elimina valorile NA din coloane. Folosește `axis=1` pentru a face acest lucru:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Reține că acest lucru poate elimina o cantitate mare de date pe care ai putea dori să le păstrezi, mai ales în seturi de date mai mici. Ce se întâmplă dacă vrei să elimini doar rândurile sau coloanele care conțin mai multe sau chiar toate valorile nule? Poți specifica aceste setări în `dropna` folosind parametrii `how` și `thresh`.

Implicit, `how='any'` (dacă vrei să verifici singur sau să vezi ce alți parametri are metoda, rulează `example4.dropna?` într-o celulă de cod). Alternativ, ai putea specifica `how='all'` pentru a elimina doar rândurile sau coloanele care conțin toate valorile nule. Să extindem exemplul nostru de `DataFrame` pentru a vedea acest lucru în acțiune în exercițiul următor.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Puncte cheie:  
1. Eliminarea valorilor nule este o idee bună doar dacă setul de date este suficient de mare.  
2. Rândurile sau coloanele întregi pot fi eliminate dacă majoritatea datelor lor lipsesc.  
3. Metoda `DataFrame.dropna(axis=)` ajută la eliminarea valorilor nule. Argumentul `axis` indică dacă trebuie eliminate rândurile sau coloanele.  
4. Se poate utiliza și argumentul `how`. Implicit, acesta este setat la `any`. Astfel, elimină doar acele rânduri/coloane care conțin orice valoare nulă. Poate fi setat la `all` pentru a specifica faptul că vom elimina doar acele rânduri/coloane unde toate valorile sunt nule.  


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


Parametrul `thresh` îți oferă un control mai detaliat: setezi numărul de valori *nenule* pe care un rând sau o coloană trebuie să le aibă pentru a fi păstrate:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


### Completarea valorilor nule

Uneori are sens să completăm valorile lipsă cu unele care ar putea fi valide. Există câteva tehnici pentru a completa valorile nule. Prima este utilizarea Cunoștințelor de Domeniu (cunoștințe despre subiectul pe care se bazează setul de date) pentru a aproxima cumva valorile lipsă.

Poți folosi `isnull` pentru a face acest lucru direct, dar poate fi obositor, mai ales dacă ai multe valori de completat. Deoarece aceasta este o sarcină atât de comună în știința datelor, pandas oferă `fillna`, care returnează o copie a `Series` sau `DataFrame` cu valorile lipsă înlocuite cu cele alese de tine. Hai să creăm un alt exemplu de `Series` pentru a vedea cum funcționează acest lucru în practică.


### Date Categorice (Non-numerice)
Mai întâi, să luăm în considerare datele non-numerice. În seturile de date, avem coloane cu date categorice. De exemplu, Gen, Adevărat sau Fals etc.

În majoritatea acestor cazuri, înlocuim valorile lipsă cu `moda` coloanei. Să presupunem că avem 100 de puncte de date, dintre care 90 au răspuns Adevărat, 8 au răspuns Fals și 2 nu au completat. Atunci, putem completa cele 2 cu Adevărat, luând în considerare întreaga coloană.

Din nou, aici putem folosi cunoștințele de domeniu. Să luăm în considerare un exemplu de completare cu moda.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Așa cum putem vedea, valoarea nulă a fost înlocuită. Fără îndoială, am fi putut scrie orice în loc de `'True'` și ar fi fost substituit.


### Date Numerice
Acum, să trecem la datele numerice. Aici, avem două metode comune de înlocuire a valorilor lipsă:

1. Înlocuire cu Mediana rândului
2. Înlocuire cu Media rândului

Înlocuim cu Mediana în cazul datelor distorsionate cu valori extreme. Acest lucru se datorează faptului că mediana este robustă la valori extreme.

Când datele sunt normalizate, putem folosi media, deoarece, în acest caz, media și mediana ar fi destul de apropiate.

Mai întâi, să luăm o coloană care este distribuită normal și să completăm valoarea lipsă cu media coloanei.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


Media coloanei este


In [33]:
np.mean(fill_with_mean[0])

0.0

In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Așa cum putem vedea, valoarea lipsă a fost înlocuită cu media sa.


Acum să încercăm un alt dataframe, iar de această dată vom înlocui valorile None cu mediana coloanei.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


Mediana celei de-a doua coloane este


In [36]:
fill_with_median[1].median()

4.0

In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Așa cum putem observa, valoarea NaN a fost înlocuită cu mediana coloanei


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Puteți completa toate intrările nule cu o singură valoare, cum ar fi `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Idei principale:
1. Completarea valorilor lipsă ar trebui realizată fie atunci când există mai puține date, fie când există o strategie pentru a completa datele lipsă.
2. Cunoștințele din domeniu pot fi utilizate pentru a completa valorile lipsă prin aproximare.
3. Pentru datele categorice, de obicei, valorile lipsă sunt înlocuite cu moda coloanei.
4. Pentru datele numerice, valorile lipsă sunt, de regulă, completate cu media (pentru seturi de date normalizate) sau cu mediana coloanelor.


In [40]:
# What happens if you try to fill null values with a string, like ''?


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Puteți, de asemenea, să **completați înapoi** pentru a propaga următoarea valoare validă înapoi pentru a umple un null:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Așa cum ai putea ghici, acest lucru funcționează la fel cu DataFrames, dar poți specifica și un `axis` de-a lungul căruia să completezi valorile nule:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Rețineți că, atunci când o valoare anterioară nu este disponibilă pentru completarea înainte, valoarea nulă rămâne.


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Poți fi creativ în modul în care folosești `fillna`. De exemplu, să ne uităm din nou la `example4`, dar de data aceasta să completăm valorile lipsă cu media tuturor valorilor din `DataFrame`:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Observați că coloana 3 este încă fără valoare: direcția implicită este de a completa valorile pe rânduri.

> **Concluzie:** Există multiple modalități de a gestiona valorile lipsă în seturile de date. Strategia specifică pe care o utilizați (eliminarea lor, înlocuirea lor sau chiar modul în care le înlocuiți) ar trebui să fie dictată de particularitățile acelui set de date. Veți dezvolta un simț mai bun pentru a gestiona valorile lipsă pe măsură ce lucrați și interacționați mai mult cu seturile de date.


### Codificarea Datelor Categoriale

Modelele de învățare automată lucrează doar cu numere și orice formă de date numerice. Ele nu vor putea face diferența între un Da și un Nu, dar vor putea distinge între 0 și 1. Așadar, după completarea valorilor lipsă, trebuie să codificăm datele categoriale într-o formă numerică pentru ca modelul să le poată înțelege.

Codificarea poate fi realizată în două moduri. Vom discuta despre acestea în continuare.


**ENCODAREA ETICHETELOR**

Encodarea etichetelor presupune transformarea fiecărei categorii într-un număr. De exemplu, să presupunem că avem un set de date cu pasageri de avion și există o coloană care conține clasa lor dintre următoarele ['clasa business', 'clasa economică', 'clasa întâi']. Dacă se aplică encodarea etichetelor, aceasta ar fi transformată în [0,1,2]. Să vedem un exemplu prin cod. Deoarece vom învăța `scikit-learn` în caietele viitoare, nu îl vom folosi aici.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Pentru a efectua codificarea etichetelor pe prima coloană, trebuie mai întâi să descriem o mapare de la fiecare clasă la un număr, înainte de a înlocui


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Așa cum putem observa, rezultatul corespunde cu ceea ce ne așteptam să se întâmple. Deci, când folosim codificarea etichetelor? Codificarea etichetelor este utilizată în unul sau ambele dintre următoarele cazuri:  
1. Când numărul de categorii este mare  
2. Când categoriile sunt ordonate.  


**CODIFICARE ONE HOT**

Un alt tip de codificare este Codificarea One Hot. În acest tip de codificare, fiecare categorie a coloanei este adăugată ca o coloană separată, iar fiecare punct de date va primi un 0 sau un 1, în funcție de dacă conține sau nu acea categorie. Astfel, dacă există n categorii diferite, n coloane vor fi adăugate la dataframe.

De exemplu, să luăm același exemplu cu clasele de avion. Categoriile erau: ['business class', 'economy class', 'first class']. Așadar, dacă aplicăm codificarea one hot, următoarele trei coloane vor fi adăugate la setul de date: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Să efectuăm codificarea one hot pe prima coloană


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Fiecare coloană codificată one-hot conține 0 sau 1, ceea ce specifică dacă acea categorie există pentru acel punct de date.


Când folosim one hot encoding? One hot encoding este utilizat în unul sau ambele dintre următoarele cazuri:

1. Când numărul de categorii și dimensiunea setului de date sunt mai mici.
2. Când categoriile nu urmează o ordine specifică.


> Aspecte esențiale:
1. Codificarea se face pentru a transforma datele non-numerice în date numerice.
2. Există două tipuri de codificare: Codificarea etichetelor și Codificarea One Hot, ambele putând fi realizate în funcție de cerințele setului de date.


## Eliminarea datelor duplicate

> **Obiectiv de învățare:** La finalul acestei subsecțiuni, ar trebui să te simți confortabil să identifici și să elimini valorile duplicate din DataFrames.

Pe lângă datele lipsă, vei întâlni adesea date duplicate în seturile de date din lumea reală. Din fericire, pandas oferă o modalitate simplă de a detecta și elimina înregistrările duplicate.


### Identificarea duplicatelor: `duplicated`

Poți identifica cu ușurință valorile duplicate folosind metoda `duplicated` din pandas, care returnează o mască Boolean ce indică dacă o intrare într-un `DataFrame` este un duplicat al uneia anterioare. Hai să creăm un alt exemplu de `DataFrame` pentru a vedea cum funcționează acest lucru.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Eliminarea duplicatelor: `drop_duplicates`
`drop_duplicates` returnează pur și simplu o copie a datelor pentru care toate valorile `duplicated` sunt `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Atât `duplicated`, cât și `drop_duplicates` iau în considerare implicit toate coloanele, dar puteți specifica să examineze doar un subset de coloane din `DataFrame`-ul dvs.:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2



---

**Declinarea responsabilității**:  
Acest document a fost tradus folosind serviciul de traducere AI [Co-op Translator](https://github.com/Azure/co-op-translator). Deși depunem eforturi pentru a asigura acuratețea, vă rugăm să rețineți că traducerile automate pot conține erori sau inexactități. Documentul original în limba sa nativă ar trebui considerat sursa autoritară. Pentru informații critice, se recomandă traducerea profesională realizată de un specialist uman. Nu ne asumăm răspunderea pentru eventualele neînțelegeri sau interpretări greșite care pot apărea din utilizarea acestei traduceri.
