# Penyediaan Data

[Notebook asal daripada *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio oleh Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## Meneroka maklumat `DataFrame`

> **Matlamat pembelajaran:** Pada akhir subseksyen ini, anda seharusnya selesa mencari maklumat umum tentang data yang disimpan dalam pandas DataFrames.

Setelah anda memuatkan data anda ke dalam pandas, kemungkinan besar ia akan berada dalam bentuk `DataFrame`. Namun, jika set data dalam `DataFrame` anda mempunyai 60,000 baris dan 400 lajur, bagaimana anda boleh mula memahami apa yang sedang anda kerjakan? Nasib baik, pandas menyediakan beberapa alat yang mudah untuk melihat maklumat keseluruhan tentang `DataFrame` dengan cepat, selain daripada beberapa baris pertama dan terakhir.

Untuk meneroka fungsi ini, kita akan mengimport pustaka Python scikit-learn dan menggunakan satu set data ikonik yang setiap saintis data pasti pernah lihat beratus-ratus kali: set data *Iris* oleh ahli biologi British Ronald Fisher yang digunakan dalam kertas kerjanya pada tahun 1936, "The use of multiple measurements in taxonomic problems":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Kami telah memuatkan Dataset Iris ke dalam pemboleh ubah `iris_df`. Sebelum mendalami data, adalah berguna untuk mengetahui bilangan titik data yang kita ada dan saiz keseluruhan dataset. Ia membantu untuk melihat jumlah data yang sedang kita uruskan.


In [2]:
iris_df.shape

(150, 4)

Jadi, kita sedang berurusan dengan 150 baris dan 4 lajur data. Setiap baris mewakili satu titik data dan setiap lajur mewakili satu ciri yang berkaitan dengan rangka data. Jadi secara asasnya, terdapat 150 titik data yang mengandungi 4 ciri setiap satu.

`shape` di sini adalah atribut rangka data dan bukan fungsi, sebab itu ia tidak diakhiri dengan sepasang tanda kurung.


### `DataFrame.columns`
Mari kita lihat 4 lajur data. Apa sebenarnya yang diwakili oleh setiap lajur? Atribut `columns` akan memberikan kita nama-nama lajur dalam dataframe.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Seperti yang kita dapat lihat, terdapat empat(4) lajur. Atribut `columns` memberitahu kita nama lajur dan secara asasnya tiada yang lain. Atribut ini menjadi penting apabila kita ingin mengenal pasti ciri-ciri yang terdapat dalam set data.


### `DataFrame.info`
Jumlah data (diberikan oleh atribut `shape`) dan nama ciri atau lajur (diberikan oleh atribut `columns`) memberikan kita sedikit maklumat tentang set data. Sekarang, kita ingin menyelami lebih dalam ke dalam set data. Fungsi `DataFrame.info()` sangat berguna untuk tujuan ini.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


Dari sini, kita boleh membuat beberapa pemerhatian:  
1. Jenis Data bagi setiap lajur: Dalam set data ini, semua data disimpan sebagai nombor titik terapung 64-bit.  
2. Bilangan nilai bukan null: Menangani nilai null adalah langkah penting dalam penyediaan data. Ia akan ditangani kemudian dalam buku nota.  


### DataFrame.describe()
Katakan kita mempunyai banyak data numerik dalam set data kita. Pengiraan statistik univariat seperti min, median, kuartil dan sebagainya boleh dilakukan pada setiap lajur secara individu. Fungsi `DataFrame.describe()` memberikan kita ringkasan statistik bagi lajur-lajur numerik dalam set data.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Output di atas menunjukkan jumlah keseluruhan titik data, min, sisihan piawai, minimum, kuartil bawah (25%), median (50%), kuartil atas (75%) dan nilai maksimum bagi setiap lajur.


### `DataFrame.head`
Dengan semua fungsi dan atribut yang disebutkan di atas, kita telah mendapat gambaran keseluruhan tentang dataset. Kita tahu berapa banyak titik data yang ada, berapa banyak ciri yang ada, jenis data bagi setiap ciri, dan bilangan nilai bukan null untuk setiap ciri.

Sekarang tiba masanya untuk melihat data itu sendiri. Mari kita lihat bagaimana rupa beberapa baris pertama (beberapa titik data pertama) dalam `DataFrame` kita:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Sebagai output di sini, kita dapat melihat lima(5) entri daripada set data. Jika kita melihat pada indeks di sebelah kiri, kita mendapati bahawa ini adalah lima baris pertama.


### Latihan:

Daripada contoh yang diberikan di atas, jelas bahawa, secara lalai, `DataFrame.head` mengembalikan lima baris pertama daripada `DataFrame`. Dalam sel kod di bawah, bolehkah anda mencari cara untuk memaparkan lebih daripada lima baris?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
Satu lagi cara untuk melihat data adalah dari penghujung (bukannya dari permulaan). Lawan kepada `DataFrame.head` ialah `DataFrame.tail`, yang mengembalikan lima baris terakhir daripada `DataFrame`:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


Dalam praktiknya, adalah berguna untuk dapat memeriksa beberapa baris pertama atau beberapa baris terakhir `DataFrame` dengan mudah, terutamanya apabila anda mencari nilai luar dalam dataset yang teratur.

Semua fungsi dan atribut yang ditunjukkan di atas dengan bantuan contoh kod membantu kita mendapatkan gambaran dan rasa tentang data tersebut.

> **Kesimpulan:** Walaupun hanya dengan melihat metadata tentang maklumat dalam `DataFrame` atau beberapa nilai pertama dan terakhir di dalamnya, anda boleh mendapatkan idea segera tentang saiz, bentuk, dan kandungan data yang sedang anda hadapi.


### Data Hilang
Mari kita selami data yang hilang. Data hilang berlaku apabila tiada nilai disimpan dalam beberapa kolum.

Mari kita ambil contoh: katakan seseorang yang sangat mementingkan berat badannya tidak mengisi ruangan berat dalam satu tinjauan. Maka, nilai berat bagi orang tersebut akan hilang.

Kebanyakan masa, dalam dataset dunia sebenar, nilai yang hilang sering berlaku.

**Bagaimana Pandas Mengendalikan Data Hilang**

Pandas mengendalikan nilai yang hilang dengan dua cara. Cara pertama yang telah anda lihat dalam bahagian sebelumnya ialah `NaN`, atau Not a Number. Ini sebenarnya adalah nilai khas yang merupakan sebahagian daripada spesifikasi titik terapung IEEE dan ia hanya digunakan untuk menunjukkan nilai titik terapung yang hilang.

Untuk nilai yang hilang selain daripada titik terapung, pandas menggunakan objek Python `None`. Walaupun mungkin kelihatan mengelirukan bahawa anda akan menemui dua jenis nilai yang pada dasarnya menyatakan perkara yang sama, terdapat alasan programatik yang kukuh untuk pilihan reka bentuk ini dan, dalam praktiknya, pendekatan ini membolehkan pandas memberikan kompromi yang baik untuk kebanyakan kes. Walaupun begitu, kedua-dua `None` dan `NaN` mempunyai batasan yang perlu anda ambil perhatian berkaitan dengan cara ia boleh digunakan.


### `None`: data hilang bukan float
Oleh kerana `None` berasal dari Python, ia tidak boleh digunakan dalam array NumPy dan pandas yang bukan jenis data `'object'`. Ingat, array NumPy (dan struktur data dalam pandas) hanya boleh mengandungi satu jenis data. Inilah yang memberikan mereka kuasa besar untuk kerja data dan pengiraan berskala besar, tetapi ia juga menghadkan fleksibiliti mereka. Array seperti ini perlu dinaikkan kepada "denominator paling rendah," iaitu jenis data yang akan merangkumi segala-galanya dalam array. Apabila `None` berada dalam array, ini bermakna anda sedang bekerja dengan objek Python.

Untuk melihat ini dalam tindakan, pertimbangkan contoh array berikut (perhatikan `dtype` untuknya):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

Realiti jenis data yang dinaikkan (upcast) membawa dua kesan sampingan bersamanya. Pertama, operasi akan dijalankan pada tahap kod Python yang ditafsirkan dan bukannya kod NumPy yang telah disusun. Secara asasnya, ini bermakna sebarang operasi yang melibatkan `Series` atau `DataFrames` dengan `None` di dalamnya akan menjadi lebih perlahan. Walaupun anda mungkin tidak menyedari kesan prestasi ini, untuk set data yang besar ia mungkin menjadi isu.

Kesan sampingan kedua berpunca daripada yang pertama. Oleh kerana `None` pada dasarnya menarik `Series` atau `DataFrame` kembali ke dunia Python biasa, menggunakan pengagregatan NumPy/pandas seperti `sum()` atau `min()` pada array yang mengandungi nilai ``None`` secara amnya akan menghasilkan ralat:


In [10]:
example1.sum()

TypeError: ignored

**Perkara utama**: Penambahan (dan operasi lain) antara integer dan nilai `None` adalah tidak ditakrifkan, yang boleh mengehadkan apa yang boleh anda lakukan dengan set data yang mengandungi nilai tersebut.


### `NaN`: nilai terapung yang hilang

Berbeza dengan `None`, NumPy (dan oleh itu pandas) menyokong `NaN` untuk operasi vektorisasi dan ufuncs yang pantas. Berita buruknya ialah sebarang operasi aritmetik yang dilakukan pada `NaN` sentiasa menghasilkan `NaN`. Sebagai contoh:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

Berita baik: pengagregatan yang dijalankan pada array dengan `NaN` di dalamnya tidak menghasilkan ralat. Berita buruk: hasilnya tidak seragam berguna:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### Senaman:


In [11]:
# What happens if you add np.nan and None together?


Ingat: `NaN` hanyalah untuk nilai titik terapung yang hilang; tiada `NaN` yang setara untuk integer, string, atau Boolean.


### `NaN` dan `None`: nilai null dalam pandas

Walaupun `NaN` dan `None` boleh berkelakuan sedikit berbeza, pandas tetap dibina untuk mengendalikannya secara bergantian. Untuk memahami maksud ini, pertimbangkan satu `Series` integer:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### Latihan:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


Dalam proses menaikkan jenis data untuk mewujudkan keseragaman data dalam `Series` dan `DataFrame`, pandas dengan mudah akan menukar nilai yang hilang antara `None` dan `NaN`. Disebabkan ciri reka bentuk ini, adalah berguna untuk menganggap `None` dan `NaN` sebagai dua jenis "null" yang berbeza dalam pandas. Malah, beberapa kaedah teras yang akan anda gunakan untuk menangani nilai yang hilang dalam pandas mencerminkan idea ini dalam nama mereka:

- `isnull()`: Menghasilkan topeng Boolean yang menunjukkan nilai yang hilang
- `notnull()`: Bertentangan dengan `isnull()`
- `dropna()`: Mengembalikan versi data yang ditapis
- `fillna()`: Mengembalikan salinan data dengan nilai yang hilang diisi atau dianggar

Kaedah-kaedah ini adalah penting untuk dikuasai dan dibiasakan, jadi mari kita teliti setiap satu dengan lebih mendalam.


### Mengesan nilai null

Sekarang setelah kita memahami kepentingan nilai yang hilang, kita perlu mengesannya dalam set data kita sebelum menanganinya.  
Kedua-dua `isnull()` dan `notnull()` adalah kaedah utama anda untuk mengesan data null. Kedua-duanya mengembalikan topeng Boolean ke atas data anda.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Lihat dengan teliti pada output. Adakah ada yang mengejutkan anda? Walaupun `0` adalah nilai sifar aritmetik, ia tetap merupakan integer yang sah dan pandas menganggapnya sedemikian. `''` pula sedikit lebih halus. Walaupun kita menggunakannya dalam Bahagian 1 untuk mewakili nilai rentetan kosong, ia tetap merupakan objek rentetan dan bukan representasi nilai null menurut pandas.

Sekarang, mari kita ubah pendekatan ini dan gunakan kaedah-kaedah ini dengan cara yang lebih menyerupai penggunaan sebenar. Anda boleh menggunakan topeng Boolean secara langsung sebagai indeks ``Series`` atau ``DataFrame``, yang boleh berguna apabila cuba bekerja dengan nilai yang hilang (atau ada) secara terasing.

Jika kita mahu jumlah keseluruhan nilai yang hilang, kita hanya perlu melakukan jumlah ke atas topeng yang dihasilkan oleh kaedah `isnull()`.


In [19]:
example3.isnull().sum()

2

### Latihan:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Pengajaran utama**: Kedua-dua kaedah `isnull()` dan `notnull()` menghasilkan keputusan yang serupa apabila anda menggunakannya dalam DataFrame: ia menunjukkan keputusan dan indeks keputusan tersebut, yang akan sangat membantu anda semasa anda mengendalikan data anda.


### Menangani data yang hilang

> **Matlamat pembelajaran:** Pada akhir subseksyen ini, anda sepatutnya tahu bagaimana dan bila untuk menggantikan atau membuang nilai null daripada DataFrames.

Model Pembelajaran Mesin tidak dapat menangani data yang hilang secara langsung. Oleh itu, sebelum data dimasukkan ke dalam model, kita perlu menangani nilai-nilai yang hilang ini.

Cara menangani data yang hilang membawa kompromi yang halus, boleh mempengaruhi analisis akhir anda dan hasil dunia sebenar.

Terdapat dua cara utama untuk menangani data yang hilang:

1.   Buang baris yang mengandungi nilai yang hilang
2.   Gantikan nilai yang hilang dengan nilai lain

Kita akan membincangkan kedua-dua kaedah ini serta kebaikan dan keburukannya secara terperinci.


### Menyingkirkan nilai null

Jumlah data yang kita serahkan kepada model kita mempunyai kesan langsung terhadap prestasinya. Menyingkirkan nilai null bermaksud kita mengurangkan bilangan titik data, dan seterusnya mengurangkan saiz set data. Oleh itu, adalah disarankan untuk menyingkirkan baris dengan nilai null apabila set data agak besar.

Satu lagi situasi mungkin berlaku apabila baris atau lajur tertentu mempunyai banyak nilai yang hilang. Dalam kes ini, ia mungkin disingkirkan kerana ia tidak akan memberikan banyak nilai kepada analisis kita memandangkan kebanyakan data untuk baris/lajur tersebut hilang.

Selain mengenal pasti nilai yang hilang, pandas menyediakan cara yang mudah untuk menyingkirkan nilai null daripada `Series` dan `DataFrame`. Untuk melihat ini dalam tindakan, mari kita kembali kepada `example3`. Fungsi `DataFrame.dropna()` membantu dalam menyingkirkan baris dengan nilai null.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Perhatikan bahawa ini sepatutnya kelihatan seperti output anda daripada `example3[example3.notnull()]`. Perbezaannya di sini ialah, bukannya hanya mengindeks pada nilai yang bertopeng, `dropna` telah membuang nilai yang hilang daripada `Series` `example3`.

Oleh kerana DataFrame mempunyai dua dimensi, ia memberikan lebih banyak pilihan untuk membuang data.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Adakah anda perasan bahawa pandas telah menaikkan dua daripada lajur kepada jenis float untuk menyesuaikan `NaN`?)

Anda tidak boleh membuang satu nilai sahaja daripada `DataFrame`, jadi anda perlu membuang keseluruhan baris atau lajur. Bergantung pada apa yang anda lakukan, anda mungkin ingin memilih salah satu daripadanya, dan oleh itu pandas memberikan anda pilihan untuk kedua-duanya. Oleh kerana dalam sains data, lajur biasanya mewakili pemboleh ubah dan baris mewakili pemerhatian, anda lebih cenderung untuk membuang baris data; tetapan lalai untuk `dropna()` adalah untuk membuang semua baris yang mengandungi sebarang nilai null:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Jika perlu, anda boleh membuang nilai NA daripada lajur. Gunakan `axis=1` untuk melakukannya:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Perhatikan bahawa ini boleh membuang banyak data yang mungkin anda ingin simpan, terutamanya dalam dataset yang lebih kecil. Bagaimana jika anda hanya ingin membuang baris atau lajur yang mengandungi beberapa atau bahkan semua nilai null? Anda boleh menetapkan pilihan tersebut dalam `dropna` dengan parameter `how` dan `thresh`.

Secara lalai, `how='any'` (jika anda ingin memeriksa sendiri atau melihat parameter lain yang dimiliki oleh kaedah ini, jalankan `example4.dropna?` dalam sel kod). Sebagai alternatif, anda boleh menetapkan `how='all'` untuk hanya membuang baris atau lajur yang mengandungi semua nilai null. Mari kita kembangkan contoh `DataFrame` kita untuk melihat ini berfungsi dalam latihan seterusnya.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Perkara penting yang perlu diambil perhatian:
1. Menghapuskan nilai null adalah idea yang baik hanya jika dataset cukup besar.
2. Baris atau lajur penuh boleh dihapuskan jika kebanyakan datanya hilang.
3. Kaedah `DataFrame.dropna(axis=)` membantu dalam menghapuskan nilai null. Argumen `axis` menunjukkan sama ada baris atau lajur yang akan dihapuskan.
4. Argumen `how` juga boleh digunakan. Secara lalai ia ditetapkan kepada `any`. Jadi, ia hanya menghapuskan baris/lajur yang mengandungi sebarang nilai null. Ia boleh ditetapkan kepada `all` untuk menentukan bahawa kita hanya akan menghapuskan baris/lajur di mana semua nilainya adalah null.


### Senaman:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


Parameter `thresh` memberikan anda kawalan yang lebih terperinci: anda menetapkan bilangan nilai *bukan null* yang perlu ada pada satu baris atau lajur untuk disimpan:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


Di sini, baris pertama dan terakhir telah dibuang, kerana ia hanya mengandungi dua nilai bukan null.


### Mengisi nilai null

Kadang-kadang masuk akal untuk mengisi nilai yang hilang dengan nilai yang mungkin sah. Terdapat beberapa teknik untuk mengisi nilai null. Yang pertama adalah menggunakan Pengetahuan Domain (pengetahuan tentang subjek yang menjadi asas dataset) untuk menganggarkan nilai yang hilang.

Anda boleh menggunakan `isnull` untuk melakukan ini secara langsung, tetapi ia boleh menjadi memakan masa, terutamanya jika anda mempunyai banyak nilai untuk diisi. Oleh kerana ini adalah tugas yang biasa dalam sains data, pandas menyediakan `fillna`, yang mengembalikan salinan `Series` atau `DataFrame` dengan nilai yang hilang digantikan dengan pilihan anda. Mari kita buat satu lagi contoh `Series` untuk melihat bagaimana ini berfungsi dalam amalan.


### Data Kategori (Bukan Numerik)
Pertama, mari kita pertimbangkan data bukan numerik. Dalam set data, terdapat lajur dengan data kategori. Contohnya, Jantina, Benar atau Palsu, dan sebagainya.

Dalam kebanyakan kes ini, kita menggantikan nilai yang hilang dengan `mod` bagi lajur tersebut. Sebagai contoh, jika kita mempunyai 100 titik data dan 90 daripadanya mengatakan Benar, 8 mengatakan Palsu, dan 2 tidak diisi. Maka, kita boleh mengisi 2 yang kosong dengan Benar, dengan mengambil kira keseluruhan lajur.

Sekali lagi, di sini kita boleh menggunakan pengetahuan domain. Mari kita pertimbangkan contoh pengisian dengan mod.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Seperti yang kita dapat lihat, nilai null telah digantikan. Tidak perlu dikatakan, kita boleh menulis apa sahaja sebagai ganti `'True'` dan ia akan digantikan.


### Data Berangka
Sekarang, mari kita bincangkan tentang data berangka. Di sini, terdapat dua cara biasa untuk menggantikan nilai yang hilang:

1. Gantikan dengan Median bagi baris tersebut
2. Gantikan dengan Purata bagi baris tersebut

Kita menggantikan dengan Median apabila data mempunyai taburan yang tidak seimbang dengan kehadiran outlier. Ini kerana median adalah lebih tahan terhadap outlier.

Apabila data telah dinormalisasi, kita boleh menggunakan purata, kerana dalam kes ini, purata dan median akan hampir sama.

Pertama, mari kita ambil satu lajur yang mempunyai taburan normal dan isi nilai yang hilang dengan purata lajur tersebut.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


Purata lajur ialah


In [33]:
np.mean(fill_with_mean[0])

0.0

In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Seperti yang kita dapat lihat, nilai yang hilang telah digantikan dengan puratanya.


Sekarang mari kita cuba dataframe lain, dan kali ini kita akan menggantikan nilai None dengan median lajur.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


Median bagi lajur kedua ialah


In [36]:
fill_with_median[1].median()

4.0

Mengisi dengan median


In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Seperti yang kita dapat lihat, nilai NaN telah digantikan dengan median lajur tersebut


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Anda boleh mengisi semua entri null dengan satu nilai, seperti `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Perkara utama yang perlu diambil perhatian:
1. Mengisi nilai yang hilang perlu dilakukan sama ada apabila terdapat sedikit data atau terdapat strategi untuk mengisi data yang hilang.
2. Pengetahuan domain boleh digunakan untuk mengisi nilai yang hilang dengan menganggarkannya.
3. Untuk data Kategori, kebiasaannya, nilai yang hilang digantikan dengan mod bagi lajur tersebut.
4. Untuk data numerik, nilai yang hilang biasanya diisi dengan purata (untuk set data yang dinormalisasi) atau median bagi lajur tersebut.


### Latihan:


In [40]:
# What happens if you try to fill null values with a string, like ''?


Anda boleh **isi hadapan** nilai null, iaitu menggunakan nilai sah terakhir untuk mengisi null:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Anda juga boleh **mengisi semula** untuk menyebarkan nilai sah seterusnya ke belakang bagi mengisi null:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Seperti yang anda mungkin teka, ini berfungsi sama dengan DataFrames, tetapi anda juga boleh menentukan `axis` untuk mengisi nilai null:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Perhatikan bahawa apabila nilai sebelumnya tidak tersedia untuk pengisian ke hadapan, nilai null akan kekal.


### Senaman:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Anda boleh menjadi kreatif tentang cara anda menggunakan `fillna`. Sebagai contoh, mari kita lihat `example4` sekali lagi, tetapi kali ini mari kita isi nilai yang hilang dengan purata semua nilai dalam `DataFrame`:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Perhatikan bahawa lajur 3 masih tidak mempunyai nilai: arah lalai adalah untuk mengisi nilai secara baris demi baris.

> **Kesimpulan:** Terdapat pelbagai cara untuk menangani nilai yang hilang dalam dataset anda. Strategi khusus yang anda gunakan (menghapusnya, menggantikannya, atau bahkan cara anda menggantikannya) harus ditentukan oleh keunikan data tersebut. Anda akan mengembangkan pemahaman yang lebih baik tentang cara menangani nilai yang hilang semakin banyak anda berurusan dan berinteraksi dengan dataset.


### Pengekodan Data Kategori

Model pembelajaran mesin hanya berfungsi dengan nombor dan sebarang bentuk data berangka. Ia tidak dapat membezakan antara Ya dan Tidak, tetapi ia dapat membezakan antara 0 dan 1. Jadi, selepas mengisi nilai yang hilang, kita perlu mengekod data kategori kepada bentuk berangka supaya model dapat memahaminya.

Pengekodan boleh dilakukan dengan dua cara. Kita akan membincangkannya seterusnya.


**PENYANDIAN LABEL**

Penyandian label pada dasarnya adalah menukar setiap kategori kepada nombor. Sebagai contoh, katakan kita mempunyai set data penumpang kapal terbang dan terdapat satu lajur yang mengandungi kelas mereka di antara ['kelas perniagaan', 'kelas ekonomi', 'kelas pertama']. Jika penyandian label dilakukan pada ini, ia akan ditukar kepada [0,1,2]. Mari kita lihat satu contoh melalui kod. Oleh kerana kita akan mempelajari `scikit-learn` dalam buku nota yang akan datang, kita tidak akan menggunakannya di sini.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Untuk melaksanakan pengekodan label pada lajur pertama, kita perlu terlebih dahulu menerangkan pemetaan dari setiap kelas kepada nombor, sebelum menggantikan


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Seperti yang kita lihat, hasilnya sepadan dengan apa yang kita jangkakan. Jadi, bila kita menggunakan label encoding? Label encoding digunakan dalam salah satu atau kedua-dua situasi berikut:  
1. Apabila bilangan kategori adalah besar  
2. Apabila kategori mempunyai susunan tertentu.  


**PENKODAN SATU PANAS**

Satu lagi jenis penkodan ialah Penkodan Satu Panas. Dalam jenis penkodan ini, setiap kategori dalam lajur akan ditambah sebagai lajur berasingan dan setiap titik data akan mendapat nilai 0 atau 1 berdasarkan sama ada ia mengandungi kategori tersebut. Jadi, jika terdapat n kategori yang berbeza, n lajur akan ditambahkan ke dalam dataframe.

Sebagai contoh, mari kita ambil contoh kelas kapal terbang yang sama. Kategorinya adalah: ['business class', 'economy class', 'first class']. Jadi, jika kita melakukan penkodan satu panas, tiga lajur berikut akan ditambahkan ke dalam dataset: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Mari kita lakukan pengekodan satu panas pada lajur pertama


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Setiap lajur pengekodan panas mengandungi 0 atau 1, yang menentukan sama ada kategori itu wujud untuk titik data tersebut.


Bilakah kita menggunakan pengekodan one hot? Pengekodan one hot digunakan dalam salah satu atau kedua-dua situasi berikut:

1. Apabila bilangan kategori dan saiz set data adalah kecil.
2. Apabila kategori tidak mengikut sebarang susunan tertentu.


> Perkara Penting yang Perlu Diambil:
1. Pengekodan dilakukan untuk menukar data bukan numerik kepada data numerik.
2. Terdapat dua jenis pengekodan: Label encoding dan One Hot encoding, kedua-duanya boleh dilakukan berdasarkan keperluan dataset.


## Menghapuskan data pendua

> **Matlamat pembelajaran:** Pada akhir subseksyen ini, anda seharusnya berasa selesa mengenal pasti dan menghapuskan nilai pendua daripada DataFrames.

Selain daripada data yang hilang, anda juga akan sering menemui data pendua dalam set data dunia sebenar. Nasib baik, pandas menyediakan cara yang mudah untuk mengesan dan menghapuskan entri pendua.


### Mengenal pasti pendua: `duplicated`

Anda boleh mengenal pasti nilai pendua dengan mudah menggunakan kaedah `duplicated` dalam pandas, yang mengembalikan topeng Boolean yang menunjukkan sama ada entri dalam `DataFrame` adalah pendua daripada entri sebelumnya. Mari kita cipta satu lagi contoh `DataFrame` untuk melihat cara ini berfungsi.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Menyingkirkan pendua: `drop_duplicates`
`drop_duplicates` hanya mengembalikan salinan data di mana semua nilai `duplicated` adalah `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Kedua-dua `duplicated` dan `drop_duplicates` secara lalai mempertimbangkan semua lajur tetapi anda boleh menentukan bahawa ia hanya memeriksa subset lajur dalam `DataFrame` anda:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2



---

**Penafian**:  
Dokumen ini telah diterjemahkan menggunakan perkhidmatan terjemahan AI [Co-op Translator](https://github.com/Azure/co-op-translator). Walaupun kami berusaha untuk memastikan ketepatan, sila ambil perhatian bahawa terjemahan automatik mungkin mengandungi kesilapan atau ketidaktepatan. Dokumen asal dalam bahasa asalnya harus dianggap sebagai sumber yang berwibawa. Untuk maklumat penting, terjemahan manusia profesional adalah disyorkan. Kami tidak bertanggungjawab atas sebarang salah faham atau salah tafsir yang timbul daripada penggunaan terjemahan ini.
