# Chuẩn bị Dữ liệu

[Notebook gốc từ *Khoa học Dữ liệu: Giới thiệu về Machine Learning cho Khoa học Dữ liệu Python và Machine Learning Studio của Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## Khám phá thông tin `DataFrame`

> **Mục tiêu học tập:** Sau khi hoàn thành phần này, bạn sẽ cảm thấy thoải mái khi tìm kiếm thông tin tổng quát về dữ liệu được lưu trữ trong pandas DataFrames.

Khi bạn đã tải dữ liệu của mình vào pandas, rất có thể nó sẽ ở dạng `DataFrame`. Tuy nhiên, nếu tập dữ liệu trong `DataFrame` của bạn có 60.000 hàng và 400 cột, làm thế nào để bạn bắt đầu hiểu được những gì mình đang làm việc? May mắn thay, pandas cung cấp một số công cụ tiện lợi để nhanh chóng xem thông tin tổng quan về một `DataFrame`, bên cạnh việc xem qua một vài hàng đầu tiên và cuối cùng.

Để khám phá chức năng này, chúng ta sẽ nhập thư viện scikit-learn của Python và sử dụng một tập dữ liệu mang tính biểu tượng mà mọi nhà khoa học dữ liệu đều đã thấy hàng trăm lần: tập dữ liệu *Iris* của nhà sinh học người Anh Ronald Fisher, được sử dụng trong bài báo năm 1936 của ông "Sử dụng các phép đo đa chiều trong các vấn đề phân loại học":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
Chúng ta đã tải bộ dữ liệu Iris vào biến `iris_df`. Trước khi đi sâu vào dữ liệu, sẽ rất hữu ích nếu biết số lượng điểm dữ liệu chúng ta có và kích thước tổng thể của bộ dữ liệu. Việc xem xét khối lượng dữ liệu mà chúng ta đang xử lý là rất quan trọng.


In [2]:
iris_df.shape

(150, 4)

Vì vậy, chúng ta đang xử lý 150 hàng và 4 cột dữ liệu. Mỗi hàng đại diện cho một điểm dữ liệu và mỗi cột đại diện cho một đặc điểm duy nhất liên quan đến khung dữ liệu. Nói cách khác, có 150 điểm dữ liệu, mỗi điểm chứa 4 đặc điểm.

`shape` ở đây là một thuộc tính của khung dữ liệu chứ không phải là một hàm, đó là lý do tại sao nó không kết thúc bằng một cặp dấu ngoặc đơn.


### `DataFrame.columns`
Bây giờ, chúng ta hãy xem xét 4 cột dữ liệu. Mỗi cột thực sự đại diện cho điều gì? Thuộc tính `columns` sẽ cung cấp cho chúng ta tên của các cột trong dataframe.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

Như chúng ta có thể thấy, có bốn (4) cột. Thuộc tính `columns` cho chúng ta biết tên của các cột và về cơ bản không có gì khác. Thuộc tính này trở nên quan trọng khi chúng ta muốn xác định các đặc điểm mà một tập dữ liệu chứa.


### `DataFrame.info`
Số lượng dữ liệu (được cung cấp bởi thuộc tính `shape`) và tên của các đặc điểm hoặc cột (được cung cấp bởi thuộc tính `columns`) cho chúng ta một số thông tin về tập dữ liệu. Bây giờ, chúng ta sẽ muốn tìm hiểu sâu hơn về tập dữ liệu. Hàm `DataFrame.info()` rất hữu ích cho việc này.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


Từ đây, chúng ta có thể rút ra một vài quan sát:  
1. Kiểu dữ liệu của mỗi cột: Trong tập dữ liệu này, tất cả dữ liệu đều được lưu trữ dưới dạng số thực dấu phẩy động 64-bit.  
2. Số lượng giá trị không null: Xử lý các giá trị null là một bước quan trọng trong việc chuẩn bị dữ liệu. Việc này sẽ được xử lý sau trong notebook.  


### DataFrame.describe()
Giả sử chúng ta có rất nhiều dữ liệu số trong tập dữ liệu của mình. Các phép tính thống kê đơn biến như giá trị trung bình, trung vị, tứ phân vị, v.v. có thể được thực hiện trên từng cột riêng lẻ. Hàm `DataFrame.describe()` cung cấp cho chúng ta một bản tóm tắt thống kê của các cột số trong tập dữ liệu.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


Đầu ra ở trên hiển thị tổng số điểm dữ liệu, giá trị trung bình, độ lệch chuẩn, giá trị nhỏ nhất, tứ phân vị dưới (25%), trung vị (50%), tứ phân vị trên (75%) và giá trị lớn nhất của mỗi cột.


### `DataFrame.head`
Với tất cả các hàm và thuộc tính đã đề cập ở trên, chúng ta đã có cái nhìn tổng quan về tập dữ liệu. Chúng ta biết có bao nhiêu điểm dữ liệu, có bao nhiêu đặc trưng, kiểu dữ liệu của từng đặc trưng và số lượng giá trị không null cho mỗi đặc trưng.

Bây giờ là lúc xem xét chính dữ liệu. Hãy xem vài hàng đầu tiên (vài điểm dữ liệu đầu tiên) của `DataFrame` của chúng ta trông như thế nào:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


Như đầu ra ở đây, chúng ta có thể thấy năm (5) mục của tập dữ liệu. Nếu chúng ta nhìn vào chỉ mục ở bên trái, chúng ta phát hiện ra rằng đây là năm hàng đầu tiên.


### Bài tập:

Từ ví dụ được đưa ra ở trên, rõ ràng rằng, theo mặc định, `DataFrame.head` trả về năm hàng đầu tiên của một `DataFrame`. Trong ô mã dưới đây, bạn có thể tìm ra cách hiển thị nhiều hơn năm hàng không?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
Một cách khác để xem dữ liệu là từ cuối (thay vì từ đầu). Đối lập với `DataFrame.head` là `DataFrame.tail`, chức năng này trả về năm hàng cuối cùng của một `DataFrame`:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


Trong thực tế, việc có thể dễ dàng kiểm tra vài hàng đầu tiên hoặc vài hàng cuối cùng của một `DataFrame` rất hữu ích, đặc biệt khi bạn đang tìm kiếm các giá trị ngoại lệ trong các tập dữ liệu có thứ tự.

Tất cả các hàm và thuộc tính được trình bày ở trên với sự hỗ trợ của các ví dụ mã đều giúp chúng ta có cái nhìn và cảm nhận về dữ liệu.

> **Điểm rút ra:** Chỉ cần nhìn vào siêu dữ liệu về thông tin trong một DataFrame hoặc vài giá trị đầu tiên và cuối cùng của nó, bạn có thể có ngay một ý tưởng về kích thước, hình dạng và nội dung của dữ liệu mà bạn đang xử lý.


### Dữ Liệu Thiếu
Hãy cùng tìm hiểu về dữ liệu thiếu. Dữ liệu thiếu xảy ra khi không có giá trị nào được lưu trữ trong một số cột.

Hãy lấy một ví dụ: giả sử ai đó rất quan tâm đến cân nặng của mình và không điền vào trường cân nặng trong một khảo sát. Khi đó, giá trị cân nặng của người đó sẽ bị thiếu.

Phần lớn thời gian, trong các tập dữ liệu thực tế, giá trị thiếu thường xuyên xảy ra.

**Cách Pandas xử lý dữ liệu thiếu**

Pandas xử lý giá trị thiếu theo hai cách. Cách đầu tiên bạn đã thấy trong các phần trước: `NaN`, hoặc Not a Number (Không phải là một số). Đây thực chất là một giá trị đặc biệt thuộc về đặc tả số học dấu phẩy động IEEE và nó chỉ được sử dụng để biểu thị các giá trị dấu phẩy động bị thiếu.

Đối với các giá trị thiếu không phải là số dấu phẩy động, pandas sử dụng đối tượng `None` của Python. Mặc dù có thể gây nhầm lẫn khi bạn gặp hai loại giá trị khác nhau nhưng đều biểu thị cùng một ý nghĩa, có những lý do lập trình hợp lý cho lựa chọn thiết kế này. Trên thực tế, cách tiếp cận này cho phép pandas cung cấp một sự cân bằng tốt cho phần lớn các trường hợp. Tuy nhiên, cả `None` và `NaN` đều có những hạn chế mà bạn cần lưu ý liên quan đến cách chúng có thể được sử dụng.


### `None`: dữ liệu thiếu không phải kiểu float
Vì `None` xuất phát từ Python, nó không thể được sử dụng trong các mảng NumPy và pandas không có kiểu dữ liệu `'object'`. Hãy nhớ rằng, các mảng NumPy (và các cấu trúc dữ liệu trong pandas) chỉ có thể chứa một loại dữ liệu duy nhất. Đây chính là điều mang lại sức mạnh vượt trội cho chúng trong công việc xử lý dữ liệu và tính toán quy mô lớn, nhưng đồng thời cũng hạn chế sự linh hoạt của chúng. Các mảng như vậy phải được chuyển đổi sang kiểu dữ liệu “mẫu số chung thấp nhất,” tức là kiểu dữ liệu có thể bao gồm tất cả mọi thứ trong mảng. Khi `None` xuất hiện trong mảng, điều đó có nghĩa là bạn đang làm việc với các đối tượng Python.

Để thấy điều này trong thực tế, hãy xem xét mảng ví dụ sau (lưu ý `dtype` của nó):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

Thực tế của việc nâng cấp kiểu dữ liệu đi kèm với hai tác động phụ. Đầu tiên, các thao tác sẽ được thực hiện ở cấp độ mã Python được diễn giải thay vì mã NumPy được biên dịch. Về cơ bản, điều này có nghĩa là bất kỳ thao tác nào liên quan đến `Series` hoặc `DataFrames` có chứa `None` sẽ chậm hơn. Mặc dù bạn có thể không nhận thấy sự giảm hiệu suất này, nhưng đối với các tập dữ liệu lớn, nó có thể trở thành vấn đề.

Tác động phụ thứ hai xuất phát từ tác động đầu tiên. Vì `None` về cơ bản kéo `Series` hoặc `DataFrame`s trở lại thế giới của Python thuần túy, việc sử dụng các hàm tổng hợp của NumPy/pandas như `sum()` hoặc `min()` trên các mảng chứa giá trị ``None`` thường sẽ gây ra lỗi:


In [10]:
example1.sum()

TypeError: ignored

### `NaN`: giá trị float bị thiếu

Khác với `None`, NumPy (và do đó cả pandas) hỗ trợ `NaN` để thực hiện các phép toán và ufuncs nhanh, theo vector. Tin xấu là bất kỳ phép toán số học nào thực hiện trên `NaN` đều luôn cho ra kết quả là `NaN`. Ví dụ:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

Tin tốt: các phép tổng hợp chạy trên các mảng có `NaN` trong đó không gây ra lỗi. Tin xấu: kết quả không phải lúc nào cũng hữu ích:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

In [11]:
# What happens if you add np.nan and None together?


### `NaN` và `None`: giá trị null trong pandas

Mặc dù `NaN` và `None` có thể hoạt động hơi khác nhau, pandas vẫn được thiết kế để xử lý chúng một cách thay thế cho nhau. Để hiểu rõ hơn, hãy xem xét một `Series` các số nguyên:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


Trong quá trình nâng cấp kiểu dữ liệu để đảm bảo tính đồng nhất trong `Series` và `DataFrame`, pandas sẽ dễ dàng chuyển đổi giá trị thiếu giữa `None` và `NaN`. Vì đặc điểm thiết kế này, bạn có thể nghĩ về `None` và `NaN` như hai dạng khác nhau của "null" trong pandas. Thực tế, một số phương thức cốt lõi mà bạn sẽ sử dụng để xử lý giá trị thiếu trong pandas phản ánh ý tưởng này qua tên gọi của chúng:

- `isnull()`: Tạo một mặt nạ Boolean chỉ ra các giá trị thiếu
- `notnull()`: Ngược lại với `isnull()`
- `dropna()`: Trả về phiên bản dữ liệu đã được lọc
- `fillna()`: Trả về một bản sao của dữ liệu với các giá trị thiếu được điền hoặc ước tính

Đây là những phương thức quan trọng cần nắm vững và làm quen, vì vậy hãy cùng tìm hiểu chi tiết từng phương thức.


### Phát hiện giá trị null

Bây giờ chúng ta đã hiểu tầm quan trọng của các giá trị thiếu, chúng ta cần phát hiện chúng trong tập dữ liệu trước khi xử lý.

Cả `isnull()` và `notnull()` đều là các phương pháp chính để phát hiện dữ liệu null. Cả hai đều trả về mặt nạ Boolean trên dữ liệu của bạn.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

Hãy nhìn kỹ vào kết quả. Có điều gì khiến bạn ngạc nhiên không? Mặc dù `0` là một giá trị số học rỗng, nó vẫn là một số nguyên hợp lệ và pandas xử lý nó như vậy. `''` thì tinh tế hơn một chút. Mặc dù chúng ta đã sử dụng nó trong Phần 1 để biểu thị một chuỗi rỗng, nhưng nó vẫn là một đối tượng chuỗi và không được pandas coi là một biểu diễn của giá trị null.

Bây giờ, hãy đảo ngược tình huống và sử dụng các phương pháp này theo cách giống như bạn sẽ sử dụng chúng trong thực tế. Bạn có thể sử dụng các mặt nạ Boolean trực tiếp làm chỉ mục của ``Series`` hoặc ``DataFrame``, điều này có thể hữu ích khi bạn muốn làm việc với các giá trị bị thiếu (hoặc có mặt) riêng lẻ.

Nếu chúng ta muốn tổng số giá trị bị thiếu, chúng ta chỉ cần thực hiện phép cộng trên mặt nạ được tạo bởi phương thức `isnull()`.


In [19]:
example3.isnull().sum()

2

In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**Điểm chính**: Cả hai phương thức `isnull()` và `notnull()` đều tạo ra kết quả tương tự khi bạn sử dụng chúng trong DataFrame: chúng hiển thị kết quả và chỉ mục của những kết quả đó, điều này sẽ giúp bạn rất nhiều khi bạn xử lý dữ liệu của mình.


### Xử lý dữ liệu thiếu

> **Mục tiêu học tập:** Sau khi hoàn thành phần này, bạn sẽ biết cách và thời điểm thay thế hoặc loại bỏ các giá trị null trong DataFrames.

Các mô hình Machine Learning không thể tự xử lý dữ liệu thiếu. Vì vậy, trước khi đưa dữ liệu vào mô hình, chúng ta cần xử lý các giá trị thiếu này.

Cách xử lý dữ liệu thiếu mang theo những sự đánh đổi tinh tế, có thể ảnh hưởng đến phân tích cuối cùng và kết quả thực tế.

Có hai cách chính để xử lý dữ liệu thiếu:

1.   Loại bỏ hàng chứa giá trị thiếu
2.   Thay thế giá trị thiếu bằng một giá trị khác

Chúng ta sẽ thảo luận cả hai phương pháp này cùng với ưu và nhược điểm của chúng một cách chi tiết.


### Loại bỏ giá trị null

Số lượng dữ liệu chúng ta đưa vào mô hình có ảnh hưởng trực tiếp đến hiệu suất của nó. Loại bỏ giá trị null có nghĩa là chúng ta đang giảm số lượng điểm dữ liệu, và do đó giảm kích thước của tập dữ liệu. Vì vậy, nên loại bỏ các hàng có giá trị null khi tập dữ liệu khá lớn.

Một trường hợp khác có thể là một hàng hoặc cột nào đó có rất nhiều giá trị bị thiếu. Khi đó, chúng có thể bị loại bỏ vì chúng không mang lại nhiều giá trị cho phân tích của chúng ta do phần lớn dữ liệu bị thiếu ở hàng/cột đó.

Ngoài việc xác định các giá trị bị thiếu, pandas cung cấp một cách tiện lợi để loại bỏ giá trị null từ `Series` và `DataFrame`. Để thấy điều này trong thực tế, hãy quay lại `example3`. Hàm `DataFrame.dropna()` giúp loại bỏ các hàng có giá trị null.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

Lưu ý rằng điều này sẽ giống như kết quả của bạn từ `example3[example3.notnull()]`. Sự khác biệt ở đây là, thay vì chỉ lập chỉ mục trên các giá trị đã được che, `dropna` đã loại bỏ những giá trị bị thiếu khỏi `Series` `example3`.

Vì DataFrame có hai chiều, chúng cung cấp nhiều tùy chọn hơn để loại bỏ dữ liệu.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(Bạn có nhận thấy rằng pandas đã chuyển đổi hai cột thành kiểu float để phù hợp với các giá trị `NaN` không?)

Bạn không thể xóa một giá trị đơn lẻ từ một `DataFrame`, vì vậy bạn phải xóa toàn bộ hàng hoặc cột. Tùy thuộc vào những gì bạn đang làm, bạn có thể muốn chọn một trong hai cách, và do đó pandas cung cấp cho bạn tùy chọn cho cả hai. Vì trong khoa học dữ liệu, các cột thường đại diện cho biến số và các hàng đại diện cho quan sát, bạn có khả năng cao sẽ xóa các hàng dữ liệu; cài đặt mặc định của `dropna()` là xóa tất cả các hàng chứa bất kỳ giá trị null nào:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


Nếu cần thiết, bạn có thể loại bỏ các giá trị NA từ các cột. Sử dụng `axis=1` để làm như vậy:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


Lưu ý rằng điều này có thể loại bỏ rất nhiều dữ liệu mà bạn có thể muốn giữ lại, đặc biệt là trong các tập dữ liệu nhỏ. Vậy nếu bạn chỉ muốn loại bỏ các hàng hoặc cột chứa một số hoặc thậm chí tất cả các giá trị null thì sao? Bạn có thể chỉ định các thiết lập đó trong `dropna` với các tham số `how` và `thresh`.

Mặc định, `how='any'` (nếu bạn muốn tự kiểm tra hoặc xem phương thức này có các tham số nào khác, hãy chạy `example4.dropna?` trong một ô mã). Ngoài ra, bạn có thể chỉ định `how='all'` để chỉ loại bỏ các hàng hoặc cột chứa toàn bộ giá trị null. Hãy mở rộng ví dụ `DataFrame` của chúng ta để xem điều này hoạt động như thế nào trong bài tập tiếp theo.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> Những điểm chính:  
1. Loại bỏ các giá trị null chỉ là ý tưởng tốt nếu tập dữ liệu đủ lớn.  
2. Có thể loại bỏ toàn bộ hàng hoặc cột nếu phần lớn dữ liệu của chúng bị thiếu.  
3. Phương thức `DataFrame.dropna(axis=)` hỗ trợ loại bỏ các giá trị null. Tham số `axis` xác định liệu sẽ loại bỏ hàng hay cột.  
4. Tham số `how` cũng có thể được sử dụng. Mặc định, nó được đặt là `any`. Vì vậy, nó chỉ loại bỏ những hàng/cột chứa bất kỳ giá trị null nào. Tham số này có thể được đặt là `all` để chỉ định rằng chúng ta sẽ chỉ loại bỏ những hàng/cột mà tất cả các giá trị đều là null.  


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


Tham số `thresh` cung cấp cho bạn khả năng kiểm soát chi tiết hơn: bạn đặt số lượng giá trị *không null* mà một hàng hoặc cột cần phải có để được giữ lại:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


Ở đây, hàng đầu tiên và hàng cuối cùng đã bị loại bỏ, vì chúng chỉ chứa hai giá trị không null.


### Điền giá trị null

Đôi khi việc điền các giá trị thiếu bằng những giá trị có thể hợp lệ là điều hợp lý. Có một vài kỹ thuật để điền giá trị null. Kỹ thuật đầu tiên là sử dụng Kiến Thức Chuyên Môn (kiến thức về chủ đề mà tập dữ liệu dựa trên) để ước lượng các giá trị bị thiếu.

Bạn có thể sử dụng `isnull` để làm điều này trực tiếp, nhưng điều đó có thể tốn công, đặc biệt nếu bạn có nhiều giá trị cần điền. Vì đây là một nhiệm vụ rất phổ biến trong khoa học dữ liệu, pandas cung cấp `fillna`, trả về một bản sao của `Series` hoặc `DataFrame` với các giá trị bị thiếu được thay thế bằng giá trị bạn chọn. Hãy tạo một ví dụ khác về `Series` để xem cách hoạt động này trong thực tế.


### Dữ liệu phân loại (Không phải số)
Đầu tiên, hãy xem xét dữ liệu không phải số. Trong các tập dữ liệu, chúng ta có các cột chứa dữ liệu phân loại. Ví dụ: Giới tính, Đúng hoặc Sai, v.v.

Trong hầu hết các trường hợp này, chúng ta thay thế các giá trị bị thiếu bằng `mode` của cột. Giả sử, chúng ta có 100 điểm dữ liệu, trong đó 90 điểm là Đúng, 8 điểm là Sai và 2 điểm không được điền. Khi đó, chúng ta có thể điền 2 điểm bị thiếu bằng Đúng, dựa trên toàn bộ cột.

Một lần nữa, ở đây chúng ta có thể sử dụng kiến thức chuyên môn. Hãy xem xét một ví dụ về việc điền bằng mode.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


Như chúng ta có thể thấy, giá trị null đã được thay thế. Không cần phải nói, chúng ta có thể đã viết bất kỳ thứ gì thay cho `'True'` và nó sẽ được thay thế.


### Dữ liệu Số
Bây giờ, chúng ta sẽ nói về dữ liệu số. Ở đây, có hai cách phổ biến để thay thế giá trị bị thiếu:

1. Thay thế bằng Trung vị của hàng
2. Thay thế bằng Giá trị trung bình của hàng

Chúng ta thay thế bằng Trung vị trong trường hợp dữ liệu bị lệch với các giá trị ngoại lai. Điều này là do trung vị không bị ảnh hưởng bởi các giá trị ngoại lai.

Khi dữ liệu đã được chuẩn hóa, chúng ta có thể sử dụng giá trị trung bình, vì trong trường hợp này, giá trị trung bình và trung vị sẽ khá gần nhau.

Đầu tiên, hãy lấy một cột có phân phối chuẩn và điền giá trị bị thiếu bằng giá trị trung bình của cột đó.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


Giá trị trung bình của cột là


In [33]:
np.mean(fill_with_mean[0])

0.0

In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


Như chúng ta có thể thấy, giá trị bị thiếu đã được thay thế bằng giá trị trung bình của nó.


Bây giờ hãy thử một dataframe khác, và lần này chúng ta sẽ thay thế các giá trị None bằng giá trị trung vị của cột.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


Trung vị của cột thứ hai là


In [36]:
fill_with_median[1].median()

4.0

In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


Như chúng ta có thể thấy, giá trị NaN đã được thay thế bằng giá trị trung vị của cột


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

Bạn có thể điền tất cả các mục trống bằng một giá trị duy nhất, chẳng hạn như `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> Những điểm chính cần lưu ý:
1. Việc điền giá trị thiếu nên được thực hiện khi dữ liệu còn ít hoặc khi có chiến lược để điền vào các giá trị thiếu.
2. Kiến thức chuyên môn có thể được sử dụng để điền giá trị thiếu bằng cách ước lượng chúng.
3. Đối với dữ liệu phân loại, thường thì các giá trị thiếu được thay thế bằng giá trị mode của cột.
4. Đối với dữ liệu số, các giá trị thiếu thường được điền bằng giá trị trung bình (đối với các tập dữ liệu đã được chuẩn hóa) hoặc giá trị trung vị của các cột.


In [40]:
# What happens if you try to fill null values with a string, like ''?


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

Bạn cũng có thể **back-fill** để truyền giá trị hợp lệ tiếp theo ngược lại để điền vào một giá trị null:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

Như bạn có thể đoán, điều này hoạt động tương tự với DataFrames, nhưng bạn cũng có thể chỉ định một `axis` để điền các giá trị null:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


Lưu ý rằng khi không có giá trị trước đó để điền tiếp, giá trị null sẽ được giữ nguyên.


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


Bạn có thể sáng tạo về cách sử dụng `fillna`. Ví dụ, hãy xem lại `example4`, nhưng lần này hãy điền các giá trị bị thiếu bằng giá trị trung bình của tất cả các giá trị trong `DataFrame`:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


Lưu ý rằng cột 3 vẫn chưa có giá trị: hướng mặc định là điền giá trị theo hàng.

> **Điểm cần nhớ:** Có nhiều cách để xử lý giá trị thiếu trong tập dữ liệu của bạn. Chiến lược cụ thể mà bạn sử dụng (loại bỏ, thay thế, hoặc thậm chí cách bạn thay thế) nên được quyết định bởi đặc điểm cụ thể của dữ liệu đó. Bạn sẽ phát triển cảm giác tốt hơn về cách xử lý giá trị thiếu khi bạn làm việc và tương tác nhiều hơn với các tập dữ liệu.


### Mã hóa Dữ liệu Phân loại

Các mô hình học máy chỉ xử lý được các con số và bất kỳ dạng dữ liệu số nào. Chúng không thể phân biệt giữa "Yes" và "No", nhưng có thể phân biệt giữa 0 và 1. Vì vậy, sau khi điền các giá trị bị thiếu, chúng ta cần mã hóa dữ liệu phân loại thành một dạng số để mô hình có thể hiểu được.

Việc mã hóa có thể được thực hiện theo hai cách. Chúng ta sẽ thảo luận về chúng ngay sau đây.


**MÃ HÓA NHÃN**

Mã hóa nhãn về cơ bản là chuyển đổi mỗi danh mục thành một số. Ví dụ, giả sử chúng ta có một tập dữ liệu về hành khách hàng không và có một cột chứa hạng ghế của họ trong số các hạng sau ['business class', 'economy class', 'first class']. Nếu thực hiện mã hóa nhãn trên cột này, nó sẽ được chuyển đổi thành [0,1,2]. Hãy cùng xem một ví dụ qua đoạn mã. Vì chúng ta sẽ học `scikit-learn` trong các notebook sắp tới, nên ở đây chúng ta sẽ không sử dụng nó.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Để thực hiện mã hóa nhãn trên cột đầu tiên, chúng ta phải đầu tiên mô tả một ánh xạ từ mỗi lớp sang một số, trước khi thay thế


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


Như chúng ta có thể thấy, kết quả đầu ra khớp với những gì chúng ta dự đoán. Vậy, khi nào chúng ta sử dụng mã hóa nhãn? Mã hóa nhãn được sử dụng trong một hoặc cả hai trường hợp sau:  
1. Khi số lượng danh mục lớn  
2. Khi các danh mục có thứ tự.  


**MÃ HÓA ONE HOT**

Một loại mã hóa khác là Mã Hóa One Hot. Trong loại mã hóa này, mỗi danh mục của cột sẽ được thêm vào như một cột riêng biệt và mỗi điểm dữ liệu sẽ nhận giá trị 0 hoặc 1 dựa trên việc nó có chứa danh mục đó hay không. Vì vậy, nếu có n danh mục khác nhau, n cột sẽ được thêm vào dataframe.

Ví dụ, hãy lấy ví dụ về các hạng ghế máy bay. Các danh mục là: ['business class', 'economy class', 'first class']. Vì vậy, nếu chúng ta thực hiện mã hóa one hot, ba cột sau sẽ được thêm vào tập dữ liệu: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


Hãy thực hiện mã hóa one hot trên cột đầu tiên


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


Mỗi cột được mã hóa one-hot chứa 0 hoặc 1, xác định liệu danh mục đó có tồn tại cho điểm dữ liệu đó hay không.


Khi nào chúng ta sử dụng one hot encoding? One hot encoding được sử dụng trong một hoặc cả hai trường hợp sau:

1. Khi số lượng danh mục và kích thước của tập dữ liệu nhỏ.
2. Khi các danh mục không tuân theo thứ tự cụ thể nào.


> Những điểm chính cần ghi nhớ:  
1. Mã hóa được thực hiện để chuyển đổi dữ liệu không phải số thành dữ liệu số.  
2. Có hai loại mã hóa: Mã hóa nhãn (Label encoding) và Mã hóa One Hot (One Hot encoding), cả hai đều có thể được thực hiện dựa trên yêu cầu của tập dữ liệu.  


## Loại bỏ dữ liệu trùng lặp

> **Mục tiêu học tập:** Sau khi hoàn thành phần này, bạn sẽ tự tin trong việc xác định và loại bỏ các giá trị trùng lặp từ DataFrames.

Ngoài dữ liệu bị thiếu, bạn thường sẽ gặp dữ liệu trùng lặp trong các tập dữ liệu thực tế. May mắn thay, pandas cung cấp một cách dễ dàng để phát hiện và loại bỏ các mục trùng lặp.


### Xác định các giá trị trùng lặp: `duplicated`

Bạn có thể dễ dàng phát hiện các giá trị trùng lặp bằng phương pháp `duplicated` trong pandas, phương pháp này trả về một mặt nạ Boolean cho biết liệu một mục trong `DataFrame` có phải là bản sao của một mục trước đó hay không. Hãy tạo một ví dụ `DataFrame` khác để xem cách hoạt động của nó.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### Loại bỏ các giá trị trùng lặp: `drop_duplicates`
`drop_duplicates` đơn giản trả về một bản sao của dữ liệu mà tất cả các giá trị `duplicated` là `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


Cả `duplicated` và `drop_duplicates` mặc định xem xét tất cả các cột nhưng bạn có thể chỉ định rằng chúng chỉ kiểm tra một tập hợp con các cột trong `DataFrame` của bạn:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2



---

**Tuyên bố miễn trừ trách nhiệm**:  
Tài liệu này đã được dịch bằng dịch vụ dịch thuật AI [Co-op Translator](https://github.com/Azure/co-op-translator). Mặc dù chúng tôi cố gắng đảm bảo độ chính xác, xin lưu ý rằng các bản dịch tự động có thể chứa lỗi hoặc không chính xác. Tài liệu gốc bằng ngôn ngữ bản địa nên được coi là nguồn tham khảo chính thức. Đối với các thông tin quan trọng, chúng tôi khuyến nghị sử dụng dịch vụ dịch thuật chuyên nghiệp từ con người. Chúng tôi không chịu trách nhiệm cho bất kỳ sự hiểu lầm hoặc diễn giải sai nào phát sinh từ việc sử dụng bản dịch này.
