# 數據準備

[原始筆記本來源：*Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio by Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## 探索 `DataFrame` 資訊

> **學習目標：** 在完成本小節後，您應該能夠熟悉如何查找存儲在 pandas DataFrame 中的數據的一般資訊。

當您將數據載入到 pandas 中後，數據通常會以 `DataFrame` 的形式存在。然而，如果您的 `DataFrame` 中的數據集有 60,000 行和 400 列，您該如何開始了解您正在處理的內容呢？幸運的是，pandas 提供了一些方便的工具，可以快速查看 `DataFrame` 的整體資訊，以及前幾行和後幾行的數據。

為了探索這些功能，我們將導入 Python 的 scikit-learn 庫，並使用一個每位數據科學家都看過數百次的經典數據集：英國生物學家 Ronald Fisher 在他1936年的論文《多重測量在分類問題中的應用》中使用的 *Iris* 數據集：


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
我們已將鳶尾花數據集載入到變數 `iris_df` 中。在深入分析數據之前，了解我們擁有的數據點數量以及數據集的整體大小是很有價值的。這有助於我們了解正在處理的數據量。


In [2]:
iris_df.shape

(150, 4)

所以，我們正在處理150行4列的數據。每一行代表一個數據點，每一列代表與數據框相關的一個特徵。基本上，就是有150個數據點，每個數據點包含4個特徵。

`shape`在這裡是數據框的一個屬性，而不是一個函數，這就是為什麼它的後面沒有一對括號。


### `DataFrame.columns`
現在讓我們來看看這 4 個數據欄位。每個欄位究竟代表什麼呢？`columns` 屬性會提供我們數據框中欄位的名稱。


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

正如我們所見，有四（4）列。`columns` 屬性告訴我們列的名稱，基本上沒有其他內容。當我們想要識別數據集包含的特徵時，這個屬性變得重要。


### `DataFrame.info`
透過 `shape` 屬性提供的數據量以及透過 `columns` 屬性提供的特徵或欄位名稱，可以讓我們了解一些關於資料集的資訊。現在，我們希望更深入地探索資料集。`DataFrame.info()` 函數在這方面非常有用。


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


從這裡，我們可以做出一些觀察：  
1. 每列的資料類型：在這個數據集中，所有數據都以64位浮點數的形式存儲。  
2. 非空值的數量：處理空值是數據準備中的一個重要步驟，稍後會在筆記本中處理。  


### DataFrame.describe()
假設我們的數據集中有許多數值型數據。像平均值、中位數、四分位數等單變量統計計算可以分別對每一列進行操作。`DataFrame.describe()` 函數為我們提供了數據集中數值列的統計摘要。


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


上面的輸出顯示了每列的數據點總數、平均值、標準差、最小值、下四分位數（25%）、中位數（50%）、上四分位數（75%）和最大值。


### `DataFrame.head`
透過上述所有函數和屬性，我們已經對數據集有了一個高層次的概覽。我們知道數據點的數量、特徵的數量、每個特徵的數據類型以及每個特徵的非空值數量。

現在是時候查看數據本身了。讓我們看看我們的 `DataFrame` 的前幾行（前幾個數據點）是什麼樣子：


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


作為輸出，我們可以看到數據集的五（5）個條目。如果我們查看左側的索引，我們會發現這是前五行。


### 練習：

從上面的例子可以看出，預設情況下，`DataFrame.head` 會返回 `DataFrame` 的前五行。在下面的程式碼區塊中，你能找到一種方法來顯示超過五行嗎？


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
另一種查看數據的方式是從結尾開始（而不是從開頭）。`DataFrame.head` 的相反方法是 `DataFrame.tail`，它會返回 `DataFrame` 的最後五行：


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


在實際操作中，能夠輕鬆檢視 `DataFrame` 的前幾行或後幾行非常有用，特別是在檢查有序數據集中的異常值時。

上面透過程式碼範例展示的所有函數和屬性，幫助我們了解數據的外觀和感覺。

> **重點提示：** 僅僅透過查看 `DataFrame` 中的資訊元數據或其前幾個和後幾個值，就能立即對您正在處理的數據的大小、形狀和內容有一個初步的了解。


### 缺失資料
讓我們來探討缺失資料。當某些欄位中沒有儲存任何值時，就會出現缺失資料。

舉個例子：假設某人對自己的體重很在意，因此在調查問卷中沒有填寫體重欄位。那麼，這個人的體重值就會是缺失的。

在現實世界的數據集中，缺失值是非常常見的。

**Pandas 如何處理缺失資料**

Pandas 有兩種方式來處理缺失值。第一種方式你在之前的章節中可能已經見過：`NaN`，即「非數值」（Not a Number）。這其實是一個特殊值，屬於 IEEE 浮點數規範的一部分，專門用來表示缺失的浮點數值。

對於浮點數以外的缺失值，Pandas 使用的是 Python 的 `None` 物件。雖然遇到兩種不同的值來表示相同的概念可能會讓人感到困惑，但這種設計選擇背後有其合理的程式邏輯原因。實際上，這樣的做法使得 Pandas 能夠在大多數情況下提供一個良好的折衷方案。儘管如此，`None` 和 `NaN` 都有各自的限制，特別是在使用它們時需要注意的地方。


### `None`: 非浮點數的缺失資料
由於 `None` 來自 Python，因此它無法用於非 `'object'` 資料類型的 NumPy 和 pandas 陣列。請記住，NumPy 陣列（以及 pandas 中的資料結構）只能包含一種類型的資料。這正是它們在大規模資料和計算工作中具有強大功能的原因，但也因此限制了它們的靈活性。這類陣列必須向上轉型為“最低共同分母”，即能夠涵蓋陣列中所有內容的資料類型。當陣列中包含 `None` 時，這表示您正在處理 Python 物件。

為了更清楚地了解這一點，請參考以下範例陣列（注意其 `dtype`）：


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

上升數據類型的現實伴隨著兩個副作用。首先，操作將在解釋的 Python 代碼層面進行，而不是編譯的 NumPy 代碼層面。基本上，這意味著任何涉及包含 `None` 的 `Series` 或 `DataFrame` 的操作都會變得較慢。雖然你可能不會注意到這種性能影響，但對於大型數據集來說，這可能會成為一個問題。

第二個副作用源於第一個副作用。由於 `None` 本質上將 `Series` 或 `DataFrame` 拉回到原生 Python 的世界，因此在包含 ``None`` 值的數組上使用像 `sum()` 或 `min()` 這樣的 NumPy/pandas 聚合操作通常會產生錯誤：


In [10]:
example1.sum()

TypeError: ignored

**主要結論**：整數與 `None` 值之間的加法（以及其他操作）是未定義的，這可能會限制您對包含這些值的數據集所能執行的操作。


### `NaN`：缺失的浮點值

與 `None` 不同，NumPy（因此也包括 pandas）支援使用 `NaN` 來進行快速的向量化操作和 ufuncs。壞消息是，任何對 `NaN` 進行的算術運算結果都會是 `NaN`。例如：


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

好消息：在包含 `NaN` 的數組上運行的聚合不會出現錯誤。壞消息：結果並非一律有用：


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### 運動：


In [11]:
# What happens if you add np.nan and None together?


請記住：`NaN` 只是用於缺失的浮點值；整數、字串或布林值沒有 `NaN` 的對應值。


### `NaN` 和 `None`：pandas 中的空值

即使 `NaN` 和 `None` 的行為略有不同，pandas 仍然設計為可以互換處理它們。為了說明這一點，請考慮一個整數的 `Series`：


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### 運動：


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


在將資料型別向上轉型以建立 `Series` 和 `DataFrame` 的資料一致性時，pandas 會自動在 `None` 和 `NaN` 之間切換缺失值。由於這種設計特性，將 `None` 和 `NaN` 視為 pandas 中兩種不同形式的「空值」是很有幫助的。事實上，pandas 中一些處理缺失值的核心方法名稱就反映了這個概念：

- `isnull()`: 生成一個布林遮罩，標示出缺失值
- `notnull()`: 與 `isnull()` 相反
- `dropna()`: 返回一個過濾後的資料版本
- `fillna()`: 返回一個填補或推算缺失值後的資料副本

這些方法非常重要，必須熟練掌握並運用自如，因此我們將逐一深入探討它們。


### 偵測空值

現在我們已經了解了缺失值的重要性，在處理它們之前，我們需要在數據集中偵測它們。  
`isnull()` 和 `notnull()` 是偵測空值的主要方法。這兩個方法都會對數據返回布林遮罩。


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

仔細看看輸出的內容。有什麼讓你感到意外的嗎？雖然 `0` 是一個算術上的「空值」，但它仍然是一個完全有效的整數，而 pandas 也將其視為如此。`''` 則稍微微妙一些。雖然我們在第 1 節中使用它來表示一個空字串值，但對 pandas 而言，它仍然是一個字串物件，而不是空值的表示。

現在，讓我們換個角度，將這些方法以更接近實際使用的方式來應用。你可以直接將布林遮罩用作 ``Series`` 或 ``DataFrame`` 的索引，這在處理孤立的缺失值（或存在值）時非常有用。

如果我們想要計算缺失值的總數，只需對 `isnull()` 方法生成的遮罩進行一次加總即可。


In [19]:
example3.isnull().sum()

2

### 運動：


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**主要收穫**：當您在 DataFrame 中使用 `isnull()` 和 `notnull()` 方法時，它們會產生類似的結果：顯示結果及其索引，這將在您處理數據時對您有極大的幫助。


### 處理缺失數據

> **學習目標：** 在本小節結束時，您應該了解如何以及何時替換或移除 DataFrame 中的空值。

機器學習模型本身無法處理缺失數據。因此，在將數據傳入模型之前，我們需要先處理這些缺失值。

處理缺失數據的方法涉及微妙的取捨，可能會影響您的最終分析結果以及實際應用的效果。

主要有兩種處理缺失數據的方法：

1.   移除包含缺失值的行
2.   用其他值替換缺失值

我們將詳細討論這兩種方法及其優缺點。


### 刪除空值

我們傳遞給模型的數據量會直接影響其性能。刪除空值意味著我們減少了數據點的數量，從而縮小了數據集的規模。因此，當數據集相當大時，建議刪除包含空值的行。

另一種情況可能是某一行或列有大量缺失值。在這種情況下，可以刪除它們，因為這些行/列的大部分數據都缺失，對我們的分析幫助不大。

除了識別缺失值之外，pandas 還提供了一種方便的方法來從 `Series` 和 `DataFrame` 中移除空值。為了實際了解這一點，我們回到 `example3`。`DataFrame.dropna()` 函數可以幫助刪除包含空值的行。


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

請注意，這應該看起來像是您從 `example3[example3.notnull()]` 的輸出。這裡的不同之處在於，`dropna` 並非僅僅索引遮罩值，而是從 `Series` `example3` 中移除了那些缺失值。

由於 DataFrame 是二維的，因此在刪除數據時提供了更多選擇。


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


（你是否注意到 pandas 將其中兩列提升為浮點數類型以容納 `NaN` 值？）

你無法僅刪除 `DataFrame` 中的一個值，因此必須刪除整行或整列。根據你的需求，你可能會選擇刪除其中一種，而 pandas 提供了這兩種選項。由於在資料科學中，列通常代表變數，行則代表觀測值，因此你更有可能刪除資料的行；`dropna()` 的預設設定是刪除所有包含任何空值的行：


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


如果需要，您可以從列中刪除 NA 值。使用 `axis=1` 來執行：


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


請注意，這可能會刪除許多您可能希望保留的數據，特別是在較小的數據集中。如果您只想刪除包含幾個甚至所有空值的行或列該怎麼辦？您可以在 `dropna` 中使用 `how` 和 `thresh` 參數來指定這些設置。

預設情況下，`how='any'`（如果您想自行檢查或查看該方法的其他參數，可以在程式碼單元中執行 `example4.dropna?`）。或者，您可以指定 `how='all'`，這樣只會刪除包含所有空值的行或列。讓我們擴展我們的範例 `DataFrame`，在下一個練習中看看這是如何運作的。


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> 關鍵重點：
1. 僅在資料集足夠大的情況下，刪除空值才是一個好主意。
2. 如果某些行或列的大部分數據都缺失，可以刪除整行或整列。
3. `DataFrame.dropna(axis=)` 方法可以用來刪除空值。`axis` 參數表示是要刪除行還是列。
4. 還可以使用 `how` 參數。預設值為 `any`，因此它只會刪除包含任意空值的行/列。可以將其設置為 `all`，以指定僅刪除所有值皆為空的行/列。


### 運動：


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


`thresh` 參數提供更細緻的控制：您可以設定一行或一列需要具有的*非空*值數量，以便保留：


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


這裡，第一行和最後一行已被刪除，因為它們僅包含兩個非空值。


### 填補空值

有時候，用可能有效的值來填補缺失值是有意義的。填補空值有幾種技術。第一種是使用領域知識（即對數據集所基於主題的了解）來某種程度上估算缺失值。

你可以使用 `isnull` 直接進行操作，但這可能會很繁瑣，特別是當你有很多值需要填補時。由於這在數據科學中是一個非常常見的任務，pandas 提供了 `fillna`，它會返回一個 `Series` 或 `DataFrame` 的副本，將缺失值替換為你選擇的值。我們來創建另一個範例 `Series`，看看這在實際操作中是如何運作的。


### 類別型資料（非數值型）
首先，我們來討論非數值型資料。在數據集中，我們可能會有包含類別型資料的欄位，例如性別、True 或 False 等。

在大多數情況下，我們會用該欄位的「眾數」來替換缺失值。假設我們有 100 筆數據，其中 90 筆為 True，8 筆為 False，還有 2 筆未填寫。那麼，我們可以將這 2 筆未填寫的數據補為 True，因為 True 是該欄位的眾數。

此外，在這裡我們也可以運用領域知識來進行補值。以下是一個使用眾數進行補值的例子。


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


正如我們所見，空值已被替換。毋庸置疑，我們本可以在 `'True'` 的位置寫任何內容，它都會被替代。


### 數值資料
現在來談談數值資料。在這裡，我們有兩種常見的方法來替換缺失值：

1. 用該行的中位數替換
2. 用該行的平均值替換

當資料存在偏態且有異常值時，我們使用中位數進行替換。這是因為中位數對異常值具有穩健性。

當資料已經正規化時，我們可以使用平均值，因為在這種情況下，平均值和中位數會非常接近。

首先，我們選擇一個呈正態分佈的欄位，並用該欄的平均值填補缺失值。


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


該列的平均值是


In [33]:
np.mean(fill_with_mean[0])

0.0

In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


正如我們所見，缺失值已被其平均值取代。


現在讓我們嘗試另一個數據框，這次我們將用該列的中位數替換 None 值。


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


第二列的中位數是


In [36]:
fill_with_median[1].median()

4.0

In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


正如我們所見，NaN 值已被該列的中位數取代


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

您可以使用單一值（例如 `0`）填充所有的空值條目：


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> 關鍵要點：
1. 當數據較少或有策略填補缺失數據時，應進行缺失值填補。
2. 可以利用領域知識通過近似方法填補缺失值。
3. 對於分類數據，通常使用該列的眾數來替代缺失值。
4. 對於數值數據，缺失值通常用平均值（針對正規化數據集）或該列的中位數來填補。


### 運動：


In [40]:
# What happens if you try to fill null values with a string, like ''?


您可以使用**向前填充**空值，即使用最後一個有效值來填充空值：


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

您也可以使用**回填**將下一個有效值向後傳播以填補空值：


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

正如你可能猜到的，這與 DataFrame 的操作方式相同，但你也可以指定一個 `axis` 來填充空值：


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


請注意，當先前的值無法用於向前填充時，空值將保留。


### 運動：


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


您可以創意地使用 `fillna`。例如，我們再來看看 `example4`，但這次讓我們用 `DataFrame` 中所有值的平均值來填補缺失值：


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


注意，第 3 欄仍然是空的：預設方向是按行填充值。

> **重點提示：** 處理數據集中缺失值的方法有很多種。具體採用的策略（移除、替換，甚至替換的方式）應該根據該數據的特點來決定。隨著你處理和接觸更多數據集，你將更好地掌握如何應對缺失值的技巧。


### 編碼分類數據

機器學習模型只能處理數字以及任何形式的數值數據。它無法分辨「是」和「否」，但能區分 0 和 1。因此，在填補缺失值之後，我們需要將分類數據編碼為某種數字形式，讓模型能夠理解。

編碼可以通過兩種方式完成。我們接下來將討論這些方法。


**標籤編碼**

標籤編碼基本上是將每個類別轉換為一個數字。例如，假設我們有一個航空乘客的數據集，其中有一列包含他們的艙等，分別是 ['business class', 'economy class', 'first class']。如果對這些數據進行標籤編碼，則會被轉換為 [0, 1, 2]。讓我們通過程式碼來看一個例子。由於我們會在接下來的筆記本中學習 `scikit-learn`，這裡我們不會使用它。


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


要對第一列執行標籤編碼，我們必須先描述每個類別到數字的映射，然後再進行替換


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


正如我們所見，輸出結果與我們預期的一致。那麼，我們什麼時候使用標籤編碼呢？標籤編碼適用於以下一種或兩種情況：

1. 當類別數量很多時  
2. 當類別具有順序性時  


**獨熱編碼**

另一種編碼方式是獨熱編碼（One Hot Encoding）。在這種編碼方式中，每個欄位的類別會被新增為一個單獨的欄位，並且每個數據點根據是否包含該類別，分別被賦值為 0 或 1。因此，如果有 n 種不同的類別，則會在資料框中新增 n 個欄位。

例如，我們以相同的飛機艙等為例。類別為：['business class', 'economy class', 'first class']。那麼，如果我們執行獨熱編碼，數據集中將新增以下三個欄位：['class_business class', 'class_economy class', 'class_first class']。


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


讓我們對第一列執行獨熱編碼


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


每個獨熱編碼欄位包含 0 或 1，表示該數據點是否存在該類別。


什麼時候使用獨熱編碼（One Hot Encoding）？  
獨熱編碼通常在以下一種或兩種情況下使用：

1. 當類別數量和數據集的規模較小時。
2. 當類別之間沒有特定的順序時。


> 關鍵重點：  
1. 編碼的目的是將非數值型資料轉換為數值型資料。  
2. 編碼主要有兩種類型：標籤編碼（Label encoding）和獨熱編碼（One Hot encoding），可以根據資料集的需求選擇使用。  


## 移除重複數據

> **學習目標：** 在本小節結束時，您應該能夠熟練地識別並移除 DataFrame 中的重複值。

除了缺失數據之外，您在處理真實世界的數據集時，經常會遇到重複的數據。幸運的是，pandas 提供了一種簡單的方法來檢測和移除重複的條目。


### 識別重複值：`duplicated`

你可以使用 pandas 的 `duplicated` 方法輕鬆找出重複的值。該方法會返回一個布林遮罩，指示 `DataFrame` 中某個條目是否是之前條目的重複值。讓我們創建另一個範例 `DataFrame` 來實際看看這個方法的效果。


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### 刪除重複值：`drop_duplicates`
`drop_duplicates` 會返回一份數據的副本，其中所有 `duplicated` 值均為 `False`：


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


`duplicated` 和 `drop_duplicates` 預設會考慮所有列，但您可以指定它們僅檢查 `DataFrame` 中的一部分列：


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2



---

**免責聲明**：  
本文件使用 AI 翻譯服務 [Co-op Translator](https://github.com/Azure/co-op-translator) 進行翻譯。我們致力於提供準確的翻譯，但請注意，自動翻譯可能包含錯誤或不準確之處。應以原始語言的文件作為權威來源。對於關鍵資訊，建議尋求專業人工翻譯。我們對因使用此翻譯而產生的任何誤解或錯誤解讀概不負責。
