# 数据准备

[原始笔记本来源于 *数据科学：Python和机器学习工作室中的数据科学机器学习入门，作者 Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## 探索 `DataFrame` 信息

> **学习目标：** 在本小节结束时，您应该能够熟练地查找存储在 pandas DataFrame 中的数据的一般信息。

当您将数据加载到 pandas 中时，它很可能会以 `DataFrame` 的形式存在。然而，如果您的 `DataFrame` 中的数据集有60,000行和400列，您该如何开始了解您正在处理的内容呢？幸运的是，pandas 提供了一些方便的工具，可以快速查看 `DataFrame` 的整体信息，以及前几行和后几行数据。

为了探索这些功能，我们将导入 Python 的 scikit-learn 库，并使用一个每位数据科学家都见过数百次的经典数据集：英国生物学家 Ronald Fisher 在其1936年的论文《多重测量在分类问题中的应用》中使用的 *Iris* 数据集：


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
我们已经将鸢尾花数据集加载到变量 `iris_df` 中。在深入分析数据之前，了解我们拥有的数据点数量以及数据集的整体规模是很有价值的。查看我们正在处理的数据量是很有帮助的。


In [2]:
iris_df.shape

(150, 4)

所以，我们正在处理包含150行和4列的数据。每一行代表一个数据点，每一列代表与数据框相关的一个特征。基本上，这里有150个数据点，每个数据点包含4个特征。

`shape`在这里是数据框的一个属性，而不是一个函数，这就是为什么它的末尾没有一对括号。


### `DataFrame.columns`
现在让我们来看这4列数据。它们分别具体代表什么呢？`columns` 属性会告诉我们数据框中列的名称。


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

正如我们所见，有四（4）列。`columns` 属性告诉我们列的名称，除此之外基本没有其他信息。当我们想要识别数据集包含的特征时，这个属性变得重要。


### `DataFrame.info`
通过 `shape` 属性提供的数据量以及通过 `columns` 属性提供的特征或列名，可以让我们对数据集有一些初步了解。现在，我们希望更深入地探索数据集。`DataFrame.info()` 函数在这方面非常有用。


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


从这里，我们可以得出一些观察：

1. 每列的数据类型：在这个数据集中，所有数据都存储为64位浮点数。
2. 非空值的数量：处理空值是数据准备中的一个重要步骤。这将在后续的笔记本中处理。


### DataFrame.describe()
假设我们的数据集中有大量的数值数据。可以对每一列单独进行单变量统计计算，例如均值、中位数、四分位数等。`DataFrame.describe()` 函数为数据集的数值列提供统计摘要。


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


上面的输出显示了每列的总数据点数、均值、标准差、最小值、下四分位数(25%)、中位数(50%)、上四分位数(75%)和最大值。


### `DataFrame.head`
通过以上所有函数和属性，我们已经对数据集有了一个总体的了解。我们知道数据点的数量、特征的数量、每个特征的数据类型以及每个特征的非空值数量。

现在是时候查看数据本身了。让我们看看我们的 `DataFrame` 的前几行（前几个数据点）是什么样子的：


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


在这里的输出中，我们可以看到数据集的五(5)条记录。如果我们查看左侧的索引，我们会发现这些是前五行。


### 练习：

从上面的例子可以看出，默认情况下，`DataFrame.head` 会返回 `DataFrame` 的前五行。在下面的代码单元中，你能找到一种方法来显示超过五行的数据吗？


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
另一种查看数据的方法是从末尾开始（而不是从开头）。`DataFrame.head` 的反面是 `DataFrame.tail`，它会返回 `DataFrame` 的最后五行：


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


在实际操作中，能够轻松查看 `DataFrame` 的前几行或后几行非常有用，尤其是在检查有序数据集中的异常值时。

上面通过代码示例展示的所有函数和属性，都能帮助我们快速了解数据的外观和特性。

> **要点：** 仅仅通过查看 `DataFrame` 的元数据，或者查看其前几行和后几行的值，就可以快速了解数据的大小、形状以及内容。


### 缺失数据
让我们深入了解缺失数据。缺失数据是指某些列中没有存储任何值的情况。

举个例子：假设某人对自己的体重很敏感，因此在调查中没有填写体重字段。那么，这个人的体重值就会缺失。

在现实世界的数据集中，缺失值是非常常见的。

**Pandas如何处理缺失数据**

Pandas处理缺失值有两种方式。第一种方式你在之前的章节中已经见过：`NaN`，即“非数字”。实际上，这是一种特殊值，是IEEE浮点规范的一部分，仅用于表示缺失的浮点值。

对于非浮点类型的缺失值，Pandas使用Python的`None`对象。虽然同时遇到两种不同类型的缺失值可能会让人感到困惑，但这种设计选择有其合理的编程原因。在实际应用中，这种方式使Pandas能够在绝大多数情况下提供一个良好的折中方案。尽管如此，`None`和`NaN`都存在一些限制，需要注意它们在使用时的规则和约束。


### `None`：非浮点类型的缺失数据
由于 `None` 来自 Python，它不能用于数据类型不是 `'object'` 的 NumPy 和 pandas 数组中。请记住，NumPy 数组（以及 pandas 中的数据结构）只能包含一种类型的数据。这种特性赋予了它们在大规模数据和计算工作中的强大能力，但也限制了它们的灵活性。这类数组必须向“最低公分母”数据类型进行提升，即能够包含数组中所有内容的数据类型。当数组中包含 `None` 时，这意味着你正在处理 Python 对象。

为了更直观地理解这一点，请看以下示例数组（注意它的 `dtype`）：


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

上升数据类型的现实带来了两个副作用。首先，操作将在解释的 Python 代码层面上进行，而不是编译的 NumPy 代码层面。这基本上意味着，任何涉及包含 `None` 的 `Series` 或 `DataFrame` 的操作都会变得更慢。虽然你可能不会注意到这种性能下降，但对于大型数据集来说，这可能会成为一个问题。

第二个副作用源于第一个副作用。由于 `None` 本质上将 `Series` 或 `DataFrame` 拉回到原生 Python 的世界，因此在包含 `None` 值的数组上使用 NumPy/pandas 的聚合函数（如 `sum()` 或 `min()`）通常会产生错误：


In [10]:
example1.sum()

TypeError: ignored

**关键点**：整数与`None`值之间的加法（以及其他操作）是未定义的，这可能会限制您对包含它们的数据集所能执行的操作。


### `NaN`：缺失的浮点值

与 `None` 不同，NumPy（因此也包括 pandas）支持 `NaN`，以便进行快速的矢量化操作和 ufuncs。坏消息是，任何涉及 `NaN` 的算术运算结果都会是 `NaN`。例如：


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

好消息：在包含 `NaN` 的数组上运行聚合不会出现错误。坏消息：结果并不总是有用：


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### 练习：


In [11]:
# What happens if you add np.nan and None together?


请记住：`NaN` 仅用于表示缺失的浮点值；整数、字符串或布尔值没有 `NaN` 的等价物。


### `NaN` 和 `None`：pandas 中的空值

尽管 `NaN` 和 `None` 的行为可能略有不同，但 pandas 仍然能够将它们互换处理。为了更好地理解这一点，来看一个整数的 `Series`：


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### 练习：


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


在将数据类型向上转换以实现 `Series` 和 `DataFrame` 数据同质化的过程中，pandas 会自如地在 `None` 和 `NaN` 之间切换缺失值。由于这一设计特性，将 `None` 和 `NaN` 视为 pandas 中两种不同形式的“空值”是很有帮助的。事实上，你会发现 pandas 中一些用于处理缺失值的核心方法在命名上也反映了这一点：

- `isnull()`：生成一个布尔掩码，用于标识缺失值
- `notnull()`：与 `isnull()` 相反
- `dropna()`：返回过滤后的数据版本
- `fillna()`：返回填充或插补缺失值后的数据副本

这些方法非常重要，掌握并熟练使用它们是关键。接下来，我们将深入了解每个方法。


### 检测空值

既然我们已经了解了缺失值的重要性，那么在处理它们之前，我们需要先在数据集中检测这些值。  
`isnull()` 和 `notnull()` 是检测空数据的主要方法。它们都会返回数据上的布尔掩码。


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

仔细看看输出结果，有没有让你感到意外的地方？虽然 `0` 是一个算术上的空值，但它仍然是一个完全合法的整数，pandas 也将其视为整数。`''` 则稍微复杂一些。虽然我们在第1节中用它来表示一个空字符串值，但它仍然是一个字符串对象，而不是 pandas 所认为的空值。

现在，让我们换个角度，用这些方法以更接近实际使用的方式来操作。你可以直接将布尔掩码用作 ``Series`` 或 ``DataFrame`` 的索引，这在处理孤立的缺失值（或存在值）时非常有用。

如果我们想要缺失值的总数，只需对 `isnull()` 方法生成的掩码进行求和即可。


In [19]:
example3.isnull().sum()

2

### 练习：


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**关键点**：在使用 DataFrame 时，`isnull()` 和 `notnull()` 方法会产生类似的结果：它们显示结果及其索引，这将在您处理数据时为您提供极大的帮助。


### 处理缺失数据

> **学习目标：** 在本小节结束时，你应该了解如何以及何时在 DataFrame 中替换或移除空值。

机器学习模型本身无法处理缺失数据。因此，在将数据传入模型之前，我们需要处理这些缺失值。

如何处理缺失数据涉及一些微妙的权衡，这可能会影响你的最终分析结果以及实际应用的效果。

处理缺失数据主要有两种方法：

1.   删除包含缺失值的行
2.   用其他值替换缺失值

我们将详细讨论这两种方法及其优缺点。


### 删除空值

我们传递给模型的数据量会直接影响其性能。删除空值意味着我们减少了数据点的数量，从而减小了数据集的规模。因此，当数据集相当大时，建议删除包含空值的行。

另一种情况可能是某一行或某一列有大量缺失值。在这种情况下，它们可能会被删除，因为对于我们的分析来说，这些行/列的大部分数据都缺失，无法提供太多价值。

除了识别缺失值之外，pandas 提供了一种方便的方法来从 `Series` 和 `DataFrame` 中移除空值。为了更好地理解这一点，让我们回到 `example3`。`DataFrame.dropna()` 函数可以帮助删除包含空值的行。


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

请注意，这应该看起来像您的输出 `example3[example3.notnull()]`。这里的区别在于，`dropna` 不只是对掩码值进行索引，而是从 `Series` `example3` 中移除了那些缺失值。

由于 DataFrame 是二维的，因此在删除数据时提供了更多选项。


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


（你注意到 pandas 将两列数据提升为浮点型以容纳 `NaN` 值了吗？）

你无法从 `DataFrame` 中删除单个值，因此必须删除整行或整列。根据你的需求，你可能会选择其中一种操作，因此 pandas 为你提供了两种选项。在数据科学中，列通常代表变量，行通常代表观测值，因此你更可能会删除数据行；`dropna()` 的默认设置是删除包含任何空值的所有行：


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


如果需要，您可以从列中删除NA值。使用`axis=1`来实现：


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


请注意，这可能会丢失大量数据，尤其是在较小的数据集中。如果您只想删除包含多个甚至全部空值的行或列，该怎么办？您可以在 `dropna` 中通过设置 `how` 和 `thresh` 参数来指定这些条件。

默认情况下，`how='any'`（如果您想自行检查或查看该方法的其他参数，可以在代码单元中运行 `example4.dropna?`）。您也可以选择指定 `how='all'`，这样只会删除包含所有空值的行或列。让我们扩展示例 `DataFrame`，在接下来的练习中看看这是如何运作的。


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> 关键要点：
1. 只有在数据集足够大的情况下，删除空值才是一个好主意。
2. 如果某些行或列的大部分数据缺失，可以将整行或整列删除。
3. `DataFrame.dropna(axis=)` 方法可以用来删除空值。`axis` 参数表示是删除行还是列。
4. 还可以使用 `how` 参数。默认情况下，它被设置为 `any`，因此只会删除包含任意空值的行/列。可以将其设置为 `all`，以指定仅删除所有值均为空的行/列。


### 练习:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


`thresh` 参数为您提供了更细粒度的控制：您可以设置一行或一列需要具有的 *非空* 值的数量，以便保留：


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


这里，第一行和最后一行已被删除，因为它们仅包含两个非空值。


### 填充空值

有时候，用可能有效的值来填充缺失值是有意义的。填充空值有几种方法。第一种是利用领域知识（即对数据集所基于主题的了解）来近似填补缺失值。

你可以使用 `isnull` 来原地完成这项工作，但如果需要填充的值很多，这可能会非常繁琐。由于这是数据科学中非常常见的任务，pandas 提供了 `fillna` 方法，它会返回一个 `Series` 或 `DataFrame` 的副本，其中的缺失值被替换为你选择的值。让我们创建另一个示例 `Series` 来看看它在实际中的工作方式。


### 分类数据（非数值型）
首先，让我们考虑非数值型数据。在数据集中，我们会有一些包含分类数据的列。例如：性别、True 或 False 等。

在大多数情况下，我们会用该列的`众数`来替换缺失值。假设我们有100个数据点，其中90个是True，8个是False，还有2个未填写。那么，我们可以用True填补这2个缺失值，因为True是该列的众数。

同样，在这里我们也可以利用领域知识。让我们来看一个用众数填补的例子。


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


正如我们所见，空值已被替换。不用说，我们本可以用任何内容替代`'True'`，它都会被替换。


### 数值数据
现在来说说数值数据。这里有两种常见的方法来替换缺失值：

1. 用行的中位数替换
2. 用行的平均值替换

当数据存在偏态分布且有异常值时，我们使用中位数替换。这是因为中位数对异常值具有鲁棒性。

当数据经过归一化处理后，我们可以使用平均值，因为在这种情况下，平均值和中位数会非常接近。

首先，让我们选取一个正态分布的列，并用该列的平均值填充缺失值。


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


该列的平均值是


In [33]:
np.mean(fill_with_mean[0])

0.0

In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


正如我们所见，缺失值已被其平均值替换。


现在让我们尝试另一个数据框，这次我们将用列的中位数替换None值。


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


第二列的中位数是


In [36]:
fill_with_median[1].median()

4.0

In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


正如我们所见，NaN值已被该列的中位数替换


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

您可以用一个值（例如 `0`）填充所有的空条目：


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> 关键要点：
1. 当数据较少或有填补缺失数据的策略时，应进行缺失值填补。
2. 可以利用领域知识通过近似的方法填补缺失值。
3. 对于分类数据，缺失值通常用该列的众数替代。
4. 对于数值型数据，缺失值通常用均值（针对标准化数据集）或该列的中位数填补。


### 练习：


In [40]:
# What happens if you try to fill null values with a string, like ''?


您可以使用**前向填充**空值，即使用上一个有效值来填充空值：


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

您还可以**向后填充**，将下一个有效值向后传播以填充空值：


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

正如你可能猜到的，这与 DataFrame 的工作方式相同，但你还可以指定一个 `axis` 来填充空值：


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


注意，当没有可用于向前填充的先前值时，空值将保留。


### 练习：


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


你可以创造性地使用`fillna`。例如，我们再来看`example4`，但这次我们用`DataFrame`中所有值的平均值来填充缺失值：


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


请注意，第3列仍然没有值：默认的方向是按行填充值。

> **要点：** 处理数据集中缺失值的方法有很多种。具体采用哪种策略（删除、替换，甚至如何替换）应根据数据的具体情况来决定。随着你处理和接触更多的数据集，你会逐渐培养出更好的直觉来应对缺失值问题。


### 编码分类数据

机器学习模型只能处理数字和任何形式的数值数据。它无法区分“是”和“否”，但可以区分0和1。因此，在填充缺失值之后，我们需要将分类数据编码为某种数值形式，以便模型能够理解。

编码可以通过两种方式完成。接下来我们将讨论这两种方法。


**标签编码**

标签编码本质上是将每个类别转换为一个数字。例如，假设我们有一个航空乘客的数据集，其中有一列表示他们的舱位类别，包括以下几种：['商务舱', '经济舱', '头等舱']。如果对其进行标签编码，这些类别将被转换为 [0,1,2]。让我们通过代码来看一个示例。由于我们将在后续的笔记本中学习 `scikit-learn`，这里我们不会使用它。


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


要对第一列进行标签编码，我们必须首先描述从每个类别到数字的映射，然后再进行替换


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


正如我们所见，输出与我们预期的一致。那么，我们什么时候使用标签编码呢？标签编码在以下一种或两种情况下使用：  
1. 当类别数量较多时  
2. 当类别具有顺序关系时  


**独热编码**

另一种编码方式是独热编码。在这种编码方式中，每个列的类别都会作为一个单独的列添加到数据集中，并且每个数据点根据是否包含该类别被赋值为0或1。因此，如果有n个不同的类别，就会向数据框中添加n列。

例如，我们继续使用飞机舱位的例子。类别是：['business class', 'economy class', 'first class']。如果我们进行独热编码，以下三列将被添加到数据集中：['class_business class', 'class_economy class', 'class_first class']。


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


让我们对第一列进行独热编码


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


每个独热编码列包含0或1，用于指定该数据点是否存在该类别。


我们什么时候使用独热编码？独热编码在以下一种或两种情况下使用：

1. 当类别数量较少且数据集规模较小时。
2. 当类别之间没有特定顺序时。


> 关键要点：
1. 编码用于将非数值数据转换为数值数据。
2. 编码分为两种类型：标签编码和独热编码，可以根据数据集的需求进行选择。


## 删除重复数据

> **学习目标：** 在本小节结束时，您应该能够熟练识别并删除 DataFrame 中的重复值。

除了缺失数据外，您在处理真实世界的数据集时经常会遇到重复数据。幸运的是，pandas 提供了一种简单的方法来检测和删除重复条目。


### 识别重复值：`duplicated`

你可以使用 pandas 中的 `duplicated` 方法轻松识别重复值。该方法会返回一个布尔掩码，指示 `DataFrame` 中某个条目是否是之前条目的重复值。让我们创建另一个示例 `DataFrame` 来实际演示这一点。


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### 删除重复值：`drop_duplicates`
`drop_duplicates` 会返回一个数据副本，其中所有 `duplicated` 值均为 `False`：


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


`duplicated` 和 `drop_duplicates` 默认会考虑所有列，但您可以指定它们仅检查 `DataFrame` 中的部分列：


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2



---

**免责声明**：  
本文档使用AI翻译服务[Co-op Translator](https://github.com/Azure/co-op-translator)进行翻译。尽管我们努力确保准确性，但请注意，自动翻译可能包含错误或不准确之处。应以原始语言的文档作为权威来源。对于关键信息，建议使用专业人工翻译。对于因使用本翻译而引起的任何误解或误读，我们概不负责。
