# データ準備

[オリジナルノートブックの出典: *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio by Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## `DataFrame`情報の探索

> **学習目標:** このセクションの終わりまでに、pandasのDataFrameに格納されたデータの一般的な情報を見つける方法に慣れることができます。

データをpandasに読み込むと、ほとんどの場合、それは`DataFrame`の形式になります。しかし、もしその`DataFrame`に60,000行と400列のデータが含まれていたら、どのようにしてそのデータの概要を把握し始めればよいのでしょうか？幸いなことに、pandasは`DataFrame`全体の情報や最初と最後の数行を素早く確認するための便利なツールを提供しています。

この機能を探索するために、Pythonのscikit-learnライブラリをインポートし、すべてのデータサイエンティストが何百回も目にしたことがある象徴的なデータセットを使用します。それは、イギリスの生物学者ロナルド・フィッシャーが1936年の論文「分類問題における複数測定の利用」で使用した*アヤメ*データセットです。


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
変数 `iris_df` に Iris データセットを読み込みました。データを詳しく見る前に、データポイントの数やデータセット全体のサイズを把握することは有益です。扱っているデータの量を確認するのは役立ちます。


In [2]:
iris_df.shape

(150, 4)

つまり、150行と4列のデータを扱っています。各行は1つのデータポイントを表し、各列はデータフレームに関連する1つの特徴を表しています。要するに、150個のデータポイントがあり、それぞれに4つの特徴が含まれています。

`shape`はデータフレームの属性であり、関数ではないため、括弧で終わっていません。


### `DataFrame.columns`
では、データの4つの列について見ていきましょう。それぞれの列が具体的に何を表しているのか？`columns`属性を使用すると、データフレーム内の列名を取得することができます。


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

私たちが見るように、4つの列があります。`columns`属性は列の名前を教えてくれるだけで、基本的にそれ以外のことは何も教えてくれません。この属性は、データセットが含む特徴を特定したいときに重要性を持ちます。


### `DataFrame.info`
データの量（`shape`属性で示される）や特徴や列の名前（`columns`属性で示される）は、データセットについて何かを教えてくれます。次に、データセットをさらに詳しく調べたいと思います。その際に、`DataFrame.info()`関数は非常に役立ちます。


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


ここから、いくつかの観察ができます：
1. 各列のデータ型：このデータセットでは、すべてのデータが64ビット浮動小数点数として保存されています。
2. 非Null値の数：Null値を処理することは、データ準備において重要なステップです。これについては、後ほどノートブック内で対処します。


### DataFrame.describe()
データセットに数値データが多く含まれているとします。平均値、中央値、四分位数などの一変量統計計算は、各列ごとに個別に行うことができます。`DataFrame.describe()` 関数は、データセットの数値列に関する統計的な概要を提供します。


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


上記の出力は、各列のデータポイントの総数、平均、標準偏差、最小値、下位四分位数（25%）、中央値（50%）、上位四分位数（75%）、および最大値を示しています。


### `DataFrame.head`
これまでの関数や属性を使って、データセットの概要を把握しました。データポイントの数、特徴量の数、各特徴量のデータ型、そして各特徴量の非null値の数が分かりました。

次は、実際のデータを確認する段階です。`DataFrame`の最初の数行（最初のいくつかのデータポイント）がどのようになっているか見てみましょう。


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


出力を見ると、データセットの5つのエントリが表示されています。左側のインデックスを見ると、これらが最初の5行であることがわかります。


### 演習:

上記の例から明らかなように、デフォルトでは `DataFrame.head` は `DataFrame` の最初の5行を返します。以下のコードセルで、5行以上を表示する方法を考えられますか？


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
データを見る別の方法として、始まりではなく終わりから見ることができます。`DataFrame.head`の反対が`DataFrame.tail`であり、`DataFrame`の最後の5行を返します:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


データセットが順序付けられている場合、特に外れ値を探しているときには、`DataFrame`の最初の数行や最後の数行を簡単に確認できることが実用的です。

上記でコード例を使って示したすべての関数や属性は、データの外観や感触を把握するのに役立ちます。

> **ポイント:** `DataFrame`内の情報に関するメタデータや、最初および最後の数値を確認するだけでも、扱っているデータのサイズ、形状、内容について即座に把握することができます。


### 欠損データ
欠損データについて見ていきましょう。欠損データとは、いくつかの列に値が保存されていない場合に発生します。

例を挙げてみましょう。例えば、ある人が自分の体重を気にしていて、アンケートの体重欄を記入しないとします。その場合、その人の体重の値は欠損となります。

現実世界のデータセットでは、欠損値が発生することがほとんどです。

**Pandasが欠損データを処理する方法**

Pandasは欠損値を2つの方法で処理します。1つ目は、以前のセクションで見たことがある`NaN`（Not a Number）です。これは実際にはIEEE浮動小数点仕様の一部であり、欠損した浮動小数点値を示すためだけに使用される特別な値です。

浮動小数点以外の欠損値に対しては、PandasはPythonの`None`オブジェクトを使用します。2種類の異なる値が本質的に同じことを示しているように見えるため混乱するかもしれませんが、この設計選択には合理的なプログラム上の理由があります。そして実際には、この方法を採用することで、Pandasはほとんどのケースにおいて良い妥協点を提供することができます。それにもかかわらず、`None`と`NaN`の両方には、それらがどのように使用できるかに関して注意すべき制約があります。


### `None`: 非浮動小数点の欠損データ
`None` は Python 由来のため、データ型が `'object'` でない NumPy や pandas の配列では使用できません。覚えておいてください。NumPy 配列（および pandas のデータ構造）は、1種類のデータ型しか含むことができません。これが、大規模なデータ処理や計算作業における強力な性能をもたらす一方で、柔軟性を制限する要因にもなっています。このような配列は「最小公倍数」のデータ型、つまり配列内のすべてを包含できるデータ型にアップキャストされる必要があります。配列内に `None` が含まれる場合、それは Python オブジェクトを扱っていることを意味します。

これを実際に確認するために、以下の例の配列を考えてみてください（その `dtype` に注目してください）：


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

アップキャストされたデータ型の現実には、2つの副作用が伴います。まず、操作がコンパイルされたNumPyコードではなく、解釈されたPythonコードのレベルで実行されるという点です。つまり、`None`を含む`Series`や`DataFrame`を扱う操作は遅くなるということです。このパフォーマンスの低下はおそらく気づかない程度かもしれませんが、大規模なデータセットでは問題になる可能性があります。

2つ目の副作用は、1つ目から派生しています。`None`が本質的に`Series`や`DataFrame`を通常のPythonの世界に引き戻してしまうため、`sum()`や`min()`のようなNumPy/pandasの集計関数を`None`を含む配列に対して使用すると、一般的にエラーが発生します。


In [10]:
example1.sum()

TypeError: ignored

**重要なポイント**: 整数と`None`値の間の加算（およびその他の操作）は未定義であり、それによりそれらを含むデータセットでできることが制限される可能性があります。


### `NaN`: 浮動小数点値の欠損

`None`とは異なり、NumPy（そしてpandas）は高速でベクトル化された操作やufuncをサポートするために`NaN`を使用します。問題点として、`NaN`に対して行われる算術演算は常に`NaN`を返します。例えば:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

良いニュース：`NaN` を含む配列で集計を実行してもエラーは発生しません。悪いニュース：結果は一様に有用ではありません。


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### 運動:


In [11]:
# What happens if you add np.nan and None together?


`NaN`は浮動小数点値が欠落している場合にのみ使用されます。整数、文字列、またはブール値には`NaN`に相当するものはありません。


### `NaN` と `None`: pandas における null 値

`NaN` と `None` は多少異なる動作をすることがありますが、pandas はそれらを同じように扱えるように設計されています。その意味を確認するために、整数の `Series` を考えてみましょう:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### 運動:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


データ型を統一するために`Series`や`DataFrame`で型をアップキャストする過程で、pandasは欠損値を`None`と`NaN`の間で自由に切り替えます。この設計上の特徴から、pandasでは`None`と`NaN`を「null」の2つの異なる形態として考えると便利です。実際、pandasで欠損値を扱うために使用する主要なメソッドの名前には、この考え方が反映されています。

- `isnull()`: 欠損値を示すブールマスクを生成
- `notnull()`: `isnull()`の反対
- `dropna()`: データのフィルタリングされたバージョンを返す
- `fillna()`: 欠損値を埋めるか補完したデータのコピーを返す

これらのメソッドは非常に重要で、使いこなせるようになることが求められます。それぞれについて詳しく見ていきましょう。


### 欠損値の検出

欠損値の重要性を理解したところで、それらを処理する前にデータセット内で検出する必要があります。  
`isnull()` と `notnull()` の両方が、欠損データを検出するための主要なメソッドです。どちらもデータに対してブールマスクを返します。


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

出力をよく見てください。何か驚く点はありますか？`0`は算術的には「無」を表しますが、それでも完全に有効な整数であり、pandasもそのように扱います。一方で、`''`は少し微妙です。セクション1で空の文字列値を表すために使用しましたが、それでも文字列オブジェクトであり、pandasにとっては「null」を表すものではありません。

さて、これを逆にして、実際に使うような形でこれらのメソッドを使用してみましょう。Booleanマスクを直接``Series``や``DataFrame``のインデックスとして使用することができます。これは、欠損値（または存在する値）を分離して操作しようとする際に便利です。

欠損値の総数を知りたい場合は、`isnull()`メソッドによって生成されたマスクに対して単純に合計を取るだけで済みます。


In [19]:
example3.isnull().sum()

2

### 運動:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**重要なポイント**: DataFrameで`isnull()`と`notnull()`メソッドを使用すると、どちらも似たような結果を生成します。それらは結果とそのインデックスを表示し、データを扱う際に非常に役立ちます。


### 欠損データの処理

> **学習目標:** このセクションの終わりまでに、DataFrameから欠損値を置き換える方法や削除するタイミングを理解できるようになります。

機械学習モデルは欠損データをそのまま扱うことができません。そのため、データをモデルに渡す前に、これらの欠損値を処理する必要があります。

欠損データの処理方法には微妙なトレードオフが伴い、最終的な分析結果や現実世界での成果に影響を与える可能性があります。

欠損データを処理する主な方法は以下の2つです：

1.   欠損値を含む行を削除する
2.   欠損値を他の値で置き換える

これらの方法について、それぞれの利点と欠点を詳しく説明していきます。


### 欠損値の削除

モデルに渡すデータ量は、その性能に直接影響を与えます。欠損値を削除するということは、データポイントの数を減らし、データセットのサイズを縮小することを意味します。そのため、データセットが非常に大きい場合には、欠損値を含む行を削除することが推奨されます。

また、特定の行や列に欠損値が多く含まれている場合、それらを削除することもあります。なぜなら、その行や列のほとんどのデータが欠けているため、分析にあまり価値を加えない可能性があるからです。

欠損値を特定するだけでなく、pandasは`Series`や`DataFrame`から欠損値を削除する便利な方法を提供しています。これを実際に確認するために、`example3`に戻りましょう。`DataFrame.dropna()`関数は、欠損値を含む行を削除するのに役立ちます。


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

`example3[example3.notnull()]` の出力に似ていることに注意してください。ここでの違いは、マスクされた値をインデックスするだけではなく、`dropna` が `Series` `example3` から欠損値を削除した点です。

DataFrame は2次元であるため、データを削除する際により多くの選択肢があります。


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


（pandasが2つの列を`NaN`に対応するために浮動小数点型にアップキャストしたことに気づきましたか？）

`DataFrame`から単一の値を削除することはできないため、行または列全体を削除する必要があります。行う内容によって、どちらかを選ぶことになるでしょう。そのため、pandasは両方の選択肢を提供しています。データサイエンスでは、一般的に列は変数を表し、行は観測値を表すため、データの行を削除することが多くなります。`dropna()`のデフォルト設定では、null値を含むすべての行を削除するようになっています。


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


必要に応じて、列からNA値を削除することができます。`axis=1`を使用してください。


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


データが少ない場合、保持したいデータが多く失われる可能性があります。では、いくつか、またはすべての値がnullである行や列だけを削除したい場合はどうすればよいでしょうか？その場合、`dropna`の`how`および`thresh`パラメータを設定します。

デフォルトでは、`how='any'`が設定されています（自分で確認したり、他のパラメータを確認したい場合は、コードセルで`example4.dropna?`を実行してください）。代わりに`how='all'`を指定することで、すべての値がnullである行や列だけを削除することもできます。次の演習で、この動作を確認するために例の`DataFrame`を拡張してみましょう。


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> 主なポイント:
1. データセットが十分に大きい場合に限り、欠損値を削除するのは良いアイデアです。
2. データの大部分が欠損している行や列は削除することができます。
3. `DataFrame.dropna(axis=)` メソッドは欠損値を削除するのに役立ちます。`axis` 引数は、行を削除するのか列を削除するのかを指定します。
4. `how` 引数も使用できます。デフォルトでは `any` に設定されています。そのため、欠損値を含む行や列のみが削除されます。`all` に設定すると、すべての値が欠損している行や列のみを削除するよう指定できます。


### 運動:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


`thresh` パラメーターは、より細かい制御を提供します。行や列を保持するために必要な *非ヌル* 値の数を設定します。


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


最初と最後の行は、非NULL値が2つしか含まれていないため削除されました。


### 欠損値の補完

欠損値を有効な値で補完することが理にかなう場合があります。欠損値を補完するためのいくつかの手法があります。最初の方法は、ドメイン知識（データセットが基づいている対象分野の知識）を活用して欠損値をある程度推定することです。

`isnull`を使って欠損値を補完することもできますが、多くの値を補完する必要がある場合は手間がかかることがあります。このような作業はデータサイエンスでは非常に一般的なため、pandasは`fillna`を提供しています。`fillna`は、欠損値を指定した値で置き換えた`Series`や`DataFrame`のコピーを返します。これが実際にどのように機能するかを確認するために、別の例として`Series`を作成してみましょう。


### カテゴリカルデータ（非数値）
まずは非数値データについて考えてみましょう。データセットには、カテゴリカルデータを含む列があります。例えば、性別や「True」または「False」などです。

これらのケースのほとんどでは、欠損値をその列の`最頻値（mode）`で置き換えます。例えば、100件のデータポイントがあり、90件が「True」、8件が「False」、2件が未記入だったとします。この場合、列全体を考慮して、未記入の2件を「True」で埋めることができます。

さらに、ここではドメイン知識を活用することもできます。最頻値で埋める例を考えてみましょう。


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


null値が置き換えられたことがわかります。言うまでもなく、`'True'`の代わりに何でも書くことができ、それが置き換えられたでしょう。


### 数値データ
次に、数値データについて説明します。ここでは、欠損値を置き換える一般的な方法が2つあります：

1. 行の中央値で置き換える  
2. 行の平均値で置き換える  

データが外れ値を含む偏った分布の場合は、中央値で置き換えます。これは、中央値が外れ値に対して頑健だからです。

データが正規化されている場合は平均値を使用できます。この場合、平均値と中央値はほぼ同じになるからです。

まず、正規分布している列を取り、その列の平均値で欠損値を埋めてみましょう。


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


列の平均は


In [33]:
np.mean(fill_with_mean[0])

0.0

In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


欠損値が平均値で置き換えられたことがわかります。


次に別のデータフレームを試してみましょう。今回はNone値を列の中央値で置き換えます。


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


第2列の中央値は


In [36]:
fill_with_median[1].median()

4.0

In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


NaN値が列の中央値に置き換えられたことがわかります


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

すべての空のエントリを`0`などの単一の値で埋めることができます。


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> 重要なポイント:
1. 欠損値を埋める作業は、データが少ない場合や欠損値を埋めるための戦略がある場合に行うべきです。
2. ドメイン知識を活用して、欠損値を近似的に埋めることができます。
3. カテゴリデータの場合、多くの場合、欠損値はその列の最頻値（モード）で置き換えられます。
4. 数値データの場合、欠損値は通常、平均値（正規化されたデータセットの場合）または列の中央値で埋められます。


### 運動:


In [40]:
# What happens if you try to fill null values with a string, like ''?


ヌル値を**前方埋め**することができます。これは、最後の有効な値を使用してヌルを埋める方法です。


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

次の有効な値を後方に伝播させてヌルを埋めるために**バックフィル**することもできます。


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

データフレームでも同じように機能しますが、null値を埋める軸を指定することもできます:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


前の値が前方埋めに利用できない場合、null値がそのまま残ることに注意してください。


### 運動:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


`fillna` の使い方については創造的であることができます。例えば、再び `example4` を見てみましょう。ただし、今回は欠損値を `DataFrame` 内のすべての値の平均で埋めてみます。


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


3列目がまだ値を持っていないことに注意してください: デフォルトの方向は行ごとに値を埋めることです。

> **ポイント:** データセット内の欠損値を処理する方法は複数あります。使用する具体的な戦略（削除、置換、またはどのように置換するか）は、そのデータの特性によって決定されるべきです。データセットを扱い、操作する経験を積むことで、欠損値への対処方法についてより良い感覚を身につけることができます。


### カテゴリカルデータのエンコード

機械学習モデルは数値データのみを扱うことができます。「Yes」と「No」の違いを理解することはできませんが、「0」と「1」の違いは区別できます。そのため、欠損値を埋めた後、モデルが理解できるようにカテゴリカルデータを数値形式にエンコードする必要があります。

エンコードには2つの方法があります。次にそれらについて説明します。


**ラベルエンコーディング**

ラベルエンコーディングとは、各カテゴリを数値に変換することを指します。例えば、航空会社の乗客に関するデータセットがあり、次のようなクラスを含む列があるとします：['business class', 'economy class', 'first class']。この列にラベルエンコーディングを適用すると、[0, 1, 2] に変換されます。コードを使って例を見てみましょう。今後のノートブックで `scikit-learn` を学ぶ予定なので、ここでは使用しません。


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


1列目にラベルエンコーディングを行うには、各クラスを数値に対応付けるマッピングをまず記述し、その後置き換える必要があります。


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


予想通りの結果が得られました。では、ラベルエンコーディングはいつ使用するのでしょうか？ラベルエンコーディングは、以下のいずれか、または両方の場合に使用されます：
1. カテゴリの数が多い場合
2. カテゴリに順序がある場合


**ワンホットエンコーディング**

もう一つのエンコーディングの種類として、ワンホットエンコーディングがあります。このエンコーディングでは、列の各カテゴリが個別の列として追加され、各データポイントはそのカテゴリを含むかどうかに基づいて0または1を取得します。したがって、異なるカテゴリがn個ある場合、データフレームにn個の列が追加されます。

例えば、同じ飛行機のクラスの例を考えてみましょう。カテゴリは次の通りでした: ['business class', 'economy class', 'first class']。この場合、ワンホットエンコーディングを実行すると、次の3つの列がデータセットに追加されます: ['class_business class', 'class_economy class', 'class_first class']。


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


1列目に対してワンホットエンコーディングを行いましょう


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


各ワンホットエンコードされた列には0または1が含まれており、そのデータポイントにそのカテゴリが存在するかどうかを指定します。


ワンホットエンコーディングはいつ使用するのか？ワンホットエンコーディングは、以下のいずれかまたは両方の場合に使用されます：

1. カテゴリーの数やデータセットのサイズが小さい場合。
2. カテゴリーに特定の順序がない場合。


> 主なポイント:
1. エンコーディングは、非数値データを数値データに変換するために行われます。
2. エンコーディングにはラベルエンコーディングとワンホットエンコーディングの2種類があり、データセットの要求に応じて実行できます。


## 重複データの削除

> **学習目標:** このセクションの終わりまでに、DataFrameから重複した値を特定し削除する方法に慣れることができます。

欠損データに加えて、実際のデータセットでは重複したデータに遭遇することがよくあります。幸いなことに、pandasは重複したエントリを検出し削除する簡単な方法を提供しています。


### 重複を特定する: `duplicated`

pandasの`duplicated`メソッドを使えば、重複した値を簡単に見つけることができます。このメソッドは、`DataFrame`内のエントリが以前のものと重複しているかどうかを示すブールマスクを返します。これを実際に確認するために、別の例として`DataFrame`を作成してみましょう。


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### 重複を削除する: `drop_duplicates`
`drop_duplicates` は、`duplicated` の値がすべて `False` であるデータのコピーを返すだけです:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


`duplicated` と `drop_duplicates` はデフォルトで全ての列を考慮しますが、`DataFrame` 内の列のサブセットのみを調べるように指定することもできます。


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2



---

**免責事項**:  
この文書は、AI翻訳サービス [Co-op Translator](https://github.com/Azure/co-op-translator) を使用して翻訳されています。正確性を追求しておりますが、自動翻訳には誤りや不正確な部分が含まれる可能性があることをご承知ください。元の言語で記載された文書が正式な情報源とみなされるべきです。重要な情報については、専門の人間による翻訳を推奨します。この翻訳の使用に起因する誤解や誤った解釈について、当方は責任を負いません。
