# การเตรียมข้อมูล

[แหล่งโน้ตบุ๊คต้นฉบับจาก *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio โดย Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## การสำรวจข้อมูลใน `DataFrame`

> **เป้าหมายการเรียนรู้:** เมื่อจบหัวข้อนี้ คุณควรจะสามารถค้นหาข้อมูลทั่วไปเกี่ยวกับข้อมูลที่จัดเก็บใน pandas DataFrames ได้อย่างคล่องแคล่ว

เมื่อคุณโหลดข้อมูลของคุณเข้าสู่ pandas ข้อมูลนั้นมักจะอยู่ในรูปแบบ `DataFrame` อย่างไรก็ตาม หากชุดข้อมูลใน `DataFrame` ของคุณมี 60,000 แถวและ 400 คอลัมน์ คุณจะเริ่มต้นทำความเข้าใจข้อมูลที่คุณกำลังทำงานด้วยได้อย่างไร? โชคดีที่ pandas มีเครื่องมือที่สะดวกในการดูข้อมูลโดยรวมของ `DataFrame` อย่างรวดเร็ว รวมถึงแถวแรกและแถวสุดท้ายของข้อมูล

เพื่อสำรวจฟังก์ชันนี้ เราจะนำเข้าไลบรารี scikit-learn ของ Python และใช้ชุดข้อมูลที่โด่งดังซึ่งนักวิทยาศาสตร์ข้อมูลทุกคนเคยเห็นมาหลายร้อยครั้ง: ชุดข้อมูล *Iris* ของนักชีววิทยาชาวอังกฤษ Ronald Fisher ซึ่งใช้ในงานวิจัยปี 1936 ของเขา "The use of multiple measurements in taxonomic problems":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
เราได้โหลดชุดข้อมูล Iris ไว้ในตัวแปร `iris_df` ก่อนที่จะเริ่มสำรวจข้อมูล จะเป็นประโยชน์ถ้าเรารู้จำนวนข้อมูลที่เรามีและขนาดรวมของชุดข้อมูล การดูปริมาณข้อมูลที่เรากำลังจัดการจะช่วยให้เราเข้าใจภาพรวมได้ดีขึ้น


In [2]:
iris_df.shape

(150, 4)

ดังนั้น เรากำลังจัดการกับข้อมูลจำนวน 150 แถวและ 4 คอลัมน์ โดยแต่ละแถวแสดงถึงจุดข้อมูลหนึ่งจุด และแต่ละคอลัมน์แสดงถึงคุณลักษณะหนึ่งที่เกี่ยวข้องกับกรอบข้อมูล กล่าวคือ มีจุดข้อมูลทั้งหมด 150 จุด โดยแต่ละจุดมีคุณลักษณะ 4 อย่าง

`shape` ในที่นี้เป็นแอตทริบิวต์ของกรอบข้อมูล ไม่ใช่ฟังก์ชัน ซึ่งเป็นเหตุผลว่าทำไมมันถึงไม่มีวงเล็บตามท้าย


### `DataFrame.columns`
ตอนนี้เรามาดูข้อมูลใน 4 คอลัมน์กัน แต่ละคอลัมน์แสดงถึงอะไรบ้าง? คุณสมบัติ `columns` จะให้ชื่อของคอลัมน์ใน dataframe กับเรา


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

ตามที่เราเห็น มีสี่ (4) คอลัมน์ คุณสมบัติ `columns` บอกเราถึงชื่อของคอลัมน์และไม่มีข้อมูลอื่น ๆ คุณสมบัตินี้มีความสำคัญเมื่อเราต้องการระบุคุณลักษณะที่ชุดข้อมูลมี


### `DataFrame.info`
จำนวนข้อมูล (ระบุโดย `shape` attribute) และชื่อของฟีเจอร์หรือคอลัมน์ (ระบุโดย `columns` attribute) ให้ข้อมูลบางอย่างเกี่ยวกับชุดข้อมูลแก่เรา ตอนนี้เราต้องการเจาะลึกลงไปในชุดข้อมูล ฟังก์ชัน `DataFrame.info()` มีประโยชน์มากสำหรับสิ่งนี้


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


จากตรงนี้ เราสามารถสังเกตได้บางอย่าง:

1. ประเภทข้อมูลของแต่ละคอลัมน์: ในชุดข้อมูลนี้ ข้อมูลทั้งหมดถูกเก็บในรูปแบบตัวเลขทศนิยมแบบ 64 บิต  
2. จำนวนค่าที่ไม่เป็น Null: การจัดการกับค่าที่เป็น Null เป็นขั้นตอนสำคัญในกระบวนการเตรียมข้อมูล ซึ่งจะถูกจัดการในภายหลังในโน้ตบุ๊ก


### DataFrame.describe()
สมมติว่าเรามีข้อมูลเชิงตัวเลขจำนวนมากในชุดข้อมูลของเรา การคำนวณสถิติแบบตัวแปรเดียว เช่น ค่าเฉลี่ย ค่ามัธยฐาน ควอไทล์ เป็นต้น สามารถทำได้กับแต่ละคอลัมน์แยกกัน ฟังก์ชัน `DataFrame.describe()` จะให้สรุปทางสถิติของคอลัมน์เชิงตัวเลขในชุดข้อมูลแก่เรา


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


ผลลัพธ์ด้านบนแสดงจำนวนข้อมูลทั้งหมด ค่าเฉลี่ย ส่วนเบี่ยงเบนมาตรฐาน ค่าต่ำสุด ควอไทล์ล่าง (25%) ค่ามัธยฐาน (50%) ควอไทล์บน (75%) และค่าสูงสุดของแต่ละคอลัมน์


### `DataFrame.head`
ด้วยฟังก์ชันและคุณสมบัติทั้งหมดที่กล่าวมาข้างต้น เราได้ภาพรวมของชุดข้อมูลในระดับสูง เรารู้ว่ามีจำนวนข้อมูลเท่าไร มีจำนวนคุณลักษณะเท่าไร ประเภทข้อมูลของแต่ละคุณลักษณะ และจำนวนค่าที่ไม่เป็น null สำหรับแต่ละคุณลักษณะ

ตอนนี้ถึงเวลาที่จะดูข้อมูลจริงกันแล้ว ลองมาดูว่าบรรทัดแรกๆ (จุดข้อมูลแรกๆ) ของ `DataFrame` ของเรามีลักษณะอย่างไร:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


ในผลลัพธ์นี้ เราสามารถเห็นรายการห้า (5) รายการของชุดข้อมูล หากเราดูที่ดัชนีทางด้านซ้าย เราจะพบว่านี่คือห้าบรรทัดแรก


### แบบฝึกหัด:

จากตัวอย่างที่ให้ไว้ข้างต้น จะเห็นได้ว่าโดยค่าเริ่มต้น `DataFrame.head` จะคืนค่าแถวแรก 5 แถวของ `DataFrame` ในเซลล์โค้ดด้านล่าง คุณสามารถหาวิธีแสดงแถวมากกว่า 5 แถวได้หรือไม่?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
อีกวิธีหนึ่งในการดูข้อมูลคือดูจากส่วนท้าย (แทนที่จะดูจากส่วนต้น) ฟังก์ชันที่ตรงข้ามกับ `DataFrame.head` คือ `DataFrame.tail` ซึ่งจะคืนค่าห้าบรรทัดสุดท้ายของ `DataFrame`:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


ในการปฏิบัติจริง การตรวจสอบแถวแรกๆ หรือแถวสุดท้ายๆ ของ `DataFrame` อย่างง่ายดายนั้นมีประโยชน์มาก โดยเฉพาะเมื่อคุณกำลังมองหาค่าผิดปกติในชุดข้อมูลที่มีการเรียงลำดับ

ฟังก์ชันและแอตทริบิวต์ทั้งหมดที่แสดงไว้ข้างต้นพร้อมตัวอย่างโค้ด ช่วยให้เราได้สัมผัสและเข้าใจข้อมูลได้ดีขึ้น

> **ข้อคิดสำคัญ:** เพียงแค่ดูเมตาดาต้าเกี่ยวกับข้อมูลใน DataFrame หรือค่าชุดแรกและชุดสุดท้าย คุณก็สามารถเข้าใจได้ทันทีเกี่ยวกับขนาด รูปร่าง และเนื้อหาของข้อมูลที่คุณกำลังจัดการ


### ข้อมูลที่ขาดหายไป
มาดูเรื่องข้อมูลที่ขาดหายไปกัน ข้อมูลที่ขาดหายไปเกิดขึ้นเมื่อไม่มีการบันทึกค่าในบางคอลัมน์

ลองยกตัวอย่าง: สมมติว่ามีคนที่ใส่ใจเรื่องน้ำหนักของตัวเองและไม่กรอกข้อมูลน้ำหนักในแบบสำรวจ ดังนั้น ค่าน้ำหนักของบุคคลนั้นจะถือว่าขาดหายไป

ในโลกความเป็นจริง ส่วนใหญ่แล้วข้อมูลที่ขาดหายไปมักจะเกิดขึ้นในชุดข้อมูล

**Pandas จัดการกับข้อมูลที่ขาดหายไปอย่างไร**

Pandas จัดการกับข้อมูลที่ขาดหายไปได้สองวิธี วิธีแรกที่คุณเคยเห็นมาก่อนในส่วนก่อนหน้านี้คือ `NaN` หรือ Not a Number นี่เป็นค่าพิเศษที่เป็นส่วนหนึ่งของข้อกำหนด IEEE floating-point และใช้เพื่อระบุค่าที่ขาดหายไปในตัวเลขแบบทศนิยม

สำหรับค่าที่ขาดหายไปที่ไม่ใช่ตัวเลขทศนิยม Pandas ใช้ Python `None` object แม้ว่ามันอาจดูสับสนที่คุณจะพบค่าที่แตกต่างกันสองแบบที่แสดงถึงสิ่งเดียวกัน แต่ก็มีเหตุผลทางโปรแกรมที่ดีสำหรับการออกแบบเช่นนี้ และในทางปฏิบัติ การเลือกใช้วิธีนี้ช่วยให้ Pandas สามารถจัดการกับกรณีส่วนใหญ่ได้อย่างมีประสิทธิภาพ อย่างไรก็ตาม ทั้ง `None` และ `NaN` มีข้อจำกัดที่คุณต้องระวังเกี่ยวกับวิธีการใช้งาน


### `None`: ข้อมูลที่หายไปแบบไม่ใช่ float
เนื่องจาก `None` มาจาก Python จึงไม่สามารถใช้ใน NumPy และ pandas arrays ที่ไม่ได้มีชนิดข้อมูลเป็น `'object'` โปรดจำไว้ว่า NumPy arrays (และโครงสร้างข้อมูลใน pandas) สามารถมีได้เพียงชนิดข้อมูลเดียวเท่านั้น นี่คือสิ่งที่ทำให้มันมีพลังมหาศาลสำหรับการทำงานกับข้อมูลและการคำนวณขนาดใหญ่ แต่ก็จำกัดความยืดหยุ่นของมันเช่นกัน อาร์เรย์เหล่านี้ต้องถูกปรับชนิดข้อมูลให้เป็น “ตัวกลางที่ต่ำที่สุด” ซึ่งเป็นชนิดข้อมูลที่ครอบคลุมทุกอย่างในอาร์เรย์ เมื่อ `None` อยู่ในอาร์เรย์ หมายความว่าคุณกำลังทำงานกับ Python objects

เพื่อดูตัวอย่างนี้ ลองพิจารณาอาร์เรย์ตัวอย่างต่อไปนี้ (สังเกต `dtype` ของมัน):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

ผลกระทบสองประการที่เกิดจากการเปลี่ยนประเภทข้อมูลเป็นแบบ upcast คือ อย่างแรก การดำเนินการจะถูกดำเนินการในระดับของโค้ด Python ที่ถูกตีความแทนที่จะเป็นโค้ด NumPy ที่ถูกคอมไพล์ โดยพื้นฐานแล้วหมายความว่าการดำเนินการใด ๆ ที่เกี่ยวข้องกับ `Series` หรือ `DataFrames` ที่มี `None` อยู่ในนั้นจะทำงานช้าลง แม้ว่าคุณอาจจะไม่สังเกตเห็นผลกระทบด้านประสิทธิภาพนี้ แต่สำหรับชุดข้อมูลขนาดใหญ่ อาจกลายเป็นปัญหาได้

ผลกระทบประการที่สองเกิดจากผลกระทบแรก เนื่องจาก `None` โดยพื้นฐานแล้วจะดึง `Series` หรือ `DataFrame` กลับเข้าสู่โลกของ Python แบบดั้งเดิม การใช้การรวมข้อมูลของ NumPy/pandas เช่น `sum()` หรือ `min()` บนอาร์เรย์ที่มีค่า ``None`` อยู่ในนั้นมักจะทำให้เกิดข้อผิดพลาด:


In [10]:
example1.sum()

TypeError: ignored

### `NaN`: ค่าตัวเลขทศนิยมที่หายไป

แตกต่างจาก `None`, NumPy (และ pandas ด้วย) รองรับ `NaN` สำหรับการทำงานแบบเวกเตอร์ที่รวดเร็วและ ufuncs ข้อเสียคือ การคำนวณทางคณิตศาสตร์ใดๆ ที่ทำกับ `NaN` จะได้ผลลัพธ์เป็น `NaN` เสมอ ตัวอย่างเช่น:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

ข่าวดี: การรวมข้อมูลที่ทำงานบนอาร์เรย์ที่มี `NaN` อยู่ในนั้นจะไม่แสดงข้อผิดพลาด ข่าวร้าย: ผลลัพธ์ไม่ได้มีประโยชน์อย่างสม่ำเสมอ:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

In [11]:
# What happens if you add np.nan and None together?


### `NaN` และ `None`: ค่าที่เป็น null ใน pandas

แม้ว่า `NaN` และ `None` อาจมีพฤติกรรมที่แตกต่างกันเล็กน้อย แต่ pandas ถูกออกแบบมาให้จัดการกับทั้งสองอย่างได้อย่างแทนที่กันได้ ลองพิจารณา `Series` ของตัวเลขจำนวนเต็ม:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


ในกระบวนการเปลี่ยนประเภทข้อมูล (upcasting) เพื่อสร้างความสม่ำเสมอของข้อมูลใน `Series` และ `DataFrame` นั้น pandas จะยอมเปลี่ยนค่าที่หายไประหว่าง `None` และ `NaN` ได้อย่างยืดหยุ่น เนื่องจากคุณสมบัติการออกแบบนี้ จึงอาจเป็นประโยชน์ที่จะมองว่า `None` และ `NaN` เป็นสองรูปแบบที่แตกต่างกันของ "ค่าว่าง" ใน pandas จริง ๆ แล้ว วิธีการหลักบางอย่างที่คุณจะใช้ในการจัดการกับค่าที่หายไปใน pandas ก็สะท้อนแนวคิดนี้ในชื่อของมันด้วย:

- `isnull()`: สร้างหน้ากาก Boolean เพื่อระบุค่าที่หายไป
- `notnull()`: ตรงข้ามกับ `isnull()`
- `dropna()`: คืนค่าข้อมูลในรูปแบบที่กรองแล้ว
- `fillna()`: คืนสำเนาของข้อมูลที่เติมหรือประมาณค่าที่หายไป

วิธีการเหล่านี้เป็นสิ่งสำคัญที่ควรเรียนรู้และทำความคุ้นเคย ดังนั้นเรามาเจาะลึกแต่ละวิธีกัน


### การตรวจจับค่าที่เป็น null

เมื่อเราเข้าใจถึงความสำคัญของค่าที่หายไปแล้ว ขั้นตอนต่อไปคือการตรวจจับค่าที่หายไปในชุดข้อมูลของเรา ก่อนที่จะจัดการกับมัน  
ทั้ง `isnull()` และ `notnull()` เป็นวิธีหลักในการตรวจจับข้อมูลที่เป็น null โดยทั้งสองจะคืนค่าหน้ากาก Boolean ที่ครอบคลุมข้อมูลของคุณ


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

ดูให้ดี ๆ กับผลลัพธ์นี้ มีอะไรที่ทำให้คุณแปลกใจหรือเปล่า? แม้ว่า `0` จะเป็นค่าศูนย์ในเชิงคณิตศาสตร์ แต่มันก็ยังคงเป็นจำนวนเต็มที่สมบูรณ์ และ pandas ก็จัดการกับมันในลักษณะนั้น ส่วน `''` นั้นมีความละเอียดอ่อนกว่าเล็กน้อย แม้ว่าเราใช้มันในส่วนที่ 1 เพื่อแสดงถึงค่าข้อความว่างเปล่า แต่มันก็ยังคงเป็นวัตถุประเภทข้อความ และไม่ได้เป็นตัวแทนของ null ในมุมมองของ pandas

ตอนนี้ ลองเปลี่ยนมุมมองและใช้วิธีการเหล่านี้ในลักษณะที่คุณจะใช้จริงในทางปฏิบัติ คุณสามารถใช้ Boolean masks โดยตรงเป็นดัชนีของ ``Series`` หรือ ``DataFrame`` ซึ่งมีประโยชน์เมื่อคุณต้องการทำงานกับค่าที่หายไป (หรือค่าที่มีอยู่) แบบแยกส่วน

หากเราต้องการจำนวนรวมของค่าที่หายไป เราสามารถใช้การบวกผลรวมของ mask ที่สร้างขึ้นโดยเมธอด `isnull()` ได้เลย


In [19]:
example3.isnull().sum()

2

In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


### การจัดการกับข้อมูลที่ขาดหายไป

> **เป้าหมายการเรียนรู้:** เมื่อจบหัวข้อนี้ คุณควรจะรู้วิธีและเวลาที่เหมาะสมในการแทนที่หรือกำจัดค่าที่เป็น null จาก DataFrames

โมเดล Machine Learning ไม่สามารถจัดการกับข้อมูลที่ขาดหายไปได้ด้วยตัวเอง ดังนั้น ก่อนที่จะส่งข้อมูลเข้าสู่โมเดล เราจำเป็นต้องจัดการกับค่าที่ขาดหายไปเหล่านี้

วิธีการจัดการกับข้อมูลที่ขาดหายไปนั้นมีผลกระทบที่ละเอียดอ่อน ซึ่งอาจส่งผลต่อการวิเคราะห์ขั้นสุดท้ายและผลลัพธ์ในโลกความเป็นจริง

มีวิธีหลัก ๆ สองวิธีในการจัดการกับข้อมูลที่ขาดหายไป:

1.   ลบแถวที่มีค่าที่ขาดหายไป
2.   แทนค่าที่ขาดหายไปด้วยค่าอื่น

เราจะพูดถึงทั้งสองวิธีนี้ รวมถึงข้อดีและข้อเสียของแต่ละวิธีอย่างละเอียด


### การลบค่าที่เป็นค่าว่าง

ปริมาณข้อมูลที่เราส่งต่อไปยังโมเดลของเรามีผลโดยตรงต่อประสิทธิภาพของมัน การลบค่าที่เป็นค่าว่างหมายความว่าเรากำลังลดจำนวนข้อมูล และด้วยเหตุนี้จึงลดขนาดของชุดข้อมูล ดังนั้นจึงแนะนำให้ลบแถวที่มีค่าว่างเมื่อชุดข้อมูลมีขนาดค่อนข้างใหญ่

อีกกรณีหนึ่งอาจเป็นไปได้ว่าแถวหรือคอลัมน์บางแถวมีค่าที่หายไปจำนวนมาก ในกรณีนี้อาจลบออกได้ เพราะมันจะไม่เพิ่มคุณค่ามากนักให้กับการวิเคราะห์ของเรา เนื่องจากข้อมูลส่วนใหญ่ในแถวหรือคอลัมน์นั้นขาดหายไป

นอกเหนือจากการระบุค่าที่หายไปแล้ว pandas ยังมีวิธีที่สะดวกในการลบค่าที่เป็นค่าว่างออกจาก `Series` และ `DataFrame` เพื่อดูตัวอย่างการใช้งานนี้ เรามาดูที่ `example3` ฟังก์ชัน `DataFrame.dropna()` ช่วยในการลบแถวที่มีค่าที่เป็นค่าว่างออก


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

โปรดทราบว่าสิ่งนี้ควรมีลักษณะเหมือนผลลัพธ์จาก `example3[example3.notnull()]` ความแตกต่างในที่นี้คือ แทนที่จะทำการอินเด็กซ์เฉพาะค่าที่ถูกกรองด้วยหน้ากาก `dropna` ได้ลบค่าที่หายไปออกจาก `Series` `example3` แล้ว

เนื่องจาก DataFrames มีสองมิติ จึงมีตัวเลือกเพิ่มเติมสำหรับการลบข้อมูล


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(คุณสังเกตเห็นหรือไม่ว่า pandas ได้เปลี่ยนประเภทข้อมูลของสองคอลัมน์เป็น float เพื่อรองรับค่า `NaN`?)

คุณไม่สามารถลบค่าหนึ่งค่าออกจาก `DataFrame` ได้ ดังนั้นคุณจำเป็นต้องลบทั้งแถวหรือทั้งคอลัมน์ ขึ้นอยู่กับสิ่งที่คุณกำลังทำ คุณอาจต้องการทำอย่างใดอย่างหนึ่ง และ pandas ก็มีตัวเลือกให้คุณทั้งสองแบบ เนื่องจากในงานด้านวิทยาศาสตร์ข้อมูล คอลัมน์มักจะเป็นตัวแทนของตัวแปร และแถวเป็นตัวแทนของการสังเกต คุณจึงมีแนวโน้มที่จะลบแถวของข้อมูลมากกว่า การตั้งค่าเริ่มต้นของ `dropna()` คือการลบแถวทั้งหมดที่มีค่าที่เป็น null:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


หากจำเป็น คุณสามารถลบค่า NA ออกจากคอลัมน์ได้ ใช้ `axis=1` เพื่อทำเช่นนั้น:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


โปรดทราบว่าสิ่งนี้อาจทำให้ข้อมูลจำนวนมากหายไป โดยเฉพาะในชุดข้อมูลที่มีขนาดเล็ก แล้วถ้าคุณต้องการลบเฉพาะแถวหรือคอลัมน์ที่มีค่าที่เป็น null หลายค่า หรือแม้กระทั่งทั้งหมดล่ะ? คุณสามารถกำหนดการตั้งค่าเหล่านี้ใน `dropna` โดยใช้พารามิเตอร์ `how` และ `thresh`

โดยค่าเริ่มต้น `how='any'` (หากคุณต้องการตรวจสอบด้วยตัวเองหรือดูว่ามีพารามิเตอร์อื่นๆ ในเมธอดนี้หรือไม่ ให้รัน `example4.dropna?` ในเซลล์โค้ด) คุณสามารถกำหนด `how='all'` เพื่อให้ลบเฉพาะแถวหรือคอลัมน์ที่มีค่าที่เป็น null ทั้งหมด ลองขยายตัวอย่าง `DataFrame` ของเราเพื่อดูการทำงานนี้ในแบบฝึกหัดถัดไป


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> ประเด็นสำคัญ:  
1. การลบค่าที่เป็น null เป็นความคิดที่ดีเมื่อชุดข้อมูลมีขนาดใหญ่เพียงพอ  
2. สามารถลบทั้งแถวหรือคอลัมน์ได้ หากข้อมูลส่วนใหญ่ในแถวหรือคอลัมน์นั้นหายไป  
3. เมธอด `DataFrame.dropna(axis=)` ช่วยในการลบค่าที่เป็น null โดยอาร์กิวเมนต์ `axis` ใช้ระบุว่าจะลบแถวหรือคอลัมน์  
4. อาร์กิวเมนต์ `how` ก็สามารถใช้งานได้เช่นกัน โดยค่าเริ่มต้นจะตั้งไว้ที่ `any` ซึ่งหมายความว่าจะลบเฉพาะแถว/คอลัมน์ที่มีค่า null อย่างน้อยหนึ่งค่าเท่านั้น แต่สามารถตั้งค่าเป็น `all` เพื่อระบุว่าจะลบเฉพาะแถว/คอลัมน์ที่มีค่า null ทั้งหมด


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


พารามิเตอร์ `thresh` ช่วยให้คุณควบคุมได้ละเอียดมากขึ้น: คุณกำหนดจำนวนค่าที่ *ไม่เป็นค่าว่าง* ที่แถวหรือคอลัมน์ต้องมีเพื่อที่จะถูกเก็บไว้:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


### การเติมค่าที่เป็น null

บางครั้งการเติมค่าที่ขาดหายไปด้วยค่าที่อาจจะเป็นไปได้ก็สมเหตุสมผล มีเทคนิคอยู่ไม่กี่อย่างในการเติมค่าที่เป็น null วิธีแรกคือการใช้ความรู้เฉพาะด้าน (ความรู้เกี่ยวกับหัวข้อที่ชุดข้อมูลนั้นอ้างอิง) เพื่อประมาณค่าที่ขาดหายไป

คุณสามารถใช้ `isnull` เพื่อทำสิ่งนี้ในที่เดียวกันได้ แต่บางครั้งอาจจะยุ่งยาก โดยเฉพาะถ้าคุณมีค่าที่ต้องเติมจำนวนมาก เนื่องจากนี่เป็นงานที่พบได้บ่อยในวิทยาศาสตร์ข้อมูล pandas จึงมีฟังก์ชัน `fillna` ซึ่งจะคืนค่าชุดสำเนาของ `Series` หรือ `DataFrame` โดยค่าที่ขาดหายไปจะถูกแทนที่ด้วยค่าที่คุณเลือก ลองสร้างตัวอย่าง `Series` อีกตัวเพื่อดูว่าสิ่งนี้ทำงานอย่างไรในทางปฏิบัติ


### ข้อมูลเชิงหมวดหมู่ (ไม่ใช่ตัวเลข)
ก่อนอื่นเรามาพิจารณาข้อมูลที่ไม่ใช่ตัวเลขกันก่อน ในชุดข้อมูล เรามักจะมีคอลัมน์ที่เป็นข้อมูลเชิงหมวดหมู่ เช่น เพศ, จริงหรือเท็จ เป็นต้น

ในกรณีส่วนใหญ่ เราจะแทนค่าที่หายไปด้วย `mode` ของคอลัมน์นั้น สมมติว่าเรามีข้อมูล 100 จุด โดย 90 จุดระบุว่า จริง, 8 จุดระบุว่า เท็จ และ 2 จุดไม่ได้กรอกข้อมูล เราสามารถเติมค่าที่หายไป 2 จุดนั้นด้วยค่า จริง โดยพิจารณาจากทั้งคอลัมน์

อีกครั้ง เราสามารถใช้ความรู้เฉพาะทางในกรณีนี้ได้ ลองพิจารณาตัวอย่างของการเติมค่าด้วย mode


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


### ข้อมูลเชิงตัวเลข
ตอนนี้มาดูข้อมูลเชิงตัวเลขกันบ้าง ที่นี่เรามีวิธีทั่วไปสองวิธีในการแทนค่าที่หายไป:

1. แทนด้วยค่ามัธยฐานของแถว
2. แทนด้วยค่าเฉลี่ยของแถว

เราจะแทนด้วยค่ามัธยฐานในกรณีที่ข้อมูลมีการกระจายแบบเบ้และมีค่าผิดปกติ เนื่องจากค่ามัธยฐานมีความทนทานต่อค่าผิดปกติ

เมื่อข้อมูลได้รับการปรับให้อยู่ในรูปแบบปกติแล้ว เราสามารถใช้ค่าเฉลี่ยได้ เพราะในกรณีนั้น ค่าเฉลี่ยและค่ามัธยฐานจะมีค่าใกล้เคียงกัน

ก่อนอื่น มาลองดูคอลัมน์ที่มีการกระจายแบบปกติ และเติมค่าที่หายไปด้วยค่าเฉลี่ยของคอลัมน์นั้น


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


ค่าเฉลี่ยของคอลัมน์คือ


In [33]:
np.mean(fill_with_mean[0])

0.0

In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


ตอนนี้ลองใช้ดาต้าเฟรมอีกอัน และคราวนี้เราจะเปลี่ยนค่าที่เป็น None ด้วยค่ามัธยฐานของคอลัมน์


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


ค่ามัธยฐานของคอลัมน์ที่สองคือ


In [36]:
fill_with_median[1].median()

4.0

In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


ดังที่เราเห็น ค่า NaN ถูกแทนที่ด้วยค่ามัธยฐานของคอลัมน์


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

คุณสามารถเติมค่าที่ว่างทั้งหมดด้วยค่าเดียว เช่น `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> ประเด็นสำคัญ:
1. การเติมค่าที่หายไปควรทำเมื่อมีข้อมูลน้อยหรือมีวิธีการที่ชัดเจนในการเติมค่าที่หายไป
2. ความรู้เฉพาะด้านสามารถนำมาใช้ในการประมาณค่าเพื่อเติมค่าที่หายไปได้
3. สำหรับข้อมูลประเภทหมวดหมู่ ค่าที่หายไปมักจะถูกแทนด้วยค่าที่พบมากที่สุดในคอลัมน์นั้น
4. สำหรับข้อมูลเชิงตัวเลข ค่าที่หายไปมักจะถูกเติมด้วยค่าเฉลี่ย (สำหรับชุดข้อมูลที่ผ่านการปรับมาตรฐาน) หรือค่ามัธยฐานของคอลัมน์


In [40]:
# What happens if you try to fill null values with a string, like ''?


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

คุณยังสามารถ **เติมกลับ** เพื่อกระจายค่าที่ถูกต้องถัดไปย้อนกลับเพื่อเติมค่า null:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

ตามที่คุณอาจเดาได้ สิ่งนี้ทำงานเหมือนกันกับ DataFrames แต่คุณยังสามารถระบุ `axis` ที่จะเติมค่าที่เป็น null ได้:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


คุณสามารถสร้างสรรค์วิธีการใช้ `fillna` ได้ตามต้องการ ตัวอย่างเช่น ลองดูที่ `example4` อีกครั้ง แต่คราวนี้เราจะเติมค่าที่หายไปด้วยค่าเฉลี่ยของค่าทั้งหมดใน `DataFrame`:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


โปรดทราบว่าคอลัมน์ที่ 3 ยังคงไม่มีค่า: ทิศทางเริ่มต้นคือการเติมค่าแบบเรียงตามแถว

> **ข้อคิดสำคัญ:** มีหลายวิธีในการจัดการกับค่าที่หายไปในชุดข้อมูลของคุณ กลยุทธ์เฉพาะที่คุณเลือกใช้ (การลบออก, การแทนที่, หรือแม้กระทั่งวิธีการแทนที่) ควรขึ้นอยู่กับลักษณะเฉพาะของข้อมูลนั้น คุณจะพัฒนาความเข้าใจที่ดีขึ้นเกี่ยวกับการจัดการค่าที่หายไปเมื่อคุณมีประสบการณ์มากขึ้นในการทำงานและโต้ตอบกับชุดข้อมูล


### การเข้ารหัสข้อมูลเชิงหมวดหมู่

โมเดลการเรียนรู้ของเครื่องสามารถจัดการได้เฉพาะข้อมูลที่เป็นตัวเลขหรือข้อมูลในรูปแบบตัวเลขเท่านั้น มันไม่สามารถแยกแยะความแตกต่างระหว่าง "ใช่" และ "ไม่ใช่" ได้ แต่สามารถแยกแยะระหว่าง 0 และ 1 ได้ ดังนั้น หลังจากเติมค่าที่ขาดหายไปแล้ว เราจำเป็นต้องเข้ารหัสข้อมูลเชิงหมวดหมู่ให้อยู่ในรูปแบบตัวเลขเพื่อให้โมเดลเข้าใจ

การเข้ารหัสสามารถทำได้สองวิธี ซึ่งเราจะพูดถึงในส่วนถัดไป


**การเข้ารหัสป้ายกำกับ**

การเข้ารหัสป้ายกำกับคือการแปลงแต่ละหมวดหมู่ให้เป็นตัวเลข ตัวอย่างเช่น สมมติว่าเรามีชุดข้อมูลของผู้โดยสารสายการบิน และมีคอลัมน์ที่แสดงชั้นโดยสารของพวกเขาในหมวดหมู่ต่อไปนี้ ['business class', 'economy class', 'first class'] หากทำการเข้ารหัสป้ายกำกับ คอลัมน์นี้จะถูกแปลงเป็น [0,1,2] ลองมาดูตัวอย่างผ่านโค้ดกัน เนื่องจากเราจะเรียนรู้ `scikit-learn` ในสมุดบันทึกถัดไป เราจะยังไม่ใช้มันในที่นี้


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


ในการทำการเข้ารหัสป้ายกำกับในคอลัมน์แรก เราต้องกำหนดการจับคู่จากแต่ละคลาสไปยังตัวเลขก่อนที่จะทำการแทนที่


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


ตามที่เราเห็น ผลลัพธ์ตรงกับที่เราคาดไว้ ดังนั้น เมื่อไหร่ที่เราควรใช้การเข้ารหัสป้ายกำกับ (label encoding)? การเข้ารหัสป้ายกำกับถูกใช้ในกรณีใดกรณีหนึ่งหรือทั้งสองกรณีดังนี้:  
1. เมื่อจำนวนหมวดหมู่มีมาก  
2. เมื่อหมวดหมู่มีลำดับ


**การเข้ารหัสแบบ One Hot Encoding**

การเข้ารหัสอีกประเภทหนึ่งคือ One Hot Encoding ในการเข้ารหัสประเภทนี้ แต่ละหมวดหมู่ในคอลัมน์จะถูกเพิ่มเป็นคอลัมน์แยกต่างหาก และแต่ละข้อมูลจะได้รับค่า 0 หรือ 1 ขึ้นอยู่กับว่ามีหมวดหมู่นั้นหรือไม่ ดังนั้น หากมีหมวดหมู่ที่แตกต่างกัน n หมวดหมู่ จะมีการเพิ่มคอลัมน์ n คอลัมน์เข้าไปใน dataframe

ตัวอย่างเช่น ลองพิจารณาตัวอย่างคลาสของเครื่องบิน หมวดหมู่คือ: ['business class', 'economy class', 'first class'] ดังนั้น หากเราทำการเข้ารหัสแบบ one hot encoding จะมีการเพิ่มสามคอลัมน์ต่อไปนี้ลงในชุดข้อมูล: ['class_business class', 'class_economy class', 'class_first class']


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


ให้เราทำการเข้ารหัสแบบ One Hot Encoding ในคอลัมน์ที่ 1


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


แต่ละคอลัมน์ที่ถูกเข้ารหัสแบบ one-hot จะมีค่าเป็น 0 หรือ 1 ซึ่งระบุว่าหมวดหมู่นั้นมีอยู่สำหรับจุดข้อมูลนั้นหรือไม่


เมื่อไหร่ที่เราควรใช้การเข้ารหัสแบบ One Hot? การเข้ารหัสแบบ One Hot ถูกใช้ในกรณีใดกรณีหนึ่งหรือทั้งสองกรณีดังนี้:

1. เมื่อจำนวนหมวดหมู่และขนาดของชุดข้อมูลมีขนาดเล็ก
2. เมื่อหมวดหมู่ไม่มีลำดับที่เฉพาะเจาะจง


> ประเด็นสำคัญ:
1. การเข้ารหัสข้อมูลใช้เพื่อแปลงข้อมูลที่ไม่ใช่ตัวเลขให้เป็นข้อมูลตัวเลข
2. การเข้ารหัสมีสองประเภท: การเข้ารหัสแบบ Label และการเข้ารหัสแบบ One Hot ซึ่งสามารถเลือกใช้ได้ตามความต้องการของชุดข้อมูล


## การลบข้อมูลที่ซ้ำกัน

> **เป้าหมายการเรียนรู้:** เมื่อจบหัวข้อนี้ คุณควรจะสามารถระบุและลบค่าที่ซ้ำกันจาก DataFrames ได้อย่างมั่นใจ

นอกจากข้อมูลที่ขาดหายไปแล้ว คุณมักจะพบข้อมูลที่ซ้ำกันในชุดข้อมูลจริง โชคดีที่ pandas มีวิธีที่ง่ายในการตรวจจับและลบรายการที่ซ้ำกัน


### การระบุค่าที่ซ้ำกัน: `duplicated`

คุณสามารถตรวจสอบค่าที่ซ้ำกันได้อย่างง่ายดายด้วยเมธอด `duplicated` ใน pandas ซึ่งจะคืนค่าเป็น Boolean mask ที่บ่งบอกว่าเอนทรีใน `DataFrame` นั้นซ้ำกับเอนทรีก่อนหน้าหรือไม่ ลองสร้างตัวอย่าง `DataFrame` อีกตัวเพื่อดูการทำงานนี้


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### การลบข้อมูลซ้ำ: `drop_duplicates`
`drop_duplicates` จะคืนค่าชุดข้อมูลที่เป็นสำเนา โดยที่ค่าทั้งหมดที่ `duplicated` เป็น `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


ทั้ง `duplicated` และ `drop_duplicates` จะตั้งค่าเริ่มต้นให้พิจารณาทุกคอลัมน์ แต่คุณสามารถระบุให้พวกมันตรวจสอบเฉพาะคอลัมน์ย่อยใน `DataFrame` ของคุณได้:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2



---

**ข้อจำกัดความรับผิดชอบ**:  
เอกสารนี้ได้รับการแปลโดยใช้บริการแปลภาษา AI [Co-op Translator](https://github.com/Azure/co-op-translator) แม้ว่าเราจะพยายามให้การแปลมีความถูกต้อง แต่โปรดทราบว่าการแปลอัตโนมัติอาจมีข้อผิดพลาดหรือความไม่แม่นยำ เอกสารต้นฉบับในภาษาดั้งเดิมควรถือเป็นแหล่งข้อมูลที่เชื่อถือได้ สำหรับข้อมูลที่สำคัญ ขอแนะนำให้ใช้บริการแปลภาษาจากผู้เชี่ยวชาญ เราไม่รับผิดชอบต่อความเข้าใจผิดหรือการตีความที่ผิดพลาดซึ่งเกิดจากการใช้การแปลนี้
