# آماده‌سازی داده‌ها

[منبع دفترچه اصلی از *علم داده: مقدمه‌ای بر یادگیری ماشین برای علم داده، پایتون و ماشین لرنینگ استودیو توسط لی استات*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## بررسی اطلاعات `DataFrame`

> **هدف یادگیری:** تا پایان این بخش، باید بتوانید اطلاعات کلی درباره داده‌های ذخیره‌شده در `DataFrame`های pandas را پیدا کنید.

وقتی داده‌های خود را در pandas بارگذاری کردید، احتمالاً داده‌ها در یک `DataFrame` قرار خواهند گرفت. اما اگر مجموعه داده در `DataFrame` شما شامل ۶۰,۰۰۰ سطر و ۴۰۰ ستون باشد، چگونه می‌توانید حتی شروع به درک آنچه با آن کار می‌کنید کنید؟ خوشبختانه، pandas ابزارهای مناسبی برای مشاهده سریع اطلاعات کلی درباره یک `DataFrame`، علاوه بر چند سطر اول و آخر، ارائه می‌دهد.

برای بررسی این قابلیت‌ها، ما کتابخانه scikit-learn پایتون را وارد می‌کنیم و از یک مجموعه داده نمادین استفاده می‌کنیم که هر دانشمند داده‌ای صدها بار آن را دیده است: مجموعه داده *Iris* زیست‌شناس بریتانیایی رونالد فیشر که در مقاله سال ۱۹۳۶ او با عنوان "استفاده از اندازه‌گیری‌های متعدد در مسائل طبقه‌بندی" استفاده شده است:


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
ما مجموعه داده Iris را در متغیر `iris_df` بارگذاری کرده‌ایم. قبل از اینکه به داده‌ها بپردازیم، ارزشمند است که بدانیم چه تعداد نقاط داده داریم و اندازه کلی مجموعه داده چقدر است. بررسی حجم داده‌هایی که با آن‌ها سروکار داریم مفید است.


In [2]:
iris_df.shape

(150, 4)

ما با ۱۵۰ ردیف و ۴ ستون داده سروکار داریم. هر ردیف نشان‌دهنده یک نقطه داده است و هر ستون یک ویژگی مرتبط با قاب داده را نشان می‌دهد. بنابراین، اساساً ۱۵۰ نقطه داده وجود دارد که هر کدام شامل ۴ ویژگی هستند.

`shape` در اینجا یک ویژگی از قاب داده است و نه یک تابع، به همین دلیل با یک جفت پرانتز پایان نمی‌یابد.


### `DataFrame.columns`
حالا بیایید به ۴ ستون داده بپردازیم. هر کدام از این ستون‌ها دقیقاً چه چیزی را نشان می‌دهند؟ ویژگی `columns` نام ستون‌های موجود در دیتافریم را به ما می‌دهد.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

همانطور که می‌بینیم، چهار (۴) ستون وجود دارد. ویژگی `columns` نام ستون‌ها را به ما می‌گوید و اساساً چیز دیگری نمی‌گوید. این ویژگی زمانی اهمیت پیدا می‌کند که بخواهیم ویژگی‌های موجود در یک مجموعه داده را شناسایی کنیم.


### `DataFrame.info`
مقدار داده‌ها (که توسط ویژگی `shape` ارائه می‌شود) و نام ویژگی‌ها یا ستون‌ها (که توسط ویژگی `columns` ارائه می‌شود) اطلاعاتی درباره مجموعه داده به ما می‌دهند. حالا، می‌خواهیم عمیق‌تر به مجموعه داده نگاه کنیم. تابع `DataFrame.info()` برای این کار بسیار مفید است.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


از اینجا می‌توان چند مشاهده انجام داد:  
1. نوع داده هر ستون: در این مجموعه داده، تمام داده‌ها به صورت اعداد اعشاری ۶۴ بیتی ذخیره شده‌اند.  
2. تعداد مقادیر غیر تهی: رسیدگی به مقادیر تهی یک گام مهم در آماده‌سازی داده‌ها است. این موضوع در ادامه در نوت‌بوک بررسی خواهد شد.  


### DataFrame.describe()
فرض کنید داده‌های عددی زیادی در مجموعه داده خود داریم. محاسبات آماری تک‌متغیره مانند میانگین، میانه، چارک‌ها و غیره می‌توانند به صورت جداگانه بر روی هر ستون انجام شوند. تابع `DataFrame.describe()` خلاصه‌ای آماری از ستون‌های عددی یک مجموعه داده را در اختیار ما قرار می‌دهد.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


خروجی بالا تعداد کل نقاط داده، میانگین، انحراف معیار، حداقل، چارک پایین (۲۵٪)، میانه (۵۰٪)، چارک بالا (۷۵٪) و مقدار حداکثر هر ستون را نشان می‌دهد.


### `DataFrame.head`
با استفاده از تمام توابع و ویژگی‌های بالا، ما یک نمای کلی از مجموعه داده‌ها به دست آورده‌ایم. می‌دانیم که چند نقطه داده وجود دارد، چند ویژگی وجود دارد، نوع داده هر ویژگی چیست و تعداد مقادیر غیر تهی برای هر ویژگی چقدر است.

حالا وقت آن است که خود داده‌ها را بررسی کنیم. بیایید ببینیم چند سطر اول (چند نقطه داده اول) از `DataFrame` ما چگونه به نظر می‌رسند:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


در خروجی اینجا، می‌توانیم پنج (۵) ورودی از مجموعه داده را ببینیم. اگر به شاخص در سمت چپ نگاه کنیم، متوجه می‌شویم که این‌ها پنج ردیف اول هستند.


### تمرین:

از مثال داده‌شده در بالا مشخص است که به‌طور پیش‌فرض، `DataFrame.head` پنج ردیف اول یک `DataFrame` را برمی‌گرداند. آیا می‌توانید در سلول کد زیر راهی پیدا کنید که بیش از پنج ردیف را نمایش دهد؟


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
راه دیگری برای مشاهده داده‌ها می‌تواند از انتها (به جای ابتدا) باشد. معادل مخالف `DataFrame.head`، تابع `DataFrame.tail` است که پنج ردیف آخر یک `DataFrame` را برمی‌گرداند:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


در عمل، مفید است که بتوانید به راحتی چند ردیف اول یا آخر یک `DataFrame` را بررسی کنید، به خصوص زمانی که به دنبال نقاط دورافتاده در مجموعه داده‌های مرتب شده هستید.

تمام توابع و ویژگی‌هایی که در بالا با کمک مثال‌های کد نشان داده شده‌اند، به ما کمک می‌کنند تا نمای کلی و حس داده‌ها را دریافت کنیم.

> **نکته کلیدی:** حتی فقط با نگاه کردن به فراداده‌های مربوط به اطلاعات در یک DataFrame یا چند مقدار اول و آخر آن، می‌توانید فوراً ایده‌ای درباره اندازه، شکل و محتوای داده‌هایی که با آن‌ها سروکار دارید، به دست آورید.


### داده‌های گمشده
بیایید به موضوع داده‌های گمشده بپردازیم. داده‌های گمشده زمانی رخ می‌دهند که هیچ مقداری در برخی از ستون‌ها ذخیره نشده باشد.

بیایید یک مثال بزنیم: فرض کنید کسی به وزن خود حساس است و فیلد وزن را در یک نظرسنجی پر نمی‌کند. در این صورت، مقدار وزن برای آن شخص خاص گمشده خواهد بود.

در اکثر مواقع، در مجموعه داده‌های دنیای واقعی، مقادیر گمشده وجود دارند.

**چگونگی مدیریت داده‌های گمشده توسط Pandas**

Pandas داده‌های گمشده را به دو روش مدیریت می‌کند. اولین روش که قبلاً در بخش‌های قبلی دیده‌اید: `NaN`، یا Not a Number. این در واقع یک مقدار خاص است که بخشی از مشخصات IEEE برای اعداد اعشاری است و فقط برای نشان دادن مقادیر گمشده اعشاری استفاده می‌شود.

برای مقادیر گمشده‌ای که اعشاری نیستند، pandas از شیء `None` در پایتون استفاده می‌کند. اگرچه ممکن است گیج‌کننده به نظر برسد که با دو نوع مقدار مختلف مواجه شوید که اساساً یک چیز را بیان می‌کنند، اما دلایل منطقی برنامه‌نویسی برای این انتخاب طراحی وجود دارد و در عمل، این رویکرد به pandas اجازه می‌دهد تا در اکثر موارد یک تعادل مناسب ارائه دهد. با این حال، هم `None` و هم `NaN` محدودیت‌هایی دارند که باید نسبت به نحوه استفاده از آن‌ها آگاه باشید.


### `None`: داده‌های گمشده غیر شناور

از آنجا که `None` از زبان پایتون می‌آید، نمی‌توان از آن در آرایه‌های NumPy و pandas که نوع داده آن‌ها `'object'` نیست استفاده کرد. به یاد داشته باشید، آرایه‌های NumPy (و ساختارهای داده‌ای در pandas) فقط می‌توانند یک نوع داده را در خود جای دهند. این ویژگی قدرت فوق‌العاده‌ای به آن‌ها برای کارهای داده‌ای و محاسباتی در مقیاس بزرگ می‌دهد، اما انعطاف‌پذیری آن‌ها را نیز محدود می‌کند. چنین آرایه‌هایی باید به "پایین‌ترین مخرج مشترک" تبدیل شوند، یعنی نوع داده‌ای که همه چیز در آرایه را در بر می‌گیرد. وقتی `None` در آرایه باشد، به این معناست که شما با اشیاء پایتون کار می‌کنید.

برای مشاهده این موضوع در عمل، به آرایه نمونه زیر توجه کنید (به `dtype` آن دقت کنید):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

واقعیت نوع داده‌های ارتقا یافته دو اثر جانبی به همراه دارد. اول، عملیات‌ها در سطح کد تفسیر شده پایتون انجام می‌شوند، نه کد کامپایل شده NumPy. به طور کلی، این بدان معناست که هر عملیاتی که شامل `Series` یا `DataFrames` با مقدار `None` باشد، کندتر خواهد بود. اگرچه احتمالاً این کاهش عملکرد را متوجه نخواهید شد، اما برای مجموعه داده‌های بزرگ ممکن است به یک مشکل تبدیل شود.

اثر جانبی دوم از اثر اول ناشی می‌شود. از آنجا که `None` اساساً `Series` یا `DataFrame`ها را به دنیای پایتون معمولی بازمی‌گرداند، استفاده از توابع تجمیعی NumPy/pandas مانند `sum()` یا `min()` بر روی آرایه‌هایی که شامل مقدار `None` هستند، معمولاً منجر به خطا خواهد شد:


In [10]:
example1.sum()

TypeError: ignored

**نکته کلیدی**: جمع (و سایر عملیات) بین اعداد صحیح و مقادیر `None` تعریف نشده است، که می‌تواند محدودیت‌هایی در کار با مجموعه داده‌هایی که شامل آنها هستند ایجاد کند.


### `NaN`: مقادیر اعشاری گمشده

برخلاف `None`، NumPy (و به تبع آن pandas) از `NaN` برای عملیات سریع، برداری و ufuncها پشتیبانی می‌کند. خبر بد این است که هر عملیات ریاضی که روی `NaN` انجام شود، همیشه نتیجه‌اش `NaN` خواهد بود. برای مثال:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

خبر خوب: تجمع‌ها که بر روی آرایه‌هایی با `NaN` اجرا می‌شوند، خطا ایجاد نمی‌کنند. خبر بد: نتایج به طور یکنواخت مفید نیستند:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

تمرین:


In [11]:
# What happens if you add np.nan and None together?


به یاد داشته باشید: `NaN` فقط برای مقادیر اعشاری گم‌شده است؛ هیچ معادل `NaN` برای اعداد صحیح، رشته‌ها یا مقادیر بولی وجود ندارد.


### `NaN` و `None`: مقادیر null در pandas

با اینکه `NaN` و `None` ممکن است رفتار کمی متفاوتی داشته باشند، pandas به گونه‌ای طراحی شده است که بتواند با آنها به صورت جایگزین کار کند. برای درک بهتر، یک `Series` از اعداد صحیح را در نظر بگیرید:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

تمرین:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


در فرآیند ارتقای نوع داده‌ها برای ایجاد یکنواختی در `Series` و `DataFrame`ها، pandas به راحتی مقادیر گمشده را بین `None` و `NaN` جابه‌جا می‌کند. به دلیل این ویژگی طراحی، مفید است که به `None` و `NaN` به عنوان دو نوع مختلف از "تهی" در pandas فکر کنید. در واقع، برخی از متدهای اصلی که برای کار با مقادیر گمشده در pandas استفاده می‌کنید، این ایده را در نام‌های خود منعکس می‌کنند:

- `isnull()`: یک ماسک بولی تولید می‌کند که مقادیر گمشده را نشان می‌دهد
- `notnull()`: برعکس `isnull()`
- `dropna()`: نسخه‌ای فیلتر شده از داده‌ها را برمی‌گرداند
- `fillna()`: نسخه‌ای از داده‌ها را با مقادیر گمشده پر شده یا جایگزین شده برمی‌گرداند

این متدها بسیار مهم هستند و باید در استفاده از آن‌ها مهارت پیدا کنید، بنابراین بیایید هر یک را با جزئیات بیشتری بررسی کنیم.


### شناسایی مقادیر null

حالا که اهمیت مقادیر گمشده را درک کردیم، باید قبل از رسیدگی به آن‌ها، این مقادیر را در مجموعه داده خود شناسایی کنیم.  
هر دو متد `isnull()` و `notnull()` روش‌های اصلی شما برای شناسایی داده‌های null هستند. هر دو یک ماسک بولی روی داده‌های شما برمی‌گردانند.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

به خروجی دقت کنید. آیا چیزی شما را شگفت‌زده می‌کند؟ در حالی که `0` یک مقدار عددی صفر است، همچنان یک عدد صحیح معتبر محسوب می‌شود و pandas آن را به همین شکل در نظر می‌گیرد. `''` کمی پیچیده‌تر است. در بخش ۱ از آن برای نمایش یک رشته خالی استفاده کردیم، اما همچنان یک شیء رشته‌ای است و از نظر pandas به عنوان مقدار null در نظر گرفته نمی‌شود.

حالا بیایید این موضوع را از زاویه دیگری بررسی کنیم و این روش‌ها را به شکلی که در عمل بیشتر استفاده می‌کنید، به کار ببریم. شما می‌توانید ماسک‌های بولی را مستقیماً به عنوان یک شاخص ``Series`` یا ``DataFrame`` استفاده کنید، که می‌تواند زمانی که می‌خواهید با مقادیر گم‌شده (یا موجود) جداگانه کار کنید، مفید باشد.

اگر بخواهیم تعداد کل مقادیر گم‌شده را بدانیم، می‌توانیم به سادگی یک جمع روی ماسکی که توسط متد `isnull()` تولید شده است، انجام دهیم.


In [19]:
example3.isnull().sum()

2

تمرین:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**نکته کلیدی**: هر دو متد `isnull()` و `notnull()` نتایج مشابهی را هنگام استفاده در DataFrame‌ها تولید می‌کنند: آن‌ها نتایج و شاخص آن نتایج را نشان می‌دهند، که این موضوع هنگام کار با داده‌هایتان کمک بزرگی به شما خواهد کرد.


### مقابله با داده‌های گمشده

> **هدف یادگیری:** تا پایان این بخش، باید بدانید چگونه و چه زمانی مقادیر null را در DataFrame‌ها جایگزین یا حذف کنید.

مدل‌های یادگیری ماشین نمی‌توانند به‌طور مستقیم با داده‌های گمشده کار کنند. بنابراین، قبل از اینکه داده‌ها را به مدل بدهیم، باید این مقادیر گمشده را مدیریت کنیم.

نحوه مدیریت داده‌های گمشده دارای ملاحظات ظریفی است که می‌تواند بر تحلیل نهایی و نتایج واقعی شما تأثیر بگذارد.

به طور کلی دو روش اصلی برای مقابله با داده‌های گمشده وجود دارد:

1.   حذف سطر حاوی مقدار گمشده
2.   جایگزینی مقدار گمشده با یک مقدار دیگر

ما هر دو روش را به همراه مزایا و معایب آن‌ها به‌طور کامل بررسی خواهیم کرد.


### حذف مقادیر تهی

مقدار داده‌ای که به مدل خود منتقل می‌کنیم تأثیر مستقیمی بر عملکرد آن دارد. حذف مقادیر تهی به این معناست که تعداد نقاط داده را کاهش می‌دهیم و در نتیجه اندازه مجموعه داده کوچک‌تر می‌شود. بنابراین، توصیه می‌شود زمانی که مجموعه داده بسیار بزرگ است، سطرهایی که دارای مقادیر تهی هستند حذف شوند.

یک مورد دیگر ممکن است این باشد که یک سطر یا ستون خاص دارای تعداد زیادی مقادیر گم‌شده باشد. در این صورت، ممکن است حذف شوند زیرا به دلیل کمبود داده در آن سطر/ستون، ارزش زیادی به تحلیل ما اضافه نمی‌کنند.

علاوه بر شناسایی مقادیر گم‌شده، pandas روشی مناسب برای حذف مقادیر تهی از `Series` و `DataFrame`ها ارائه می‌دهد. برای مشاهده این موضوع در عمل، به `example3` بازمی‌گردیم. تابع `DataFrame.dropna()` به حذف سطرهایی که دارای مقادیر تهی هستند کمک می‌کند.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

توجه داشته باشید که این باید شبیه خروجی شما از `example3[example3.notnull()]` باشد. تفاوت اینجا این است که به جای فقط ایندکس کردن روی مقادیر ماسک‌شده، `dropna` آن مقادیر گمشده را از `Series` `example3` حذف کرده است.

از آنجا که DataFrame‌ها دو بعدی هستند، گزینه‌های بیشتری برای حذف داده‌ها ارائه می‌دهند.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


آیا متوجه شدید که pandas دو ستون را به نوع داده‌ی float تبدیل کرد تا بتواند مقادیر `NaN` را مدیریت کند؟

شما نمی‌توانید یک مقدار واحد را از یک `DataFrame` حذف کنید، بنابراین باید کل ردیف‌ها یا ستون‌ها را حذف کنید. بسته به کاری که انجام می‌دهید، ممکن است بخواهید یکی از این دو را انتخاب کنید، و pandas گزینه‌هایی برای هر دو فراهم می‌کند. از آنجا که در علم داده، ستون‌ها معمولاً نشان‌دهنده متغیرها و ردیف‌ها نشان‌دهنده مشاهدات هستند، احتمال بیشتری وجود دارد که ردیف‌های داده را حذف کنید؛ تنظیم پیش‌فرض برای `dropna()` این است که تمام ردیف‌هایی که شامل هر مقدار null هستند را حذف کند:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


اگر لازم باشد، می‌توانید مقادیر NA را از ستون‌ها حذف کنید. از `axis=1` برای این کار استفاده کنید:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


توجه داشته باشید که این می‌تواند مقدار زیادی از داده‌ها را حذف کند، به‌ویژه در مجموعه داده‌های کوچک‌تر. اگر بخواهید فقط سطرها یا ستون‌هایی را حذف کنید که چند مقدار خالی یا حتی تمام مقادیرشان خالی هستند، چه باید کرد؟ شما می‌توانید این تنظیمات را با استفاده از `dropna` و پارامترهای `how` و `thresh` مشخص کنید.

به‌صورت پیش‌فرض، `how='any'` است (اگر می‌خواهید خودتان بررسی کنید یا ببینید این متد چه پارامترهای دیگری دارد، دستور `example4.dropna?` را در یک سلول کد اجرا کنید). شما می‌توانید به‌جای آن `how='all'` را مشخص کنید تا فقط سطرها یا ستون‌هایی که تمام مقادیرشان خالی هستند حذف شوند. بیایید مثال `DataFrame` خود را گسترش دهیم تا این موضوع را در تمرین بعدی مشاهده کنیم.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


نکات کلیدی:  
1. حذف مقادیر null تنها زمانی ایده خوبی است که مجموعه داده به اندازه کافی بزرگ باشد.  
2. ردیف‌ها یا ستون‌های کامل را می‌توان حذف کرد اگر بیشتر داده‌های آن‌ها از دست رفته باشد.  
3. متد `DataFrame.dropna(axis=)` در حذف مقادیر null کمک می‌کند. آرگومان `axis` مشخص می‌کند که آیا ردیف‌ها باید حذف شوند یا ستون‌ها.  
4. آرگومان `how` نیز قابل استفاده است. به طور پیش‌فرض روی مقدار `any` تنظیم شده است. بنابراین، فقط ردیف‌ها/ستون‌هایی که شامل هر مقدار null هستند حذف می‌شوند. می‌توان آن را روی مقدار `all` تنظیم کرد تا مشخص شود که فقط ردیف‌ها/ستون‌هایی که تمام مقادیرشان null هستند حذف شوند.  


تمرین:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


پارامتر `thresh` کنترل دقیق‌تری به شما می‌دهد: شما تعداد مقادیر *غیر تهی* را تعیین می‌کنید که یک سطر یا ستون باید داشته باشد تا حفظ شود:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


اینجا، اولین و آخرین ردیف حذف شده‌اند، زیرا فقط دو مقدار غیر تهی دارند.


### پر کردن مقادیر null

گاهی اوقات منطقی است که مقادیر گمشده را با مقادیری که ممکن است معتبر باشند پر کنیم. چندین روش برای پر کردن مقادیر null وجود دارد. اولین روش استفاده از دانش حوزه (دانشی که بر اساس آن مجموعه داده ساخته شده است) برای تقریب زدن مقادیر گمشده است.

شما می‌توانید از `isnull` برای انجام این کار به صورت مستقیم استفاده کنید، اما این کار می‌تواند زمان‌بر باشد، به خصوص اگر مقادیر زیادی برای پر کردن داشته باشید. از آنجا که این یک وظیفه رایج در علم داده است، pandas تابعی به نام `fillna` ارائه می‌دهد که یک کپی از `Series` یا `DataFrame` را برمی‌گرداند که در آن مقادیر گمشده با مقداری که شما انتخاب کرده‌اید جایگزین شده‌اند. بیایید یک مثال دیگر از `Series` ایجاد کنیم تا ببینیم این روش در عمل چگونه کار می‌کند.


### داده‌های دسته‌بندی‌شده (غیر عددی)
ابتدا به داده‌های غیر عددی می‌پردازیم. در مجموعه داده‌ها، ستون‌هایی با داده‌های دسته‌بندی‌شده داریم. به عنوان مثال، جنسیت، درست یا نادرست و غیره.

در بیشتر این موارد، مقادیر گمشده را با `مد` ستون جایگزین می‌کنیم. فرض کنید ۱۰۰ نقطه داده داریم و ۹۰ نفر گفته‌اند درست، ۸ نفر گفته‌اند نادرست و ۲ نفر چیزی وارد نکرده‌اند. در این صورت، می‌توانیم آن ۲ مقدار گمشده را با درست پر کنیم، با توجه به کل ستون.

باز هم، در اینجا می‌توانیم از دانش حوزه استفاده کنیم. بیایید یک مثال از پر کردن با مد را بررسی کنیم.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


همانطور که می‌بینیم، مقدار null جایگزین شده است. نیازی به گفتن نیست که می‌توانستیم هر چیزی را به جای `'True'` بنویسیم و جایگزین می‌شد.


### داده‌های عددی
حالا به داده‌های عددی می‌رسیم. در اینجا دو روش رایج برای جایگزینی مقادیر گمشده وجود دارد:

1. جایگزینی با میانه‌ی سطر  
2. جایگزینی با میانگین سطر  

در صورتی که داده‌ها دارای انحراف و نقاط پرت باشند، از میانه استفاده می‌کنیم. دلیل این امر این است که میانه نسبت به نقاط پرت مقاوم است.

وقتی داده‌ها نرمال‌سازی شده باشند، می‌توانیم از میانگین استفاده کنیم، زیرا در این حالت میانگین و میانه به هم نزدیک خواهند بود.

ابتدا، یک ستون که به طور نرمال توزیع شده است را انتخاب می‌کنیم و مقدار گمشده را با میانگین ستون پر می‌کنیم.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


میانگین ستون است


In [33]:
np.mean(fill_with_mean[0])

0.0

In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


همانطور که می‌بینیم، مقدار گمشده با میانگین آن جایگزین شده است.


حالا بیایید یک دیتافریم دیگر را امتحان کنیم و این بار مقادیر None را با میانه ستون جایگزین کنیم.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


میانه ستون دوم است


In [36]:
fill_with_median[1].median()

4.0

پر کردن با میانه


In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


همانطور که می‌بینیم، مقدار NaN با میانه ستون جایگزین شده است


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

شما می‌توانید تمام مقادیر خالی را با یک مقدار واحد، مانند `0` پر کنید:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

نکات کلیدی:  
1. پر کردن مقادیر گمشده باید زمانی انجام شود که یا داده‌ها کم هستند یا استراتژی مشخصی برای پر کردن داده‌های گمشده وجود دارد.  
2. می‌توان از دانش حوزه برای تخمین و پر کردن مقادیر گمشده استفاده کرد.  
3. برای داده‌های دسته‌بندی‌شده، معمولاً مقادیر گمشده با مد ستون جایگزین می‌شوند.  
4. برای داده‌های عددی، مقادیر گمشده معمولاً با میانگین (برای مجموعه داده‌های نرمال‌شده) یا میانه ستون‌ها پر می‌شوند.  


تمرین:


In [40]:
# What happens if you try to fill null values with a string, like ''?


شما می‌توانید مقادیر تهی را **با مقدار قبلی پر کنید**، به این صورت که از آخرین مقدار معتبر برای پر کردن مقدار تهی استفاده کنید:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

شما همچنین می‌توانید **پر کردن معکوس** را برای انتشار مقدار معتبر بعدی به عقب جهت پر کردن مقدار تهی انجام دهید:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

همانطور که ممکن است حدس بزنید، این به همان صورت با DataFrames کار می‌کند، اما شما همچنین می‌توانید یک `axis` مشخص کنید که در امتداد آن مقادیر null را پر کنید:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


توجه کنید که وقتی مقدار قبلی برای پر کردن جلو در دسترس نیست، مقدار تهی باقی می‌ماند.


### تمرین:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


شما می‌توانید در استفاده از `fillna` خلاق باشید. برای مثال، بیایید دوباره به `example4` نگاه کنیم، اما این بار مقادیر گمشده را با میانگین تمام مقادیر موجود در `DataFrame` پر کنیم:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


توجه کنید که ستون سوم هنوز بدون مقدار است: جهت پیش‌فرض برای پر کردن مقادیر به صورت ردیفی است.

> **نکته کلیدی:** روش‌های متعددی برای مدیریت مقادیر گمشده در مجموعه داده‌های شما وجود دارد. استراتژی خاصی که استفاده می‌کنید (حذف آن‌ها، جایگزینی آن‌ها، یا حتی نحوه جایگزینی آن‌ها) باید بر اساس ویژگی‌های خاص آن داده‌ها تعیین شود. هرچه بیشتر با مجموعه داده‌ها کار کنید و تعامل داشته باشید، حس بهتری برای مدیریت مقادیر گمشده پیدا خواهید کرد.


### کدگذاری داده‌های دسته‌بندی‌شده

مدل‌های یادگیری ماشین فقط با اعداد و هر نوع داده عددی کار می‌کنند. این مدل‌ها نمی‌توانند تفاوت بین "بله" و "خیر" را تشخیص دهند، اما می‌توانند بین ۰ و ۱ تفاوت قائل شوند. بنابراین، پس از پر کردن مقادیر گمشده، باید داده‌های دسته‌بندی‌شده را به نوعی فرم عددی تبدیل کنیم تا مدل بتواند آن‌ها را درک کند.

کدگذاری داده‌ها به دو روش قابل انجام است. در ادامه این روش‌ها را بررسی خواهیم کرد.


**رمزگذاری برچسب**

رمزگذاری برچسب به طور کلی به معنای تبدیل هر دسته به یک عدد است. به عنوان مثال، فرض کنید یک مجموعه داده از مسافران هواپیما داریم و ستونی وجود دارد که کلاس آن‌ها را در میان موارد زیر نشان می‌دهد: ['کلاس تجاری', 'کلاس اقتصادی', 'کلاس درجه یک']. اگر رمزگذاری برچسب روی این ستون انجام شود، به [0,1,2] تبدیل می‌شود. بیایید با استفاده از کد یک مثال را ببینیم. از آنجا که در دفترچه‌های آینده `scikit-learn` را یاد خواهیم گرفت، در اینجا از آن استفاده نمی‌کنیم.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


برای انجام کدگذاری برچسب روی ستون اول، ابتدا باید یک نگاشت از هر کلاس به یک عدد توصیف کنیم، قبل از جایگزینی


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


همانطور که می‌بینیم، خروجی با چیزی که انتظار داشتیم مطابقت دارد. پس، چه زمانی از کدگذاری برچسب استفاده می‌کنیم؟ کدگذاری برچسب در یکی یا هر دو مورد زیر استفاده می‌شود:
1. زمانی که تعداد دسته‌ها زیاد باشد
2. زمانی که دسته‌ها دارای ترتیب باشند.


**رمزگذاری یک‌بار**

نوع دیگری از رمزگذاری، رمزگذاری یک‌بار است. در این نوع رمزگذاری، هر دسته از ستون به‌عنوان یک ستون جداگانه اضافه می‌شود و هر نقطه داده بر اساس اینکه شامل آن دسته باشد یا نه، مقدار ۰ یا ۱ دریافت می‌کند. بنابراین، اگر n دسته مختلف وجود داشته باشد، n ستون به دیتافریم اضافه خواهد شد.

برای مثال، بیایید همان مثال کلاس هواپیما را در نظر بگیریم. دسته‌ها عبارت بودند از: ['کلاس تجاری', 'کلاس اقتصادی', 'کلاس درجه یک']. بنابراین، اگر رمزگذاری یک‌بار انجام دهیم، سه ستون زیر به مجموعه داده اضافه خواهند شد: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


بیایید رمزگذاری یک‌داغ را روی ستون اول انجام دهیم


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


هر ستون کدگذاری شده به صورت یک‌به‌یک شامل ۰ یا ۱ است که مشخص می‌کند آیا آن دسته‌بندی برای آن نقطه داده وجود دارد یا خیر.


چه زمانی از وان هات انکودینگ استفاده می‌کنیم؟  
وان هات انکودینگ در یکی یا هر دو مورد زیر استفاده می‌شود:

1. زمانی که تعداد دسته‌ها و اندازه دیتاست کوچک باشد.  
2. زمانی که دسته‌ها هیچ ترتیب خاصی را دنبال نمی‌کنند.  


نکات کلیدی:  
1. رمزگذاری برای تبدیل داده‌های غیر عددی به داده‌های عددی انجام می‌شود.  
2. دو نوع رمزگذاری وجود دارد: رمزگذاری برچسبی و رمزگذاری یک‌داغ، که هر دو می‌توانند بر اساس نیازهای مجموعه داده انجام شوند.  


## حذف داده‌های تکراری

> **هدف یادگیری:** در پایان این بخش، باید بتوانید به راحتی مقادیر تکراری را در DataFrame‌ها شناسایی و حذف کنید.

علاوه بر داده‌های گمشده، در مجموعه داده‌های واقعی اغلب با داده‌های تکراری مواجه خواهید شد. خوشبختانه، pandas روشی ساده برای شناسایی و حذف ورودی‌های تکراری ارائه می‌دهد.


### شناسایی مقادیر تکراری: `duplicated`

شما می‌توانید به راحتی مقادیر تکراری را با استفاده از متد `duplicated` در pandas شناسایی کنید. این متد یک ماسک بولی برمی‌گرداند که نشان می‌دهد آیا یک ورودی در `DataFrame` تکراری از یک ورودی قبلی است یا خیر. بیایید یک مثال دیگر از `DataFrame` ایجاد کنیم تا این موضوع را در عمل ببینیم.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### حذف مقادیر تکراری: `drop_duplicates`
`drop_duplicates` به سادگی یک نسخه از داده‌ها را برمی‌گرداند که در آن تمام مقادیر `duplicated` برابر با `False` هستند:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


هم `duplicated` و هم `drop_duplicates` به طور پیش‌فرض تمام ستون‌ها را در نظر می‌گیرند، اما می‌توانید مشخص کنید که فقط یک زیرمجموعه از ستون‌ها را در `DataFrame` خود بررسی کنند:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2


**نکته:** حذف داده‌های تکراری بخش ضروری تقریباً هر پروژه علم داده است. داده‌های تکراری می‌توانند نتایج تحلیل‌های شما را تغییر دهند و نتایج نادرستی به شما ارائه دهند!



---

**سلب مسئولیت**:  
این سند با استفاده از سرویس ترجمه هوش مصنوعی [Co-op Translator](https://github.com/Azure/co-op-translator) ترجمه شده است. در حالی که ما تلاش می‌کنیم دقت را حفظ کنیم، لطفاً توجه داشته باشید که ترجمه‌های خودکار ممکن است شامل خطاها یا نادرستی‌ها باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، توصیه می‌شود از ترجمه حرفه‌ای انسانی استفاده کنید. ما مسئولیتی در قبال سوءتفاهم‌ها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم.
