# إعداد البيانات

[المصدر الأصلي للمفكرة من *علم البيانات: مقدمة إلى تعلم الآلة لعلم البيانات باستخدام Python وMachine Learning Studio بواسطة Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## استكشاف معلومات `DataFrame`

> **الهدف التعليمي:** بنهاية هذا القسم الفرعي، يجب أن تكون مرتاحًا في العثور على معلومات عامة حول البيانات المخزنة في DataFrames الخاصة بـ pandas.

بمجرد تحميل بياناتك في pandas، من المرجح أن تكون في شكل `DataFrame`. ولكن إذا كان مجموعة البيانات في `DataFrame` تحتوي على 60,000 صف و400 عمود، كيف يمكنك حتى البدء في فهم ما تعمل معه؟ لحسن الحظ، توفر pandas أدوات مريحة لعرض معلومات عامة عن `DataFrame` بسرعة بالإضافة إلى عرض أول بضعة صفوف وآخر بضعة صفوف.

لاستكشاف هذه الوظيفة، سنقوم باستيراد مكتبة scikit-learn الخاصة بـ Python واستخدام مجموعة بيانات أيقونية يعرفها كل عالم بيانات تقريبًا: مجموعة بيانات *Iris* لعالم الأحياء البريطاني رونالد فيشر، التي استخدمها في ورقته البحثية عام 1936 بعنوان "استخدام القياسات المتعددة في المشكلات التصنيفية":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
قمنا بتحميل مجموعة بيانات Iris في المتغير `iris_df`. قبل التعمق في البيانات، سيكون من المفيد معرفة عدد نقاط البيانات التي لدينا والحجم الإجمالي لمجموعة البيانات. من المفيد إلقاء نظرة على حجم البيانات التي نتعامل معها.


In [2]:
iris_df.shape

(150, 4)

لذلك، نحن نتعامل مع 150 صفًا و4 أعمدة من البيانات. يمثل كل صف نقطة بيانات واحدة، وكل عمود يمثل ميزة واحدة مرتبطة بإطار البيانات. بمعنى آخر، هناك 150 نقطة بيانات تحتوي كل منها على 4 ميزات.

`shape` هنا هو خاصية لإطار البيانات وليس دالة، ولهذا السبب لا ينتهي بقوسين.


### `DataFrame.columns`
دعونا الآن ننتقل إلى الأعمدة الأربعة للبيانات. ماذا يمثل كل منها بالضبط؟ سيوفر لنا السمة `columns` أسماء الأعمدة في إطار البيانات.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

كما نرى، هناك أربعة (4) أعمدة. تخبرنا خاصية `columns` بأسماء الأعمدة ولا شيء آخر بشكل أساسي. تكتسب هذه الخاصية أهمية عندما نريد تحديد الميزات التي يحتوي عليها مجموعة البيانات.


### `DataFrame.info`
كمية البيانات (المعطاة بواسطة الخاصية `shape`) وأسماء الميزات أو الأعمدة (المعطاة بواسطة الخاصية `columns`) تخبرنا شيئًا عن مجموعة البيانات. الآن، نرغب في التعمق أكثر في مجموعة البيانات. وظيفة `DataFrame.info()` مفيدة جدًا لهذا الغرض.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


من هنا، يمكننا أن نستنتج بعض الملاحظات:

1. نوع البيانات لكل عمود: في هذا الملف، يتم تخزين جميع البيانات كأرقام ذات فاصلة عائمة بدقة 64 بت.
2. عدد القيم غير الفارغة: التعامل مع القيم الفارغة هو خطوة مهمة في إعداد البيانات. سيتم التعامل معها لاحقًا في الدفتر.


### DataFrame.describe()
لنفترض أن لدينا الكثير من البيانات الرقمية في مجموعة البيانات الخاصة بنا. يمكن إجراء الحسابات الإحصائية الأحادية المتغير مثل المتوسط، الوسيط، الأرباع، وما إلى ذلك على كل عمود بشكل فردي. وظيفة `DataFrame.describe()` تقدم لنا ملخصًا إحصائيًا للأعمدة الرقمية في مجموعة البيانات.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


يُظهر الناتج أعلاه العدد الإجمالي لنقاط البيانات، المتوسط، الانحراف المعياري، الحد الأدنى، الربع الأدنى (25%)، الوسيط (50%)، الربع الأعلى (75%) والقيمة القصوى لكل عمود.


### `DataFrame.head`
مع كل الوظائف والخصائص المذكورة أعلاه، حصلنا على نظرة عامة على مستوى عالٍ للمجموعة البيانية. نعرف عدد النقاط البيانية الموجودة، وعدد الميزات، ونوع البيانات لكل ميزة، وعدد القيم غير الفارغة لكل ميزة.

الآن حان الوقت للنظر في البيانات نفسها. دعونا نرى كيف تبدو الصفوف الأولى (النقاط البيانية الأولى) من الـ `DataFrame`:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


كما نرى هنا في المخرجات، هناك خمس (5) إدخالات من مجموعة البيانات. إذا نظرنا إلى الفهرس على اليسار، نجد أن هذه هي الصفوف الخمسة الأولى.


### التمرين:

من المثال المذكور أعلاه، يتضح أن `DataFrame.head` يعرض افتراضيًا أول خمس صفوف من `DataFrame`. في خلية الكود أدناه، هل يمكنك اكتشاف طريقة لعرض أكثر من خمس صفوف؟


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
طريقة أخرى لعرض البيانات يمكن أن تكون من النهاية (بدلاً من البداية). الجانب الآخر من `DataFrame.head` هو `DataFrame.tail`، الذي يعيد آخر خمس صفوف من `DataFrame`:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


في الممارسة العملية، من المفيد أن تكون قادرًا على فحص الصفوف الأولى أو الصفوف الأخيرة من `DataFrame` بسهولة، خاصة عندما تبحث عن القيم الشاذة في مجموعات البيانات المرتبة.

جميع الوظائف والخصائص الموضحة أعلاه بمساعدة أمثلة الكود، تساعدنا في الحصول على نظرة عامة وشعور بالبيانات.

> **الخلاصة:** حتى بمجرد النظر إلى البيانات الوصفية حول المعلومات في `DataFrame` أو القيم الأولى والأخيرة فيه، يمكنك الحصول على فكرة فورية عن حجم وشكل ومحتوى البيانات التي تتعامل معها.


### البيانات المفقودة
دعونا نتعمق في موضوع البيانات المفقودة. تحدث البيانات المفقودة عندما لا يتم تخزين أي قيمة في بعض الأعمدة.

لنأخذ مثالاً: لنفترض أن شخصًا ما يهتم بوزنه ولم يقم بملء خانة الوزن في استبيان. في هذه الحالة، ستكون قيمة الوزن لهذا الشخص مفقودة.

في معظم الأحيان، تظهر القيم المفقودة في مجموعات البيانات الواقعية.

**كيف يتعامل Pandas مع البيانات المفقودة**

يتعامل Pandas مع القيم المفقودة بطريقتين. الطريقة الأولى التي رأيتها سابقًا في الأقسام السابقة هي `NaN`، أو "ليس رقمًا". هذه في الواقع قيمة خاصة وهي جزء من مواصفات النقطة العائمة IEEE وتُستخدم فقط للإشارة إلى القيم المفقودة من النوع العائم.

بالنسبة للقيم المفقودة التي ليست من النوع العائم، يستخدم Pandas كائن Python `None`. قد يبدو الأمر مربكًا أنك ستواجه نوعين مختلفين من القيم التي تعبر عن نفس الشيء تقريبًا، ولكن هناك أسباب برمجية منطقية لهذا الاختيار التصميمي. عمليًا، هذا النهج يمكّن Pandas من تقديم حل وسط جيد في معظم الحالات. ومع ذلك، فإن كلا من `None` و `NaN` يحملان قيودًا يجب أن تكون على دراية بها فيما يتعلق بكيفية استخدامهما.


### `None`: البيانات المفقودة غير العائمة
بما أن `None` تأتي من Python، فلا يمكن استخدامها في مصفوفات NumPy وpandas التي ليست من نوع البيانات `'object'`. تذكر أن مصفوفات NumPy (وهياكل البيانات في pandas) يمكن أن تحتوي على نوع واحد فقط من البيانات. هذا ما يمنحها قوتها الهائلة للعمل مع البيانات واسعة النطاق والعمليات الحسابية، ولكنه أيضًا يحد من مرونتها. يجب على هذه المصفوفات أن تتحول إلى "القاسم المشترك الأدنى"، وهو نوع البيانات الذي يمكن أن يشمل كل شيء في المصفوفة. عندما تكون `None` في المصفوفة، فهذا يعني أنك تعمل مع كائنات Python.

لرؤية ذلك عمليًا، انظر المثال التالي للمصفوفة (لاحظ `dtype` الخاص بها):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

واقع تحويل أنواع البيانات إلى أنواع أعلى يحمل معه تأثيرين جانبيين. أولاً، يتم تنفيذ العمليات على مستوى كود Python المفسر بدلاً من كود NumPy المُجمّع. بشكل أساسي، هذا يعني أن أي عمليات تتضمن `Series` أو `DataFrames` تحتوي على `None` ستكون أبطأ. على الرغم من أنك ربما لن تلاحظ هذا التأثير على الأداء، إلا أنه قد يصبح مشكلة مع مجموعات البيانات الكبيرة.

التأثير الجانبي الثاني ينبع من الأول. لأن `None` يعيد `Series` أو `DataFrame`s إلى عالم Python العادي، فإن استخدام التجميعات في NumPy/pandas مثل `sum()` أو `min()` على المصفوفات التي تحتوي على قيمة ``None`` سيؤدي عادةً إلى ظهور خطأ:


In [10]:
example1.sum()

TypeError: ignored

**الفكرة الرئيسية**: الجمع (وغيره من العمليات) بين الأعداد الصحيحة وقيم `None` غير معرف، مما قد يحد من ما يمكنك القيام به مع مجموعات البيانات التي تحتوي عليها.


### `NaN`: القيم العائمة المفقودة

على عكس `None`، يدعم NumPy (وبالتالي pandas) استخدام `NaN` لعملياته السريعة والمتجهة والوظائف العامة. الخبر السيئ هو أن أي عملية حسابية تُجرى على `NaN` دائمًا ما تُنتج `NaN`. على سبيل المثال:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

الخبر الجيد: التجميعات التي تعمل على المصفوفات التي تحتوي على `NaN` لا تُظهر أخطاء. الخبر السيئ: النتائج ليست مفيدة بشكل موحد:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### تمرين:


In [11]:
# What happens if you add np.nan and None together?


تذكر: `NaN` هو فقط للقيم العائمة المفقودة؛ لا يوجد مكافئ لـ `NaN` للأعداد الصحيحة أو النصوص أو القيم المنطقية.


### `NaN` و `None`: القيم الفارغة في pandas

على الرغم من أن `NaN` و `None` يمكن أن يتصرفا بشكل مختلف إلى حد ما، إلا أن pandas مصمم للتعامل معهما بشكل متبادل. لفهم ما نعنيه، انظر إلى سلسلة `Series` من الأعداد الصحيحة:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### تمرين:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


في عملية ترقية أنواع البيانات لتحقيق التجانس في البيانات داخل `Series` و `DataFrame`s، يقوم pandas بسهولة بتبديل القيم المفقودة بين `None` و `NaN`. بسبب هذه الميزة التصميمية، يمكن أن يكون من المفيد التفكير في `None` و `NaN` كنوعين مختلفين من "القيم الفارغة" في pandas. في الواقع، بعض الطرق الأساسية التي ستستخدمها للتعامل مع القيم المفقودة في pandas تعكس هذه الفكرة في أسمائها:

- `isnull()`: تُنتج قناعًا منطقيًا يشير إلى القيم المفقودة
- `notnull()`: عكس `isnull()`
- `dropna()`: تُرجع نسخة مفلترة من البيانات
- `fillna()`: تُرجع نسخة من البيانات مع تعبئة أو تقدير القيم المفقودة

هذه طرق مهمة يجب إتقانها والشعور بالراحة عند استخدامها، لذا دعونا نستعرض كل واحدة منها بعمق.


### الكشف عن القيم الفارغة

الآن بعد أن فهمنا أهمية القيم المفقودة، نحتاج إلى الكشف عنها في مجموعة البيانات الخاصة بنا قبل التعامل معها.  
تُعد كل من `isnull()` و `notnull()` الطرق الأساسية للكشف عن البيانات الفارغة. كلاهما يعيد أقنعة منطقية (Boolean masks) على بياناتك.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

انظر عن كثب إلى النتائج. هل أي منها يفاجئك؟ بينما `0` هو قيمة فارغة حسابياً، إلا أنه مع ذلك عدد صحيح صالح تماماً و pandas يتعامل معه على هذا الأساس. أما `''` فهو أكثر دقة قليلاً. على الرغم من أننا استخدمناه في القسم الأول لتمثيل قيمة سلسلة فارغة، إلا أنه مع ذلك كائن سلسلة وليس تمثيلاً للقيمة الفارغة كما يراها pandas.

الآن، دعونا نعكس هذا ونستخدم هذه الطرق بطريقة أكثر شبهاً بكيفية استخدامها عملياً. يمكنك استخدام الأقنعة المنطقية مباشرة كمؤشر لـ ``Series`` أو ``DataFrame``، وهو أمر مفيد عند محاولة العمل مع القيم المفقودة (أو الموجودة) المعزولة.

إذا أردنا العدد الإجمالي للقيم المفقودة، يمكننا ببساطة إجراء عملية جمع على القناع الناتج عن طريقة `isnull()`.


In [19]:
example3.isnull().sum()

2

### تمرين:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**الخلاصة الرئيسية**: كل من الطريقتين `isnull()` و `notnull()` تنتجان نتائج مشابهة عند استخدامهما في إطارات البيانات: تعرضان النتائج وفهرس تلك النتائج، مما سيساعدك بشكل كبير أثناء التعامل مع بياناتك.


### التعامل مع البيانات المفقودة

> **الهدف التعليمي:** بنهاية هذا القسم، يجب أن تكون قادرًا على معرفة كيفية ومتى يتم استبدال أو إزالة القيم الفارغة من DataFrames.

لا يمكن لنماذج التعلم الآلي التعامل مع البيانات المفقودة بنفسها. لذلك، قبل تمرير البيانات إلى النموذج، نحتاج إلى معالجة هذه القيم المفقودة.

طريقة التعامل مع البيانات المفقودة تحمل معها توازنات دقيقة، ويمكن أن تؤثر على تحليلك النهائي ونتائجك في العالم الحقيقي.

هناك طريقتان رئيسيتان للتعامل مع البيانات المفقودة:

1. حذف الصف الذي يحتوي على القيمة المفقودة  
2. استبدال القيمة المفقودة بقيمة أخرى  

سنناقش كلتا الطريقتين ومزاياهما وعيوبهما بالتفصيل.


### إسقاط القيم الفارغة

كمية البيانات التي نقدمها لنموذجنا تؤثر بشكل مباشر على أدائه. إسقاط القيم الفارغة يعني أننا نقلل عدد نقاط البيانات، وبالتالي نقلل حجم مجموعة البيانات. لذلك، يُنصح بإسقاط الصفوف التي تحتوي على قيم فارغة عندما تكون مجموعة البيانات كبيرة جدًا.

حالة أخرى قد تكون أن صفًا معينًا أو عمودًا يحتوي على الكثير من القيم المفقودة. في هذه الحالة، يمكن إسقاطها لأنها لن تضيف قيمة كبيرة لتحليلنا حيث أن معظم البيانات مفقودة لهذا الصف/العمود.

إلى جانب تحديد القيم المفقودة، توفر مكتبة pandas وسيلة مريحة لإزالة القيم الفارغة من `Series` و`DataFrame`s. لرؤية ذلك عمليًا، دعونا نعود إلى `example3`. وظيفة `DataFrame.dropna()` تساعد في إسقاط الصفوف التي تحتوي على قيم فارغة.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

لاحظ أن هذا يجب أن يبدو مثل ناتج `example3[example3.notnull()]`. الفرق هنا هو أنه بدلاً من الفهرسة فقط على القيم المفلترة، قامت `dropna` بإزالة تلك القيم المفقودة من الـ `Series` `example3`.

نظرًا لأن DataFrames لها بُعدين، فإنها توفر المزيد من الخيارات لحذف البيانات.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


هل لاحظت أن pandas قامت بترقية نوعين من الأعمدة إلى أرقام عشرية لتستوعب القيم `NaN`؟

لا يمكنك حذف قيمة واحدة فقط من `DataFrame`، لذا عليك حذف صفوف أو أعمدة كاملة. بناءً على ما تقوم به، قد ترغب في اختيار أحد الخيارين، ولهذا السبب توفر pandas خيارات لكليهما. نظرًا لأن الأعمدة في علم البيانات تمثل عادةً المتغيرات والصفوف تمثل الملاحظات، فمن المرجح أن تقوم بحذف صفوف البيانات؛ الإعداد الافتراضي لـ `dropna()` هو حذف جميع الصفوف التي تحتوي على أي قيم فارغة:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


إذا لزم الأمر، يمكنك إزالة القيم NA من الأعمدة. استخدم `axis=1` للقيام بذلك:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


لاحظ أن هذا قد يؤدي إلى فقدان الكثير من البيانات التي قد ترغب في الاحتفاظ بها، خاصة في مجموعات البيانات الصغيرة. ماذا لو كنت تريد فقط حذف الصفوف أو الأعمدة التي تحتوي على عدة قيم فارغة أو حتى جميعها؟ يمكنك تحديد هذه الإعدادات في `dropna` باستخدام المعاملين `how` و `thresh`.

بشكل افتراضي، يكون `how='any'` (إذا كنت ترغب في التحقق بنفسك أو رؤية المعاملات الأخرى التي تحتوي عليها الطريقة، قم بتشغيل `example4.dropna?` في خلية كود). يمكنك بدلاً من ذلك تحديد `how='all'` لحذف الصفوف أو الأعمدة التي تحتوي فقط على قيم فارغة بالكامل. دعنا نوسع مثالنا على `DataFrame` لرؤية ذلك عمليًا في التمرين التالي.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> النقاط الرئيسية:
1. حذف القيم الفارغة فكرة جيدة فقط إذا كانت مجموعة البيانات كبيرة بما يكفي.
2. يمكن حذف الصفوف أو الأعمدة بالكامل إذا كانت معظم بياناتها مفقودة.
3. تساعد طريقة `DataFrame.dropna(axis=)` في حذف القيم الفارغة. يشير الوسيط `axis` إلى ما إذا كان سيتم حذف الصفوف أو الأعمدة.
4. يمكن استخدام الوسيط `how` أيضًا. يتم ضبطه افتراضيًا على `any`. لذلك، يتم حذف الصفوف/الأعمدة التي تحتوي على أي قيم فارغة فقط. يمكن ضبطه على `all` لتحديد أننا سنحذف فقط الصفوف/الأعمدة التي تكون جميع قيمها فارغة.


### تمرين:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


يمنحك معامل `thresh` تحكمًا أكثر دقة: تحدد عدد القيم *غير الفارغة* التي يحتاجها الصف أو العمود ليتم الاحتفاظ به:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


هنا، تم حذف الصف الأول والأخير، لأنه يحتوي فقط على قيمتين غير فارغتين.


### ملء القيم الفارغة

في بعض الأحيان يكون من المنطقي ملء القيم المفقودة بأخرى قد تكون صالحة. هناك بعض التقنيات لملء القيم الفارغة. الأولى هي استخدام المعرفة بالمجال (المعرفة بالموضوع الذي يعتمد عليه مجموعة البيانات) لتقدير القيم المفقودة بطريقة ما.

يمكنك استخدام `isnull` للقيام بذلك مباشرة، ولكن قد يكون ذلك مرهقًا، خاصة إذا كان لديك الكثير من القيم لملئها. نظرًا لأن هذه مهمة شائعة جدًا في علم البيانات، يوفر pandas الدالة `fillna`، التي تعيد نسخة من `Series` أو `DataFrame` مع استبدال القيم المفقودة بالقيم التي تختارها. لنقم بإنشاء مثال آخر لـ `Series` لنرى كيف يعمل هذا عمليًا.


### البيانات الفئوية (غير الرقمية)
لنبدأ أولاً بالنظر إلى البيانات غير الرقمية. في مجموعات البيانات، لدينا أعمدة تحتوي على بيانات فئوية. على سبيل المثال: الجنس، صحيح أو خطأ، وما إلى ذلك.

في معظم هذه الحالات، نستبدل القيم المفقودة بـ `الوضع` (mode) الخاص بالعمود. لنفترض أن لدينا 100 نقطة بيانات، 90 منها أشارت إلى "صحيح"، و8 أشارت إلى "خطأ"، و2 لم يتم تعبئتها. في هذه الحالة، يمكننا ملء القيمتين المفقودتين بـ "صحيح"، مع الأخذ بعين الاعتبار العمود بأكمله.

مرة أخرى، يمكننا استخدام المعرفة بالمجال هنا. دعونا نأخذ مثالاً على ملء القيم باستخدام الوضع.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


كما نرى، تم استبدال القيمة الفارغة. لا حاجة للقول، كان بإمكاننا كتابة أي شيء بدلاً من `'True'` وكان سيتم استبداله.


### البيانات الرقمية  
الآن، ننتقل إلى البيانات الرقمية. هنا لدينا طريقتان شائعتان لاستبدال القيم المفقودة:  

1. الاستبدال بوسيط الصف  
2. الاستبدال بمتوسط الصف  

نستبدل بالوسيط في حالة البيانات المنحرفة التي تحتوي على قيم شاذة. السبب هو أن الوسيط مقاوم للقيم الشاذة.  

عندما تكون البيانات مُطَبَّعة، يمكننا استخدام المتوسط، لأنه في هذه الحالة، سيكون المتوسط والوسيط قريبين جدًا من بعضهما البعض.  

أولاً، دعونا نأخذ عمودًا موزعًا بشكل طبيعي ونملأ القيمة المفقودة بمتوسط العمود.  


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


متوسط العمود هو


In [33]:
np.mean(fill_with_mean[0])

0.0

In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


كما نرى، تم استبدال القيمة المفقودة بمتوسطها.


الآن دعونا نجرب إطار بيانات آخر، وهذه المرة سنستبدل القيم None بالوسيط الخاص بالعمود.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


متوسط العمود الثاني هو


In [36]:
fill_with_median[1].median()

4.0

التعبئة بالوسيط


In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


كما نرى، تم استبدال قيمة NaN بالوسيط الخاص بالعمود


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

يمكنك ملء جميع الإدخالات الفارغة بقيمة واحدة، مثل `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> النقاط الرئيسية:
1. يجب تعبئة القيم المفقودة عندما يكون هناك بيانات قليلة أو عندما تكون هناك استراتيجية لتعبئة البيانات المفقودة.
2. يمكن استخدام المعرفة بالمجال لتعبئة القيم المفقودة عن طريق تقديرها.
3. بالنسبة للبيانات الفئوية، غالبًا ما يتم استبدال القيم المفقودة بالنمط الخاص بالعمود.
4. بالنسبة للبيانات الرقمية، عادةً ما يتم تعبئة القيم المفقودة بالمتوسط (للمجموعات البيانات المُطَبَّعة) أو الوسيط الخاص بالأعمدة.


### تمرين:


In [40]:
# What happens if you try to fill null values with a string, like ''?


يمكنك **ملء القيم الفارغة** باستخدام آخر قيمة صالحة لملء القيمة الفارغة:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

يمكنك أيضًا **الملء العكسي** لنشر القيمة الصالحة التالية للخلف لملء قيمة فارغة:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

كما قد تخمن، يعمل هذا بنفس الطريقة مع DataFrames، ولكن يمكنك أيضًا تحديد `axis` لملء القيم الفارغة على طوله:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


لاحظ أنه عندما لا تكون هناك قيمة سابقة متاحة للتعبئة الأمامية، تظل القيمة الفارغة كما هي.


### تمرين:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


يمكنك أن تكون مبدعًا في كيفية استخدام `fillna`. على سبيل المثال، دعنا نلقي نظرة على `example4` مرة أخرى، ولكن هذه المرة دعنا نملأ القيم المفقودة بمتوسط جميع القيم في الـ `DataFrame`:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


لاحظ أن العمود الثالث لا يزال بدون قيمة: الاتجاه الافتراضي هو ملء القيم صفًا بصف.

> **الخلاصة:** هناك طرق متعددة للتعامل مع القيم المفقودة في مجموعات البيانات الخاصة بك. يجب أن تكون الاستراتيجية المحددة التي تستخدمها (إزالتها، استبدالها، أو حتى كيفية استبدالها) مستندة إلى خصائص تلك البيانات. ستكتسب فهمًا أفضل لكيفية التعامل مع القيم المفقودة كلما تعاملت وتفاعلت أكثر مع مجموعات البيانات.


### ترميز البيانات الفئوية

نماذج التعلم الآلي تتعامل فقط مع الأرقام وأي شكل من أشكال البيانات الرقمية. فهي لن تكون قادرة على التمييز بين "نعم" و"لا"، لكنها ستتمكن من التمييز بين 0 و1. لذلك، بعد ملء القيم المفقودة، نحتاج إلى ترميز البيانات الفئوية إلى شكل رقمي لكي يتمكن النموذج من فهمها.

يمكن إجراء الترميز بطريقتين. سنناقشهما في القسم التالي.


**ترميز التصنيفات**

ترميز التصنيفات يعني بشكل أساسي تحويل كل فئة إلى رقم. على سبيل المثال، لنفترض أن لدينا مجموعة بيانات لركاب الطيران وهناك عمود يحتوي على فئاتهم من بين ['درجة رجال الأعمال', 'الدرجة الاقتصادية', 'الدرجة الأولى']. إذا تم تطبيق ترميز التصنيفات على هذا العمود، فسيتم تحويله إلى [0,1,2]. دعونا نرى مثالاً عبر الكود. بما أننا سنتعلم استخدام `scikit-learn` في الدفاتر القادمة، فلن نستخدمه هنا.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


لإجراء ترميز التصنيفات على العمود الأول، يجب أولاً وصف خريطة من كل فئة إلى رقم، قبل الاستبدال


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


كما نرى، النتيجة تطابق ما توقعنا حدوثه. إذن، متى نستخدم ترميز التصنيفات؟ يتم استخدام ترميز التصنيفات في إحدى أو كلتا الحالتين التاليتين:
1. عندما يكون عدد الفئات كبيرًا
2. عندما تكون الفئات مرتبة.


**الترميز الأحادي (One Hot Encoding)**

نوع آخر من الترميز هو الترميز الأحادي. في هذا النوع من الترميز، يتم إضافة كل فئة من العمود كعمود منفصل، وكل نقطة بيانات تحصل على 0 أو 1 بناءً على ما إذا كانت تحتوي على تلك الفئة أم لا. لذلك، إذا كان هناك n فئة مختلفة، سيتم إضافة n عمود إلى إطار البيانات.

على سبيل المثال، لنأخذ نفس مثال فئات الطائرة. كانت الفئات: ['درجة رجال الأعمال', 'الدرجة الاقتصادية', 'الدرجة الأولى']. لذا، إذا قمنا بتنفيذ الترميز الأحادي، سيتم إضافة الأعمدة الثلاثة التالية إلى مجموعة البيانات: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


دعنا نقوم بترميز العمود الأول بطريقة التشفير الواحد


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


كل عمود مشفر بطريقة التشفير الواحد يحتوي على 0 أو 1، مما يحدد ما إذا كانت تلك الفئة موجودة لذلك النقطة البيانية.


متى نستخدم الترميز الواحد (One Hot Encoding)؟  
يُستخدم الترميز الواحد في إحدى أو كلتا الحالتين التاليتين:

1. عندما يكون عدد الفئات وحجم مجموعة البيانات صغيرًا.  
2. عندما لا تتبع الفئات ترتيبًا معينًا.  


> النقاط الرئيسية:  
1. يتم استخدام الترميز لتحويل البيانات غير الرقمية إلى بيانات رقمية.  
2. هناك نوعان من الترميز: الترميز بالملصقات والترميز بالواحد الساخن، وكلاهما يمكن تنفيذه بناءً على متطلبات مجموعة البيانات.  


## إزالة البيانات المكررة

> **هدف التعلم:** بنهاية هذا القسم الفرعي، يجب أن تكون قادرًا على التعرف على القيم المكررة وإزالتها من DataFrames.

بالإضافة إلى البيانات المفقودة، ستواجه غالبًا بيانات مكررة في مجموعات البيانات الواقعية. لحسن الحظ، توفر pandas وسيلة سهلة لاكتشاف وإزالة الإدخالات المكررة.


### التعرف على القيم المكررة: `duplicated`

يمكنك بسهولة تحديد القيم المكررة باستخدام طريقة `duplicated` في pandas، والتي تُرجع قناعًا منطقيًا يشير إلى ما إذا كان إدخال في `DataFrame` مكررًا لإدخال سابق. دعنا ننشئ مثالًا آخر لـ `DataFrame` لنرى ذلك عمليًا.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### إزالة التكرارات: `drop_duplicates`
`drop_duplicates` يعيد ببساطة نسخة من البيانات حيث تكون جميع القيم التي تم تحديدها كـ `duplicated` هي `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


يعتبر كل من `duplicated` و `drop_duplicates` جميع الأعمدة بشكل افتراضي، ولكن يمكنك تحديد أن يقوموا بفحص مجموعة فرعية فقط من الأعمدة في `DataFrame` الخاص بك:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2


> **الخلاصة:** إزالة البيانات المكررة جزء أساسي من كل مشروع علم بيانات تقريبًا. يمكن أن تؤدي البيانات المكررة إلى تغيير نتائج تحليلاتك وتقديم نتائج غير دقيقة!



---

**إخلاء المسؤولية**:  
تم ترجمة هذا المستند باستخدام خدمة الترجمة بالذكاء الاصطناعي [Co-op Translator](https://github.com/Azure/co-op-translator). بينما نسعى لتحقيق الدقة، يرجى العلم أن الترجمات الآلية قد تحتوي على أخطاء أو معلومات غير دقيقة. يجب اعتبار المستند الأصلي بلغته الأصلية المصدر الموثوق. للحصول على معلومات حاسمة، يُوصى بالاستعانة بترجمة بشرية احترافية. نحن غير مسؤولين عن أي سوء فهم أو تفسيرات خاطئة ناتجة عن استخدام هذه الترجمة.
