# הכנת נתונים

[מקור המחברת המקורית מתוך *Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio מאת Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## חקירת מידע מתוך `DataFrame`

> **מטרת הלמידה:** בסיום תת-הפרק הזה, תרגישו בנוח למצוא מידע כללי על הנתונים המאוחסנים ב-DataFrames של pandas.

לאחר שטענתם את הנתונים שלכם ל-pandas, סביר להניח שהם יהיו בתוך `DataFrame`. אבל אם מערך הנתונים ב-`DataFrame` שלכם מכיל 60,000 שורות ו-400 עמודות, איך בכלל מתחילים להבין עם מה אתם עובדים? למרבה המזל, pandas מספקת כלים נוחים שמאפשרים להסתכל במהירות על מידע כללי על ה-`DataFrame`, בנוסף לשורות הראשונות והאחרונות.

כדי לחקור את הפונקציונליות הזו, נייבא את ספריית scikit-learn של Python ונשתמש במערך נתונים איקוני שכל מדען נתונים ראה מאות פעמים: מערך הנתונים *Iris* של הביולוג הבריטי רונלד פישר, ששימש במאמרו משנת 1936 "The use of multiple measurements in taxonomic problems":


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
טענו את מאגר הנתונים של איריס לתוך המשתנה `iris_df`. לפני שנצלול לתוך הנתונים, יהיה מועיל לדעת כמה נקודות נתונים יש לנו ומה הגודל הכולל של מאגר הנתונים. זה שימושי להסתכל על היקף הנתונים שאנו מתמודדים איתם.


In [2]:
iris_df.shape

(150, 4)

אז, אנחנו מתמודדים עם 150 שורות ו-4 עמודות של נתונים. כל שורה מייצגת נקודת נתונים אחת וכל עמודה מייצגת תכונה אחת הקשורה למסגרת הנתונים. כלומר, יש לנו בעצם 150 נקודות נתונים שכל אחת מהן מכילה 4 תכונות.

`shape` כאן הוא מאפיין של מסגרת הנתונים ולא פונקציה, ולכן הוא לא מסתיים בזוג סוגריים.


### `DataFrame.columns`
בואו נעבור עכשיו אל ארבעת העמודות של הנתונים. מה בדיוק כל אחת מהן מייצגת? המאפיין `columns` ייתן לנו את שמות העמודות בתוך ה-DataFrame.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

כפי שאנו יכולים לראות, ישנם ארבעה (4) עמודות. מאפיין ה-`columns` אומר לנו את שמות העמודות ובסיסית לא יותר מזה. מאפיין זה מקבל חשיבות כאשר אנו רוצים לזהות את המאפיינים שמכיל מערך הנתונים.


### `DataFrame.info`
כמות הנתונים (ניתנת על ידי המאפיין `shape`) ושמות התכונות או העמודות (ניתנים על ידי המאפיין `columns`) מספקים לנו מידע על מערך הנתונים. כעת, נרצה להעמיק יותר במערך הנתונים. הפונקציה `DataFrame.info()` שימושית מאוד למטרה זו.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


מכאן, ניתן להסיק כמה תובנות:

1. סוג הנתונים של כל עמודה: במערך הנתונים הזה, כל הנתונים מאוחסנים כמספרים בנקודה צפה בפורמט 64-ביט.  
2. מספר הערכים שאינם Null: התמודדות עם ערכים חסרים היא שלב חשוב בהכנת הנתונים. נעסוק בכך בהמשך במחברת.  


### DataFrame.describe()
נניח שיש לנו הרבה נתונים מספריים במערך הנתונים שלנו. חישובים סטטיסטיים חד-משתניים כמו ממוצע, חציון, רבעונים וכו' יכולים להתבצע על כל אחד מהעמודות בנפרד. הפונקציה `DataFrame.describe()` מספקת לנו סיכום סטטיסטי של העמודות המספריות במערך הנתונים.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


הפלט לעיל מציג את המספר הכולל של נקודות הנתונים, ממוצע, סטיית תקן, מינימום, רבעון תחתון (25%), חציון (50%), רבעון עליון (75%) והערך המרבי של כל עמודה.


### `DataFrame.head`
עם כל הפונקציות והתכונות שהוזכרו לעיל, קיבלנו מבט כולל על מערך הנתונים. אנחנו יודעים כמה נקודות נתונים יש, כמה מאפיינים קיימים, סוג הנתונים של כל מאפיין ומספר הערכים שאינם null עבור כל מאפיין.

עכשיו הגיע הזמן להסתכל על הנתונים עצמם. בואו נראה איך נראים השורות הראשונות (נקודות הנתונים הראשונות) של ה-`DataFrame` שלנו:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


כפי שניתן לראות כאן, יש לנו חמישה (5) רשומות של מערך הנתונים. אם נסתכל על האינדקס בצד שמאל, נגלה שאלו הם חמשת השורות הראשונות.


### תרגיל:

מהדוגמה שניתנה למעלה, ברור שברירת המחדל של `DataFrame.head` היא להחזיר את חמש השורות הראשונות של `DataFrame`. בתא הקוד למטה, האם תוכל למצוא דרך להציג יותר מחמש שורות?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
דרך נוספת להסתכל על הנתונים יכולה להיות מהסוף (במקום מההתחלה). ההפך מ-`DataFrame.head` הוא `DataFrame.tail`, שמחזיר את חמש השורות האחרונות של `DataFrame`:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


בפועל, זה שימושי להיות מסוגלים לבדוק בקלות את השורות הראשונות או האחרונות של `DataFrame`, במיוחד כשאתם מחפשים ערכים חריגים במערכי נתונים מסודרים.

כל הפונקציות והתכונות שהוצגו לעיל בעזרת דוגמאות קוד, עוזרות לנו לקבל תחושה כללית של הנתונים.

> **מסקנה:** אפילו רק על ידי הסתכלות על המטא-נתונים של המידע ב-DataFrame או על הערכים הראשונים והאחרונים שבו, ניתן לקבל מיד מושג על הגודל, הצורה והתוכן של הנתונים שאתם מתמודדים איתם.


### נתונים חסרים
בואו נצלול לנושא של נתונים חסרים. נתונים חסרים מתרחשים כאשר אין ערך שמאוחסן בחלק מהעמודות.

ניקח דוגמה: נניח שמישהו מודע למשקל שלו/שלה ולא ממלא את שדה המשקל בסקר. במקרה כזה, ערך המשקל עבור אותו אדם יהיה חסר.

ברוב המקרים, בסטים של נתונים מהעולם האמיתי, ערכים חסרים הם תופעה נפוצה.

**איך Pandas מתמודדת עם נתונים חסרים**

Pandas מתמודדת עם ערכים חסרים בשתי דרכים. הדרך הראשונה, שראיתם כבר בחלקים קודמים, היא `NaN`, או Not a Number. זהו למעשה ערך מיוחד שהוא חלק מהמפרט של IEEE עבור נקודה צפה, והוא משמש רק לציון ערכים חסרים מסוג נקודה צפה.

עבור ערכים חסרים שאינם מסוג נקודה צפה, pandas משתמשת באובייקט `None` של Python. למרות שזה עשוי להיראות מבלבל שתיתקלו בשני סוגים שונים של ערכים שמציינים למעשה את אותו הדבר, יש סיבות תכנותיות טובות לבחירה עיצובית זו, ובפועל, גישה זו מאפשרת ל-pandas לספק פשרה טובה עבור רוב המקרים. עם זאת, גם ל-`None` וגם ל-`NaN` יש מגבלות שחשוב להיות מודעים אליהן בכל הנוגע לאופן שבו ניתן להשתמש בהם.


### `None`: נתוני חסר שאינם מסוג float  
מכיוון ש-`None` מגיע מ-Python, לא ניתן להשתמש בו במערכים של NumPy ו-pandas שאינם מסוג הנתונים `'object'`. זכרו, מערכי NumPy (והמבנים ב-pandas) יכולים להכיל רק סוג אחד של נתונים. זה מה שמעניק להם את הכוח העצום לעבודה עם נתונים בקנה מידה גדול וביצוע חישובים, אך גם מגביל את הגמישות שלהם. מערכים כאלה חייבים לבצע המרה לסוג הנתונים "המכנה המשותף הנמוך ביותר", כלומר סוג הנתונים שיכיל את כל הערכים במערך. כאשר `None` נמצא במערך, המשמעות היא שאתם עובדים עם אובייקטים של Python.

כדי לראות זאת בפעולה, שקלו את מערך הדוגמה הבא (שימו לב ל-`dtype` שלו):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

המציאות של המרת סוגי נתונים כלפי מעלה מביאה עמה שני תופעות לוואי. ראשית, פעולות יתבצעו ברמת הקוד המפורש של Python ולא ברמת הקוד המהודר של NumPy. למעשה, המשמעות היא שכל פעולה הכוללת `Series` או `DataFrames` עם `None` בתוכם תהיה איטית יותר. למרות שסביר להניח שלא תבחינו בפגיעה בביצועים, עבור מערכי נתונים גדולים זה עשוי להפוך לבעיה.

תופעת הלוואי השנייה נובעת מהראשונה. מכיוון ש-`None` למעשה מחזיר את ה-`Series` או ה-`DataFrame`s לעולם של Python הבסיסי, שימוש בפונקציות צבירה של NumPy/pandas כמו `sum()` או `min()` על מערכים המכילים ערך ``None`` בדרך כלל יגרום לשגיאה:


In [10]:
example1.sum()

TypeError: ignored

**מסקנה עיקרית**: חיבור (ושאר פעולות) בין מספרים שלמים לערכי `None` אינו מוגדר, מה שיכול להגביל את האפשרויות לעבודה עם מערכי נתונים המכילים אותם.


### `NaN`: ערכי float חסרים

בניגוד ל-`None`, NumPy (ולכן גם pandas) תומכים ב-`NaN` עבור פעולות ווקטוריות מהירות ו-ufuncs. החדשות הרעות הן שכל פעולה אריתמטית שמתבצעת על `NaN` תמיד תוביל ל-`NaN`. לדוגמה:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

החדשות הטובות: אגרגציות שפועלות על מערכים עם `NaN` בתוכם לא מציגות שגיאות. החדשות הרעות: התוצאות אינן מועילות באופן אחיד:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### תרגיל:


In [11]:
# What happens if you add np.nan and None together?


זכור: `NaN` מיועד רק לערכים חסרים מסוג נקודה צפה; אין מקבילה ל-`NaN` עבור מספרים שלמים, מחרוזות או ערכי בוליאן.


### `NaN` ו-`None`: ערכים ריקים ב-pandas

למרות ש-`NaN` ו-`None` יכולים להתנהג בצורה מעט שונה, pandas נבנה כך שיוכל לטפל בהם באופן חלופי. כדי להבין למה הכוונה, בואו נבחן `Series` של מספרים שלמים:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### תרגיל:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


במהלך תהליך של המרה כלפי מעלה (upcasting) של סוגי נתונים לצורך יצירת אחידות בנתונים ב-`Series` וב-`DataFrame`s, pandas תבצע באופן חופשי החלפה של ערכים חסרים בין `None` ל-`NaN`. בשל מאפיין עיצוב זה, יכול להיות מועיל לחשוב על `None` ו-`NaN` כשני סוגים שונים של "null" ב-pandas. למעשה, חלק מהשיטות המרכזיות שתשתמשו בהן לטיפול בערכים חסרים ב-pandas משקפות רעיון זה בשמותיהן:

- `isnull()`: מייצרת מסכה בוליאנית שמציינת ערכים חסרים
- `notnull()`: ההפך של `isnull()`
- `dropna()`: מחזירה גרסה מסוננת של הנתונים
- `fillna()`: מחזירה עותק של הנתונים שבו הערכים החסרים מולאו או הושלמו

אלו שיטות חשובות שכדאי לשלוט בהן ולהרגיש בנוח איתן, אז בואו נעבור עליהן לעומק.


### זיהוי ערכים חסרים

כעת, לאחר שהבנו את החשיבות של ערכים חסרים, עלינו לזהות אותם במערך הנתונים שלנו לפני שנתמודד איתם.  
הפונקציות `isnull()` ו-`notnull()` הן השיטות העיקריות שלך לזיהוי נתונים חסרים. שתיהן מחזירות מסכות בוליאניות על הנתונים שלך.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

האם משהו בתוצאה מפתיע אותך? בעוד ש-`0` הוא אפס אריתמטי, הוא עדיין מספר שלם תקין לחלוטין, ו-pandas מתייחסת אליו ככזה. `''` הוא מעט יותר עדין. בעוד שבפרק 1 השתמשנו בו כדי לייצג ערך מחרוזת ריקה, הוא עדיין אובייקט מחרוזת ולא ייצוג של null מבחינת pandas.

עכשיו, בואו נהפוך את זה ונשתמש בשיטות הללו בצורה שיותר דומה לאופן שבו תשתמשו בהן בפועל. ניתן להשתמש במסכות בוליאניות ישירות כ-``Series`` או כ-``DataFrame`` אינדקס, מה שיכול להיות שימושי כאשר מנסים לעבוד עם ערכים חסרים (או קיימים) מבודדים.

אם אנחנו רוצים את המספר הכולל של ערכים חסרים, אנחנו יכולים פשוט לבצע סכימה על המסכה שמיוצרת על ידי השיטה `isnull()`.


In [19]:
example3.isnull().sum()

2

### תרגיל:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**מסקנה עיקרית**: הן השיטות `isnull()` והן `notnull()` מפיקות תוצאות דומות כאשר משתמשים בהן ב-DataFrames: הן מציגות את התוצאות ואת האינדקס של אותן תוצאות, מה שיעזור לך מאוד כאשר אתה מתמודד עם הנתונים שלך.


### התמודדות עם נתונים חסרים

> **מטרת הלמידה:** בסיום תת-הסעיף הזה, תדעו כיצד ומתי להחליף או להסיר ערכים חסרים מ-DataFrames.

מודלים של למידת מכונה אינם יכולים להתמודד עם נתונים חסרים בעצמם. לכן, לפני שמעבירים את הנתונים למודל, יש לטפל בערכים החסרים.

האופן שבו מטפלים בנתונים חסרים נושא עמו פשרות עדינות, ויכול להשפיע על הניתוח הסופי ועל התוצאות בעולם האמיתי.

ישנן בעיקר שתי דרכים להתמודד עם נתונים חסרים:

1.   להסיר את השורה שמכילה את הערך החסר  
2.   להחליף את הערך החסר בערך אחר  

נדון בשתי השיטות הללו וביתרונותיהן וחסרונותיהן בפירוט.


### הסרת ערכים חסרים

כמות הנתונים שאנחנו מעבירים למודל שלנו משפיעה ישירות על הביצועים שלו. הסרת ערכים חסרים משמעותה שאנחנו מצמצמים את מספר נקודות הנתונים, ובכך מקטינים את גודל מערך הנתונים. לכן, מומלץ להסיר שורות עם ערכים חסרים כאשר מערך הנתונים גדול יחסית.

מקרה נוסף יכול להיות ששורה או עמודה מסוימת מכילה הרבה ערכים חסרים. במקרה כזה, ניתן להסיר אותם מכיוון שהם לא יוסיפו ערך רב לניתוח שלנו, שכן רוב הנתונים חסרים עבור אותה שורה/עמודה.

מעבר לזיהוי ערכים חסרים, pandas מספקת דרך נוחה להסיר ערכים חסרים מ-`Series` ו-`DataFrame`s. כדי לראות זאת בפעולה, נחזור ל-`example3`. הפונקציה `DataFrame.dropna()` מסייעת בהסרת שורות עם ערכים חסרים.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

שימו לב שזה צריך להיראות כמו הפלט שלכם מ- `example3[example3.notnull()]`. ההבדל כאן הוא שבמקום רק לאנדקס את הערכים המוסתרים, `dropna` הסיר את הערכים החסרים האלה מתוך ה- `Series` `example3`.

מכיוון של- DataFrames יש שתי ממדים, הם מציעים יותר אפשרויות להסרת נתונים.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


האם שמתם לב שפנדס שדרג שניים מהעמודות לסוג נתונים float כדי להתאים את ה-`NaN`s?

לא ניתן להסיר ערך יחיד מתוך `DataFrame`, ולכן יש להסיר שורות או עמודות שלמות. תלוי במה שאתם עושים, ייתכן שתרצו לבצע אחד מהשניים, ולכן פנדס נותן לכם אפשרויות לשניהם. מכיוון שבמדעי הנתונים עמודות בדרך כלל מייצגות משתנים ושורות מייצגות תצפיות, סביר יותר שתסירו שורות של נתונים; ההגדרה המחדלית של `dropna()` היא להסיר את כל השורות שמכילות ערכים ריקים כלשהם:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


אם יש צורך, ניתן להסיר ערכי NA מעמודות. השתמש ב-`axis=1` כדי לעשות זאת:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


שימו לב שזה יכול להוביל לאיבוד של הרבה נתונים שייתכן שתרצו לשמור, במיוחד במערכי נתונים קטנים יותר. מה אם אתם רוצים פשוט להסיר שורות או עמודות שמכילות מספר רב או אפילו את כל הערכים הריקים? אתם יכולים להגדיר זאת באמצעות `dropna` עם הפרמטרים `how` ו-`thresh`.

כברירת מחדל, `how='any'` (אם תרצו לבדוק בעצמכם או לראות אילו פרמטרים נוספים יש לשיטה, הריצו `example4.dropna?` בתא קוד). לחלופין, תוכלו להגדיר `how='all'` כדי להסיר רק שורות או עמודות שמכילות את כל הערכים הריקים. בואו נרחיב את דוגמת ה-`DataFrame` שלנו כדי לראות זאת בפעולה בתרגיל הבא.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> נקודות מפתח:  
1. מחיקת ערכים ריקים היא רעיון טוב רק אם מערך הנתונים גדול מספיק.  
2. ניתן למחוק שורות או עמודות שלמות אם רוב הנתונים בהן חסרים.  
3. השיטה `DataFrame.dropna(axis=)` מסייעת במחיקת ערכים ריקים. הפרמטר `axis` מציין האם למחוק שורות או עמודות.  
4. ניתן להשתמש גם בפרמטר `how`. כברירת מחדל הוא מוגדר כ-`any`, כך שהוא מוחק רק את השורות/עמודות שמכילות ערכים ריקים כלשהם. ניתן להגדיר אותו כ-`all` כדי לציין שנמחק רק שורות/עמודות שבהן כל הערכים ריקים.  


### תרגיל:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


פרמטר `thresh` נותן לך שליטה מדויקת יותר: אתה מגדיר את מספר הערכים *שאינם null* ששורה או עמודה צריכים להכיל כדי להישמר:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


כאן, השורה הראשונה והאחרונה הוסרו, מכיוון שהן מכילות רק שני ערכים שאינם null.


### מילוי ערכים חסרים

לפעמים יש היגיון למלא ערכים חסרים באלה שיכולים להיות תקפים. יש כמה טכניקות למילוי ערכים חסרים. הראשונה היא שימוש בידע תחום (ידע על הנושא שעליו מבוסס מערך הנתונים) כדי להעריך בצורה כלשהי את הערכים החסרים.

ניתן להשתמש ב-`isnull` כדי לעשות זאת במקום, אך זה יכול להיות מייגע, במיוחד אם יש לך הרבה ערכים למלא. מכיוון שזו משימה נפוצה כל כך במדעי הנתונים, pandas מספקת את `fillna`, שמחזירה עותק של ה-`Series` או ה-`DataFrame` עם הערכים החסרים מוחלפים באלה שתבחר. בואו ניצור דוגמה נוספת של `Series` כדי לראות איך זה עובד בפועל.


### נתונים קטגוריים (לא מספריים)
ראשית, נתמקד בנתונים שאינם מספריים. במאגרי נתונים, יש לנו עמודות עם נתונים קטגוריים. לדוגמה, מגדר, נכון או לא נכון וכו'.

ברוב המקרים הללו, אנו מחליפים ערכים חסרים ב-`mode` של העמודה. נניח שיש לנו 100 נקודות נתונים, 90 מהן ציינו נכון, 8 ציינו לא נכון ו-2 לא מילאו. במקרה כזה, נוכל למלא את ה-2 עם נכון, בהתחשב בעמודה כולה.

שוב, כאן ניתן להשתמש בידע תחום. בואו נבחן דוגמה של מילוי באמצעות ה-mode.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


כפי שאנו יכולים לראות, הערך null הוחלף. מיותר לציין, יכולנו לכתוב כל דבר במקום `'True'` וזה היה מוחלף.


### נתונים מספריים
עכשיו, נעבור לנתונים מספריים. כאן, יש לנו שתי דרכים נפוצות להחלפת ערכים חסרים:

1. החלפה עם החציון של השורה  
2. החלפה עם הממוצע של השורה  

אנו מחליפים עם החציון במקרה של נתונים מוטים עם ערכים חריגים. זאת מכיוון שהחציון עמיד בפני ערכים חריגים.

כאשר הנתונים מנורמלים, ניתן להשתמש בממוצע, שכן במקרה כזה, הממוצע והחציון יהיו די קרובים.

ראשית, ניקח עמודה שמחולקת נורמלית ונמלא את הערך החסר עם הממוצע של העמודה.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


הממוצע של העמודה הוא


In [33]:
np.mean(fill_with_mean[0])

0.0

In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


כפי שאנו יכולים לראות, הערך החסר הוחלף בממוצע שלו.


עכשיו בואו ננסה מסגרת נתונים אחרת, והפעם נחליף את הערכים None במדיאן של העמודה.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


החציון של העמודה השנייה הוא


In [36]:
fill_with_median[1].median()

4.0

מילוי עם חציון


In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


כפי שאנו יכולים לראות, ערך NaN הוחלף על ידי החציון של העמודה


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

אתה יכול למלא את כל הערכים הריקים עם ערך יחיד, כגון `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> נקודות מפתח:  
1. יש למלא ערכים חסרים כאשר יש מעט נתונים או כאשר קיימת אסטרטגיה למלא את הנתונים החסרים.  
2. ניתן להשתמש בידע תחום כדי למלא ערכים חסרים על ידי הערכה שלהם.  
3. עבור נתונים קטגוריים, לרוב, ערכים חסרים מוחלפים בערך השכיח (mode) של העמודה.  
4. עבור נתונים מספריים, ערכים חסרים בדרך כלל ממולאים עם הממוצע (עבור מערכי נתונים מנורמלים) או החציון של העמודות.  


### תרגיל:


In [40]:
# What happens if you try to fill null values with a string, like ''?


אתה יכול **למלא קדימה** ערכים ריקים, כלומר להשתמש בערך התקף האחרון כדי למלא ערך ריק:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

אתה יכול גם **למלא אחורה** כדי להפיץ את הערך התקף הבא אחורה למילוי null:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

כפי שאתה יכול לנחש, זה עובד באותו אופן עם DataFrames, אבל אתה יכול גם לציין `axis` לאורך אותו למלא ערכים ריקים:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


שים לב שכאשר ערך קודם אינו זמין למילוי קדימה, הערך הריק נשאר.


### תרגיל:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


אתה יכול להיות יצירתי לגבי איך להשתמש ב-`fillna`. לדוגמה, בוא נסתכל שוב על `example4`, אבל הפעם נמלא את הערכים החסרים עם הממוצע של כל הערכים ב-`DataFrame`:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


שימו לב שעמודה 3 עדיין חסרת ערך: הכיוון ברירת המחדל הוא למלא ערכים לפי שורות.

> **מסקנה:** ישנן דרכים רבות להתמודד עם ערכים חסרים במערכי הנתונים שלכם. האסטרטגיה הספציפית שבה תשתמשו (הסרתם, החלפתם, או אפילו איך להחליפם) צריכה להיות מותאמת למאפיינים של הנתונים הללו. אתם תפתחו תחושה טובה יותר כיצד להתמודד עם ערכים חסרים ככל שתעבדו ותתקשרו יותר עם מערכי נתונים.


### קידוד נתונים קטגוריים

מודלים של למידת מכונה מתמודדים רק עם מספרים וכל סוג של נתונים מספריים. הם לא יוכלו להבחין בין "כן" ל"לא", אבל כן יוכלו להבדיל בין 0 ל-1. לכן, לאחר שמילאנו את הערכים החסרים, עלינו לקודד את הנתונים הקטגוריים לצורה מספרית כלשהי כדי שהמודל יוכל להבין אותם.

ניתן לבצע קידוד בשתי דרכים. נדון בהן בהמשך.


**קידוד תוויות**

קידוד תוויות הוא בעצם המרה של כל קטגוריה למספר. לדוגמה, נניח שיש לנו מערך נתונים של נוסעי טיסות ויש עמודה שמכילה את המחלקה שלהם מבין ['מחלקת עסקים', 'מחלקת תיירים', 'מחלקה ראשונה']. אם נבצע קידוד תוויות על זה, זה יומר ל-[0,1,2]. בואו נראה דוגמה באמצעות קוד. מכיוון שנלמד את `scikit-learn` במחברות הבאות, לא נשתמש בו כאן.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


כדי לבצע קידוד תוויות על העמודה הראשונה, עלינו תחילה לתאר מיפוי מכל מחלקה למספר, לפני ההחלפה


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


כפי שאנחנו יכולים לראות, התוצאה תואמת למה שחשבנו שיקרה. אז, מתי משתמשים בקידוד תוויות? משתמשים בקידוד תוויות באחד או בשני המקרים הבאים:
1. כאשר מספר הקטגוריות גדול
2. כאשר הקטגוריות מסודרות לפי סדר.


**קידוד One Hot**

סוג נוסף של קידוד הוא קידוד One Hot. בקידוד מסוג זה, כל קטגוריה בעמודה מתווספת כעמודה נפרדת, וכל נקודת נתונים תקבל ערך 0 או 1 בהתאם לשאלה האם היא מכילה את אותה קטגוריה. כלומר, אם יש n קטגוריות שונות, יתווספו n עמודות למסגרת הנתונים.

לדוגמה, ניקח את אותו דוגמה של מחלקות במטוס. הקטגוריות היו: ['business class', 'economy class', 'first class']. אם נבצע קידוד One Hot, שלוש העמודות הבאות יתווספו למאגר הנתונים: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


בואו נבצע קידוד חד-ערכי על העמודה הראשונה


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


כל עמודה מקודדת חם מכילה 0 או 1, שמציינים האם הקטגוריה קיימת עבור נקודת הנתונים.


מתי משתמשים ב-One Hot Encoding? משתמשים ב-One Hot Encoding באחד או בשני המקרים הבאים:

1. כאשר מספר הקטגוריות וגודל מערך הנתונים קטן.
2. כאשר הקטגוריות אינן עוקבות אחר סדר מסוים.


> נקודות מפתח:  
1. קידוד מתבצע כדי להמיר נתונים שאינם מספריים לנתונים מספריים.  
2. ישנם שני סוגי קידוד: קידוד תוויות (Label encoding) וקידוד One Hot, שניהם יכולים להתבצע בהתאם לדרישות מערך הנתונים.  


## הסרת נתונים כפולים

> **מטרת הלמידה:** בסיום תת-הסעיף הזה, עליכם להרגיש בנוח לזהות ולהסיר ערכים כפולים מ-DataFrames.

בנוסף לנתונים חסרים, לעיתים קרובות תיתקלו בנתונים כפולים במערכי נתונים בעולם האמיתי. למרבה המזל, pandas מספקת דרך פשוטה לזיהוי והסרת רשומות כפולות.


### זיהוי כפילויות: `duplicated`

ניתן לזהות ערכים כפולים בקלות באמצעות השיטה `duplicated` ב-pandas, שמחזירה מסכה בוליאנית המצביעה האם ערך ב-`DataFrame` הוא כפול של ערך קודם. בואו ניצור דוגמה נוספת של `DataFrame` כדי לראות זאת בפעולה.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### הסרת כפילויות: `drop_duplicates`
`drop_duplicates` מחזירה פשוט עותק של הנתונים שבו כל הערכים שהם `duplicated` הם `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


גם `duplicated` וגם `drop_duplicates` מוגדרים כברירת מחדל להתחשב בכל העמודות, אך ניתן לציין שהם יבדקו רק תת-קבוצה של עמודות ב-`DataFrame` שלך:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2


**עיקרי הדברים:** הסרת נתונים כפולים היא חלק חיוני כמעט בכל פרויקט מדעי נתונים. נתונים כפולים יכולים לשנות את תוצאות הניתוחים שלך ולספק לך תוצאות לא מדויקות!



---

**כתב ויתור**:  
מסמך זה תורגם באמצעות שירות תרגום מבוסס בינה מלאכותית [Co-op Translator](https://github.com/Azure/co-op-translator). בעוד שאנו שואפים לדיוק, יש להיות מודעים לכך שתרגומים אוטומטיים עשויים להכיל שגיאות או אי דיוקים. המסמך המקורי בשפתו המקורית צריך להיחשב כמקור הסמכותי. עבור מידע קריטי, מומלץ להשתמש בתרגום מקצועי על ידי אדם. איננו נושאים באחריות לאי הבנות או לפרשנויות שגויות הנובעות משימוש בתרגום זה.
