# डेटा तयारी

[मूळ नोटबुक स्रोत *डेटा सायन्स: डेटा सायन्ससाठी मशीन लर्निंगची ओळख - पायथॉन आणि मशीन लर्निंग स्टुडिओ बाय ली स्टॉट*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## `DataFrame` माहिती शोधणे

> **शिकण्याचे उद्दिष्ट:** या उपविभागाच्या शेवटी, तुम्हाला pandas DataFrames मध्ये संग्रहित डेटाबद्दल सामान्य माहिती शोधण्यात सोय होईल.

जेव्हा तुम्ही तुमचा डेटा pandas मध्ये लोड करता, तेव्हा तो बहुधा `DataFrame` स्वरूपात असेल. परंतु, जर तुमच्या `DataFrame` मध्ये 60,000 ओळी आणि 400 स्तंभ असतील, तर तुम्ही सुरुवात कशी कराल? सुदैवाने, pandas काही सोयीस्कर साधने प्रदान करते ज्यामुळे `DataFrame` बद्दलची एकूण माहिती तसेच सुरुवातीच्या आणि शेवटच्या काही ओळी पटकन पाहता येतात.

ही कार्यक्षमता शोधण्यासाठी, आपण Python scikit-learn लायब्ररी आयात करू आणि एक प्रसिद्ध डेटासेट वापरू, जो प्रत्येक डेटा सायंटिस्टने शेकडो वेळा पाहिला आहे: ब्रिटिश जीवशास्त्रज्ञ रोनाल्ड फिशर यांचा *Iris* डेटासेट, जो त्यांनी 1936 च्या त्यांच्या "The use of multiple measurements in taxonomic problems" या पेपरमध्ये वापरला होता:


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
आम्ही Iris Dataset `iris_df` या व्हेरिएबलमध्ये लोड केले आहे. डेटामध्ये खोलवर जाण्यापूर्वी, आपल्याकडे किती डेटा पॉइंट्स आहेत आणि डेटासेटचा एकूण आकार काय आहे हे जाणून घेणे उपयुक्त ठरेल. आपण ज्या डेटाच्या प्रमाणावर काम करत आहोत ते पाहणे उपयुक्त आहे.


In [2]:
iris_df.shape

(150, 4)

आम्ही 150 ओळी आणि 4 स्तंभांच्या डेटासह काम करत आहोत. प्रत्येक ओळ एक डेटा पॉइंट दर्शवते आणि प्रत्येक स्तंभ डेटा फ्रेमशी संबंधित एक वैशिष्ट्य दर्शवतो. त्यामुळे मूलतः, 150 डेटा पॉइंट्स आहेत ज्यामध्ये प्रत्येकामध्ये 4 वैशिष्ट्ये आहेत.

`shape` येथे डेटा फ्रेमचे एक गुणधर्म आहे आणि एक फंक्शन नाही, म्हणूनच ते कंसांच्या जोडीत संपत नाही.


### `DataFrame.columns`
आता आपण डेटा फ्रेममधील ४ स्तंभांकडे वळूया. प्रत्येक स्तंभ नेमके काय दर्शवतो? `columns` गुणधर्म आपल्याला डेटा फ्रेममधील स्तंभांची नावे देईल.


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

जसे आपण पाहू शकतो, येथे चार(4) स्तंभ आहेत. `columns` गुणधर्म आपल्याला स्तंभांची नावे सांगतो आणि मुळात इतर काहीही नाही. जेव्हा आपल्याला डेटासेटमध्ये असलेल्या वैशिष्ट्यांची ओळख पटवायची असते तेव्हा हा गुणधर्म महत्त्वाचा ठरतो.


### `DataFrame.info`
डेटामधील माहिती (`shape` attribute द्वारे दिलेली) आणि वैशिष्ट्ये किंवा स्तंभांची नावे (`columns` attribute द्वारे दिलेली) आपल्याला डेटासेटबद्दल काहीतरी सांगतात. आता, आपल्याला डेटासेटमध्ये अधिक सखोल जाणून घ्यायचे आहे. `DataFrame.info()` फंक्शन यासाठी खूप उपयुक्त आहे.


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


येथून, आपण काही निरीक्षणे करू शकतो:  
1. प्रत्येक स्तंभाचा डेटा प्रकार: या डेटासेटमध्ये, सर्व डेटा 64-बिट फ्लोटिंग-पॉइंट संख्यांमध्ये संग्रहित आहे.  
2. नॉन-नल मूल्यांची संख्या: नल मूल्यांशी व्यवहार करणे हा डेटा तयारीतील एक महत्त्वाचा टप्पा आहे. यावर पुढे नोटबुकमध्ये प्रक्रिया केली जाईल.  


### DataFrame.describe()
समजा आपल्या डेटासेटमध्ये बरीच संख्यात्मक माहिती आहे. प्रत्येक कॉलमवर स्वतंत्रपणे सरासरी, मध्यक, चतुर्थांश इत्यादी एकसमान सांख्यिकीय गणना करता येऊ शकते. `DataFrame.describe()` फंक्शन आपल्याला डेटासेटमधील संख्यात्मक कॉलम्सचा सांख्यिकीय सारांश प्रदान करते.


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


वरील आउटपुट प्रत्येक स्तंभातील डेटा पॉइंट्सची एकूण संख्या, सरासरी, मानक विचलन, किमान मूल्य, खालचा चतुर्थांश (25%), मध्य (50%), वरचा चतुर्थांश (75%) आणि जास्तीत जास्त मूल्य दर्शवतो.


### `DataFrame.head`
वरील सर्व फंक्शन्स आणि गुणधर्मांसह, आपल्याला डेटासेटचा एक उच्चस्तरीय आढावा मिळाला आहे. आपल्याला माहित आहे की किती डेटा पॉइंट्स आहेत, किती वैशिष्ट्ये आहेत, प्रत्येक वैशिष्ट्याचा डेटा प्रकार काय आहे आणि प्रत्येक वैशिष्ट्यासाठी किती नॉन-नल मूल्ये आहेत.

आता प्रत्यक्ष डेटाकडे पाहण्याची वेळ आली आहे. आपल्या `DataFrame` मधील पहिल्या काही ओळी (पहिले काही डेटा पॉइंट्स) कशा दिसतात ते पाहूया:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


आउटपुटमध्ये, आपण डेटासेटच्या पाच(5) नोंदी पाहू शकतो. जर आपण डावीकडील अनुक्रमांक पाहिला, तर आपल्याला कळते की या पहिल्या पाच ओळी आहेत.


### व्यायाम:

वरील उदाहरणावरून स्पष्ट होते की, डीफॉल्टनुसार, `DataFrame.head` `DataFrame` च्या पहिल्या पाच ओळी परत करते. खालील कोड सेलमध्ये, तुम्ही पाचपेक्षा जास्त ओळी कशा प्रदर्शित करायच्या याचा मार्ग शोधू शकता का?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
डेटा पाहण्याचा आणखी एक मार्ग म्हणजे शेवटापासून (सुरुवातीऐवजी). `DataFrame.head` च्या उलट, `DataFrame.tail` `DataFrame` च्या शेवटच्या पाच ओळी परत करते:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


व्यवहारात, `DataFrame` च्या पहिल्या काही ओळी किंवा शेवटच्या काही ओळी सहजपणे तपासणे उपयुक्त ठरते, विशेषतः जेव्हा तुम्ही क्रमबद्ध डेटासेटमधील अपवाद शोधत असता.

वरील कोड उदाहरणांच्या मदतीने दाखवलेल्या सर्व फंक्शन्स आणि अॅट्रिब्युट्स आपल्याला डेटाचा लुक आणि फील समजून घेण्यास मदत करतात.

> **महत्त्वाचे:** फक्त `DataFrame` मधील माहितीबद्दलची मेटाडेटा किंवा त्यातील पहिल्या आणि शेवटच्या काही मूल्यांकडे पाहूनही, तुम्ही डेटाचा आकार, स्वरूप, आणि सामग्री याबद्दल त्वरित कल्पना करू शकता.


### हरवलेली डेटा
चला हरवलेल्या डेटावर चर्चा करूया. हरवलेली डेटा म्हणजे, जेव्हा काही स्तंभांमध्ये कोणतीही मूल्ये संग्रहित केलेली नसतात.

उदाहरण घेऊया: समजा, एखादी व्यक्ती त्याच्या/तिच्या वजनाबद्दल जागरूक आहे आणि सर्वेक्षणामध्ये वजनाचा भाग भरत नाही. अशा परिस्थितीत, त्या व्यक्तीसाठी वजनाचे मूल्य हरवलेले असेल.

बहुतेक वेळा, वास्तविक जगातील डेटासेट्समध्ये हरवलेली मूल्ये आढळतात.

**Pandas कसे हरवलेल्या डेटाचा सामना करते**

Pandas हरवलेल्या मूल्यांचा सामना दोन प्रकारे करते. पहिला प्रकार तुम्ही याआधीच्या विभागांमध्ये पाहिला असेल: `NaN`, म्हणजेच Not a Number. हे प्रत्यक्षात IEEE फ्लोटिंग-पॉइंट स्पेसिफिकेशनचा एक विशेष मूल्य आहे आणि ते केवळ हरवलेल्या फ्लोटिंग-पॉइंट मूल्ये दर्शवण्यासाठी वापरले जाते.

फ्लोट्सव्यतिरिक्त इतर हरवलेल्या मूल्यांसाठी, pandas Python च्या `None` ऑब्जेक्टचा वापर करते. तुम्हाला असे वाटू शकते की दोन वेगवेगळ्या प्रकारची मूल्ये दिसतात जी मूलत: एकच गोष्ट सांगतात, परंतु या डिझाइन निवडीसाठी ठोस प्रोग्रामिंग कारणे आहेत. प्रत्यक्षात, या मार्गाने जाणे pandas ला बहुतेक प्रकरणांमध्ये चांगला तोल साधण्यास सक्षम करते. तरीही, `None` आणि `NaN` या दोन्हीमध्ये काही मर्यादा आहेत ज्या त्यांच्या वापराबाबत तुम्हाला लक्षात ठेवाव्या लागतील.


### `None`: नॉन-फ्लोट गहाळ डेटा
`None` हा Python मधून येतो, त्यामुळे तो NumPy आणि pandas च्या अशा arrays मध्ये वापरता येत नाही ज्यांचा डेटा प्रकार `'object'` नाही. लक्षात ठेवा, NumPy arrays (आणि pandas मधील डेटा संरचना) फक्त एकाच प्रकारचा डेटा ठेवू शकतात. यामुळेच ते मोठ्या प्रमाणावर डेटा आणि computational कामासाठी जबरदस्त शक्तिशाली ठरतात, पण त्याच वेळी त्यांची लवचिकता मर्यादित होते. अशा arrays ला “सर्वात सामान्य प्रकार” मध्ये बदलावे लागते, म्हणजेच त्या array मधील सर्व गोष्टींना सामावून घेणारा डेटा प्रकार. जेव्हा `None` array मध्ये असतो, तेव्हा याचा अर्थ तुम्ही Python objects सोबत काम करत आहात.

हे कृतीत पाहण्यासाठी, खालील उदाहरण array विचार करा (त्याचा `dtype` लक्षात घ्या):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

अपकास्ट डेटा प्रकारांच्या वास्तवतेसह दोन साइड इफेक्ट्स येतात. पहिले, ऑपरेशन्स इंटरप्रेटेड Python कोडच्या पातळीवर चालवले जातात, संकलित NumPy कोडच्या पातळीवर नाहीत. याचा अर्थ असा की, `Series` किंवा `DataFrames` मध्ये `None` असलेल्या कोणत्याही ऑपरेशन्ससाठी प्रक्रिया हळू होईल. तुम्हाला कदाचित हा कार्यक्षमता घटक जाणवणार नाही, परंतु मोठ्या डेटासेटसाठी हे एक समस्या बनू शकते.

दुसरा साइड इफेक्ट पहिल्यापासून उद्भवतो. कारण `None` मुळात `Series` किंवा `DataFrame`s ला पारंपरिक Python च्या जगात परत खेचतो, त्यामुळे `sum()` किंवा `min()` सारख्या NumPy/pandas ऍग्रीगेशन्सचा वापर `None` मूल्य असलेल्या ऍरेवर केल्यास सामान्यतः एक त्रुटी निर्माण होईल:


In [10]:
example1.sum()

TypeError: ignored

### `NaN`: गहाळ फ्लोट मूल्ये

`None` च्या विपरीत, NumPy (आणि त्यामुळे pandas) त्याच्या जलद, व्हेक्टराइज्ड ऑपरेशन्स आणि ufuncs साठी `NaN` ला समर्थन देते. वाईट बातमी अशी आहे की `NaN` वर कोणतीही अंकगणितीय क्रिया केली तरी ती नेहमी `NaN` देते. उदाहरणार्थ:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

चांगली बातमी: `NaN` असलेल्या arrays वर चालणाऱ्या aggregations त्रुटी दाखवत नाहीत. वाईट बातमी: परिणाम सर्वत्र उपयुक्त नसतात:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

In [11]:
# What happens if you add np.nan and None together?


### `NaN` आणि `None`: pandas मधील null मूल्ये

जरी `NaN` आणि `None` थोडे वेगळे वागू शकतात, तरीही pandas त्यांना एकमेकांच्या जागी हाताळण्यासाठी तयार केले आहे. याचा अर्थ काय आहे ते पाहण्यासाठी, integers च्या `Series` वर विचार करा:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


डेटा प्रकारांमध्ये एकसंधता निर्माण करण्यासाठी `Series` आणि `DataFrame`s मध्ये डेटा अपकास्ट करताना, pandas सहजपणे गहाळ मूल्ये `None` आणि `NaN` यांच्यात बदलू शकतो. या डिझाइन वैशिष्ट्यामुळे, pandas मध्ये `None` आणि `NaN` यांना "null" च्या दोन वेगळ्या प्रकारांप्रमाणे विचार करणे उपयुक्त ठरते. खरं तर, pandas मध्ये गहाळ मूल्यांशी व्यवहार करण्यासाठी वापरल्या जाणाऱ्या काही मुख्य पद्धती त्यांच्या नावांमध्येही या कल्पनेला प्रतिबिंबित करतात:

- `isnull()`: गहाळ मूल्ये दर्शवणारा Boolean मास्क तयार करते
- `notnull()`: `isnull()` च्या उलट कार्य करते
- `dropna()`: डेटा फिल्टर केलेला आवृत्ती परत करते
- `fillna()`: गहाळ मूल्ये भरून किंवा अंदाज लावून डेटा कॉपी परत करते

या पद्धतींचे चांगले ज्ञान मिळवणे आणि त्यांचा सराव करणे महत्त्वाचे आहे, त्यामुळे चला प्रत्येक पद्धतीचा सविस्तर आढावा घेऊया.


### शून्य मूल्य शोधणे

आता आपण गहाळ मूल्यांचे महत्त्व समजून घेतले आहे, त्यामुळे त्यांचा सामना करण्यापूर्वी आपल्याला आपल्या डेटासेटमध्ये त्यांना शोधणे आवश्यक आहे. 
`isnull()` आणि `notnull()` ही शून्य डेटा शोधण्यासाठीची तुमची प्राथमिक पद्धती आहेत. दोन्ही तुमच्या डेटावर Boolean मास्क परत करतात.


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

आश्चर्य वाटतंय का? जरी `0` अंकगणितीय शून्य असला तरी तो एक पूर्णांक आहे आणि pandas त्याला तसाच मानतो. `''` थोडं अधिक सूक्ष्म आहे. जरी आपण ते विभाग 1 मध्ये रिक्त स्ट्रिंग मूल्य म्हणून वापरले असले तरी, ते एक स्ट्रिंग ऑब्जेक्ट आहे आणि pandas च्या दृष्टीने null चे प्रतिनिधित्व नाही.

आता, हे उलट करून पाहूया आणि या पद्धती अधिक व्यावहारिक पद्धतीने वापरूया. Boolean मास्कचा वापर थेट ``Series`` किंवा ``DataFrame`` इंडेक्स म्हणून करता येतो, जे गहाळ (किंवा उपस्थित) मूल्यांसोबत काम करताना उपयुक्त ठरू शकते.

जर आपल्याला गहाळ मूल्यांची एकूण संख्या हवी असेल, तर आपण `isnull()` पद्धतीने तयार केलेल्या मास्कवर फक्त एक sum करू शकतो.


In [19]:
example3.isnull().sum()

2

In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


### हरवलेल्या डेटाशी सामना करणे

> **शिकण्याचे उद्दिष्ट:** या उपविभागाच्या शेवटी, तुम्हाला DataFrames मधून null मूल्ये कधी आणि कशा प्रकारे बदलायच्या किंवा काढून टाकायच्या हे माहित असावे.

मशीन लर्निंग मॉडेल्स स्वतः हरवलेल्या डेटाशी सामना करू शकत नाहीत. त्यामुळे, डेटाला मॉडेलमध्ये पाठवण्यापूर्वी, आपल्याला या हरवलेल्या मूल्यांशी सामना करावा लागतो.

हरवलेल्या डेटाशी कसे व्यवहार करायचे यामध्ये सूक्ष्म समतोल असतो, जो तुमच्या अंतिम विश्लेषणावर आणि प्रत्यक्ष परिणामांवर प्रभाव टाकू शकतो.

हरवलेल्या डेटाशी व्यवहार करण्याचे मुख्यतः दोन मार्ग आहेत:

1.   हरवलेल्या मूल्य असलेली पंक्ती काढून टाका
2.   हरवलेल्या मूल्याला दुसऱ्या काही मूल्याने बदला

आपण या दोन्ही पद्धती आणि त्यांचे फायदे व तोटे सविस्तरपणे चर्चा करू.


### शून्य मूल्ये काढून टाकणे

आपल्या मॉडेलला दिलेल्या डेटाचा प्रमाण त्याच्या कार्यक्षमतेवर थेट परिणाम करतो. शून्य मूल्ये काढून टाकणे म्हणजे आपण डेटापॉइंट्सची संख्या कमी करत आहोत, आणि त्यामुळे डेटासेटचा आकार कमी होत आहे. त्यामुळे, जेव्हा डेटासेट खूप मोठा असेल तेव्हा शून्य मूल्य असलेल्या रांगा काढून टाकणे योग्य ठरते.

आणखी एक उदाहरण म्हणजे एखाद्या विशिष्ट रांगेत किंवा स्तंभात खूपच गहाळ मूल्ये असतील. अशा वेळी ती रांगा किंवा स्तंभ काढून टाकले जाऊ शकतात कारण त्या विशिष्ट रांगेतील/स्तंभातील बहुतेक डेटा गहाळ असल्यामुळे त्याचा आपल्या विश्लेषणात फारसा उपयोग होणार नाही.

गहाळ मूल्ये ओळखण्याच्या पलीकडे, pandas शून्य मूल्ये `Series` आणि `DataFrame`s मधून काढून टाकण्यासाठी सोयीस्कर साधन उपलब्ध करून देते. हे प्रत्यक्षात कसे कार्य करते ते पाहण्यासाठी आपण `example3` कडे परत जाऊ. `DataFrame.dropna()` फंक्शन शून्य मूल्य असलेल्या रांगा काढून टाकण्यासाठी मदत करते.


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

लक्षात ठेवा की हे तुमच्या `example3[example3.notnull()]` च्या आउटपुटसारखे दिसले पाहिजे. येथे फरक असा आहे की, फक्त मास्क केलेल्या मूल्यांवर इंडेक्सिंग करण्याऐवजी, `dropna` ने `Series` `example3` मधून ती गहाळ मूल्ये काढून टाकली आहेत.

कारण DataFrames दोन परिमाण असतात, ते डेटा काढण्यासाठी अधिक पर्याय उपलब्ध करून देतात.


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(तुम्ही लक्षात घेतले का की pandas ने `NaN`s समाविष्ट करण्यासाठी दोन स्तंभांना floats मध्ये बदलले?)

तुम्ही `DataFrame` मधून एकच मूल्य काढून टाकू शकत नाही, त्यामुळे तुम्हाला पूर्ण रांगा किंवा स्तंभ काढून टाकावे लागतील. तुम्ही काय करत आहात यावर अवलंबून, तुम्हाला एक पर्याय निवडायचा असेल, आणि म्हणूनच pandas तुम्हाला दोन्ही पर्याय उपलब्ध करून देते. कारण डेटा सायन्समध्ये, स्तंभ सामान्यतः variables चे प्रतिनिधित्व करतात आणि रांगा observations चे प्रतिनिधित्व करतात, त्यामुळे तुम्ही डेटा रांगा काढून टाकण्याची अधिक शक्यता असते; `dropna()` साठी डिफॉल्ट सेटिंग म्हणजे ज्या रांगांमध्ये कोणतीही null values असतील त्या सर्व रांगा काढून टाकणे:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


जर आवश्यक असेल, तर तुम्ही स्तंभांमधून NA मूल्ये काढून टाकू शकता. असे करण्यासाठी `axis=1` वापरा:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


लक्षात ठेवा की हे लहान डेटासेट्समध्ये विशेषतः तुम्हाला ठेवायची असलेली बरीच डेटा गमावू शकते. जर तुम्हाला फक्त अशा पंक्ती किंवा स्तंभ काढून टाकायचे असतील ज्यामध्ये अनेक किंवा अगदी सर्व null मूल्ये असतील तर काय कराल? तुम्ही `dropna` मध्ये `how` आणि `thresh` पॅरामीटर्स वापरून ती सेटिंग्ज निर्दिष्ट करू शकता.

डिफॉल्टनुसार, `how='any'` असते (जर तुम्हाला स्वतः तपासायचे असेल किंवा या पद्धतीमध्ये इतर कोणते पॅरामीटर्स आहेत ते पाहायचे असेल, तर कोड सेलमध्ये `example4.dropna?` चालवा). पर्यायाने, तुम्ही `how='all'` निर्दिष्ट करू शकता, ज्यामुळे फक्त अशा पंक्ती किंवा स्तंभ काढून टाकले जातील ज्यामध्ये सर्व null मूल्ये असतील. पुढील व्यायामामध्ये हे कृतीत पाहण्यासाठी आपण आपले उदाहरण `DataFrame` विस्तृत करूया.


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


महत्त्वाचे मुद्दे:  
1. फक्त डेटासेट पुरेसा मोठा असेल तेव्हाच null मूल्ये काढून टाकणे चांगला पर्याय आहे.  
2. पूर्ण रांगा किंवा स्तंभ काढून टाकता येतात जर त्यामध्ये बहुतेक डेटा गायब असेल.  
3. `DataFrame.dropna(axis=)` पद्धत null मूल्ये काढून टाकण्यासाठी मदत करते. `axis` युक्तिवाद सूचित करतो की रांगा काढून टाकायच्या आहेत की स्तंभ.  
4. `how` युक्तिवाद देखील वापरता येतो. डीफॉल्टनुसार ते `any` वर सेट केलेले असते. त्यामुळे, फक्त त्या रांगा/स्तंभ काढून टाकले जातात ज्यामध्ये कोणतेही null मूल्य असते. ते `all` वर सेट करता येते ज्यामुळे आपण फक्त त्या रांगा/स्तंभ काढून टाकतो जिथे सर्व मूल्ये null असतात.  


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


`thresh` पॅरामीटर तुम्हाला अधिक सूक्ष्म नियंत्रण देते: तुम्ही सेट करता की एखाद्या पंक्ती किंवा स्तंभामध्ये टिकून राहण्यासाठी किती *नॉन-नल* मूल्ये असावीत:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


### शून्य मूल्ये भरणे

कधी कधी हरवलेली मूल्ये अशा मूल्यांनी भरल्याने अर्थपूर्ण होऊ शकते जी वैध असू शकतात. शून्य मूल्ये भरण्यासाठी काही तंत्रे आहेत. पहिले तंत्र म्हणजे डोमेन ज्ञानाचा (डेटासेट ज्या विषयावर आधारित आहे त्या विषयाचे ज्ञान) वापर करून हरवलेल्या मूल्यांचा अंदाज लावणे.

तुम्ही `isnull` वापरून हे थेट करू शकता, परंतु जर तुम्हाला भरायची बरीच मूल्ये असतील तर ते श्रमदायक ठरू शकते. कारण डेटा सायन्समध्ये हे एक सामान्य कार्य आहे, pandas `fillna` प्रदान करते, जे `Series` किंवा `DataFrame` ची एक प्रत परत करते, ज्यामध्ये हरवलेली मूल्ये तुमच्या निवडीच्या मूल्यांनी बदललेली असतात. हे प्रत्यक्षात कसे कार्य करते हे पाहण्यासाठी आणखी एक उदाहरण `Series` तयार करूया.


### श्रेणीसंबंधी डेटा (असंख्यात्मक)
सुरुवातीला आपण असंख्यात्मक डेटाचा विचार करूया. डेटासेट्समध्ये, आपल्याकडे श्रेणीसंबंधी डेटासह स्तंभ असतात. उदा. लिंग, True किंवा False इत्यादी.

बहुतेक या प्रकरणांमध्ये, आपण गहाळ मूल्ये त्या स्तंभाच्या `mode` ने बदलतो. समजा, आपल्याकडे 100 डेटा पॉइंट्स आहेत आणि त्यापैकी 90 जणांनी True म्हटले आहे, 8 जणांनी False म्हटले आहे आणि 2 जणांनी काहीही भरलेले नाही. तर, आपण त्या 2 गहाळ मूल्यांना True ने भरू शकतो, पूर्ण स्तंभाचा विचार करून.

पुन्हा, येथे आपण डोमेन ज्ञानाचा उपयोग करू शकतो. `mode` ने भरल्याचा एक उदाहरण विचार करूया.


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


### संख्यात्मक डेटा
आता, संख्यात्मक डेटाकडे वळूया. येथे, गहाळ मूल्ये भरण्यासाठी दोन सामान्य पद्धती आहेत:

1. पंक्तीच्या माध्यिका (Median) ने भरणे  
2. पंक्तीच्या सरासरी (Mean) ने भरणे  

जर डेटा विसंगत (skewed) असेल आणि त्यात बाहेरच्या मूल्यांचा (outliers) समावेश असेल, तर आपण माध्यिका वापरतो. कारण माध्यिका बाहेरच्या मूल्यांमुळे प्रभावित होत नाही.

जेव्हा डेटा सामान्यीकृत (normalized) असतो, तेव्हा आपण सरासरी वापरू शकतो, कारण अशा परिस्थितीत सरासरी आणि माध्यिका जवळजवळ सारखीच असते.

सुरुवातीला, आपण एक स्तंभ घेऊ जो सामान्य वितरणात (normally distributed) आहे आणि त्या स्तंभातील गहाळ मूल्य सरासरीने भरूया.


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


स्तंभाचा सरासरी आहे


In [33]:
np.mean(fill_with_mean[0])

0.0

In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


आता आपण दुसरा डेटा फ्रेम वापरूया, आणि यावेळी आपण None मूल्ये स्तंभाच्या मध्यमानाने बदलू.


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


दुसऱ्या स्तंभाचा मध्यक आहे


In [36]:
fill_with_median[1].median()

4.0

In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


जसे आपण पाहू शकतो, NaN मूल्य स्तंभाच्या मध्यमाने बदलले गेले आहे


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

तुम्ही सर्व रिक्त नोंदी एका मूल्याने भरू शकता, जसे की `0`:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> मुख्य मुद्दे:
1. हरवलेली मूल्ये भरून काढणे तेव्हाच करावे जेव्हा डेटा कमी असेल किंवा हरवलेल्या डेटासाठी एखादी ठराविक पद्धत असेल.
2. हरवलेली मूल्ये अंदाजाने भरून काढण्यासाठी डोमेन ज्ञानाचा उपयोग केला जाऊ शकतो.
3. श्रेणीसंबंधित (Categorical) डेटासाठी, प्रामुख्याने, हरवलेली मूल्ये त्या स्तंभाच्या मोडने (mode) भरली जातात.
4. संख्यात्मक (Numeric) डेटासाठी, हरवलेली मूल्ये सहसा स्तंभाच्या सरासरीने (mean - जर डेटासेट सामान्यीकृत असेल) किंवा मध्यकाने (median) भरली जातात.


In [40]:
# What happens if you try to fill null values with a string, like ''?


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

तुम्ही पुढील वैध मूल्य मागे नेऊन रिक्त जागा भरू शकता:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

तुम्ही अंदाज लावू शकता, हे DataFrames सोबत देखील तसेच कार्य करते, परंतु तुम्ही null मूल्ये भरण्यासाठी कोणता `axis` निवडायचा आहे ते देखील निर्दिष्ट करू शकता:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


आपण `fillna` कसा वापरता याबद्दल सर्जनशील होऊ शकता. उदाहरणार्थ, पुन्हा `example4` पाहूया, पण यावेळी `DataFrame` मधील सर्व मूल्यांचा सरासरी वापरून गहाळ मूल्ये भरूया:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


लक्षात घ्या की स्तंभ 3 अजूनही रिक्त आहे: डीफॉल्ट दिशा म्हणजे मूल्ये पंक्तीनुसार भरणे.

> **महत्त्वाचा मुद्दा:** तुमच्या डेटासेटमधील हरवलेल्या मूल्यांशी व्यवहार करण्याचे अनेक मार्ग आहेत. तुम्ही वापरलेली विशिष्ट रणनीती (त्यांना काढून टाकणे, त्यांची जागा घेणे, किंवा त्यांना कसे बदलायचे) त्या डेटाच्या विशिष्ट तपशीलांवर अवलंबून असावी. तुम्ही जितके अधिक डेटासेट हाताळाल आणि त्यांच्याशी संवाद साधाल तितके हरवलेल्या मूल्यांशी व्यवहार करण्याची चांगली समज विकसित होईल.


### श्रेणीसंबंधी डेटा एन्कोड करणे

मशीन लर्निंग मॉडेल्स केवळ संख्यात्मक डेटा आणि कोणत्याही स्वरूपातील संख्यांशीच व्यवहार करू शकतात. ते "हो" आणि "नाही" यामधील फरक ओळखू शकत नाहीत, परंतु 0 आणि 1 यामधील फरक ओळखू शकतात. त्यामुळे, गहाळ मूल्ये भरल्यानंतर, आपल्याला श्रेणीसंबंधी डेटाचे एन्कोडिंग करून ते संख्यात्मक स्वरूपात रूपांतरित करावे लागते, जेणेकरून मॉडेलला ते समजू शकेल.

एन्कोडिंग दोन प्रकारे करता येते. पुढील भागात आपण त्याबद्दल चर्चा करू.


**लेबल एन्कोडिंग**

लेबल एन्कोडिंग म्हणजे प्रत्येक श्रेणीला एका क्रमांकात रूपांतरित करणे. उदाहरणार्थ, समजा आपल्याकडे विमान प्रवाशांचा डेटासेट आहे आणि त्यामध्ये त्यांच्या वर्गाबद्दलची ['बिझनेस क्लास', 'इकॉनॉमी क्लास', 'फर्स्ट क्लास'] अशी माहिती असलेली एक स्तंभ आहे. जर यावर लेबल एन्कोडिंग केले, तर हे [0, 1, 2] मध्ये रूपांतरित होईल. चला, कोडच्या माध्यमातून एक उदाहरण पाहूया. पुढील नोटबुक्समध्ये आपण `scikit-learn` शिकणार असल्याने, येथे आपण ते वापरणार नाही.


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


पहिल्या स्तंभावर लेबल एन्कोडिंग करण्यासाठी, प्रत्येक वर्गासाठी एका क्रमांकाचा नकाशा प्रथम तयार करावा लागतो, त्यानंतर बदल करावा लागतो.


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


जसे आपण पाहतो, आउटपुट आपल्या अपेक्षेनुसार आहे. तर, लेबल एन्कोडिंग कधी वापरावे? लेबल एन्कोडिंग खालीलपैकी एक किंवा दोन्ही परिस्थितींमध्ये वापरले जाते:
1. जेव्हा श्रेणींची संख्या मोठी असते
2. जेव्हा श्रेणी क्रमाने असतात.


**वन हॉट एन्कोडिंग**

वन हॉट एन्कोडिंग हा एन्कोडिंगचा आणखी एक प्रकार आहे. या प्रकारात, कॉलममधील प्रत्येक श्रेणीसाठी स्वतंत्र कॉलम तयार केला जातो आणि प्रत्येक डेटापॉईंटला त्या श्रेणीमध्ये आहे की नाही यावर आधारित 0 किंवा 1 दिले जाते. त्यामुळे, जर n वेगवेगळ्या श्रेण्या असतील, तर n कॉलम डेटा फ्रेममध्ये जोडले जातील.

उदाहरणार्थ, आपण पुन्हा विमानाच्या वर्गाचे उदाहरण घेऊ. श्रेण्या होत्या: ['बिझनेस क्लास', 'इकॉनॉमी क्लास', 'फर्स्ट क्लास']. त्यामुळे, जर आपण वन हॉट एन्कोडिंग केले, तर खालील तीन कॉलम डेटासेटमध्ये जोडले जातील: ['class_business class', 'class_economy class', 'class_first class'].


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


चला पहिल्या स्तंभावर वन हॉट एन्कोडिंग करूया


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


प्रत्येक वन-हॉट एन्कोडेड स्तंभामध्ये 0 किंवा 1 असतो, जो दर्शवतो की त्या डेटापॉइंटसाठी ती श्रेणी अस्तित्वात आहे का.


वन हॉट एन्कोडिंग कधी वापरतो? वन हॉट एन्कोडिंग खालीलपैकी एक किंवा दोन्ही परिस्थितींमध्ये वापरले जाते :

1. जेव्हा श्रेणींची संख्या आणि डेटासेटचा आकार लहान असतो.
2. जेव्हा श्रेणी कोणत्याही विशिष्ट क्रमाचे पालन करत नाहीत.


> मुख्य मुद्दे:
1. एनकोडिंगचा उपयोग संख्यात्मक नसलेल्या डेटाला संख्यात्मक डेटामध्ये रूपांतरित करण्यासाठी केला जातो.
2. एनकोडिंगचे दोन प्रकार आहेत: लेबल एनकोडिंग आणि वन हॉट एनकोडिंग, जे डेटासेटच्या गरजेनुसार केले जाऊ शकते.


## डुप्लिकेट डेटा काढणे

> **शिकण्याचे उद्दिष्ट:** या उपविभागाच्या शेवटी, तुम्ही DataFrames मधून डुप्लिकेट मूल्ये ओळखण्यात आणि काढण्यात सहजतेने सक्षम असाल.

गहाळ डेटाच्या व्यतिरिक्त, तुम्हाला वास्तविक-जगातील डेटासेटमध्ये अनेकदा डुप्लिकेट डेटा देखील सापडतो. सुदैवाने, pandas डुप्लिकेट नोंदी शोधण्यासाठी आणि काढण्यासाठी सोपी पद्धत प्रदान करते.


### डुप्लिकेट ओळखणे: `duplicated`

तुम्ही pandas मधील `duplicated` पद्धतीचा वापर करून डुप्लिकेट मूल्ये सहज ओळखू शकता, जी Boolean मास्क परत करते, ज्यामध्ये `DataFrame` मधील एखादी नोंद यापूर्वीच्या नोंदीची डुप्लिकेट आहे का हे दर्शवले जाते. चला, हे कृतीत पाहण्यासाठी आणखी एक उदाहरण `DataFrame` तयार करूया.


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### डुप्लिकेट्स काढणे: `drop_duplicates`
`drop_duplicates` फक्त त्या डेटाची एक प्रत परत करते ज्यासाठी सर्व `duplicated` मूल्ये `False` असतात:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


`duplicated` आणि `drop_duplicates` दोन्ही डीफॉल्टने सर्व स्तंभ विचारात घेतात, परंतु तुम्ही निर्दिष्ट करू शकता की ते तुमच्या `DataFrame` मधील केवळ एका उपसंच स्तंभांचा विचार करतील:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2



---

**अस्वीकरण**:  
हा दस्तऐवज AI भाषांतर सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) चा वापर करून भाषांतरित करण्यात आला आहे. आम्ही अचूकतेसाठी प्रयत्नशील असलो तरी, कृपया लक्षात घ्या की स्वयंचलित भाषांतरांमध्ये त्रुटी किंवा अचूकतेचा अभाव असू शकतो. मूळ भाषेतील दस्तऐवज हा अधिकृत स्रोत मानला जावा. महत्त्वाच्या माहितीसाठी व्यावसायिक मानवी भाषांतराची शिफारस केली जाते. या भाषांतराचा वापर करून उद्भवलेल्या कोणत्याही गैरसमज किंवा चुकीच्या अर्थासाठी आम्ही जबाबदार राहणार नाही.
