# डेटा तैयारी

[मूल नोटबुक स्रोत *डेटा साइंस: डेटा साइंस के लिए मशीन लर्निंग का परिचय, पायथन और मशीन लर्निंग स्टूडियो द्वारा ली स्टॉट*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## `DataFrame` जानकारी का अन्वेषण

> **सीखने का लक्ष्य:** इस उपखंड के अंत तक, आप pandas DataFrames में संग्रहीत डेटा के बारे में सामान्य जानकारी प्राप्त करने में सहज हो जाएंगे।

एक बार जब आप अपना डेटा pandas में लोड कर लेते हैं, तो यह अधिकतर मामलों में `DataFrame` में होगा। लेकिन अगर आपके `DataFrame` में 60,000 पंक्तियाँ और 400 कॉलम हैं, तो आप यह समझना कैसे शुरू करेंगे कि आप किसके साथ काम कर रहे हैं? सौभाग्य से, pandas कुछ सुविधाजनक टूल प्रदान करता है जो `DataFrame` की समग्र जानकारी के साथ-साथ शुरुआती और अंतिम कुछ पंक्तियों को जल्दी से देखने में मदद करते हैं।

इस कार्यक्षमता का अन्वेषण करने के लिए, हम Python की scikit-learn लाइब्रेरी को इम्पोर्ट करेंगे और एक प्रसिद्ध डेटा सेट का उपयोग करेंगे जिसे हर डेटा वैज्ञानिक ने सैकड़ों बार देखा है: ब्रिटिश जीवविज्ञानी रोनाल्ड फिशर का *Iris* डेटा सेट, जिसे उन्होंने 1936 के अपने पेपर "The use of multiple measurements in taxonomic problems" में उपयोग किया था:


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
हमने Iris Dataset को वेरिएबल `iris_df` में लोड किया है। डेटा में गहराई से जाने से पहले, यह जानना उपयोगी होगा कि हमारे पास कितने डेटा पॉइंट्स हैं और पूरे डेटासेट का आकार क्या है। यह देखना महत्वपूर्ण है कि हम कितने डेटा की मात्रा के साथ काम कर रहे हैं।


In [2]:
iris_df.shape

(150, 4)

हम 150 पंक्तियों और 4 स्तंभों के डेटा के साथ काम कर रहे हैं। प्रत्येक पंक्ति एक डेटा पॉइंट का प्रतिनिधित्व करती है और प्रत्येक स्तंभ डेटा फ्रेम से संबंधित एकल विशेषता को दर्शाता है। तो मूल रूप से, 150 डेटा पॉइंट्स हैं, जिनमें प्रत्येक में 4 विशेषताएँ शामिल हैं।

`shape` यहाँ डेटा फ्रेम का एक गुण है और कोई फ़ंक्शन नहीं है, यही कारण है कि यह कोष्ठकों की एक जोड़ी के साथ समाप्त नहीं होता।


### `DataFrame.columns`
अब हम डेटा की 4 कॉलम्स में चलते हैं। इनमें से प्रत्येक वास्तव में क्या दर्शाता है? `columns` attribute हमें डेटा फ्रेम में कॉलम्स के नाम देगा।


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

जैसा कि हम देख सकते हैं, चार(4) कॉलम हैं। `columns` गुण हमें कॉलमों के नाम बताता है और मूल रूप से कुछ और नहीं। यह गुण तब महत्वपूर्ण हो जाता है जब हम यह पहचानना चाहते हैं कि एक डेटासेट में कौन-कौन से फीचर्स शामिल हैं।


### `DataFrame.info`
डेटा की मात्रा (`shape` attribute द्वारा दी गई) और फीचर्स या कॉलम्स के नाम (`columns` attribute द्वारा दिए गए) हमें डेटासेट के बारे में कुछ जानकारी देते हैं। अब, हम डेटासेट में और गहराई से जाना चाहेंगे। `DataFrame.info()` फ़ंक्शन इसके लिए काफी उपयोगी है।


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


यहां से, हम कुछ महत्वपूर्ण अवलोकन कर सकते हैं:
1. प्रत्येक कॉलम का डेटा प्रकार: इस डेटा सेट में, सभी डेटा 64-बिट फ्लोटिंग-पॉइंट नंबर के रूप में संग्रहीत हैं।
2. गैर-नल मानों की संख्या: नल मानों को संभालना डेटा तैयारी में एक महत्वपूर्ण कदम है। इसे बाद में नोटबुक में संभाला जाएगा।


### DataFrame.describe()
मान लीजिए हमारे डेटा सेट में बहुत सारा संख्यात्मक डेटा है। औसत, माध्यिका, चतुर्थांश आदि जैसे एकविवरणीय सांख्यिकीय गणनाएँ प्रत्येक कॉलम पर अलग-अलग की जा सकती हैं। `DataFrame.describe()` फ़ंक्शन हमें डेटा सेट के संख्यात्मक कॉलम का सांख्यिकीय सारांश प्रदान करता है।


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


ऊपर दिया गया आउटपुट प्रत्येक कॉलम के कुल डेटा पॉइंट्स, औसत, मानक विचलन, न्यूनतम, निचला चतुर्थक (25%), माध्यिका (50%), ऊपरी चतुर्थक (75%) और अधिकतम मान को दिखाता है।


### `DataFrame.head`
ऊपर दिए गए सभी फ़ंक्शन्स और एट्रिब्यूट्स के साथ, हमने डेटासेट का एक उच्च-स्तरीय अवलोकन प्राप्त कर लिया है। हमें पता है कि इसमें कितने डेटा पॉइंट्स हैं, कितनी विशेषताएँ (features) हैं, प्रत्येक विशेषता का डेटा प्रकार क्या है, और प्रत्येक विशेषता के लिए कितने non-null मान हैं।

अब समय है डेटा को खुद देखने का। चलिए देखते हैं कि हमारे `DataFrame` की शुरुआती कुछ पंक्तियाँ (शुरुआती कुछ डेटा पॉइंट्स) कैसी दिखती हैं:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


यहाँ आउटपुट में, हम डेटा सेट के पाँच(5) प्रविष्टियाँ देख सकते हैं। यदि हम बाईं ओर के इंडेक्स को देखें, तो हमें पता चलता है कि ये पहली पाँच पंक्तियाँ हैं।


### अभ्यास:

उपरोक्त उदाहरण से यह स्पष्ट है कि डिफ़ॉल्ट रूप से `DataFrame.head` एक `DataFrame` की पहली पाँच पंक्तियाँ लौटाता है। नीचे दिए गए कोड सेल में, क्या आप पाँच से अधिक पंक्तियाँ प्रदर्शित करने का तरीका ढूंढ सकते हैं?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
डेटा को देखने का एक और तरीका अंत से हो सकता है (शुरुआत के बजाय)। `DataFrame.head` का उल्टा `DataFrame.tail` है, जो `DataFrame` की आखिरी पांच पंक्तियाँ लौटाता है:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


व्यवहार में, यह उपयोगी होता है कि आप आसानी से `DataFrame` की शुरुआती कुछ पंक्तियों या अंतिम कुछ पंक्तियों की जांच कर सकें, खासकर जब आप क्रमबद्ध डेटा सेट में असामान्य मान खोज रहे हों।

ऊपर दिए गए कोड उदाहरणों की मदद से दिखाए गए सभी फ़ंक्शन और गुण हमें डेटा की झलक और अनुभव प्राप्त करने में मदद करते हैं।

> **मुख्य बात:** केवल `DataFrame` में मौजूद जानकारी के मेटाडेटा को देखकर या उसकी शुरुआती और अंतिम कुछ मानों को देखकर, आप तुरंत उस डेटा के आकार, संरचना और सामग्री के बारे में एक विचार प्राप्त कर सकते हैं, जिसके साथ आप काम कर रहे हैं।


### डेटा की कमी  
आइए डेटा की कमी के बारे में समझें। डेटा की कमी तब होती है, जब कुछ कॉलम्स में कोई मान संग्रहीत नहीं होता।  

एक उदाहरण लेते हैं: मान लीजिए कोई व्यक्ति अपने वजन को लेकर सचेत है और सर्वे में वजन वाले फील्ड को खाली छोड़ देता है। तो उस व्यक्ति के लिए वजन का मान गायब होगा।  

अधिकतर समय, वास्तविक दुनिया के डेटासेट्स में गायब मान देखने को मिलते हैं।  

**Pandas डेटा की कमी को कैसे संभालता है**  

Pandas दो तरीकों से गायब मानों को संभालता है। पहला तरीका आपने पहले के सेक्शन्स में देखा होगा: `NaN`, या Not a Number। यह वास्तव में एक विशेष मान है जो IEEE फ्लोटिंग-पॉइंट स्पेसिफिकेशन का हिस्सा है और इसे केवल गायब फ्लोटिंग-पॉइंट मानों को दर्शाने के लिए उपयोग किया जाता है।  

फ्लोट्स के अलावा अन्य गायब मानों के लिए, pandas Python के `None` ऑब्जेक्ट का उपयोग करता है। हालांकि यह थोड़ा भ्रमित कर सकता है कि आपको दो अलग-अलग प्रकार के मान मिलेंगे जो मूल रूप से एक ही बात कहते हैं, लेकिन इस डिज़ाइन विकल्प के पीछे ठोस प्रोग्रामिंग कारण हैं। व्यवहार में, इस दृष्टिकोण को अपनाने से pandas अधिकांश मामलों के लिए एक अच्छा संतुलन प्रदान करता है।  

इसके बावजूद, `None` और `NaN` दोनों में कुछ सीमाएँ होती हैं, जिनका उपयोग करते समय आपको ध्यान रखना होगा।


### `None`: गैर-फ्लोट गायब डेटा
क्योंकि `None` Python से आता है, इसे उन NumPy और pandas arrays में उपयोग नहीं किया जा सकता जो डेटा प्रकार `'object'` के नहीं हैं। याद रखें, NumPy arrays (और pandas में डेटा संरचनाएं) केवल एक प्रकार के डेटा को ही समाहित कर सकते हैं। यही उन्हें बड़े पैमाने पर डेटा और गणनात्मक कार्यों के लिए उनकी जबरदस्त शक्ति देता है, लेकिन यह उनकी लचीलापन को भी सीमित करता है। ऐसे arrays को "सबसे सामान्य हर प्रकार" में बदलना पड़ता है, यानी ऐसा डेटा प्रकार जो array में सब कुछ समाहित कर सके। जब array में `None` होता है, तो इसका मतलब है कि आप Python objects के साथ काम कर रहे हैं।

इसे क्रियान्वित होते हुए देखने के लिए, निम्नलिखित उदाहरण array पर विचार करें (इसके `dtype` पर ध्यान दें):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

अपकास्ट डेटा प्रकारों की वास्तविकता के साथ दो प्रभाव जुड़े होते हैं। पहला, ऑपरेशन्स इंटरप्रेटेड Python कोड के स्तर पर किए जाते हैं, न कि कंपाइल्ड NumPy कोड के स्तर पर। मूल रूप से, इसका मतलब है कि `Series` या `DataFrames` जिनमें `None` शामिल है, उनके साथ किए गए ऑपरेशन्स धीमे होंगे। हालांकि, आप शायद इस प्रदर्शन में कमी को महसूस न करें, लेकिन बड़े डेटा सेट्स के लिए यह एक समस्या बन सकती है।

दूसरा प्रभाव पहले से जुड़ा हुआ है। क्योंकि `None` मूल रूप से `Series` या `DataFrame`s को वापस साधारण Python की दुनिया में खींच लेता है, NumPy/pandas एग्रीगेशन जैसे `sum()` या `min()` का उपयोग उन arrays पर जिनमें ``None`` मान होता है, आमतौर पर एक त्रुटि उत्पन्न करेगा:


In [10]:
example1.sum()

TypeError: ignored

### `NaN`: गुम फ्लोट मान

`None` के विपरीत, NumPy (और इसलिए pandas) अपने तेज, वेक्टराइज्ड ऑपरेशन्स और ufuncs के लिए `NaN` का समर्थन करता है। बुरी खबर यह है कि `NaN` पर किया गया कोई भी गणितीय ऑपरेशन हमेशा `NaN` ही देता है। उदाहरण के लिए:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

अच्छी खबर: `NaN` वाले arrays पर चलने वाले समूहन त्रुटियाँ उत्पन्न नहीं करते। बुरी खबर: परिणाम समान रूप से उपयोगी नहीं हैं:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

In [11]:
# What happens if you add np.nan and None together?


### `NaN` और `None`: pandas में null मान

हालांकि `NaN` और `None` का व्यवहार थोड़ा अलग हो सकता है, फिर भी pandas इन्हें एक-दूसरे के साथ संभालने के लिए डिज़ाइन किया गया है। इसे समझने के लिए, एक `Series` का उदाहरण लें जिसमें पूर्णांक हैं:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


डेटा प्रकारों को समान बनाने के लिए `Series` और `DataFrame`s में अपकास्टिंग प्रक्रिया के दौरान, pandas आसानी से गायब मानों को `None` और `NaN` के बीच बदल सकता है। इस डिज़ाइन फीचर के कारण, pandas में `None` और `NaN` को "null" के दो अलग-अलग प्रकार के रूप में सोचना उपयोगी हो सकता है। वास्तव में, pandas में गायब मानों को संभालने के लिए उपयोग किए जाने वाले कुछ मुख्य तरीकों के नाम भी इस विचार को दर्शाते हैं:

- `isnull()`: गायब मानों को इंगित करने वाला एक बूलियन मास्क बनाता है
- `notnull()`: `isnull()` का विपरीत
- `dropna()`: डेटा का एक फ़िल्टर किया हुआ संस्करण लौटाता है
- `fillna()`: डेटा की एक कॉपी लौटाता है जिसमें गायब मान भरे या अनुमानित किए गए हों

ये महत्वपूर्ण विधियाँ हैं जिन्हें समझना और इनसे सहज होना आवश्यक है, तो आइए हम इन्हें विस्तार से समझते हैं।


### null मानों का पता लगाना

अब जब हमने गायब मानों के महत्व को समझ लिया है, तो हमें उन्हें संभालने से पहले अपने डेटा सेट में उनका पता लगाना होगा।  
`isnull()` और `notnull()` दोनों null डेटा का पता लगाने के लिए आपके प्राथमिक तरीके हैं। दोनों आपके डेटा पर Boolean मास्क लौटाते हैं।


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

इस आउटपुट को ध्यान से देखें। क्या इसमें कुछ ऐसा है जो आपको चौंकाता है? जबकि `0` एक अंकगणितीय शून्य है, यह फिर भी एक पूरी तरह से मान्य पूर्णांक है और pandas इसे उसी रूप में मानता है। `''` थोड़ा अधिक सूक्ष्म है। जबकि हमने इसे सेक्शन 1 में एक खाली स्ट्रिंग मान को दर्शाने के लिए उपयोग किया था, यह फिर भी एक स्ट्रिंग ऑब्जेक्ट है और pandas के दृष्टिकोण से इसे null का प्रतिनिधित्व नहीं माना जाता।

अब, आइए इसे उलटते हैं और इन विधियों का उपयोग उस तरीके से करते हैं जैसा आप इन्हें व्यावहारिक रूप से उपयोग करेंगे। आप Boolean मास्क को सीधे एक ``Series`` या ``DataFrame`` इंडेक्स के रूप में उपयोग कर सकते हैं, जो तब उपयोगी हो सकता है जब आप अलग-थलग गायब (या मौजूद) मानों के साथ काम करने की कोशिश कर रहे हों।

यदि हमें गायब मानों की कुल संख्या चाहिए, तो हम बस `isnull()` विधि द्वारा उत्पन्न मास्क पर एक sum कर सकते हैं।


In [19]:
example3.isnull().sum()

2

In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


### डेटा की कमी से निपटना

> **सीखने का लक्ष्य:** इस उपखंड के अंत तक, आपको यह पता होना चाहिए कि DataFrames से null मानों को कब और कैसे बदलना या हटाना है।

मशीन लर्निंग मॉडल स्वयं डेटा की कमी को संभाल नहीं सकते। इसलिए, मॉडल में डेटा पास करने से पहले, हमें इन गायब मानों से निपटना होता है।

गायब डेटा को संभालने का तरीका सूक्ष्म समझौते लेकर आता है, जो आपके अंतिम विश्लेषण और वास्तविक दुनिया के परिणामों को प्रभावित कर सकता है।

गायब डेटा से निपटने के मुख्यतः दो तरीके हैं:

1.   उस पंक्ति को हटा दें जिसमें गायब मान है  
2.   गायब मान को किसी अन्य मान से बदल दें  

हम इन दोनों तरीकों और उनके फायदे और नुकसान को विस्तार से चर्चा करेंगे।  


### null मानों को हटाना

हमारे मॉडल को दी जाने वाली डेटा की मात्रा उसके प्रदर्शन पर सीधे प्रभाव डालती है। null मानों को हटाने का मतलब है कि हम डेटा पॉइंट्स की संख्या कम कर रहे हैं, और इस प्रकार डेटासेट का आकार भी कम कर रहे हैं। इसलिए, जब डेटासेट काफी बड़ा हो, तो null मानों वाली पंक्तियों को हटाना उचित होता है।

एक और स्थिति हो सकती है कि किसी विशेष पंक्ति या स्तंभ में बहुत सारे missing values हों। ऐसे में उन्हें हटाया जा सकता है क्योंकि वे हमारे विश्लेषण में ज्यादा मूल्य नहीं जोड़ेंगे, क्योंकि उस पंक्ति/स्तंभ के अधिकांश डेटा गायब हैं।

missing values की पहचान करने के अलावा, pandas `Series` और `DataFrame`s से null मानों को हटाने का एक सुविधाजनक तरीका प्रदान करता है। इसे क्रियान्वित होते हुए देखने के लिए, चलिए `example3` पर वापस चलते हैं। `DataFrame.dropna()` फ़ंक्शन null मानों वाली पंक्तियों को हटाने में मदद करता है।


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

ध्यान दें कि यह आपके आउटपुट की तरह दिखना चाहिए `example3[example3.notnull()]`। यहाँ अंतर यह है कि, केवल मास्क किए गए मानों पर इंडेक्सिंग करने के बजाय, `dropna` ने `Series` `example3` से उन गायब मानों को हटा दिया है।

क्योंकि DataFrames में दो आयाम होते हैं, वे डेटा को हटाने के लिए अधिक विकल्प प्रदान करते हैं।


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(क्या आपने देखा कि pandas ने `NaN`s को समायोजित करने के लिए दो कॉलम को फ्लोट्स में अपकास्ट कर दिया?)

आप `DataFrame` से एकल मान को हटा नहीं सकते, इसलिए आपको पूरी पंक्तियाँ या कॉलम हटाने होंगे। यह इस बात पर निर्भर करता है कि आप क्या कर रहे हैं, आप इनमें से किसी एक को चुन सकते हैं, और इसलिए pandas आपको दोनों विकल्प देता है। क्योंकि डेटा साइंस में, कॉलम आमतौर पर वेरिएबल्स को और पंक्तियाँ ऑब्ज़र्वेशन को दर्शाते हैं, आप अधिक संभावना रखते हैं कि डेटा की पंक्तियाँ हटाएँ; `dropna()` का डिफ़ॉल्ट सेटिंग यह है कि वह सभी पंक्तियाँ हटाएगा जिनमें कोई भी null मान हो:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


यदि आवश्यक हो, तो आप स्तंभों से NA मान हटा सकते हैं। ऐसा करने के लिए `axis=1` का उपयोग करें:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


ध्यान दें कि यह विशेष रूप से छोटे डेटा सेट में वह डेटा हटा सकता है जिसे आप रखना चाह सकते हैं। अगर आप केवल उन पंक्तियों या स्तंभों को हटाना चाहते हैं जिनमें कई या सभी मान शून्य (null) हैं, तो आप `dropna` में `how` और `thresh` पैरामीटर सेट कर सकते हैं।

डिफ़ॉल्ट रूप से, `how='any'` होता है (यदि आप स्वयं जांचना चाहते हैं या देखना चाहते हैं कि इस विधि में अन्य कौन-कौन से पैरामीटर हैं, तो एक कोड सेल में `example4.dropna?` चलाएं)। आप वैकल्पिक रूप से `how='all'` निर्दिष्ट कर सकते हैं ताकि केवल उन पंक्तियों या स्तंभों को हटाया जाए जिनमें सभी मान शून्य (null) हैं। चलिए अगले अभ्यास में इसे क्रियान्वित करने के लिए हमारे उदाहरण `DataFrame` को विस्तारित करते हैं।


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> मुख्य बातें:  
1. केवल तभी null मानों को हटाना एक अच्छा विचार है जब डेटा सेट पर्याप्त बड़ा हो।  
2. पूरी पंक्तियों या स्तंभों को हटाया जा सकता है यदि उनमें से अधिकांश डेटा गायब हो।  
3. `DataFrame.dropna(axis=)` विधि null मानों को हटाने में मदद करती है। `axis` तर्क यह दर्शाता है कि पंक्तियों को हटाना है या स्तंभों को।  
4. `how` तर्क का भी उपयोग किया जा सकता है। डिफ़ॉल्ट रूप से यह `any` पर सेट होता है। इसलिए, यह केवल उन पंक्तियों/स्तंभों को हटाता है जिनमें कोई भी null मान होता है। इसे `all` पर सेट किया जा सकता है ताकि यह निर्दिष्ट किया जा सके कि हम केवल उन पंक्तियों/स्तंभों को हटाएंगे जहां सभी मान null हैं।  


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


`thresh` पैरामीटर आपको अधिक सूक्ष्म नियंत्रण देता है: आप यह सेट करते हैं कि किसी पंक्ति या स्तंभ में *गैर-शून्य* मानों की संख्या कितनी होनी चाहिए ताकि उसे बनाए रखा जा सके:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


### खाली मान भरना

कभी-कभी खाली मानों को ऐसे मानों से भरना समझदारी हो सकती है जो वैध हो सकते हैं। खाली मानों को भरने के लिए कुछ तकनीकें होती हैं। पहली तकनीक है डोमेन ज्ञान (जिस विषय पर डेटा सेट आधारित है उसका ज्ञान) का उपयोग करके किसी तरह से खाली मानों का अनुमान लगाना। 

आप `isnull` का उपयोग करके इसे सीधे कर सकते हैं, लेकिन यह थकाऊ हो सकता है, खासकर जब आपके पास भरने के लिए बहुत सारे मान हों। चूंकि यह डेटा साइंस में एक सामान्य कार्य है, pandas `fillna` प्रदान करता है, जो `Series` या `DataFrame` की एक कॉपी लौटाता है, जिसमें खाली मानों को आपके द्वारा चुने गए मानों से बदल दिया जाता है। चलिए एक और उदाहरण `Series` बनाते हैं ताकि यह समझ सकें कि यह व्यावहारिक रूप से कैसे काम करता है।


### श्रेणीबद्ध डेटा (गैर-संख्या)
सबसे पहले, आइए गैर-संख्या डेटा पर विचार करें। डेटा सेट्स में, हमारे पास श्रेणीबद्ध डेटा वाले कॉलम होते हैं। जैसे लिंग, सत्य या असत्य आदि।

इनमें से अधिकांश मामलों में, हम गायब मानों को कॉलम के `mode` से बदलते हैं। मान लीजिए, हमारे पास 100 डेटा पॉइंट्स हैं और उनमें से 90 ने सत्य कहा है, 8 ने असत्य कहा है और 2 ने कुछ नहीं भरा है। तो, हम उन 2 को सत्य से भर सकते हैं, पूरे कॉलम को ध्यान में रखते हुए।

फिर से, यहां हम डोमेन ज्ञान का उपयोग कर सकते हैं। आइए `mode` से भरने का एक उदाहरण देखें।


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


### संख्यात्मक डेटा
अब, संख्यात्मक डेटा की बात करते हैं। यहां, हमारे पास गायब मानों को भरने के दो सामान्य तरीके हैं:

1. पंक्ति के माध्यिका (Median) से बदलें  
2. पंक्ति के औसत (Mean) से बदलें  

हम माध्यिका का उपयोग करते हैं, जब डेटा में बाहरी मान (Outliers) के साथ असंतुलन होता है। इसका कारण यह है कि माध्यिका बाहरी मानों के प्रति संवेदनशील नहीं होती है।

जब डेटा सामान्यीकृत होता है, तो हम औसत का उपयोग कर सकते हैं, क्योंकि उस स्थिति में औसत और माध्यिका लगभग समान होते हैं।

सबसे पहले, आइए एक कॉलम लें जो सामान्य वितरण में हो और उसमें गायब मान को कॉलम के औसत से भरें।


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


स्तंभ का औसत है


In [33]:
np.mean(fill_with_mean[0])

0.0

In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


अब आइए एक और डेटा फ्रेम आज़माते हैं, और इस बार हम None मानों को कॉलम के माध्यिका से बदलेंगे।


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


दूसरे स्तंभ का माध्यक है


In [36]:
fill_with_median[1].median()

4.0

In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


जैसा कि हम देख सकते हैं, NaN मान को कॉलम के माध्यिका से बदल दिया गया है


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

आप सभी रिक्त प्रविष्टियों को एक ही मान, जैसे `0`, से भर सकते हैं:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> मुख्य बातें:
1. गायब मानों को तभी भरना चाहिए जब डेटा कम हो या गायब डेटा को भरने के लिए कोई रणनीति हो।  
2. डोमेन ज्ञान का उपयोग करके गायब मानों को अनुमानित करके भरा जा सकता है।  
3. श्रेणीबद्ध डेटा के लिए, आमतौर पर गायब मानों को कॉलम के मोड से प्रतिस्थापित किया जाता है।  
4. संख्यात्मक डेटा के लिए, गायब मानों को आमतौर पर कॉलम के औसत (सामान्यीकृत डेटासेट के लिए) या माध्यिका से भरा जाता है।  


In [40]:
# What happens if you try to fill null values with a string, like ''?


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

आप अगले मान्य मान को पीछे की ओर प्रसारित करने के लिए **बैक-फिल** भी कर सकते हैं ताकि एक शून्य को भर सकें:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

जैसा कि आप अनुमान लगा सकते हैं, यह DataFrames के साथ भी उसी तरह काम करता है, लेकिन आप null मानों को भरने के लिए एक `axis` भी निर्दिष्ट कर सकते हैं:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


आप `fillna` का उपयोग कैसे करते हैं, इसके बारे में रचनात्मक हो सकते हैं। उदाहरण के लिए, चलिए `example4` को फिर से देखते हैं, लेकिन इस बार चलिए `DataFrame` में सभी मानों के औसत से गायब मानों को भरते हैं:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


ध्यान दें कि कॉलम 3 अभी भी खाली है: डिफ़ॉल्ट दिशा पंक्ति-वार मान भरने की है।

> **सारांश:** आपके डेटा सेट में गायब मानों को संभालने के कई तरीके हैं। आप जो विशेष रणनीति अपनाते हैं (उन्हें हटाना, बदलना, या यहां तक कि उन्हें कैसे बदलना है) वह उस डेटा की विशिष्टताओं पर निर्भर होनी चाहिए। जितना अधिक आप डेटा सेट्स को संभालेंगे और उनके साथ काम करेंगे, गायब मानों को संभालने की समझ उतनी ही बेहतर होगी।


### श्रेणीबद्ध डेटा को एन्कोड करना

मशीन लर्निंग मॉडल केवल संख्याओं और किसी भी प्रकार के संख्यात्मक डेटा के साथ काम करते हैं। यह "हाँ" और "नहीं" के बीच का अंतर नहीं समझ पाएगा, लेकिन यह 0 और 1 के बीच का अंतर पहचान सकता है। इसलिए, गायब मानों को भरने के बाद, हमें श्रेणीबद्ध डेटा को किसी संख्यात्मक रूप में एन्कोड करना होगा ताकि मॉडल इसे समझ सके।

एन्कोडिंग दो तरीकों से की जा सकती है। हम अगले भाग में इन तरीकों पर चर्चा करेंगे।


**लेबल एन्कोडिंग**

लेबल एन्कोडिंग का मतलब है कि प्रत्येक श्रेणी को एक संख्या में बदलना। उदाहरण के लिए, मान लीजिए हमारे पास एयरलाइन यात्रियों का एक डेटासेट है और उसमें एक कॉलम है जिसमें उनकी श्रेणी दी गई है, जैसे ['बिजनेस क्लास', 'इकोनॉमी क्लास', 'फर्स्ट क्लास']। अगर इस पर लेबल एन्कोडिंग की जाती है, तो इसे [0,1,2] में बदल दिया जाएगा। चलिए इसे कोड के माध्यम से एक उदाहरण के रूप में देखते हैं। चूंकि हम आगामी नोटबुक्स में `scikit-learn` सीखने वाले हैं, इसलिए हम इसे यहां उपयोग नहीं करेंगे।


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


पहले कॉलम पर लेबल एन्कोडिंग करने के लिए, हमें पहले प्रत्येक वर्ग से एक संख्या तक का मैपिंग वर्णित करना होगा, उसके बाद प्रतिस्थापन करना होगा।


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


जैसा कि हम देख सकते हैं, परिणाम वही है जिसकी हमें उम्मीद थी। तो, लेबल एन्कोडिंग का उपयोग कब किया जाता है? लेबल एन्कोडिंग का उपयोग निम्नलिखित में से किसी एक या दोनों स्थितियों में किया जाता है:  
1. जब श्रेणियों की संख्या अधिक हो  
2. जब श्रेणियां क्रम में हों।  


**वन हॉट एनकोडिंग**

वन हॉट एनकोडिंग एक और प्रकार का एनकोडिंग है। इस प्रकार के एनकोडिंग में, कॉलम की प्रत्येक श्रेणी को एक अलग कॉलम के रूप में जोड़ा जाता है और प्रत्येक डेटा पॉइंट को 0 या 1 मिलता है, इस आधार पर कि उसमें वह श्रेणी है या नहीं। तो, यदि n अलग-अलग श्रेणियां हैं, तो n कॉलम डेटा फ्रेम में जोड़े जाएंगे।

उदाहरण के लिए, चलिए वही हवाई जहाज वर्ग का उदाहरण लेते हैं। श्रेणियां थीं: ['बिजनेस क्लास', 'इकोनॉमी क्लास', 'फर्स्ट क्लास']। तो, यदि हम वन हॉट एनकोडिंग करते हैं, तो निम्नलिखित तीन कॉलम डेटासेट में जोड़े जाएंगे: ['class_business class', 'class_economy class', 'class_first class']।


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


आइए पहले कॉलम पर वन हॉट एनकोडिंग करें


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


प्रत्येक हॉट एन्कोडेड कॉलम में 0 या 1 होता है, जो यह निर्दिष्ट करता है कि उस डेटा पॉइंट के लिए वह श्रेणी मौजूद है या नहीं।


हम वन-हॉट एन्कोडिंग का उपयोग कब करते हैं? वन-हॉट एन्कोडिंग का उपयोग निम्नलिखित में से एक या दोनों स्थितियों में किया जाता है:

1. जब श्रेणियों की संख्या और डेटा सेट का आकार छोटा हो।
2. जब श्रेणियों का कोई विशेष क्रम न हो।


> मुख्य बातें:
1. एनकोडिंग का उपयोग गैर-संख्या डेटा को संख्या डेटा में बदलने के लिए किया जाता है।
2. एनकोडिंग के दो प्रकार होते हैं: लेबल एनकोडिंग और वन हॉट एनकोडिंग, जिन्हें डेटा सेट की आवश्यकताओं के अनुसार किया जा सकता है।


## डुप्लिकेट डेटा हटाना

> **सीखने का उद्देश्य:** इस उपखंड के अंत तक, आप DataFrames से डुप्लिकेट मानों की पहचान करने और उन्हें हटाने में सहज हो जाएंगे।

गायब डेटा के अलावा, वास्तविक दुनिया के डेटासेट्स में आपको अक्सर डुप्लिकेट डेटा भी मिलेगा। सौभाग्य से, pandas डुप्लिकेट प्रविष्टियों का पता लगाने और उन्हें हटाने का एक आसान तरीका प्रदान करता है।


### डुप्लिकेट पहचानना: `duplicated`

आप pandas में `duplicated` मेथड का उपयोग करके आसानी से डुप्लिकेट मानों को पहचान सकते हैं। यह एक बूलियन मास्क लौटाता है, जो यह दर्शाता है कि `DataFrame` में कोई प्रविष्टि पहले की किसी प्रविष्टि की डुप्लिकेट है या नहीं। इसे क्रियान्वित करने के लिए, आइए एक और उदाहरण `DataFrame` बनाते हैं।


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### डुप्लिकेट हटाना: `drop_duplicates`
`drop_duplicates` केवल डेटा की एक कॉपी लौटाता है, जिसमें सभी `duplicated` मान `False` होते हैं:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


`duplicated` और `drop_duplicates` दोनों डिफ़ॉल्ट रूप से सभी कॉलम पर विचार करते हैं, लेकिन आप निर्दिष्ट कर सकते हैं कि वे आपके `DataFrame` में केवल कॉलम के एक उपसमुच्चय की जांच करें:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2



---

**अस्वीकरण**:  
यह दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता सुनिश्चित करने का प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियां या अशुद्धियां हो सकती हैं। मूल भाषा में उपलब्ध मूल दस्तावेज़ को प्रामाणिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम जिम्मेदार नहीं हैं।
