# डेटा तयारी

[मूल नोटबुक स्रोत *डेटा साइन्स: डाटा साइन्सका लागि मेसिन लर्निङको परिचय, पायथन र मेसिन लर्निङ स्टुडियो द्वारा ली स्टट*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## `DataFrame` जानकारी अन्वेषण गर्दै

> **शिक्षण लक्ष्य:** यस उपविभागको अन्त्यसम्म, तपाईं pandas DataFrames मा भण्डारण गरिएको डाटाको सामान्य जानकारी पत्ता लगाउन सहज महसुस गर्नुहुनेछ।

जब तपाईंले आफ्नो डाटा pandas मा लोड गर्नुहुन्छ, यो सम्भवतः `DataFrame` मा हुनेछ। तर, यदि तपाईंको `DataFrame` मा ६०,००० पङ्क्तिहरू र ४०० स्तम्भहरू छन् भने, तपाईंले काम गर्न लागेको डाटाको बारेमा कसरी थाहा पाउनुहुन्छ? सौभाग्यवश, pandas ले `DataFrame` को समग्र जानकारी हेर्नका लागि साथै पहिलो केही र अन्तिम केही पङ्क्तिहरू हेर्नका लागि केही सुविधाजनक उपकरणहरू प्रदान गर्दछ।

यस कार्यक्षमता अन्वेषण गर्नका लागि, हामी Python को scikit-learn लाइब्रेरी आयात गर्नेछौं र एउटा प्रसिद्ध डाटासेट प्रयोग गर्नेछौं जुन हरेक डेटा वैज्ञानिकले सयौं पटक देखेका छन्: बेलायती जीवविज्ञानी रोनाल्ड फिशरको *Iris* डाटासेट, जुन उनले १९३६ मा "The use of multiple measurements in taxonomic problems" शीर्षकको आफ्नो पेपरमा प्रयोग गरेका थिए:


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
हामीले Iris Dataset लाई `iris_df` नामको भेरिएबलमा लोड गरेका छौं। डाटामा प्रवेश गर्नु अघि, हामीसँग कति डाटापोइन्टहरू छन् र डाटासेटको कुल आकार कस्तो छ भन्ने जान्न महत्त्वपूर्ण हुनेछ। हामीले सामना गरिरहेको डाटाको मात्रा हेर्न उपयोगी हुन्छ।


In [2]:
iris_df.shape

(150, 4)

त्यसैले, हामीसँग १५० पङ्क्ति र ४ स्तम्भको डाटा छ। प्रत्येक पङ्क्तिले एउटा डाटापोइन्टलाई प्रतिनिधित्व गर्छ र प्रत्येक स्तम्भले डाटा फ्रेमसँग सम्बन्धित एउटा विशेषता देखाउँछ। त्यसैले आधारभूत रूपमा, त्यहाँ १५० डाटापोइन्टहरू छन्, जसमा प्रत्येकमा ४ विशेषताहरू छन्।

`shape` यहाँ डाटा फ्रेमको एउटा गुण हो, कार्य (function) होइन, त्यसैले यसले जोडी कोष्ठकहरूमा अन्त्य गर्दैन।


### `DataFrame.columns`
अब हामी डाटाका ४ स्तम्भहरूतर्फ जाऔं। यी प्रत्येकले के प्रतिनिधित्व गर्छन्? `columns` एट्रिब्युटले हामीलाई डेटा फ्रेममा रहेका स्तम्भहरूको नाम दिन्छ।


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

जसरी हामी देख्न सक्छौं, त्यहाँ चार(४) वटा स्तम्भहरू छन्। `columns` विशेषताले हामीलाई स्तम्भहरूको नाम बताउँछ र मूलतः अरू केही होइन। यो विशेषता महत्त्वपूर्ण हुन्छ जब हामी कुनै डेटासेटमा भएका विशेषताहरू पहिचान गर्न चाहन्छौं।


### `DataFrame.info`
डाटाको मात्रा (`shape` attribute ले दिएको) र विशेषता वा स्तम्भहरूको नाम (`columns` attribute ले दिएको) ले हामीलाई डेटासेटको बारेमा केही जानकारी दिन्छ। अब, हामी डेटासेटमा अझ गहिरो रूपमा जान चाहन्छौं। `DataFrame.info()` function यसका लागि निकै उपयोगी छ।


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


यहाँबाट, हामी केही अवलोकनहरू गर्न सक्छौं:  
1. प्रत्येक स्तम्भको डेटा प्रकार: यस डेटासेटमा, सबै डेटा 64-बिट फ्लोटिङ-पोइन्ट संख्याको रूपमा संग्रह गरिएको छ।  
2. गैर-नल मानहरूको संख्या: नल मानहरूलाई व्यवस्थापन गर्नु डेटा तयारीको महत्त्वपूर्ण चरण हो। यसलाई पछि नोटबुकमा सम्बोधन गरिनेछ।  


### DataFrame.describe()
मानौं हाम्रो डेटासेटमा धेरै संख्यात्मक डाटा छ। जस्तै औसत, माध्यिका, चतुर्थांशहरू आदि जस्ता एकपक्षीय सांख्यिकीय गणनाहरू प्रत्येक स्तम्भमा अलग-अलग गर्न सकिन्छ। `DataFrame.describe()` फंक्शनले डेटासेटका संख्यात्मक स्तम्भहरूको सांख्यिकीय सारांश प्रदान गर्दछ।


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


उपरोक्त परिणामले प्रत्येक स्तम्भको कुल डाटा बिन्दुहरूको संख्या, औसत, मानक विचलन, न्यूनतम, तल्लो चतुर्थांश (२५%), माध्यिका (५०%), माथिल्लो चतुर्थांश (७५%) र अधिकतम मान देखाउँछ।


### `DataFrame.head`
माथिका सबै फंक्शनहरू र विशेषताहरूको साथमा, हामीले डेटासेटको उच्च स्तरको दृष्टिकोण प्राप्त गरेका छौं। हामीलाई थाहा छ कति डेटा पोइन्टहरू छन्, कति विशेषताहरू छन्, प्रत्येक विशेषताको डेटा प्रकार के हो र प्रत्येक विशेषताका लागि कति गैर-शून्य मानहरू छन्।

अब डेटा आफैं हेर्ने समय आएको छ। हाम्रो `DataFrame` का पहिलो केही पङ्क्तिहरू (पहिलो केही डेटा पोइन्टहरू) कस्तो देखिन्छन् हेर्नुहोस्:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


आउटपुटमा, हामीले डेटासेटका पाँच(५) इन्ट्रीहरू देख्न सक्छौं। यदि हामी बायाँतिरको इन्डेक्स हेर्छौं भने, यी पहिलो पाँच पंक्तिहरू हुन् भन्ने पत्ता लगाउन सक्छौं।


### अभ्यास:

माथि दिइएको उदाहरणबाट स्पष्ट छ कि, डिफल्ट रूपमा, `DataFrame.head` ले `DataFrame` का पहिलो पाँच पङ्क्तिहरू फिर्ता गर्छ। तलको कोड सेलमा, के तपाईं पाँचभन्दा बढी पङ्क्तिहरू देखाउने तरिका पत्ता लगाउन सक्नुहुन्छ?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
डाटा हेर्ने अर्को तरिका अन्त्यबाट (सुरुवातको सट्टा) हुन सक्छ। `DataFrame.head` को उल्टो पक्ष `DataFrame.tail` हो, जसले `DataFrame` का अन्तिम पाँच पंक्तिहरू फिर्ता गर्छ:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


व्यवहारमा, विशेष गरी जब तपाईं क्रमबद्ध डेटासेटहरूमा बाहिरिने मानहरू खोज्दै हुनुहुन्छ, `DataFrame` का पहिलो केही पङ्क्तिहरू वा अन्तिम केही पङ्क्तिहरू सजिलैसँग जाँच गर्न सक्षम हुनु उपयोगी हुन्छ।

माथि कोड उदाहरणहरूको मद्दतले देखाइएका सबै functions र attributes ले हामीलाई डेटा हेर्न र महसुस गर्न मद्दत गर्छ।

> **मुख्य कुरा:** केवल `DataFrame` मा भएको जानकारीको metadata हेरेर वा यसको पहिलो र अन्तिम केही मानहरू हेरेर पनि, तपाईंले तपाईंले काम गरिरहेको डेटा कस्तो आकार, आकार, र सामग्रीको हो भन्ने बारे तुरुन्तै धारणा बनाउन सक्नुहुन्छ।


### हराएको डाटा
आउनुहोस्, हराएको डाटाबारे छलफल गरौं। हराएको डाटा तब हुन्छ, जब केही स्तम्भहरूमा कुनै मान राखिएको हुँदैन।

उदाहरण लिऔं: मानौं कसैलाई आफ्नो तौलको बारेमा धेरै चिन्ता छ र उसले सर्वेक्षणमा तौलको क्षेत्र खाली छोड्छ। त्यस अवस्थामा, उक्त व्यक्तिको तौलको मान हराएको हुनेछ।

धेरैजसो समय, वास्तविक संसारका डेटासेटहरूमा हराएका मानहरू देखिन्छन्।

**Pandas ले हराएको डाटालाई कसरी व्यवस्थापन गर्छ**

Pandas ले हराएका मानहरूलाई दुई तरिकाले व्यवस्थापन गर्छ। पहिलो तरिका तपाईंले पहिलेका खण्डहरूमा देखिसक्नुभएको छ: `NaN`, वा Not a Number। यो वास्तवमा IEEE फ्लोटिङ-पोइन्ट स्पेसिफिकेसनको एक विशेष मान हो र यो केवल हराएको फ्लोटिङ-पोइन्ट मानहरूलाई जनाउन प्रयोग गरिन्छ।

फ्लोट बाहेकका हराएका मानहरूको लागि, pandas ले Python को `None` वस्तु प्रयोग गर्छ। यद्यपि यो अलि भ्रमित लाग्न सक्छ कि तपाईंले दुई फरक प्रकारका मानहरू सामना गर्नुहुनेछ जसले मूलतः एउटै कुरा जनाउँछन्, यस डिजाइन छनोटको लागि ठोस प्रोग्रामेटिक कारणहरू छन्। व्यवहारमा, यस मार्गमा जानुले pandas लाई धेरैजसो केसहरूको लागि राम्रो सन्तुलन प्रदान गर्न सक्षम बनाउँछ। यद्यपि, `None` र `NaN` दुबैसँग केही सीमाहरू छन् जसलाई तपाईंले ध्यानमा राख्नुपर्छ, विशेष गरी तिनीहरूलाई कसरी प्रयोग गर्न सकिन्छ भन्ने सन्दर्भमा।


### `None`: गैर-फ्लोट हराएको डाटा
किनभने `None` Python बाट आउँछ, यसलाई NumPy र pandas का arrays मा प्रयोग गर्न सकिँदैन जुन डाटा प्रकार `'object'` को होइन। सम्झनुहोस्, NumPy arrays (र pandas का डाटा संरचनाहरू) मा एउटै प्रकारको डाटा मात्र समावेश गर्न सकिन्छ। यही कारणले गर्दा तिनीहरूले ठूलो मात्रामा डाटा र गणनात्मक कामका लागि अपार शक्ति प्रदान गर्छन्, तर यसले तिनीहरूको लचिलोपनलाई सीमित पनि गर्छ। यस्ता arrays ले "सबैभन्दा कम साझा गुणक" मा अपकास्ट गर्नुपर्छ, जुन डाटा प्रकारले array मा सबै कुरा समेट्न सक्छ। जब array मा `None` हुन्छ, यसको मतलब तपाईं Python objects सँग काम गर्दै हुनुहुन्छ।

यसलाई व्यवहारमा हेर्नको लागि, निम्न उदाहरण array लाई विचार गर्नुहोस् (यसको `dtype` मा ध्यान दिनुहोस्):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

अपकास्ट डाटा प्रकारहरूको वास्तविकताले दुई प्रकारका प्रभावहरू ल्याउँछ। पहिलो, अपरेसनहरू व्याख्या गरिएको Python कोडको स्तरमा गरिन्छ, कम्पाइल गरिएको NumPy कोडको स्तरमा होइन। यसको मतलब, `Series` वा `DataFrames` मा `None` समावेश भएका अपरेसनहरू सामान्यतया ढिलो हुनेछन्। यद्यपि तपाईंले यो प्रदर्शनमा आएको असर सायद महसुस गर्नुहुने छैन, ठूला डाटासेटहरूमा यो समस्या बन्न सक्छ।

दोस्रो प्रभाव पहिलोबाट उत्पन्न हुन्छ। किनभने `None` ले `Series` वा `DataFrame`s लाई सामान्य Python को दुनियाँमा फर्काउँछ, NumPy/pandas को `sum()` वा `min()` जस्ता समग्र गणनाहरू प्रयोग गर्दा, यदि array मा ``None`` मान छ भने सामान्यतया त्रुटि उत्पन्न हुन्छ:


In [10]:
example1.sum()

TypeError: ignored

### `NaN`: हराएको फ्लोट मानहरू

`None` को विपरीत, NumPy (र त्यसैले pandas) ले यसको छिटो, भेक्टराइज्ड अपरेसनहरू र ufuncs का लागि `NaN` समर्थन गर्दछ। नराम्रो खबर यो हो कि `NaN` मा गरिने कुनै पनि अंकगणितीय कार्यले सधैं `NaN` नै परिणाम दिन्छ। उदाहरणका लागि:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

खुसीको खबर: `NaN` भएका एरेहरूमा चल्ने एग्रिगेसनहरूले त्रुटिहरू उत्पन्न गर्दैनन्। नराम्रो खबर: परिणामहरू समान रूपमा उपयोगी हुँदैनन्:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

In [11]:
# What happens if you add np.nan and None together?


### `NaN` र `None`: pandas मा null मानहरू

यद्यपि `NaN` र `None` केही हदसम्म फरक व्यवहार गर्न सक्छन्, pandas लाई यी दुबैलाई परस्पर विनिमेय रूपमा व्यवस्थापन गर्न बनाइएको छ। हामी के भन्न खोजिरहेका छौं बुझ्नको लागि, एउटा पूर्णांकहरूको `Series` लाई विचार गर्नुहोस्:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


पाण्डासमा `Series` र `DataFrame` हरूमा डेटा प्रकारहरूको समानता कायम गर्न अपकास्टिङ गर्दा, पाण्डासले हराएका मानहरूलाई `None` र `NaN` बीच सजिलै परिवर्तन गर्न सक्छ। यस डिजाइन सुविधाका कारण, पाण्डासमा `None` र `NaN` लाई "null" का दुई फरक प्रकारका रूपमा सोच्नु उपयोगी हुन सक्छ। वास्तवमा, पाण्डासमा हराएका मानहरूलाई व्यवस्थापन गर्न प्रयोग गरिने केही मुख्य विधिहरूले यो विचारलाई आफ्ना नामहरूमा झल्काउँछन्:

- `isnull()`: हराएका मानहरूलाई जनाउने बूलियन मास्क उत्पन्न गर्छ
- `notnull()`: `isnull()` को विपरीत
- `dropna()`: डेटा को फिल्टर गरिएको संस्करण फिर्ता दिन्छ
- `fillna()`: हराएका मानहरू भरेर वा अनुमान गरेर डेटा को प्रतिलिपि फिर्ता दिन्छ

यी विधिहरूलाई राम्रोसँग बुझ्न र सहज हुन सिक्नु महत्त्वपूर्ण छ, त्यसैले हामी यी प्रत्येकलाई विस्तारमा बुझ्ने प्रयास गरौं।


### नल मानहरू पत्ता लगाउँदै

अब हामीले हराएका मानहरूको महत्त्व बुझेका छौं, तिनीहरूलाई व्यवस्थापन गर्नुअघि हाम्रो डेटासेटमा तिनीहरू पत्ता लगाउन आवश्यक छ।  
`isnull()` र `notnull()` दुबै नल डाटालाई पत्ता लगाउनका लागि तपाईंका मुख्य विधिहरू हुन्। यी दुबैले तपाईंको डाटामा बूलियन मास्कहरू फिर्ता गर्छन्।


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

ध्यानपूर्वक हेर्नुहोस्। के यसमा केही कुरा तपाईंलाई अचम्म लाग्छ? जबकि `0` एक अंकगणितीय शून्य हो, यो अझै पनि एकदम राम्रो पूर्णांक हो र pandas ले यसलाई त्यस्तै व्यवहार गर्छ। `''` अलि बढी सूक्ष्म छ। जबकि हामीले यसलाई खण्ड १ मा खाली स्ट्रिङ मानको रूपमा प्रयोग गरेका थियौं, यो अझै पनि स्ट्रिङ वस्तु हो र pandas को दृष्टिकोणले यो null को प्रतिनिधित्व होइन।

अब, यसलाई उल्ट्याएर यी विधिहरूलाई व्यवहारमा जस्तै प्रयोग गरौं। तपाईं Boolean मास्कहरूलाई सिधै ``Series`` वा ``DataFrame`` को इन्डेक्सको रूपमा प्रयोग गर्न सक्नुहुन्छ, जुन छुट्टै हराएका (वा उपस्थित) मानहरूसँग काम गर्दा उपयोगी हुन सक्छ।

यदि हामीलाई हराएका मानहरूको कुल संख्या चाहिन्छ भने, हामी `isnull()` विधिले उत्पादन गरेको मास्कमा sum गर्न सक्छौं।


In [19]:
example3.isnull().sum()

2

In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**मुख्य कुरा**: दुवै `isnull()` र `notnull()` विधिहरूले समान परिणाम उत्पादन गर्छन् जब तपाईं तिनीहरूलाई DataFrames मा प्रयोग गर्नुहुन्छ: तिनीहरूले परिणामहरू र ती परिणामहरूको सूचकांक देखाउँछन्, जसले तपाईंलाई तपाईंको डाटासँग संघर्ष गर्दा अत्यधिक मद्दत गर्नेछ।


### हराएको डाटासँग व्यवहार गर्ने

> **शिक्षण लक्ष्य:** यो उपविभागको अन्त्यसम्ममा, तपाईंले DataFrames बाट null मानहरू कहिले र कसरी प्रतिस्थापन गर्ने वा हटाउने भन्ने जान्नुहुनेछ।

Machine Learning मोडेलहरूले आफैंले हराएको डाटासँग व्यवहार गर्न सक्दैनन्। त्यसैले, डाटालाई मोडेलमा पठाउनु अघि, हामीले यी हराएका मानहरूसँग व्यवहार गर्नुपर्छ।

हराएको डाटालाई कसरी व्यवस्थापन गरिन्छ भन्ने कुराले सूक्ष्म सम्झौता (tradeoffs) ल्याउँछ, जसले तपाईंको अन्तिम विश्लेषण र वास्तविक संसारको नतिजामा प्रभाव पार्न सक्छ।

हराएको डाटासँग व्यवहार गर्ने मुख्यतः दुई तरिकाहरू छन्:

1.   हराएको मान भएको पङ्क्ति (row) हटाउनुहोस्  
2.   हराएको मानलाई कुनै अन्य मानले प्रतिस्थापन गर्नुहोस्  

हामी यी दुवै विधिहरू र तिनका फाइदा र बेफाइदाहरू विस्तारमा छलफल गर्नेछौं।  


### नल मानहरू हटाउने

हामीले हाम्रो मोडेललाई दिने डाटाको परिमाणले यसको प्रदर्शनमा प्रत्यक्ष प्रभाव पार्छ। नल मानहरू हटाउनुको अर्थ हो कि हामी डाटापोइन्टहरूको संख्या घटाउँदैछौं, जसले गर्दा डेटासेटको आकार पनि घट्छ। त्यसैले, जब डेटासेट धेरै ठूलो हुन्छ, नल मान भएका पङ्क्तिहरू हटाउनु सल्लाहयोग्य हुन्छ।

अर्को उदाहरण हुन सक्छ कि कुनै निश्चित पङ्क्ति वा स्तम्भमा धेरै हराएका मानहरू छन्। त्यस अवस्थामा, ती पङ्क्ति वा स्तम्भलाई हटाउन सकिन्छ किनभने ती हाम्रो विश्लेषणमा धेरै मूल्य थप्दैनन्, किनभने अधिकांश डाटा हराएको हुन्छ।

हराएका मानहरू पहिचान गर्न बाहेक, pandas ले `Series` र `DataFrame`s बाट नल मानहरू हटाउनको लागि सुविधाजनक उपाय प्रदान गर्दछ। यसलाई व्यवहारमा हेर्नको लागि, हामी `example3` मा फर्कौं। `DataFrame.dropna()` function ले नल मान भएका पङ्क्तिहरू हटाउन मद्दत गर्दछ।


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

ध्यान दिनुहोस् कि यो तपाईंको `example3[example3.notnull()]` बाट प्राप्त हुने परिणाम जस्तै देखिनुपर्छ। यहाँ फरक यति मात्र छ कि, मास्क गरिएका मानहरूमा मात्र इन्डेक्सिङ गर्ने सट्टा, `dropna` ले `Series` `example3` बाट ती हराएका मानहरू हटाएको छ।

किनभने DataFrames दुई आयामहरूमा हुन्छन्, तिनीहरूले डाटा हटाउनका लागि थप विकल्पहरू प्रदान गर्छन्।


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(के तपाईंले ध्यान दिनुभयो कि pandas ले `NaN`s समायोजन गर्न दुई स्तम्भहरूलाई floats मा परिवर्तन गर्यो?)

तपाईं `DataFrame` बाट एकल मान हटाउन सक्नुहुन्न, त्यसैले तपाईंले पूर्ण पङ्क्ति वा स्तम्भहरू हटाउनुपर्छ। तपाईंले के गर्दै हुनुहुन्छ भन्ने आधारमा, तपाईंले यीमध्ये कुनै एक गर्न चाहनुहुन्छ, र त्यसैले pandas ले तपाईंलाई दुवैका लागि विकल्पहरू दिन्छ। किनभने डेटा विज्ञानमा, स्तम्भहरूले सामान्यतया भेरिएबलहरू प्रतिनिधित्व गर्छन् र पङ्क्तिहरूले अवलोकनहरू प्रतिनिधित्व गर्छन्, तपाईंले प्रायः डेटा पङ्क्तिहरू हटाउन चाहनुहुन्छ; `dropna()` को डिफल्ट सेटिङ भनेको कुनै पनि null मानहरू समावेश गर्ने सबै पङ्क्तिहरू हटाउनु हो:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


यदि आवश्यक भएमा, तपाईं स्तम्भहरूबाट NA मानहरू हटाउन सक्नुहुन्छ। त्यसो गर्न `axis=1` प्रयोग गर्नुहोस्:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


ध्यान दिनुहोस् कि यसले धेरै डाटा हटाउन सक्छ जुन तपाईंले राख्न चाहनुहुन्छ, विशेष गरी साना डेटासेटहरूमा। यदि तपाईं केवल केही वा सबै null मानहरू भएका पङ्क्ति वा स्तम्भहरू हटाउन चाहनुहुन्छ भने के गर्ने? तपाईंले `dropna` मा `how` र `thresh` प्यारामिटरहरू प्रयोग गरेर ती सेटिङहरू निर्दिष्ट गर्न सक्नुहुन्छ।

डिफल्ट रूपमा, `how='any'` हुन्छ (यदि तपाईं आफैं जाँच गर्न चाहनुहुन्छ वा यो विधिमा अरू के-के प्यारामिटरहरू छन् भनेर हेर्न चाहनुहुन्छ भने, कोड सेलमा `example4.dropna?` चलाउनुहोस्)। वैकल्पिक रूपमा, तपाईंले `how='all'` निर्दिष्ट गर्न सक्नुहुन्छ ताकि केवल ती पङ्क्ति वा स्तम्भहरू हटाउन सकियोस् जसमा सबै null मानहरू छन्। आउनुहोस्, हाम्रो उदाहरण `DataFrame` लाई विस्तार गरौं र यो कसरी काम गर्छ भन्ने कुरा अर्को अभ्यासमा हेर्छौं।


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> मुख्य बुँदाहरू:  
1. null मानहरू हटाउनु राम्रो विचार हो, तर मात्र तब जब dataset पर्याप्त ठूलो छ।  
2. यदि पंक्ति वा स्तम्भमा अधिकांश डाटा हराइरहेको छ भने, ती पूर्ण रूपमा हटाउन सकिन्छ।  
3. `DataFrame.dropna(axis=)` विधिले null मानहरू हटाउन मद्दत गर्छ। `axis` तर्कले पंक्ति हटाउने हो वा स्तम्भ भन्ने जनाउँछ।  
4. `how` तर्क पनि प्रयोग गर्न सकिन्छ। यो डिफल्ट रूपमा `any` मा सेट गरिएको हुन्छ। त्यसैले, यसले त्यस्ता पंक्ति/स्तम्भ मात्र हटाउँछ जसमा कुनै पनि null मानहरू हुन्छन्। यसलाई `all` मा सेट गर्न सकिन्छ, जसले गर्दा हामी त्यस्ता पंक्ति/स्तम्भ मात्र हटाउँछौं जहाँ सबै मानहरू null छन्।  


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


`thresh` प्यारामिटरले तपाईंलाई अझ सूक्ष्म नियन्त्रण दिन्छ: तपाईंले पङ्क्ति वा स्तम्भलाई कायम राख्न आवश्यक पर्ने *गैर-शून्य* मानहरूको संख्या सेट गर्नुहुन्छ:


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


### नल मानहरू भर्नु

कहिलेकाहीँ हराएका मानहरूलाई यस्ता मानहरूसँग भर्नु उपयुक्त हुन्छ जुन वैध हुन सक्छन्। नल मानहरू भर्ने केही प्रविधिहरू छन्। पहिलो हो डोमेन ज्ञान (डाटासेट आधारित विषयको ज्ञान) प्रयोग गरेर हराएका मानहरूको अनुमान लगाउने प्रयास गर्नु। 

तपाईंले `isnull` प्रयोग गरेर यो काम गर्न सक्नुहुन्छ, तर यो धेरै श्रमसाध्य हुन सक्छ, विशेष गरी यदि तपाईंले धेरै मानहरू भर्नुपर्ने छ भने। किनभने यो डाटा विज्ञानमा धेरै सामान्य कार्य हो, pandas ले `fillna` प्रदान गर्दछ, जसले `Series` वा `DataFrame` को प्रतिलिपि फिर्ता गर्छ, जहाँ हराएका मानहरू तपाईंले रोजेको मानले प्रतिस्थापन गरिएका हुन्छन्। यो व्यवहारमा कसरी काम गर्छ भनेर हेर्न अर्को उदाहरण `Series` बनाऔं।


### श्रेणीगत डेटा (गैर-संख्यात्मक)
पहिले गैर-संख्यात्मक डेटा विचार गरौं। डेटासेटहरूमा, हामीसँग श्रेणीगत डेटा भएका स्तम्भहरू हुन्छन्। जस्तै, लिङ्ग, सत्य वा असत्य आदि।

यस्ता धेरै अवस्थामा, हामी हराएका मानहरूलाई स्तम्भको `mode` द्वारा प्रतिस्थापन गर्छौं। मानौं, हामीसँग १०० डेटा बिन्दुहरू छन् र ९० ले सत्य भनेका छन्, ८ ले असत्य भनेका छन् र २ ले भरेका छैनन्। त्यसो भए, हामी ती २ लाई सत्यले भरिदिन सक्छौं, सम्पूर्ण स्तम्भलाई विचार गर्दै।

फेरि, यहाँ हामी डोमेन ज्ञान प्रयोग गर्न सक्छौं। अब, `mode` द्वारा भरिदिने उदाहरणलाई विचार गरौं।


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


### संख्यात्मक डेटा
अब, संख्यात्मक डेटा तर्फ जाऔं। यहाँ, हराएको मानहरूलाई प्रतिस्थापन गर्ने दुई सामान्य तरिका छन्:

1. पंक्तिको माध्यक (Median) प्रयोग गरेर प्रतिस्थापन गर्नुहोस्  
2. पंक्तिको औसत (Mean) प्रयोग गरेर प्रतिस्थापन गर्नुहोस्  

यदि डेटा असमान छ र बाहिरका मानहरू (outliers) छन् भने, हामी माध्यक प्रयोग गरेर प्रतिस्थापन गर्छौं। यसको कारण, माध्यक बाहिरका मानहरू प्रति संवेदनशील हुँदैन।

जब डेटा सामान्यीकृत (normalized) हुन्छ, हामी औसत प्रयोग गर्न सक्छौं, किनकि त्यस अवस्थामा औसत र माध्यक एक-अर्कासँग नजिक हुन्छन्।

पहिला, एउटा स्तम्भ लिऔं जुन सामान्य वितरणमा छ, र त्यस स्तम्भको हराएको मानलाई औसत प्रयोग गरेर भर्नुहोस्।


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


स्तम्भको औसत हो


In [33]:
np.mean(fill_with_mean[0])

0.0

In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


अब हामी अर्को डाटाफ्रेम प्रयास गरौं, र यस पटक हामी None मानहरूलाई स्तम्भको माध्यिका संग प्रतिस्थापन गर्नेछौं।


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


दोस्रो स्तम्भको मध्य मान हो


In [36]:
fill_with_median[1].median()

4.0

In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


जसरी हामी देख्न सक्छौं, NaN मानलाई स्तम्भको माध्यिका द्वारा प्रतिस्थापन गरिएको छ


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

तपाईंले सबै खाली प्रविष्टिहरूलाई `0` जस्तो एकल मानले भर्न सक्नुहुन्छ:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> मुख्य बुँदाहरू:
1. हराएका मानहरू भर्नु तब मात्र गर्नुपर्छ जब डाटा कम छ वा हराएको डाटा भर्ने कुनै रणनीति छ।  
2. डोमेन ज्ञानको प्रयोग गरेर हराएका मानहरूलाई अनुमान गरेर भर्न सकिन्छ।  
3. श्रेणीगत (Categorical) डाटाका लागि, प्रायः हराएका मानहरू स्तम्भको मोड (mode) ले प्रतिस्थापन गरिन्छ।  
4. संख्यात्मक (Numeric) डाटाका लागि, हराएका मानहरू सामान्यतया स्तम्भहरूको औसत (normalized datasets का लागि) वा माध्यिका (median) ले भर्ने गरिन्छ।  


In [40]:
# What happens if you try to fill null values with a string, like ''?


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

तपाईंले अर्को मान्य मानलाई पछाडि फैलाउनको लागि **पछाडि भर्नुहोस्** गर्न सक्नुहुन्छ ताकि खाली ठाउँ भर्न सकियोस्:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

जसरी तपाईंले अनुमान गर्न सक्नुहुन्छ, यो DataFrames सँग पनि उस्तै काम गर्छ, तर तपाईंले null मानहरू भर्नको लागि `axis` पनि निर्दिष्ट गर्न सक्नुहुन्छ:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


तपाईंले `fillna` प्रयोग गर्ने तरिकामा सिर्जनात्मक हुन सक्नुहुन्छ। उदाहरणका लागि, फेरि `example4` लाई हेरौं, तर यस पटक `DataFrame` मा भएका सबै मानहरूको औसतले हराएका मानहरू भर्न प्रयास गरौं:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


ध्यान दिनुहोस् कि स्तम्भ ३ अझै खाली छ: डिफल्ट दिशा पङ्क्ति अनुसार मानहरू भर्नु हो।

> **मुख्य कुरा:** तपाईंसँगको डाटासेटमा हराइरहेका मानहरूलाई व्यवस्थापन गर्न धेरै तरिकाहरू छन्। तपाईले कुन विशेष रणनीति प्रयोग गर्नुहुन्छ (तिनीहरूलाई हटाउने, प्रतिस्थापन गर्ने, वा कसरी प्रतिस्थापन गर्ने) त्यो डाटाको विशेषताहरूले निर्धारण गर्नुपर्छ। जति धेरै तपाई डाटासेटहरूलाई व्यवस्थापन र अन्तरक्रिया गर्नुहुन्छ, हराइरहेका मानहरूलाई कसरी व्यवस्थापन गर्ने भन्ने राम्रो ज्ञान विकास हुनेछ।


### श्रेणीगत डाटा एनकोडिङ

मेसिन लर्निङ मोडेलहरूले मात्र संख्यात्मक डाटासँग काम गर्छन्। यसले "हो" र "होइन" बीचको भिन्नता बुझ्न सक्दैन, तर यसले 0 र 1 बीचको भिन्नता छुट्याउन सक्छ। त्यसैले, हराएका मानहरू भरेपछि, मोडेलले बुझ्न सक्ने संख्यात्मक रूपमा श्रेणीगत डाटालाई एनकोड गर्न आवश्यक छ।

एनकोडिङ दुई तरिकाले गर्न सकिन्छ। हामी अगाडि ती तरिकाहरूको चर्चा गर्नेछौं।


**लेबल इनकोडिङ**

लेबल इनकोडिङ भनेको प्रत्येक श्रेणीलाई एउटा नम्बरमा परिवर्तन गर्ने प्रक्रिया हो। उदाहरणका लागि, मानौं हामीसँग एयरलाइन यात्रुहरूको डाटासेट छ र त्यहाँ एउटा स्तम्भ छ जसमा उनीहरूको वर्ग ['बिजनेस क्लास', 'इकोनोमी क्लास', 'फर्स्ट क्लास'] मध्ये एक छ। यदि यसमा लेबल इनकोडिङ गरिन्छ भने, यो [0,1,2] मा परिवर्तन हुनेछ। अब हामी कोडको माध्यमबाट एउटा उदाहरण हेर्नेछौं। किनकि हामी आगामी नोटबुकहरूमा `scikit-learn` सिक्दैछौं, हामी यसलाई यहाँ प्रयोग गर्नेछैनौं।


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


पहिलो स्तम्भमा लेबल इन्कोडिङ गर्न, प्रत्येक वर्गलाई एउटा नम्बरमा म्याप गर्ने विवरण दिनुपर्छ, त्यसपछि प्रतिस्थापन गर्नु अघि।


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


जसरी हामीले देख्यौं, नतिजा हाम्रो अपेक्षासँग मेल खान्छ। त्यसोभए, हामीले लेबल इन्कोडिङ कहिले प्रयोग गर्ने? लेबल इन्कोडिङ निम्नमध्ये कुनै एक वा दुबै अवस्थामा प्रयोग गरिन्छ:  
1. जब श्रेणीहरूको संख्या धेरै हुन्छ  
2. जब श्रेणीहरू क्रमबद्ध हुन्छन्।  


**वन हट इन्कोडिङ**

अर्को प्रकारको इन्कोडिङ वन हट इन्कोडिङ हो। यस प्रकारको इन्कोडिङमा, स्तम्भका प्रत्येक श्रेणीहरूलाई छुट्टाछुट्टै स्तम्भको रूपमा थपिन्छ, र प्रत्येक डाटापोइन्टले 0 वा 1 पाउँछ, यो निर्भर गर्दछ कि त्यसमा त्यो श्रेणी समावेश छ कि छैन। त्यसैले, यदि n फरक श्रेणीहरू छन् भने, n स्तम्भहरू डाटाफ्रेममा थपिन्छन्।

उदाहरणका लागि, हामी उही हवाईजहाजको श्रेणीको उदाहरण लिऔं। श्रेणीहरू थिए: ['business class', 'economy class', 'first class']। त्यसैले, यदि हामी वन हट इन्कोडिङ गर्छौं भने, निम्न तीन स्तम्भहरू डाटासेटमा थपिनेछन्: ['class_business class', 'class_economy class', 'class_first class']।


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


पहिलो स्तम्भमा वन हट इनकोडिङ गरौं


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


प्रत्येक वन-हट एन्कोड गरिएको स्तम्भमा 0 वा 1 हुन्छ, जसले सो डाटापोइन्टका लागि त्यो श्रेणी अस्तित्वमा छ कि छैन भनेर निर्दिष्ट गर्दछ।


हामीले वन हट इनकोडिङ कहिले प्रयोग गर्ने? वन हट इनकोडिङ निम्नमध्ये कुनै एक वा दुबै अवस्थामा प्रयोग गरिन्छ :

1. जब श्रेणीहरूको संख्या र डाटासेटको आकार सानो हुन्छ।
2. जब श्रेणीहरूले कुनै विशेष क्रम पालना गर्दैनन्।


> मुख्य बुँदाहरू:  
1. एनकोडिङ गैर-संख्यात्मक डाटालाई संख्यात्मक डाटामा रूपान्तरण गर्न गरिन्छ।  
2. एनकोडिङका दुई प्रकारहरू छन्: लेबल एनकोडिङ र वन हट एनकोडिङ, जसलाई डाटासेटको आवश्यकताका आधारमा प्रयोग गर्न सकिन्छ।  


## नक्कल डेटा हटाउने

> **अध्ययनको लक्ष्य:** यस उपविभागको अन्त्यसम्ममा, तपाईं DataFrames बाट नक्कल मानहरू पहिचान गर्न र हटाउन सहज हुनुहुनेछ।

हराएको डेटाका अतिरिक्त, तपाईं वास्तविक संसारका डेटासेटहरूमा प्रायः नक्कल डेटा भेट्टाउनुहुनेछ। सौभाग्यवश, pandas ले नक्कल प्रविष्टिहरू पत्ता लगाउन र हटाउन सजिलो उपाय प्रदान गर्दछ।


### डुप्लिकेटहरू पहिचान गर्ने: `duplicated`

तपाईंले pandas को `duplicated` विधि प्रयोग गरेर सजिलै डुप्लिकेट मानहरू पत्ता लगाउन सक्नुहुन्छ, जसले `DataFrame` मा कुनै इन्ट्री पहिलेको इन्ट्रीको डुप्लिकेट हो कि होइन भनेर जनाउने Boolean मास्क फिर्ता गर्छ। यसलाई व्यवहारमा हेर्नको लागि अर्को उदाहरण `DataFrame` बनाउँ।


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### डुप्लिकेटहरू हटाउँदै: `drop_duplicates`
`drop_duplicates` ले केवल ती डाटाको प्रतिलिपि फिर्ता गर्छ जसका लागि सबै `duplicated` मानहरू `False` हुन्छन्:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


`duplicated` र `drop_duplicates` दुबैले सबै स्तम्भहरूलाई विचार गर्न डिफल्ट गर्छन् तर तपाईं आफ्नो `DataFrame` मा केवल स्तम्भहरूको उपसमूहलाई जाँच गर्न निर्दिष्ट गर्न सक्नुहुन्छ:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2



---

**अस्वीकरण**:  
यो दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) प्रयोग गरी अनुवाद गरिएको हो। हामी यथासम्भव सटीकता सुनिश्चित गर्न प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादहरूमा त्रुटि वा अशुद्धता हुन सक्छ। यसको मूल भाषामा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्त्वपूर्ण जानकारीका लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न कुनै पनि गलतफहमी वा गलत व्याख्याका लागि हामी जिम्मेवार हुने छैनौं।  
