# ডেটা প্রস্তুতি

[মূল নোটবুক উৎস *ডেটা সায়েন্স: পাইথন এবং মেশিন লার্নিং স্টুডিওর জন্য মেশিন লার্নিং পরিচিতি - লি স্টট*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## `DataFrame` তথ্য অনুসন্ধান

> **শিক্ষার লক্ষ্য:** এই উপ-অধ্যায়ের শেষে, আপনি pandas DataFrame-এ সংরক্ষিত ডেটা সম্পর্কে সাধারণ তথ্য খুঁজে পেতে স্বাচ্ছন্দ্যবোধ করবেন।

যখন আপনি pandas-এ আপনার ডেটা লোড করবেন, এটি সম্ভবত একটি `DataFrame` আকারে থাকবে। তবে, যদি আপনার `DataFrame`-এ থাকা ডেটাসেটে ৬০,০০০ সারি এবং ৪০০ কলাম থাকে, তাহলে আপনি কীভাবে কাজ শুরু করবেন? সৌভাগ্যবশত, pandas কিছু সুবিধাজনক টুল সরবরাহ করে যা একটি `DataFrame`-এর সামগ্রিক তথ্য এবং প্রথম কয়েকটি ও শেষ কয়েকটি সারি দ্রুত দেখার সুযোগ দেয়।

এই কার্যকারিতা অনুসন্ধান করার জন্য, আমরা Python-এর scikit-learn লাইব্রেরি ইম্পোর্ট করব এবং একটি আইকনিক ডেটাসেট ব্যবহার করব যা প্রতিটি ডেটা সায়েন্টিস্ট শত শত বার দেখেছেন: ব্রিটিশ জীববিজ্ঞানী রোনাল্ড ফিশারের *আইরিস* ডেটাসেট, যা তিনি ১৯৩৬ সালে তার "The use of multiple measurements in taxonomic problems" শীর্ষক গবেষণাপত্রে ব্যবহার করেছিলেন:


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
আমরা `iris_df` ভেরিয়েবলে Iris Dataset লোড করেছি। ডেটাতে গভীরভাবে যাওয়ার আগে, আমাদের কাছে কতগুলো ডেটাপয়েন্ট আছে এবং ডেটাসেটের সামগ্রিক আকার জানা গুরুত্বপূর্ণ। আমরা যে ডেটার পরিমাণ নিয়ে কাজ করছি তা বোঝার জন্য এটি উপকারী।


In [2]:
iris_df.shape

(150, 4)

আমরা এখানে ১৫০ সারি এবং ৪টি কলামের ডেটা নিয়ে কাজ করছি। প্রতিটি সারি একটি ডেটাপয়েন্টকে উপস্থাপন করে এবং প্রতিটি কলাম ডেটা ফ্রেমের সাথে সম্পর্কিত একটি বৈশিষ্ট্যকে উপস্থাপন করে। সুতরাং, মূলত ১৫০টি ডেটাপয়েন্ট রয়েছে, যার প্রতিটিতে ৪টি বৈশিষ্ট্য রয়েছে।

`shape` এখানে ডেটা ফ্রেমের একটি অ্যাট্রিবিউট এবং এটি একটি ফাংশন নয়, যার কারণে এটি বন্ধনী দিয়ে শেষ হয় না।


### `DataFrame.columns`
এবার আমরা ডেটার ৪টি কলামে প্রবেশ করি। প্রতিটি কলাম আসলে কী বোঝায়? `columns` অ্যাট্রিবিউটটি আমাদের ডেটাফ্রেমের কলামগুলোর নাম জানাবে।


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

যেমন আমরা দেখতে পাচ্ছি, এখানে চার(৪)টি কলাম রয়েছে। `columns` অ্যাট্রিবিউট আমাদের কলামের নাম জানায় এবং মূলত আর কিছুই নয়। এই অ্যাট্রিবিউটটি গুরুত্বপূর্ণ হয়ে ওঠে যখন আমরা একটি ডেটাসেটে থাকা বৈশিষ্ট্যগুলি চিহ্নিত করতে চাই।


### `DataFrame.info`
ডেটার পরিমাণ (`shape` অ্যাট্রিবিউট দ্বারা প্রদত্ত) এবং ফিচার বা কলামের নামসমূহ (`columns` অ্যাট্রিবিউট দ্বারা প্রদত্ত) আমাদের ডেটাসেট সম্পর্কে কিছু ধারণা দেয়। এখন, আমরা ডেটাসেটটি আরও গভীরভাবে বিশ্লেষণ করতে চাই। এ ক্ষেত্রে, `DataFrame.info()` ফাংশনটি বেশ উপকারী।


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


এখান থেকে আমরা কিছু পর্যবেক্ষণ করতে পারি:  
1. প্রতিটি কলামের DataType: এই ডেটাসেটে, সমস্ত ডেটা ৬৪-বিট ফ্লোটিং-পয়েন্ট সংখ্যার আকারে সংরক্ষিত।  
2. Non-Null মানের সংখ্যা: ডেটা প্রস্তুতির ক্ষেত্রে null মানগুলোর সাথে কাজ করা একটি গুরুত্বপূর্ণ ধাপ। এটি নোটবুকে পরে আলোচনা করা হবে।  


### DataFrame.describe()
ধরুন আমাদের ডেটাসেটে অনেক সংখ্যাগত ডেটা রয়েছে। একক পরিবর্তনশীল পরিসংখ্যানগত হিসাব যেমন গড়, মধ্যমা, চতুর্থাংশ ইত্যাদি প্রতিটি কলামের উপর আলাদাভাবে করা যেতে পারে। `DataFrame.describe()` ফাংশন আমাদের ডেটাসেটের সংখ্যাগত কলামগুলোর একটি পরিসংখ্যানগত সারাংশ প্রদান করে।


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


উপরে প্রদর্শিত আউটপুট প্রতিটি কলামের মোট ডেটা পয়েন্টের সংখ্যা, গড়, মানক বিচ্যুতি, সর্বনিম্ন, নিম্ন চতুর্থাংশ (২৫%), মধ্যম (৫০%), উপরের চতুর্থাংশ (৭৫%) এবং সর্বোচ্চ মান দেখায়।


### `DataFrame.head`
উপরের সমস্ত ফাংশন এবং অ্যাট্রিবিউটগুলোর মাধ্যমে, আমরা ডেটাসেটের একটি শীর্ষ স্তরের ধারণা পেয়েছি। আমরা জানি ডেটাসেটে কতগুলো ডেটা পয়েন্ট আছে, কতগুলো বৈশিষ্ট্য আছে, প্রতিটি বৈশিষ্ট্যের ডেটা টাইপ কী এবং প্রতিটি বৈশিষ্ট্যের জন্য কতগুলো নন-নাল মান রয়েছে।

এখন সময় এসেছে ডেটা নিজেই দেখার। চলুন দেখি আমাদের `DataFrame`-এর প্রথম কয়েকটি সারি (প্রথম কয়েকটি ডেটা পয়েন্ট) কেমন দেখায়:


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


ডেটাসেটের আউটপুটে আমরা পাঁচ(৫)টি এন্ট্রি দেখতে পাচ্ছি। যদি আমরা বাম দিকে সূচকটি দেখি, তাহলে বুঝতে পারি যে এগুলো প্রথম পাঁচটি সারি।


### অনুশীলন:

উপরের উদাহরণ থেকে এটি স্পষ্ট যে, ডিফল্টভাবে `DataFrame.head` একটি `DataFrame`-এর প্রথম পাঁচটি সারি ফেরত দেয়। নিচের কোড সেলে, আপনি কি পাঁচটির বেশি সারি প্রদর্শনের কোনো উপায় বের করতে পারেন?


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
ডেটা দেখার আরেকটি উপায় হতে পারে শেষ থেকে (শুরুর পরিবর্তে)। `DataFrame.head`-এর বিপরীত হলো `DataFrame.tail`, যা একটি `DataFrame`-এর শেষ পাঁচটি সারি ফেরত দেয়:


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


ডেটাফ্রেম (`DataFrame`) এর প্রথম কয়েকটি সারি বা শেষ কয়েকটি সারি সহজেই পরীক্ষা করতে পারা খুবই উপকারী, বিশেষত যখন আপনি ক্রমানুসারে সাজানো ডেটাসেটে অস্বাভাবিক মান খুঁজছেন। 

উপরের কোড উদাহরণগুলোর মাধ্যমে প্রদর্শিত সমস্ত ফাংশন এবং অ্যাট্রিবিউট আমাদের ডেটার একটি সামগ্রিক ধারণা পেতে সাহায্য করে। 

> **মূল কথা:** শুধুমাত্র ডেটাফ্রেমের তথ্য সম্পর্কিত মেটাডেটা বা এর প্রথম এবং শেষ কয়েকটি মান দেখেই আপনি ডেটার আকার, গঠন এবং বিষয়বস্তু সম্পর্কে তাৎক্ষণিক ধারণা পেতে পারেন।


### অনুপস্থিত ডেটা
চলুন অনুপস্থিত ডেটা নিয়ে আলোচনা করি। অনুপস্থিত ডেটা তখন ঘটে, যখন কিছু কলামে কোনো মান সংরক্ষিত থাকে না।

একটি উদাহরণ নেওয়া যাক: ধরুন কেউ তার ওজন নিয়ে সচেতন এবং একটি জরিপে ওজনের ঘরটি পূরণ করেনি। তাহলে, সেই ব্যক্তির জন্য ওজনের মান অনুপস্থিত থাকবে।

বাস্তব জীবনের ডেটাসেটে বেশিরভাগ সময়েই অনুপস্থিত মান দেখা যায়।

**Pandas কীভাবে অনুপস্থিত ডেটা পরিচালনা করে**

Pandas দুটি উপায়ে অনুপস্থিত মান পরিচালনা করে। প্রথমটি আপনি আগের অংশগুলোতে দেখেছেন: `NaN`, বা Not a Number। এটি আসলে IEEE floating-point স্পেসিফিকেশনের একটি বিশেষ মান এবং এটি শুধুমাত্র অনুপস্থিত floating-point মান নির্দেশ করার জন্য ব্যবহৃত হয়।

Floating-point ছাড়া অন্যান্য অনুপস্থিত মানের জন্য, pandas Python এর `None` অবজেক্ট ব্যবহার করে। যদিও এটি বিভ্রান্তিকর মনে হতে পারে যে আপনি দুটি ভিন্ন ধরনের মান দেখতে পাবেন যা মূলত একই জিনিস নির্দেশ করে, তবে এই ডিজাইন পছন্দের পেছনে যথাযথ প্রোগ্রাম্যাটিক কারণ রয়েছে। বাস্তবে, এই পদ্ধতি pandas-কে বেশিরভাগ ক্ষেত্রে একটি ভালো সমাধান প্রদান করতে সক্ষম করে। তবে, `None` এবং `NaN` উভয়েরই কিছু সীমাবদ্ধতা রয়েছে, যা তাদের ব্যবহারের ক্ষেত্রে আপনাকে সচেতন থাকতে হবে।


### `None`: নন-ফ্লোট অনুপস্থিত ডেটা
যেহেতু `None` পাইথন থেকে আসে, এটি এমন NumPy এবং pandas অ্যারেতে ব্যবহার করা যায় না যেগুলোর ডেটা টাইপ `'object'` নয়। মনে রাখবেন, NumPy অ্যারে (এবং pandas-এর ডেটা স্ট্রাকচারগুলো) শুধুমাত্র এক ধরনের ডেটা ধারণ করতে পারে। এটি তাদের বৃহৎ পরিসরের ডেটা এবং গণনামূলক কাজের জন্য অসাধারণ ক্ষমতা প্রদান করে, তবে এটি তাদের নমনীয়তাকে সীমিত করে। এমন অ্যারেগুলোকে "সর্বনিম্ন সাধারণ গুণ" অর্থাৎ এমন ডেটা টাইপে আপকাস্ট করতে হয় যা অ্যারেতে থাকা সবকিছুকে অন্তর্ভুক্ত করতে পারে। যখন `None` অ্যারেতে থাকে, এর অর্থ আপনি পাইথন অবজেক্ট নিয়ে কাজ করছেন।

এটি বাস্তবে দেখতে, নিচের উদাহরণ অ্যারেটি বিবেচনা করুন (এর `dtype` লক্ষ্য করুন):


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

আপকাস্ট ডেটা টাইপের বাস্তবতা দুটি পার্শ্বপ্রতিক্রিয়া নিয়ে আসে। প্রথমত, অপারেশনগুলো সংকলিত NumPy কোডের পরিবর্তে ব্যাখ্যামূলক Python কোডের স্তরে সম্পন্ন হবে। মূলত, এর অর্থ হলো `Series` বা `DataFrames`-এ যদি `None` থাকে, তাহলে সংশ্লিষ্ট অপারেশনগুলো ধীরগতির হবে। যদিও আপনি সম্ভবত এই পারফরম্যান্সের প্রভাব লক্ষ্য করবেন না, বড় ডেটাসেটের ক্ষেত্রে এটি একটি সমস্যা হয়ে উঠতে পারে।

দ্বিতীয় পার্শ্বপ্রতিক্রিয়া প্রথমটির থেকে উদ্ভূত। কারণ `None` মূলত `Series` বা `DataFrame`-কে সাধারণ Python-এর জগতে ফিরিয়ে নিয়ে যায়, তাই যদি কোনো অ্যারে-তে `None` মান থাকে, NumPy/pandas-এর মতো অ্যাগ্রিগেশন ফাংশন যেমন `sum()` বা `min()` ব্যবহার করলে সাধারণত একটি ত্রুটি তৈরি হবে:


In [10]:
example1.sum()

TypeError: ignored

**মূল কথা**: পূর্ণসংখ্যা এবং `None` মানের মধ্যে যোগ (এবং অন্যান্য ক্রিয়াকলাপ) অনির্ধারিত, যা এমন ডেটাসেটের সাথে কাজ করার সীমাবদ্ধতা তৈরি করতে পারে যেখানে এগুলি অন্তর্ভুক্ত থাকে।


### `NaN`: অনুপস্থিত ফ্লোট মান

`None` এর বিপরীতে, NumPy (এবং সেইসাথে pandas) তার দ্রুত, ভেক্টরাইজড অপারেশন এবং ufuncs এর জন্য `NaN` সমর্থন করে। খারাপ খবর হলো, `NaN` এর উপর যেকোনো গাণিতিক ক্রিয়া সবসময় `NaN` ফলাফল দেয়। উদাহরণস্বরূপ:


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

ভালো খবর: `NaN` থাকা অ্যারেগুলিতে অ্যাগ্রিগেশন চালালে কোনো ত্রুটি প্রদর্শিত হয় না। খারাপ খবর: ফলাফলগুলি সর্বদা উপযোগী নয়:


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### ব্যায়াম:


In [11]:
# What happens if you add np.nan and None together?


মনে রাখবেন: `NaN` শুধুমাত্র অনুপস্থিত ফ্লোটিং-পয়েন্ট মানগুলির জন্য; পূর্ণসংখ্যা, স্ট্রিং বা বুলিয়ানের জন্য কোনও `NaN` সমতুল্য নেই।


### `NaN` এবং `None`: pandas-এ null মান

যদিও `NaN` এবং `None` কিছুটা ভিন্নভাবে আচরণ করতে পারে, pandas তবুও এগুলোকে একে অপরের পরিবর্তে ব্যবহার করার জন্য তৈরি করা হয়েছে। আমরা কী বোঝাতে চাই তা দেখতে, একটি পূর্ণসংখ্যার `Series` বিবেচনা করুন:


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### ব্যায়াম:


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


ডেটা টাইপগুলিকে একরূপতা নিশ্চিত করার জন্য `Series` এবং `DataFrame`-এ আপকাস্ট করার প্রক্রিয়ায়, pandas সহজেই অনুপস্থিত মানগুলিকে `None` এবং `NaN` এর মধ্যে পরিবর্তন করতে পারে। এই ডিজাইন বৈশিষ্ট্যের কারণে, pandas-এ `None` এবং `NaN`-কে "null" এর দুটি ভিন্ন রূপ হিসেবে ভাবা সহায়ক হতে পারে। প্রকৃতপক্ষে, pandas-এ অনুপস্থিত মানগুলির সাথে কাজ করার জন্য ব্যবহৃত কিছু প্রধান মেথডের নামেও এই ধারণাটি প্রতিফলিত হয়:

- `isnull()`: অনুপস্থিত মান নির্দেশ করার জন্য একটি বুলিয়ান মাস্ক তৈরি করে
- `notnull()`: `isnull()`-এর বিপরীত
- `dropna()`: ডেটার একটি ফিল্টার করা সংস্করণ প্রদান করে
- `fillna()`: অনুপস্থিত মান পূরণ বা ইম্পুট করে ডেটার একটি কপি প্রদান করে

এই মেথডগুলো আয়ত্ত করা এবং সেগুলোর সাথে স্বাচ্ছন্দ্য বোধ করা অত্যন্ত গুরুত্বপূর্ণ, তাই চলুন প্রতিটি মেথড নিয়ে একটু গভীরভাবে আলোচনা করি।


### নাল মান সনাক্ত করা

এখন যেহেতু আমরা অনুপস্থিত মানগুলোর গুরুত্ব বুঝেছি, আমাদের ডেটাসেটে সেগুলো সনাক্ত করতে হবে, তারপরে সেগুলো নিয়ে কাজ করতে হবে।  
`isnull()` এবং `notnull()` উভয়ই নাল ডেটা সনাক্ত করার জন্য আপনার প্রধান পদ্ধতি। উভয়ই আপনার ডেটার উপর বুলিয়ান মাস্ক প্রদান করে।


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

আউটপুটটি ভালোভাবে দেখুন। এর মধ্যে কি কিছু আপনাকে অবাক করছে? যদিও `0` একটি গাণিতিক শূন্য, এটি তবুও একটি সম্পূর্ণ সংখ্যার ভালো উদাহরণ এবং pandas এটিকে সেইভাবেই বিবেচনা করে। `''` একটু বেশি সূক্ষ্ম। আমরা এটি অধ্যায় ১-এ একটি খালি স্ট্রিং মান হিসেবে ব্যবহার করেছিলাম, তবে এটি একটি স্ট্রিং অবজেক্ট এবং pandas-এর দৃষ্টিতে এটি শূন্যের প্রতিনিধিত্ব করে না।

এখন, চলুন এটি উল্টে দেখি এবং এই পদ্ধতিগুলোকে এমনভাবে ব্যবহার করি যেভাবে আপনি বাস্তবে ব্যবহার করবেন। আপনি Boolean মাস্কগুলো সরাসরি ``Series`` বা ``DataFrame`` ইনডেক্স হিসেবে ব্যবহার করতে পারেন, যা বিচ্ছিন্ন অনুপস্থিত (বা উপস্থিত) মান নিয়ে কাজ করার সময় কার্যকর হতে পারে।

যদি আমরা অনুপস্থিত মানগুলোর মোট সংখ্যা জানতে চাই, তাহলে আমরা `isnull()` পদ্ধতির মাধ্যমে তৈরি হওয়া মাস্কের উপর একটি যোগফল করতে পারি।


In [19]:
example3.isnull().sum()

2

### ব্যায়াম:


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**মূল কথা**: উভয় `isnull()` এবং `notnull()` পদ্ধতি DataFrame-এ ব্যবহার করলে একই ধরনের ফলাফল প্রদান করে: এগুলো ফলাফল এবং সেই ফলাফলের সূচক প্রদর্শন করে, যা আপনার ডেটা নিয়ে কাজ করার সময় আপনাকে অত্যন্ত সাহায্য করবে।


### অনুপস্থিত ডেটা সামলানো

> **শিক্ষার লক্ষ্য:** এই উপ-অধ্যায়ের শেষে, আপনি জানতে পারবেন কীভাবে এবং কখন DataFrames থেকে শূন্য মান প্রতিস্থাপন বা সরিয়ে ফেলা যায়।

মেশিন লার্নিং মডেলগুলো নিজেরাই অনুপস্থিত ডেটা সামলাতে পারে না। তাই, মডেলে ডেটা পাঠানোর আগে আমাদের এই অনুপস্থিত মানগুলো সামলাতে হবে।

অনুপস্থিত ডেটা কীভাবে সামলানো হয়, তার সঙ্গে সূক্ষ্ম সমঝোতা জড়িত থাকে, যা আপনার চূড়ান্ত বিশ্লেষণ এবং বাস্তব জীবনের ফলাফলে প্রভাব ফেলতে পারে।

মূলত অনুপস্থিত ডেটা সামলানোর দুটি প্রধান পদ্ধতি রয়েছে:

1.   অনুপস্থিত মান থাকা সারিটি বাদ দেওয়া
2.   অনুপস্থিত মানটি অন্য কোনো মান দিয়ে প্রতিস্থাপন করা

আমরা এই দুটি পদ্ধতি এবং তাদের সুবিধা ও অসুবিধাগুলো বিস্তারিতভাবে আলোচনা করব।


### নাল মান বাদ দেওয়া

আমাদের মডেলে যে পরিমাণ ডেটা আমরা সরবরাহ করি, তা তার কার্যক্ষমতার উপর সরাসরি প্রভাব ফেলে। নাল মান বাদ দেওয়ার অর্থ হলো আমরা ডেটাপয়েন্টের সংখ্যা কমাচ্ছি, এবং সেইসঙ্গে ডেটাসেটের আকারও কমাচ্ছি। তাই, যখন ডেটাসেট বেশ বড় হয়, তখন নাল মানযুক্ত সারি বাদ দেওয়া পরামর্শযোগ্য।

আরেকটি উদাহরণ হতে পারে যে কোনো নির্দিষ্ট সারি বা কলামে অনেক বেশি অনুপস্থিত মান রয়েছে। সেক্ষেত্রে, সেগুলো বাদ দেওয়া যেতে পারে কারণ সেগুলো আমাদের বিশ্লেষণে খুব বেশি মূল্য যোগ করবে না যেহেতু সেই সারি/কলামের বেশিরভাগ ডেটা অনুপস্থিত।

অনুপস্থিত মান সনাক্ত করার বাইরে, pandas `Series` এবং `DataFrame` থেকে নাল মান সরানোর একটি সুবিধাজনক উপায় প্রদান করে। এটি বাস্তবে দেখতে, চলুন `example3`-এ ফিরে যাই। `DataFrame.dropna()` ফাংশন নাল মানযুক্ত সারি বাদ দিতে সাহায্য করে।


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

দ্রষ্টব্য যে এটি আপনার `example3[example3.notnull()]` এর আউটপুটের মতো দেখাবে। এখানে পার্থক্য হলো, কেবলমাত্র মাস্ক করা মানগুলোর উপর ইনডেক্সিং করার পরিবর্তে, `dropna` সেই অনুপস্থিত মানগুলোকে `Series` `example3` থেকে সরিয়ে দিয়েছে।

যেহেতু DataFrame-গুলোর দুটি মাত্রা রয়েছে, তাই ডেটা বাদ দেওয়ার জন্য এগুলো আরও বেশি বিকল্প প্রদান করে।


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


(আপনি কি লক্ষ্য করেছেন যে pandas দুটি কলামকে `NaN` এর কারণে ফ্লোটে আপকাস্ট করেছে?)

আপনি একটি `DataFrame` থেকে একটি একক মান বাদ দিতে পারবেন না, তাই আপনাকে সম্পূর্ণ সারি বা কলাম বাদ দিতে হবে। আপনি কী করছেন তার উপর নির্ভর করে, আপনি একটির পরিবর্তে অন্যটি করতে চাইতে পারেন, এবং তাই pandas আপনাকে উভয়ের জন্য বিকল্প দেয়। কারণ ডেটা সায়েন্সে, কলাম সাধারণত ভেরিয়েবল এবং সারি পর্যবেক্ষণকে উপস্থাপন করে, আপনি সম্ভবত ডেটার সারি বাদ দিতে চাইবেন; `dropna()` এর ডিফল্ট সেটিং হল সমস্ত সারি বাদ দেওয়া যা কোনো null মান ধারণ করে:


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


যদি প্রয়োজন হয়, আপনি কলাম থেকে NA মান বাদ দিতে পারেন। এর জন্য `axis=1` ব্যবহার করুন:


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


লক্ষ্য করুন যে এটি অনেক ডেটা বাদ দিতে পারে যা আপনি হয়তো রাখতে চাইবেন, বিশেষত ছোট ডেটাসেটে। যদি আপনি কেবল এমন সারি বা কলাম বাদ দিতে চান যেগুলিতে কয়েকটি বা এমনকি সব null মান রয়েছে? আপনি `dropna`-তে `how` এবং `thresh` প্যারামিটার দিয়ে এই সেটিং নির্ধারণ করতে পারেন।

ডিফল্টভাবে, `how='any'` (যদি আপনি নিজে পরীক্ষা করতে চান বা দেখতে চান যে এই মেথডের অন্য কী প্যারামিটার রয়েছে, তাহলে একটি কোড সেলে `example4.dropna?` চালান)। আপনি বিকল্পভাবে `how='all'` নির্ধারণ করতে পারেন, যাতে কেবল সেই সারি বা কলাম বাদ দেওয়া হয় যেগুলিতে সব null মান রয়েছে। চলুন আমাদের উদাহরণ `DataFrame` প্রসারিত করি এবং এটি পরবর্তী অনুশীলনে কার্যকরভাবে দেখি।


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> মূল বিষয়গুলো:
1. শুধুমাত্র তখনই null মান বাদ দেওয়া উচিত যদি ডেটাসেট যথেষ্ট বড় হয়।
2. পুরো সারি বা কলাম বাদ দেওয়া যেতে পারে যদি তাদের বেশিরভাগ ডেটা অনুপস্থিত থাকে।
3. `DataFrame.dropna(axis=)` মেথডটি null মান বাদ দিতে সাহায্য করে। এখানে `axis` আর্গুমেন্টটি নির্দেশ করে যে সারি বাদ দেওয়া হবে নাকি কলাম।
4. `how` আর্গুমেন্টটিও ব্যবহার করা যেতে পারে। ডিফল্টভাবে এটি `any` তে সেট করা থাকে। তাই এটি শুধুমাত্র সেই সারি/কলাম বাদ দেয় যেখানে কোনো null মান থাকে। এটি `all` এ সেট করা যেতে পারে, যা নির্দেশ করে যে শুধুমাত্র সেই সারি/কলাম বাদ দেওয়া হবে যেখানে সব মান null।


### ব্যায়াম:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


`thresh` প্যারামিটার আপনাকে আরও সূক্ষ্ম নিয়ন্ত্রণ দেয়: আপনি সেট করেন একটি সারি বা কলামে *অ-শূন্য* মানের সংখ্যা যা ধরে রাখার জন্য প্রয়োজন।


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


এখানে প্রথম এবং শেষ সারি বাদ দেওয়া হয়েছে, কারণ এগুলিতে শুধুমাত্র দুটি নন-নাল মান রয়েছে।


### নাল মান পূরণ করা

কখনও কখনও অনুপস্থিত মানগুলো এমন মান দিয়ে পূরণ করা যৌক্তিক হতে পারে যা বৈধ হতে পারে। নাল মান পূরণের জন্য কিছু কৌশল রয়েছে। প্রথমটি হলো ডোমেইন জ্ঞান (ডেটাসেট যে বিষয়ের উপর ভিত্তি করে তৈরি, সেই বিষয়ের জ্ঞান) ব্যবহার করে কোনোভাবে অনুপস্থিত মানগুলো অনুমান করা। 

আপনি `isnull` ব্যবহার করে এটি সরাসরি করতে পারেন, তবে এটি সময়সাপেক্ষ হতে পারে, বিশেষত যদি অনেক মান পূরণ করতে হয়। যেহেতু এটি ডেটা সায়েন্সে একটি সাধারণ কাজ, pandas `fillna` প্রদান করে, যা একটি `Series` বা `DataFrame`-এর কপি ফেরত দেয় যেখানে অনুপস্থিত মানগুলো আপনার পছন্দমতো মান দিয়ে প্রতিস্থাপিত হয়। চলুন আরেকটি উদাহরণ `Series` তৈরি করি এবং দেখি এটি বাস্তবে কীভাবে কাজ করে।


### শ্রেণীবদ্ধ ডেটা (অ-সংখ্যাসূচক)
প্রথমে আমরা অ-সংখ্যাসূচক ডেটা নিয়ে আলোচনা করি। ডেটাসেটে, আমাদের কাছে শ্রেণীবদ্ধ ডেটা সহ কলাম থাকে। যেমন: লিঙ্গ, সত্য বা মিথ্যা ইত্যাদি।

এই ধরনের ক্ষেত্রে, আমরা সাধারণত কলামের `mode` দিয়ে অনুপস্থিত মানগুলো পূরণ করি। ধরুন, আমাদের কাছে ১০০টি ডেটা পয়েন্ট আছে, যার মধ্যে ৯০টি "সত্য" বলেছে, ৮টি "মিথ্যা" বলেছে এবং ২টি পূরণ করা হয়নি। তাহলে, আমরা পুরো কলাম বিবেচনা করে সেই ২টি "সত্য" দিয়ে পূরণ করতে পারি।

আবার, এখানে আমরা ডোমেইন জ্ঞান ব্যবহার করতে পারি। চলুন একটি উদাহরণ দেখি যেখানে `mode` দিয়ে পূরণ করা হয়েছে।


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


যেমন আমরা দেখতে পাচ্ছি, null মানটি প্রতিস্থাপিত হয়েছে। বলার অপেক্ষা রাখে না, আমরা `'True'` এর জায়গায় যেকোনো কিছু লিখতে পারতাম এবং সেটি প্রতিস্থাপিত হত।


### সংখ্যাগত ডেটা
এখন, সংখ্যাগত ডেটার দিকে আসা যাক। এখানে, অনুপস্থিত মান প্রতিস্থাপনের দুটি সাধারণ পদ্ধতি রয়েছে:

1. সারির মধ্যম (Median) দিয়ে প্রতিস্থাপন
2. সারির গড় (Mean) দিয়ে প্রতিস্থাপন

যখন ডেটা আউটলাইয়ারসহ তির্যক (skewed) হয়, তখন আমরা মধ্যম দিয়ে প্রতিস্থাপন করি। কারণ মধ্যম আউটলাইয়ারের প্রতি সংবেদনশীল নয়।

যখন ডেটা স্বাভাবিকীকৃত হয়, তখন আমরা গড় ব্যবহার করতে পারি, কারণ সেই ক্ষেত্রে গড় এবং মধ্যম প্রায় কাছাকাছি থাকে।

প্রথমে, চলুন একটি কলাম নিই যা স্বাভাবিকভাবে বিতরণ করা হয়েছে এবং কলামের গড় দিয়ে অনুপস্থিত মান পূরণ করি।


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


কলামের গড় হল


In [33]:
np.mean(fill_with_mean[0])

0.0

In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


যেমন আমরা দেখতে পাচ্ছি, অনুপস্থিত মানটি তার গড় দিয়ে প্রতিস্থাপিত হয়েছে।


এবার আসুন আমরা আরেকটি ডেটাফ্রেম চেষ্টা করি, এবং এইবার আমরা None মানগুলোকে কলামের মধ্যম মান দিয়ে প্রতিস্থাপন করব।


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


দ্বিতীয় কলামের মধ্যমা হল


In [36]:
fill_with_median[1].median()

4.0

মিডিয়ান দিয়ে পূরণ করা


In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


যেমনটি আমরা দেখতে পাচ্ছি, NaN মানটি কলামের মধ্যম দ্বারা প্রতিস্থাপিত হয়েছে


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

আপনি সমস্ত শূন্য এন্ট্রি একটি একক মান, যেমন `0` দিয়ে পূরণ করতে পারেন:


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> মূল বিষয়সমূহ:
1. অনুপস্থিত মান পূরণ করা উচিত যখন ডেটা কম থাকে বা অনুপস্থিত ডেটা পূরণের জন্য একটি কৌশল থাকে।
2. ডোমেইন জ্ঞান ব্যবহার করে অনুপস্থিত মান আনুমানিকভাবে পূরণ করা যেতে পারে।
3. শ্রেণীবদ্ধ ডেটার ক্ষেত্রে, সাধারণত অনুপস্থিত মান কলামের মোড দিয়ে প্রতিস্থাপন করা হয়।
4. সংখ্যাসূচক ডেটার ক্ষেত্রে, অনুপস্থিত মান সাধারণত কলামের গড় (স্বাভাবিককৃত ডেটাসেটের জন্য) বা মধ্যমা দিয়ে পূরণ করা হয়।


### ব্যায়াম:


In [40]:
# What happens if you try to fill null values with a string, like ''?


আপনি **forward-fill** পদ্ধতিতে null মান পূরণ করতে পারেন, যা হল শেষ বৈধ মানটি ব্যবহার করে null পূরণ করা:


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

আপনি এছাড়াও **ব্যাক-ফিল** ব্যবহার করে একটি শূন্যস্থান পূরণের জন্য পরবর্তী বৈধ মানটি পিছনের দিকে প্রচার করতে পারেন:


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

যেমন আপনি অনুমান করতে পারেন, এটি DataFrames এর সাথে একইভাবে কাজ করে, তবে আপনি null মান পূরণ করার জন্য একটি `axis` নির্দিষ্ট করতে পারেন:


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


যখন একটি পূর্ববর্তী মান ফরোয়ার্ড-ফিলিংয়ের জন্য উপলব্ধ নয়, তখন শূন্য মানটি রয়ে যায়।


### ব্যায়াম:


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


আপনি `fillna` ব্যবহার করার ক্ষেত্রে সৃজনশীল হতে পারেন। উদাহরণস্বরূপ, আসুন আবার `example4` এর দিকে তাকাই, তবে এবার চলুন অনুপস্থিত মানগুলোকে `DataFrame`-এর সমস্ত মানের গড় দিয়ে পূরণ করি:


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


লক্ষ্য করুন যে তৃতীয় কলাম এখনও শূন্য: ডিফল্ট দিক হলো সারি অনুযায়ী মান পূরণ করা।

> **মূল কথা:** আপনার ডেটাসেটে অনুপস্থিত মানগুলোর সাথে মোকাবিলা করার বিভিন্ন উপায় রয়েছে। আপনি যে নির্দিষ্ট কৌশল ব্যবহার করবেন (তাদের সরিয়ে ফেলা, প্রতিস্থাপন করা, বা কীভাবে প্রতিস্থাপন করবেন) তা সেই ডেটার বিশেষত্ব দ্বারা নির্ধারিত হওয়া উচিত। আপনি যত বেশি ডেটাসেট পরিচালনা করবেন এবং তাদের সাথে কাজ করবেন, অনুপস্থিত মানগুলোর সাথে কীভাবে মোকাবিলা করতে হবে তা সম্পর্কে আরও ভালো ধারণা তৈরি করবেন।


### শ্রেণীবদ্ধ ডেটা এনকোডিং

মেশিন লার্নিং মডেল শুধুমাত্র সংখ্যা এবং যেকোনো ধরনের সংখ্যাসূচক ডেটা নিয়ে কাজ করে। এটি "হ্যাঁ" এবং "না"-এর মধ্যে পার্থক্য বুঝতে পারবে না, তবে এটি 0 এবং 1-এর মধ্যে পার্থক্য করতে পারবে। তাই, অনুপস্থিত মান পূরণের পর, আমাদের শ্রেণীবদ্ধ ডেটাকে কিছু সংখ্যাসূচক রূপে এনকোড করতে হবে যাতে মডেল এটি বুঝতে পারে।

এনকোডিং দুটি উপায়ে করা যেতে পারে। আমরা পরবর্তী অংশে সেগুলো নিয়ে আলোচনা করব।


**লেবেল এনকোডিং**

লেবেল এনকোডিং মূলত প্রতিটি ক্যাটাগরিকে একটি সংখ্যা হিসেবে রূপান্তরিত করা। উদাহরণস্বরূপ, ধরুন আমাদের কাছে একটি এয়ারলাইন যাত্রীদের ডেটাসেট রয়েছে এবং সেখানে একটি কলাম আছে যা তাদের ক্লাস নির্দেশ করে ['বিজনেস ক্লাস', 'ইকোনমি ক্লাস', 'ফার্স্ট ক্লাস'] এর মধ্যে। যদি লেবেল এনকোডিং করা হয়, এটি [0,1,2] এ রূপান্তরিত হবে। চলুন কোডের মাধ্যমে একটি উদাহরণ দেখি। যেহেতু আমরা পরবর্তী নোটবুকে `scikit-learn` শিখব, তাই এখানে এটি ব্যবহার করব না।


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


প্রথম কলামে লেবেল এনকোডিং সম্পাদন করতে, আমাদের প্রথমে প্রতিটি শ্রেণী থেকে একটি সংখ্যার জন্য একটি ম্যাপিং বর্ণনা করতে হবে, তারপরে প্রতিস্থাপন করতে হবে।


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


যেমন আমরা দেখতে পাচ্ছি, আউটপুটটি আমাদের প্রত্যাশার সাথে মিলে গেছে। তাহলে, লেবেল এনকোডিং কখন ব্যবহার করা হয়? লেবেল এনকোডিং নিম্নলিখিত যেকোনো একটি বা উভয় ক্ষেত্রে ব্যবহার করা হয়:
1. যখন ক্যাটেগরির সংখ্যা অনেক বেশি হয়
2. যখন ক্যাটেগরিগুলি একটি নির্দিষ্ট ক্রমে থাকে।


**ওয়ান হট এনকোডিং**

আরেক ধরনের এনকোডিং হলো ওয়ান হট এনকোডিং। এই ধরনের এনকোডিংয়ে, একটি কলামের প্রতিটি ক্যাটেগরি আলাদা কলাম হিসেবে যুক্ত হয় এবং প্রতিটি ডেটাপয়েন্ট ০ বা ১ পায় এই ভিত্তিতে যে সেটি সেই ক্যাটেগরিটি ধারণ করে কিনা। সুতরাং, যদি n সংখ্যক ভিন্ন ক্যাটেগরি থাকে, তাহলে n সংখ্যক কলাম ডেটাফ্রেমে যোগ হবে।

উদাহরণস্বরূপ, চলুন আগের বিমান শ্রেণির উদাহরণটি দেখি। ক্যাটেগরিগুলো ছিল: ['business class', 'economy class', 'first class']। সুতরাং, যদি আমরা ওয়ান হট এনকোডিং করি, তাহলে ডেটাসেটে নিম্নলিখিত তিনটি কলাম যুক্ত হবে: ['class_business class', 'class_economy class', 'class_first class']।


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


চলুন প্রথম কলামে এক হট এনকোডিং সম্পাদন করি


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


প্রতিটি হট এনকোডেড কলামে 0 বা 1 থাকে, যা নির্ধারণ করে যে সেই বিভাগটি সেই ডেটাপয়েন্টের জন্য বিদ্যমান কিনা।


এক হট এনকোডিং কখন ব্যবহার করা হয়? এক হট এনকোডিং নিম্নলিখিত যেকোনো একটি বা উভয় ক্ষেত্রে ব্যবহার করা হয়:

1. যখন ক্যাটেগরির সংখ্যা এবং ডেটাসেটের আকার ছোট হয়।
2. যখন ক্যাটেগরিগুলোর মধ্যে কোনো নির্দিষ্ট ক্রম থাকে না।


> মূল বিষয়সমূহ:
1. এনকোডিং ব্যবহার করা হয় অ-সংখ্যাসূচক ডেটাকে সংখ্যাসূচক ডেটায় রূপান্তর করার জন্য।
2. এনকোডিংয়ের দুই ধরনের পদ্ধতি রয়েছে: লেবেল এনকোডিং এবং ওয়ান হট এনকোডিং, যা ডেটাসেটের প্রয়োজন অনুযায়ী প্রয়োগ করা যেতে পারে।


## ডুপ্লিকেট ডেটা সরানো

> **শিক্ষার লক্ষ্য:** এই উপ-অধ্যায়ের শেষে, আপনি DataFrames থেকে ডুপ্লিকেট মান সনাক্ত এবং সরাতে স্বাচ্ছন্দ্যবোধ করবেন।

অনুপস্থিত ডেটার পাশাপাশি, বাস্তব জীবনের ডেটাসেটে প্রায়ই ডুপ্লিকেট ডেটার সম্মুখীন হতে হয়। সৌভাগ্যবশত, pandas ডুপ্লিকেট এন্ট্রি সনাক্ত এবং সরানোর একটি সহজ উপায় প্রদান করে।


### ডুপ্লিকেট সনাক্ত করা: `duplicated`

আপনি সহজেই ডুপ্লিকেট মানগুলো সনাক্ত করতে পারেন pandas-এর `duplicated` মেথড ব্যবহার করে, যা একটি বুলিয়ান মাস্ক প্রদান করে যা নির্দেশ করে যে একটি `DataFrame`-এর কোনো এন্ট্রি আগের একটি এন্ট্রির ডুপ্লিকেট কিনা। চলুন এটি কার্যকরভাবে দেখার জন্য আরেকটি উদাহরণ `DataFrame` তৈরি করি।


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### ডুপ্লিকেট সরানো: `drop_duplicates`
`drop_duplicates` কেবল সেই ডেটার একটি কপি প্রদান করে যার জন্য সমস্ত `duplicated` মান `False`:


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


`duplicated` এবং `drop_duplicates` ডিফল্টভাবে সমস্ত কলাম বিবেচনা করে, তবে আপনি নির্দিষ্ট করতে পারেন যে তারা আপনার `DataFrame`-এর শুধুমাত্র একটি কলামের উপসেট পরীক্ষা করবে:


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2


> **মূল কথা:** ডুপ্লিকেট ডেটা অপসারণ প্রায় প্রতিটি ডেটা-সায়েন্স প্রকল্পের একটি গুরুত্বপূর্ণ অংশ। ডুপ্লিকেট ডেটা আপনার বিশ্লেষণের ফলাফল পরিবর্তন করতে পারে এবং আপনাকে ভুল ফলাফল দিতে পারে!



---

**অস্বীকৃতি**:  
এই নথিটি AI অনুবাদ পরিষেবা [Co-op Translator](https://github.com/Azure/co-op-translator) ব্যবহার করে অনুবাদ করা হয়েছে। আমরা যথাসাধ্য সঠিক অনুবাদের চেষ্টা করি, তবে দয়া করে মনে রাখবেন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। নথিটির মূল ভাষায় থাকা সংস্করণটিকেই প্রামাণিক উৎস হিসেবে বিবেচনা করা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য, পেশাদার মানব অনুবাদ সুপারিশ করা হয়। এই অনুবাদ ব্যবহারের ফলে সৃষ্ট কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যার জন্য আমরা দায়ী নই।
