You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/bn/4-Data-Science-Lifecycle/15-analyzing/README.md

58 lines
13 KiB

<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "661dad02c3ac239644d34c1eb51e76f8",
"translation_date": "2025-09-06T20:39:07+00:00",
"source_file": "4-Data-Science-Lifecycle/15-analyzing/README.md",
"language_code": "bn"
}
-->
# ডেটা সায়েন্স লাইফসাইকেল: বিশ্লেষণ
|![ স্কেচনোট [(@sketchthedocs)](https://sketchthedocs.dev) দ্বারা ](../../sketchnotes/15-Analyzing.png)|
|:---:|
| ডেটা সায়েন্স লাইফসাইকেল: বিশ্লেষণ - _[@nitya](https://twitter.com/nitya) দ্বারা স্কেচনোট_ |
## [পূর্ব-লেকচার কুইজ](https://ff-quizzes.netlify.app/en/ds/quiz/28)
ডেটা লাইফসাইকেলের বিশ্লেষণ ধাপ নিশ্চিত করে যে ডেটা প্রস্তাবিত প্রশ্নগুলোর উত্তর দিতে পারে বা একটি নির্দিষ্ট সমস্যার সমাধান করতে পারে। এই ধাপটি একটি মডেল সঠিকভাবে এই প্রশ্ন এবং সমস্যাগুলো সমাধান করছে কিনা তা নিশ্চিত করতেও মনোযোগ দেয়। এই পাঠটি এক্সপ্লোরেটরি ডেটা অ্যানালাইসিস (EDA) বা অনুসন্ধানমূলক ডেটা বিশ্লেষণের উপর কেন্দ্রীভূত, যা ডেটার বৈশিষ্ট্য এবং সম্পর্ক নির্ধারণের কৌশল এবং মডেলিংয়ের জন্য ডেটা প্রস্তুত করতে ব্যবহৃত হয়।
আমরা [Kaggle](https://www.kaggle.com/balaka18/email-spam-classification-dataset-csv/version/1) থেকে একটি উদাহরণ ডেটাসেট ব্যবহার করব, যা দেখাবে কীভাবে এটি পাইথন এবং প্যান্ডাস লাইব্রেরি দিয়ে প্রয়োগ করা যায়। এই ডেটাসেটে ইমেইলে পাওয়া কিছু সাধারণ শব্দের সংখ্যা রয়েছে, এবং এই ইমেইলগুলোর উৎস অজ্ঞাত। এই ডিরেক্টরির [নোটবুক](notebook.ipynb) ব্যবহার করে অনুসরণ করুন।
## অনুসন্ধানমূলক ডেটা বিশ্লেষণ
লাইফসাইকেলের ক্যাপচার ধাপে ডেটা সংগ্রহ করা হয় এবং সমস্যাগুলো ও প্রশ্নগুলো চিহ্নিত করা হয়, কিন্তু আমরা কীভাবে জানব যে ডেটা চূড়ান্ত ফলাফলকে সমর্থন করতে পারবে?
মনে করুন, একজন ডেটা সায়েন্টিস্ট ডেটা সংগ্রহ করার সময় নিম্নলিখিত প্রশ্নগুলো করতে পারেন:
- এই সমস্যার সমাধানের জন্য আমার কাছে কি যথেষ্ট ডেটা আছে?
- এই সমস্যার জন্য ডেটার গুণমান কি গ্রহণযোগ্য?
- যদি এই ডেটার মাধ্যমে অতিরিক্ত তথ্য আবিষ্কার করি, তাহলে কি আমাদের লক্ষ্যগুলো পরিবর্তন বা পুনঃসংজ্ঞায়িত করা উচিত?
অনুসন্ধানমূলক ডেটা বিশ্লেষণ হলো ডেটাকে জানার প্রক্রিয়া এবং এটি এই প্রশ্নগুলোর উত্তর দিতে সাহায্য করতে পারে, পাশাপাশি ডেটাসেট নিয়ে কাজ করার চ্যালেঞ্জগুলো চিহ্নিত করতে পারে। চলুন, এই লক্ষ্য অর্জনের জন্য ব্যবহৃত কিছু কৌশল নিয়ে আলোচনা করি।
## ডেটা প্রোফাইলিং, বর্ণনামূলক পরিসংখ্যান, এবং প্যান্ডাস
আমাদের কাছে সমস্যার সমাধানের জন্য পর্যাপ্ত ডেটা আছে কিনা তা কীভাবে মূল্যায়ন করব? ডেটা প্রোফাইলিং বর্ণনামূলক পরিসংখ্যানের কৌশল ব্যবহার করে আমাদের ডেটাসেট সম্পর্কে সামগ্রিক তথ্য সংক্ষেপে জানাতে পারে। ডেটা প্রোফাইলিং আমাদের উপলব্ধ তথ্য সম্পর্কে ধারণা দেয়, এবং বর্ণনামূলক পরিসংখ্যান আমাদের জানায় কতগুলো তথ্য উপলব্ধ।
পূর্ববর্তী কয়েকটি পাঠে, আমরা প্যান্ডাস ব্যবহার করে [`describe()` ফাংশন](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html) দিয়ে কিছু বর্ণনামূলক পরিসংখ্যান পেয়েছি। এটি সংখ্যাসূচক ডেটার উপর গণনা, সর্বোচ্চ এবং সর্বনিম্ন মান, গড়, মান বিচ্যুতি এবং কোয়ান্টাইল প্রদান করে। `describe()` ফাংশনের মতো বর্ণনামূলক পরিসংখ্যান ব্যবহার করে আপনি মূল্যায়ন করতে পারেন আপনার কাছে কতটা ডেটা আছে এবং আরও প্রয়োজন কিনা।
## স্যাম্পলিং এবং কোয়েরি করা
একটি বড় ডেটাসেটের সবকিছু বিশ্লেষণ করা সময়সাপেক্ষ এবং সাধারণত এটি কম্পিউটারের উপর নির্ভর করে। তবে, স্যাম্পলিং একটি সহায়ক পদ্ধতি যা ডেটা বোঝার জন্য ব্যবহৃত হয় এবং এটি ডেটাসেটের বিষয়বস্তু এবং প্রতিনিধিত্ব সম্পর্কে একটি ভালো ধারণা দেয়। একটি স্যাম্পল ব্যবহার করে, আপনি সম্ভাব্যতা এবং পরিসংখ্যান প্রয়োগ করে ডেটা সম্পর্কে কিছু সাধারণ সিদ্ধান্তে পৌঁছাতে পারেন। যদিও কতটা ডেটা স্যাম্পল করা উচিত তার কোনো নির্ধারিত নিয়ম নেই, তবে মনে রাখা গুরুত্বপূর্ণ যে যত বেশি ডেটা স্যাম্পল করবেন, তত বেশি সুনির্দিষ্ট সাধারণীকরণ করতে পারবেন।
প্যান্ডাস লাইব্রেরিতে [`sample()` ফাংশন](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html) রয়েছে, যেখানে আপনি কতগুলো র‍্যান্ডম স্যাম্পল পেতে চান তা নির্দিষ্ট করতে পারেন।
ডেটার সাধারণ কোয়েরি করা আপনাকে কিছু সাধারণ প্রশ্ন এবং তত্ত্বের উত্তর দিতে সাহায্য করতে পারে। স্যাম্পলিংয়ের বিপরীতে, কোয়েরি আপনাকে নিয়ন্ত্রণ দেয় এবং ডেটার নির্দিষ্ট অংশে মনোযোগ কেন্দ্রীভূত করতে সাহায্য করে, যেগুলো সম্পর্কে আপনার প্রশ্ন রয়েছে।
প্যান্ডাস লাইব্রেরির [`query()` ফাংশন](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.query.html) আপনাকে কলাম নির্বাচন করতে এবং সারি থেকে সহজ উত্তর পেতে সাহায্য করে।
## ভিজ্যুয়ালাইজেশনের মাধ্যমে অনুসন্ধান
ডেটা সম্পূর্ণরূপে পরিষ্কার এবং বিশ্লেষণ শেষ হওয়ার জন্য অপেক্ষা করার প্রয়োজন নেই ভিজ্যুয়ালাইজেশন তৈরি করতে। বরং, অনুসন্ধানের সময় ভিজ্যুয়াল উপস্থাপনা তৈরি করলে প্যাটার্ন, সম্পর্ক এবং ডেটার সমস্যাগুলো চিহ্নিত করতে সাহায্য করে। তদ্ব্যতীত, ভিজ্যুয়ালাইজেশন এমন ব্যক্তিদের সাথে যোগাযোগের একটি মাধ্যম প্রদান করে যারা ডেটা পরিচালনায় জড়িত নয় এবং এটি ক্যাপচার ধাপে সমাধান না হওয়া অতিরিক্ত প্রশ্ন শেয়ার এবং পরিষ্কার করার সুযোগ হতে পারে। ভিজ্যুয়ালাইজেশন সম্পর্কে আরও জানতে [ভিজ্যুয়ালাইজেশন অধ্যায়](../../../../../../../../../3-Data-Visualization) দেখুন।
## অসঙ্গতি চিহ্নিত করার জন্য অনুসন্ধান
এই পাঠের সমস্ত বিষয়বস্তু অনুপস্থিত বা অসঙ্গত মান চিহ্নিত করতে সাহায্য করতে পারে, তবে প্যান্ডাস কিছু ফাংশন সরবরাহ করে যা এগুলো পরীক্ষা করতে পারে। [isna() বা isnull()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.isna.html) অনুপস্থিত মান পরীক্ষা করতে পারে। ডেটার মধ্যে এই মানগুলো কেন উপস্থিত হয়েছে তা অনুসন্ধান করা গুরুত্বপূর্ণ। এটি আপনাকে [সমাধানের জন্য পদক্ষেপ নেওয়ার]( /2-Working-With-Data/08-data-preparation/notebook.ipynb) সিদ্ধান্ত নিতে সাহায্য করতে পারে।
## [পোস্ট-লেকচার কুইজ](https://ff-quizzes.netlify.app/en/ds/quiz/29)
## অ্যাসাইনমেন্ট
[উত্তরের জন্য অনুসন্ধান](assignment.md)
---
**অস্বীকৃতি**:
এই নথিটি AI অনুবাদ পরিষেবা [Co-op Translator](https://github.com/Azure/co-op-translator) ব্যবহার করে অনুবাদ করা হয়েছে। আমরা যথাসম্ভব সঠিক অনুবাদের চেষ্টা করি, তবে অনুগ্রহ করে মনে রাখবেন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। নথিটির মূল ভাষায় লেখা সংস্করণটিকেই প্রামাণিক উৎস হিসেবে বিবেচনা করা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য, পেশাদার মানব অনুবাদ ব্যবহার করার পরামর্শ দেওয়া হচ্ছে। এই অনুবাদ ব্যবহারের ফলে সৃষ্ট কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যার জন্য আমরা দায়ী নই।