# ডেটা সায়েন্স লাইফসাইকেল: বিশ্লেষণ |![ স্কেচনোট [(@sketchthedocs)](https://sketchthedocs.dev) দ্বারা ](../../sketchnotes/15-Analyzing.png)| |:---:| | ডেটা সায়েন্স লাইফসাইকেল: বিশ্লেষণ - _[@nitya](https://twitter.com/nitya) দ্বারা স্কেচনোট_ | ## [পূর্ব-লেকচার কুইজ](https://ff-quizzes.netlify.app/en/ds/quiz/28) ডেটা লাইফসাইকেলের বিশ্লেষণ ধাপ নিশ্চিত করে যে ডেটা প্রস্তাবিত প্রশ্নগুলোর উত্তর দিতে পারে বা একটি নির্দিষ্ট সমস্যার সমাধান করতে পারে। এই ধাপটি একটি মডেল সঠিকভাবে এই প্রশ্ন এবং সমস্যাগুলো সমাধান করছে কিনা তা নিশ্চিত করতেও মনোযোগ দেয়। এই পাঠটি এক্সপ্লোরেটরি ডেটা অ্যানালাইসিস (EDA) বা অনুসন্ধানমূলক ডেটা বিশ্লেষণের উপর কেন্দ্রীভূত, যা ডেটার বৈশিষ্ট্য এবং সম্পর্ক নির্ধারণের কৌশল এবং মডেলিংয়ের জন্য ডেটা প্রস্তুত করতে ব্যবহৃত হয়। আমরা [Kaggle](https://www.kaggle.com/balaka18/email-spam-classification-dataset-csv/version/1) থেকে একটি উদাহরণ ডেটাসেট ব্যবহার করব, যা দেখাবে কীভাবে এটি পাইথন এবং প্যান্ডাস লাইব্রেরি দিয়ে প্রয়োগ করা যায়। এই ডেটাসেটে ইমেইলে পাওয়া কিছু সাধারণ শব্দের সংখ্যা রয়েছে, এবং এই ইমেইলগুলোর উৎস অজ্ঞাত। এই ডিরেক্টরির [নোটবুক](notebook.ipynb) ব্যবহার করে অনুসরণ করুন। ## অনুসন্ধানমূলক ডেটা বিশ্লেষণ লাইফসাইকেলের ক্যাপচার ধাপে ডেটা সংগ্রহ করা হয় এবং সমস্যাগুলো ও প্রশ্নগুলো চিহ্নিত করা হয়, কিন্তু আমরা কীভাবে জানব যে ডেটা চূড়ান্ত ফলাফলকে সমর্থন করতে পারবে? মনে করুন, একজন ডেটা সায়েন্টিস্ট ডেটা সংগ্রহ করার সময় নিম্নলিখিত প্রশ্নগুলো করতে পারেন: - এই সমস্যার সমাধানের জন্য আমার কাছে কি যথেষ্ট ডেটা আছে? - এই সমস্যার জন্য ডেটার গুণমান কি গ্রহণযোগ্য? - যদি এই ডেটার মাধ্যমে অতিরিক্ত তথ্য আবিষ্কার করি, তাহলে কি আমাদের লক্ষ্যগুলো পরিবর্তন বা পুনঃসংজ্ঞায়িত করা উচিত? অনুসন্ধানমূলক ডেটা বিশ্লেষণ হলো ডেটাকে জানার প্রক্রিয়া এবং এটি এই প্রশ্নগুলোর উত্তর দিতে সাহায্য করতে পারে, পাশাপাশি ডেটাসেট নিয়ে কাজ করার চ্যালেঞ্জগুলো চিহ্নিত করতে পারে। চলুন, এই লক্ষ্য অর্জনের জন্য ব্যবহৃত কিছু কৌশল নিয়ে আলোচনা করি। ## ডেটা প্রোফাইলিং, বর্ণনামূলক পরিসংখ্যান, এবং প্যান্ডাস আমাদের কাছে সমস্যার সমাধানের জন্য পর্যাপ্ত ডেটা আছে কিনা তা কীভাবে মূল্যায়ন করব? ডেটা প্রোফাইলিং বর্ণনামূলক পরিসংখ্যানের কৌশল ব্যবহার করে আমাদের ডেটাসেট সম্পর্কে সামগ্রিক তথ্য সংক্ষেপে জানাতে পারে। ডেটা প্রোফাইলিং আমাদের উপলব্ধ তথ্য সম্পর্কে ধারণা দেয়, এবং বর্ণনামূলক পরিসংখ্যান আমাদের জানায় কতগুলো তথ্য উপলব্ধ। পূর্ববর্তী কয়েকটি পাঠে, আমরা প্যান্ডাস ব্যবহার করে [`describe()` ফাংশন](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html) দিয়ে কিছু বর্ণনামূলক পরিসংখ্যান পেয়েছি। এটি সংখ্যাসূচক ডেটার উপর গণনা, সর্বোচ্চ এবং সর্বনিম্ন মান, গড়, মান বিচ্যুতি এবং কোয়ান্টাইল প্রদান করে। `describe()` ফাংশনের মতো বর্ণনামূলক পরিসংখ্যান ব্যবহার করে আপনি মূল্যায়ন করতে পারেন আপনার কাছে কতটা ডেটা আছে এবং আরও প্রয়োজন কিনা। ## স্যাম্পলিং এবং কোয়েরি করা একটি বড় ডেটাসেটের সবকিছু বিশ্লেষণ করা সময়সাপেক্ষ এবং সাধারণত এটি কম্পিউটারের উপর নির্ভর করে। তবে, স্যাম্পলিং একটি সহায়ক পদ্ধতি যা ডেটা বোঝার জন্য ব্যবহৃত হয় এবং এটি ডেটাসেটের বিষয়বস্তু এবং প্রতিনিধিত্ব সম্পর্কে একটি ভালো ধারণা দেয়। একটি স্যাম্পল ব্যবহার করে, আপনি সম্ভাব্যতা এবং পরিসংখ্যান প্রয়োগ করে ডেটা সম্পর্কে কিছু সাধারণ সিদ্ধান্তে পৌঁছাতে পারেন। যদিও কতটা ডেটা স্যাম্পল করা উচিত তার কোনো নির্ধারিত নিয়ম নেই, তবে মনে রাখা গুরুত্বপূর্ণ যে যত বেশি ডেটা স্যাম্পল করবেন, তত বেশি সুনির্দিষ্ট সাধারণীকরণ করতে পারবেন। প্যান্ডাস লাইব্রেরিতে [`sample()` ফাংশন](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html) রয়েছে, যেখানে আপনি কতগুলো র‍্যান্ডম স্যাম্পল পেতে চান তা নির্দিষ্ট করতে পারেন। ডেটার সাধারণ কোয়েরি করা আপনাকে কিছু সাধারণ প্রশ্ন এবং তত্ত্বের উত্তর দিতে সাহায্য করতে পারে। স্যাম্পলিংয়ের বিপরীতে, কোয়েরি আপনাকে নিয়ন্ত্রণ দেয় এবং ডেটার নির্দিষ্ট অংশে মনোযোগ কেন্দ্রীভূত করতে সাহায্য করে, যেগুলো সম্পর্কে আপনার প্রশ্ন রয়েছে। প্যান্ডাস লাইব্রেরির [`query()` ফাংশন](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.query.html) আপনাকে কলাম নির্বাচন করতে এবং সারি থেকে সহজ উত্তর পেতে সাহায্য করে। ## ভিজ্যুয়ালাইজেশনের মাধ্যমে অনুসন্ধান ডেটা সম্পূর্ণরূপে পরিষ্কার এবং বিশ্লেষণ শেষ হওয়ার জন্য অপেক্ষা করার প্রয়োজন নেই ভিজ্যুয়ালাইজেশন তৈরি করতে। বরং, অনুসন্ধানের সময় ভিজ্যুয়াল উপস্থাপনা তৈরি করলে প্যাটার্ন, সম্পর্ক এবং ডেটার সমস্যাগুলো চিহ্নিত করতে সাহায্য করে। তদ্ব্যতীত, ভিজ্যুয়ালাইজেশন এমন ব্যক্তিদের সাথে যোগাযোগের একটি মাধ্যম প্রদান করে যারা ডেটা পরিচালনায় জড়িত নয় এবং এটি ক্যাপচার ধাপে সমাধান না হওয়া অতিরিক্ত প্রশ্ন শেয়ার এবং পরিষ্কার করার সুযোগ হতে পারে। ভিজ্যুয়ালাইজেশন সম্পর্কে আরও জানতে [ভিজ্যুয়ালাইজেশন অধ্যায়](../../../../../../../../../3-Data-Visualization) দেখুন। ## অসঙ্গতি চিহ্নিত করার জন্য অনুসন্ধান এই পাঠের সমস্ত বিষয়বস্তু অনুপস্থিত বা অসঙ্গত মান চিহ্নিত করতে সাহায্য করতে পারে, তবে প্যান্ডাস কিছু ফাংশন সরবরাহ করে যা এগুলো পরীক্ষা করতে পারে। [isna() বা isnull()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.isna.html) অনুপস্থিত মান পরীক্ষা করতে পারে। ডেটার মধ্যে এই মানগুলো কেন উপস্থিত হয়েছে তা অনুসন্ধান করা গুরুত্বপূর্ণ। এটি আপনাকে [সমাধানের জন্য পদক্ষেপ নেওয়ার]( /2-Working-With-Data/08-data-preparation/notebook.ipynb) সিদ্ধান্ত নিতে সাহায্য করতে পারে। ## [পোস্ট-লেকচার কুইজ](https://ff-quizzes.netlify.app/en/ds/quiz/29) ## অ্যাসাইনমেন্ট [উত্তরের জন্য অনুসন্ধান](assignment.md) --- **অস্বীকৃতি**: এই নথিটি AI অনুবাদ পরিষেবা [Co-op Translator](https://github.com/Azure/co-op-translator) ব্যবহার করে অনুবাদ করা হয়েছে। আমরা যথাসম্ভব সঠিক অনুবাদের চেষ্টা করি, তবে অনুগ্রহ করে মনে রাখবেন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। নথিটির মূল ভাষায় লেখা সংস্করণটিকেই প্রামাণিক উৎস হিসেবে বিবেচনা করা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য, পেশাদার মানব অনুবাদ ব্যবহার করার পরামর্শ দেওয়া হচ্ছে। এই অনুবাদ ব্যবহারের ফলে সৃষ্ট কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যার জন্য আমরা দায়ী নই।