You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/bn/4-Data-Science-Lifecycle/15-analyzing/README.md

13 KiB

ডেটা সায়েন্স লাইফসাইকেল: বিশ্লেষণ

 স্কেচনোট (@sketchthedocs) দ্বারা
ডেটা সায়েন্স লাইফসাইকেল: বিশ্লেষণ - @nitya দ্বারা স্কেচনোট

পূর্ব-লেকচার কুইজ

ডেটা লাইফসাইকেলের বিশ্লেষণ ধাপ নিশ্চিত করে যে ডেটা প্রস্তাবিত প্রশ্নগুলোর উত্তর দিতে পারে বা একটি নির্দিষ্ট সমস্যার সমাধান করতে পারে। এই ধাপটি একটি মডেল সঠিকভাবে এই প্রশ্ন এবং সমস্যাগুলো সমাধান করছে কিনা তা নিশ্চিত করতেও মনোযোগ দেয়। এই পাঠটি এক্সপ্লোরেটরি ডেটা অ্যানালাইসিস (EDA) বা অনুসন্ধানমূলক ডেটা বিশ্লেষণের উপর কেন্দ্রীভূত, যা ডেটার বৈশিষ্ট্য এবং সম্পর্ক নির্ধারণের কৌশল এবং মডেলিংয়ের জন্য ডেটা প্রস্তুত করতে ব্যবহৃত হয়।

আমরা Kaggle থেকে একটি উদাহরণ ডেটাসেট ব্যবহার করব, যা দেখাবে কীভাবে এটি পাইথন এবং প্যান্ডাস লাইব্রেরি দিয়ে প্রয়োগ করা যায়। এই ডেটাসেটে ইমেইলে পাওয়া কিছু সাধারণ শব্দের সংখ্যা রয়েছে, এবং এই ইমেইলগুলোর উৎস অজ্ঞাত। এই ডিরেক্টরির নোটবুক ব্যবহার করে অনুসরণ করুন।

অনুসন্ধানমূলক ডেটা বিশ্লেষণ

লাইফসাইকেলের ক্যাপচার ধাপে ডেটা সংগ্রহ করা হয় এবং সমস্যাগুলো ও প্রশ্নগুলো চিহ্নিত করা হয়, কিন্তু আমরা কীভাবে জানব যে ডেটা চূড়ান্ত ফলাফলকে সমর্থন করতে পারবে? মনে করুন, একজন ডেটা সায়েন্টিস্ট ডেটা সংগ্রহ করার সময় নিম্নলিখিত প্রশ্নগুলো করতে পারেন:

  • এই সমস্যার সমাধানের জন্য আমার কাছে কি যথেষ্ট ডেটা আছে?
  • এই সমস্যার জন্য ডেটার গুণমান কি গ্রহণযোগ্য?
  • যদি এই ডেটার মাধ্যমে অতিরিক্ত তথ্য আবিষ্কার করি, তাহলে কি আমাদের লক্ষ্যগুলো পরিবর্তন বা পুনঃসংজ্ঞায়িত করা উচিত? অনুসন্ধানমূলক ডেটা বিশ্লেষণ হলো ডেটাকে জানার প্রক্রিয়া এবং এটি এই প্রশ্নগুলোর উত্তর দিতে সাহায্য করতে পারে, পাশাপাশি ডেটাসেট নিয়ে কাজ করার চ্যালেঞ্জগুলো চিহ্নিত করতে পারে। চলুন, এই লক্ষ্য অর্জনের জন্য ব্যবহৃত কিছু কৌশল নিয়ে আলোচনা করি।

ডেটা প্রোফাইলিং, বর্ণনামূলক পরিসংখ্যান, এবং প্যান্ডাস

আমাদের কাছে সমস্যার সমাধানের জন্য পর্যাপ্ত ডেটা আছে কিনা তা কীভাবে মূল্যায়ন করব? ডেটা প্রোফাইলিং বর্ণনামূলক পরিসংখ্যানের কৌশল ব্যবহার করে আমাদের ডেটাসেট সম্পর্কে সামগ্রিক তথ্য সংক্ষেপে জানাতে পারে। ডেটা প্রোফাইলিং আমাদের উপলব্ধ তথ্য সম্পর্কে ধারণা দেয়, এবং বর্ণনামূলক পরিসংখ্যান আমাদের জানায় কতগুলো তথ্য উপলব্ধ।

পূর্ববর্তী কয়েকটি পাঠে, আমরা প্যান্ডাস ব্যবহার করে describe() ফাংশন দিয়ে কিছু বর্ণনামূলক পরিসংখ্যান পেয়েছি। এটি সংখ্যাসূচক ডেটার উপর গণনা, সর্বোচ্চ এবং সর্বনিম্ন মান, গড়, মান বিচ্যুতি এবং কোয়ান্টাইল প্রদান করে। describe() ফাংশনের মতো বর্ণনামূলক পরিসংখ্যান ব্যবহার করে আপনি মূল্যায়ন করতে পারেন আপনার কাছে কতটা ডেটা আছে এবং আরও প্রয়োজন কিনা।

স্যাম্পলিং এবং কোয়েরি করা

একটি বড় ডেটাসেটের সবকিছু বিশ্লেষণ করা সময়সাপেক্ষ এবং সাধারণত এটি কম্পিউটারের উপর নির্ভর করে। তবে, স্যাম্পলিং একটি সহায়ক পদ্ধতি যা ডেটা বোঝার জন্য ব্যবহৃত হয় এবং এটি ডেটাসেটের বিষয়বস্তু এবং প্রতিনিধিত্ব সম্পর্কে একটি ভালো ধারণা দেয়। একটি স্যাম্পল ব্যবহার করে, আপনি সম্ভাব্যতা এবং পরিসংখ্যান প্রয়োগ করে ডেটা সম্পর্কে কিছু সাধারণ সিদ্ধান্তে পৌঁছাতে পারেন। যদিও কতটা ডেটা স্যাম্পল করা উচিত তার কোনো নির্ধারিত নিয়ম নেই, তবে মনে রাখা গুরুত্বপূর্ণ যে যত বেশি ডেটা স্যাম্পল করবেন, তত বেশি সুনির্দিষ্ট সাধারণীকরণ করতে পারবেন। প্যান্ডাস লাইব্রেরিতে sample() ফাংশন রয়েছে, যেখানে আপনি কতগুলো র‍্যান্ডম স্যাম্পল পেতে চান তা নির্দিষ্ট করতে পারেন।

ডেটার সাধারণ কোয়েরি করা আপনাকে কিছু সাধারণ প্রশ্ন এবং তত্ত্বের উত্তর দিতে সাহায্য করতে পারে। স্যাম্পলিংয়ের বিপরীতে, কোয়েরি আপনাকে নিয়ন্ত্রণ দেয় এবং ডেটার নির্দিষ্ট অংশে মনোযোগ কেন্দ্রীভূত করতে সাহায্য করে, যেগুলো সম্পর্কে আপনার প্রশ্ন রয়েছে। প্যান্ডাস লাইব্রেরির query() ফাংশন আপনাকে কলাম নির্বাচন করতে এবং সারি থেকে সহজ উত্তর পেতে সাহায্য করে।

ভিজ্যুয়ালাইজেশনের মাধ্যমে অনুসন্ধান

ডেটা সম্পূর্ণরূপে পরিষ্কার এবং বিশ্লেষণ শেষ হওয়ার জন্য অপেক্ষা করার প্রয়োজন নেই ভিজ্যুয়ালাইজেশন তৈরি করতে। বরং, অনুসন্ধানের সময় ভিজ্যুয়াল উপস্থাপনা তৈরি করলে প্যাটার্ন, সম্পর্ক এবং ডেটার সমস্যাগুলো চিহ্নিত করতে সাহায্য করে। তদ্ব্যতীত, ভিজ্যুয়ালাইজেশন এমন ব্যক্তিদের সাথে যোগাযোগের একটি মাধ্যম প্রদান করে যারা ডেটা পরিচালনায় জড়িত নয় এবং এটি ক্যাপচার ধাপে সমাধান না হওয়া অতিরিক্ত প্রশ্ন শেয়ার এবং পরিষ্কার করার সুযোগ হতে পারে। ভিজ্যুয়ালাইজেশন সম্পর্কে আরও জানতে ভিজ্যুয়ালাইজেশন অধ্যায় দেখুন।

অসঙ্গতি চিহ্নিত করার জন্য অনুসন্ধান

এই পাঠের সমস্ত বিষয়বস্তু অনুপস্থিত বা অসঙ্গত মান চিহ্নিত করতে সাহায্য করতে পারে, তবে প্যান্ডাস কিছু ফাংশন সরবরাহ করে যা এগুলো পরীক্ষা করতে পারে। isna() বা isnull() অনুপস্থিত মান পরীক্ষা করতে পারে। ডেটার মধ্যে এই মানগুলো কেন উপস্থিত হয়েছে তা অনুসন্ধান করা গুরুত্বপূর্ণ। এটি আপনাকে সমাধানের জন্য পদক্ষেপ নেওয়ার সিদ্ধান্ত নিতে সাহায্য করতে পারে।

পোস্ট-লেকচার কুইজ

অ্যাসাইনমেন্ট

উত্তরের জন্য অনুসন্ধান


অস্বীকৃতি:
এই নথিটি AI অনুবাদ পরিষেবা Co-op Translator ব্যবহার করে অনুবাদ করা হয়েছে। আমরা যথাসম্ভব সঠিক অনুবাদের চেষ্টা করি, তবে অনুগ্রহ করে মনে রাখবেন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। নথিটির মূল ভাষায় লেখা সংস্করণটিকেই প্রামাণিক উৎস হিসেবে বিবেচনা করা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য, পেশাদার মানব অনুবাদ ব্যবহার করার পরামর্শ দেওয়া হচ্ছে। এই অনুবাদ ব্যবহারের ফলে সৃষ্ট কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যার জন্য আমরা দায়ী নই।