# পরিসংখ্যান এবং সম্ভাবনার একটি সংক্ষিপ্ত পরিচিতি |![ স্কেচনোট [(@sketchthedocs)](https://sketchthedocs.dev) দ্বারা ](../../sketchnotes/04-Statistics-Probability.png)| |:---:| | পরিসংখ্যান এবং সম্ভাবনা - _[@nitya](https://twitter.com/nitya) দ্বারা স্কেচনোট_ | পরিসংখ্যান এবং সম্ভাবনা তত্ত্ব হল গণিতের দুটি ঘনিষ্ঠভাবে সম্পর্কিত শাখা, যা ডেটা সায়েন্সের জন্য অত্যন্ত গুরুত্বপূর্ণ। গভীর গণিত জ্ঞান ছাড়াও ডেটা নিয়ে কাজ করা সম্ভব, তবে কিছু মৌলিক ধারণা জানা সবসময়ই ভালো। এখানে আমরা একটি সংক্ষিপ্ত পরিচিতি উপস্থাপন করব যা আপনাকে শুরু করতে সাহায্য করবে। [![পরিচিতি ভিডিও](../../../../translated_images/video-prob-and-stats.e4282e5efa2f2543400843ed98b1057065c9600cebfc8a728e8931b5702b2ae4.bn.png)](https://youtu.be/Z5Zy85g4Yjw) ## [পূর্ব-লেকচার কুইজ](https://ff-quizzes.netlify.app/en/ds/quiz/6) ## সম্ভাবনা এবং র‍্যান্ডম ভেরিয়েবল **সম্ভাবনা** হল ০ থেকে ১ এর মধ্যে একটি সংখ্যা, যা একটি **ঘটনা** কতটা সম্ভাব্য তা প্রকাশ করে। এটি সংজ্ঞায়িত হয় ইতিবাচক ফলাফলের সংখ্যা (যা ঘটনাটি ঘটায়) দ্বারা, মোট ফলাফলের সংখ্যা দিয়ে ভাগ করে, ধরে নিয়ে যে সব ফলাফল সমানভাবে সম্ভাব্য। উদাহরণস্বরূপ, একটি ছক্কা ছোঁড়ার সময়, একটি জোড় সংখ্যার সম্ভাবনা হল ৩/৬ = ০.৫। ঘটনা নিয়ে কথা বলার সময় আমরা **র‍্যান্ডম ভেরিয়েবল** ব্যবহার করি। উদাহরণস্বরূপ, একটি ছক্কা ছোঁড়ার সময় প্রাপ্ত সংখ্যাকে উপস্থাপনকারী র‍্যান্ডম ভেরিয়েবলটি ১ থেকে ৬ পর্যন্ত মান নেবে। ১ থেকে ৬ পর্যন্ত সংখ্যার সেটটিকে **নমুনা স্থান** বলা হয়। আমরা একটি নির্দিষ্ট মান নেওয়ার র‍্যান্ডম ভেরিয়েবলের সম্ভাবনা নিয়ে কথা বলতে পারি, যেমন P(X=3)=1/6। উপরের উদাহরণে র‍্যান্ডম ভেরিয়েবলটিকে **বিচ্ছিন্ন** বলা হয়, কারণ এর একটি গণনাযোগ্য নমুনা স্থান রয়েছে, অর্থাৎ পৃথক মান রয়েছে যা গণনা করা যায়। এমন কিছু ক্ষেত্রে নমুনা স্থানটি বাস্তব সংখ্যার একটি পরিসর বা পুরো বাস্তব সংখ্যার সেট হতে পারে। এমন ভেরিয়েবলগুলিকে **অবিচ্ছিন্ন** বলা হয়। একটি ভালো উদাহরণ হল বাস আসার সময়। ## সম্ভাবনা বণ্টন বিচ্ছিন্ন র‍্যান্ডম ভেরিয়েবলের ক্ষেত্রে, প্রতিটি ঘটনার সম্ভাবনাকে একটি ফাংশন P(X) দ্বারা বর্ণনা করা সহজ। নমুনা স্থান *S* থেকে প্রতিটি মান *s* এর জন্য এটি ০ থেকে ১ এর মধ্যে একটি সংখ্যা দেবে, যাতে P(X=s) এর সমস্ত মানের যোগফল ১ হয়। সবচেয়ে পরিচিত বিচ্ছিন্ন বণ্টন হল **সমবণ্টন**, যেখানে N উপাদানের একটি নমুনা স্থান থাকে, এবং প্রতিটির জন্য সমান সম্ভাবনা ১/N হয়। অবিচ্ছিন্ন ভেরিয়েবলের সম্ভাবনা বণ্টন বর্ণনা করা আরও কঠিন, যেখানে মানগুলি কিছু পরিসর [a,b] থেকে নেওয়া হয়, বা পুরো বাস্তব সংখ্যার সেট ℝ থেকে। বাস আসার সময়ের ক্ষেত্রে বিবেচনা করুন। প্রকৃতপক্ষে, প্রতিটি নির্দিষ্ট আসার সময় *t* এর জন্য, বাস ঠিক সেই সময়ে আসার সম্ভাবনা ০! > এখন আপনি জানেন যে ০ সম্ভাবনার ঘটনা ঘটে, এবং প্রায়ই ঘটে! অন্তত প্রতিবার যখন বাস আসে! আমরা কেবল একটি ভেরিয়েবলের নির্দিষ্ট মানের পরিসরে পড়ার সম্ভাবনা নিয়ে কথা বলতে পারি, যেমন P(t1≤X2)। এই ক্ষেত্রে, সম্ভাবনা বণ্টন একটি **সম্ভাবনা ঘনত্ব ফাংশন** p(x) দ্বারা বর্ণিত হয়, যাতে ![P(t_1\le X1, x2, ..., xn। আমরা ঐতিহ্যগতভাবে ক্রমের **গড়** (বা **গাণিতিক গড়**) মানকে সংজ্ঞায়িত করতে পারি (x1+x2+xn)/n হিসাবে। নমুনার আকার বাড়ানোর সাথে সাথে (অর্থাৎ n→∞ সীমা নেওয়া), আমরা বণ্টনের গড় (যাকে **প্রত্যাশা**ও বলা হয়) পাব। আমরা প্রত্যাশাকে **E**(x) দ্বারা চিহ্নিত করব। > এটি প্রদর্শন করা যেতে পারে যে {x1, x2, ..., xN} মান এবং p1, p2, ..., pN সম্ভাবনা সহ যেকোনো বিচ্ছিন্ন বণ্টনের জন্য, প্রত্যাশা হবে E(X)=x1p1+x2p2+...+xNpN। মানগুলি কতটা ছড়িয়ে আছে তা চিহ্নিত করতে, আমরা বৈচিত্র্য σ2 = ∑(xi - μ)2/n গণনা করতে পারি, যেখানে μ হল ক্রমের গড়। σ মানটিকে **মান বিচ্যুতি** বলা হয়, এবং σ2 কে **বৈচিত্র্য** বলা হয়। ## মোড, মধ্যক এবং চতুর্ভাগ কখনও কখনও, গড় ডেটার "সাধারণ" মানকে যথাযথভাবে উপস্থাপন করে না। উদাহরণস্বরূপ, যখন কয়েকটি চরম মান থাকে যা সম্পূর্ণ পরিসরের বাইরে, তারা গড়কে প্রভাবিত করতে পারে। আরেকটি ভালো নির্দেশক হল **মধ্যক**, একটি মান যাতে ডেটার অর্ধেক পয়েন্ট এর চেয়ে কম এবং অন্য অর্ধেক বেশি। ডেটার বণ্টন বুঝতে সাহায্য করার জন্য, **চতুর্ভাগ** নিয়ে কথা বলা সহায়ক: * প্রথম চতুর্ভাগ, বা Q1, একটি মান, যাতে ২৫% ডেটা এর নিচে পড়ে * তৃতীয় চতুর্ভাগ, বা Q3, একটি মান যাতে ৭৫% ডেটা এর নিচে পড়ে গ্রাফিকভাবে আমরা মধ্যক এবং চতুর্ভাগের সম্পর্ককে **বক্স প্লট** নামে একটি চিত্রে উপস্থাপন করতে পারি: বক্স প্লট ব্যাখ্যা এখানে আমরা **ইন্টার-চতুর্ভাগ পরিসর** IQR=Q3-Q1 এবং তথাকথিত **আউটলায়ার** - মানগুলি, যা সীমানার বাইরে [Q1-1.5*IQR,Q3+1.5*IQR] এ পড়ে, তা গণনা করি। যদি একটি সসীম বণ্টনে সম্ভাব্য মানের সংখ্যা কম থাকে, একটি ভালো "সাধারণ" মান হল সেটি যা সবচেয়ে বেশি বার উপস্থিত হয়, যাকে **মোড** বলা হয়। এটি প্রায়শই শ্রেণীবদ্ধ ডেটার ক্ষেত্রে প্রয়োগ করা হয়, যেমন রঙ। ধরুন আমাদের দুটি গোষ্ঠী রয়েছে - কিছু লাল রঙকে পছন্দ করে এবং অন্যরা নীল রঙকে। যদি আমরা রঙগুলিকে সংখ্যায় কোড করি, প্রিয় রঙের গড় মানটি কমলা-সবুজ বর্ণালীতে কোথাও পড়বে, যা আসলে কোনো গোষ্ঠীর পছন্দকে নির্দেশ করে না। তবে মোড হয়তো একটি রঙ হবে, অথবা উভয় রঙ হবে, যদি তাদের জন্য ভোট দেওয়া লোকের সংখ্যা সমান হয় (এই ক্ষেত্রে আমরা নমুনাটিকে **মাল্টিমোডাল** বলি)। ## বাস্তব জীবনের ডেটা যখন আমরা বাস্তব জীবনের ডেটা বিশ্লেষণ করি, সেগুলি প্রায়শই র‍্যান্ডম ভেরিয়েবল নয়, অর্থাৎ আমরা অজানা ফলাফলের সাথে পরীক্ষা করি না। উদাহরণস্বরূপ, একটি বেসবল দলের খেলোয়াড়দের উচ্চতা, ওজন এবং বয়সের মতো শারীরিক ডেটা বিবেচনা করুন। এই সংখ্যাগুলি পুরোপুরি র‍্যান্ডম নয়, তবে আমরা এখনও একই গাণিতিক ধারণাগুলি প্রয়োগ করতে পারি। উদাহরণস্বরূপ, মানুষের ওজনের একটি ক্রমকে কিছু র‍্যান্ডম ভেরিয়েবল থেকে নেওয়া মানগুলির ক্রম হিসাবে বিবেচনা করা যেতে পারে। নিচে [মেজর লীগ বেসবল](http://mlb.mlb.com/index.jsp) থেকে খেলোয়াড়দের ওজনের একটি ক্রম দেওয়া হয়েছে, যা [এই ডেটাসেট](http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_MLB_HeightsWeights) থেকে নেওয়া হয়েছে (আপনার সুবিধার জন্য, শুধুমাত্র প্রথম ২০টি মান দেখানো হয়েছে): ``` [180.0, 215.0, 210.0, 210.0, 188.0, 176.0, 209.0, 200.0, 231.0, 180.0, 188.0, 180.0, 185.0, 160.0, 180.0, 185.0, 197.0, 189.0, 185.0, 219.0] ``` > **দ্রষ্টব্য**: এই ডেটাসেট নিয়ে কাজ করার উদাহরণ দেখতে, [সংযুক্ত নোটবুক](notebook.ipynb) দেখুন। এই পাঠে বেশ কিছু চ্যালেঞ্জ রয়েছে, এবং আপনি কিছু কোড যোগ করে সেগুলি সম্পূর্ণ করতে পারেন। যদি আপনি ডেটার উপর কাজ করতে না জানেন, চিন্তা করবেন না - আমরা পরে পাইথন ব্যবহার করে ডেটার সাথে কাজ করার জন্য ফিরে আসব। যদি আপনি জুপিটার নোটবুকে কোড চালানোর পদ্ধতি না জানেন, [এই নিবন্ধটি](https://soshnikov.com/education/how-to-execute-notebooks-from-github/) দেখুন। এখানে আমাদের ডেটার গড়, মধ্যক এবং চতুর্ভাগ দেখানো একটি বক্স প্লট রয়েছে: ![ওজন বক্স প্লট](../../../../translated_images/weight-boxplot.1dbab1c03af26f8a008fff4e17680082c8ab147d6df646cbac440bbf8f5b9c42.bn.png) আমাদের ডেটায় বিভিন্ন খেলোয়াড়ের **ভূমিকা** সম্পর্কিত তথ্য রয়েছে, তাই আমরা ভূমিকা অনুযায়ী বক্স প্লটও করতে পারি - এটি আমাদের দেখাবে কীভাবে প্যারামিটার মানগুলি ভূমিকা অনুযায়ী ভিন্ন হয়। এবার আমরা উচ্চতা বিবেচনা করব: ![ভূমিকা অনুযায়ী বক্স প্লট](../../../../translated_images/boxplot_byrole.036b27a1c3f52d42f66fba2324ec5cde0a1bca6a01a619eeb0ce7cd054b2527b.bn.png) এই চিত্রটি নির্দেশ করে যে, গড়ে, প্রথম বেসম্যানদের উচ্চতা দ্বিতীয় বেসম্যানদের উচ্চতার চেয়ে বেশি। এই পাঠে আমরা শিখব কীভাবে আমরা এই অনুমানটি আরও আনুষ্ঠানিকভাবে পরীক্ষা করতে পারি এবং কীভাবে আমাদের ডেটা পরিসংখ্যানগতভাবে গুরুত্বপূর্ণ তা প্রদর্শন করতে পারি। > বাস্তব জীবনের ডেটার সাথে কাজ করার সময়, আমরা ধরে নিই যে সমস্ত ডেটা পয়েন্ট কিছু সম্ভাবনা বণ্টন থেকে নেওয়া নমুনা। এই অনুমানটি আমাদের মেশিন লার্নিং কৌশল প্রয়োগ করতে এবং কার্যকর পূর্বাভাস মডেল তৈরি করতে সক্ষম করে। আমাদের ডেটার বণ্টন দেখতে, আমরা **হিস্টোগ্রাম** নামে একটি গ্রাফ আঁকতে পারি। X-অক্ষ বিভিন্ন ওজনের পরিসর (তথাকথিত **বিন**) ধারণ করবে, এবং উল্লম্ব অক্ষ দেখাবে আমাদের র‍্যান্ডম ভেরিয়েবল নমুনা একটি নির্দিষ্ট পরিসরে কতবার ছিল। ![বাস্তব জীবনের ডেটার হিস্টোগ্রাম](../../../../translated_images/weight-histogram.bfd00caf7fc30b145b21e862dba7def41c75635d5280de25d840dd7f0b00545e.bn.png) এই হিস্টোগ্রাম থেকে আপনি দেখতে পারেন যে সমস্ত মান একটি নির্দিষ্ট গড় ওজনের চারপাশে কেন্দ্রীভূত, এবং আমরা সেই ওজন থেকে যত দূরে যাই - সেই মানের ওজন তত কম পাওয়া যায়। অর্থাৎ, একটি বেসবল খেলোয়াড়ের ওজন গড় ওজন থেকে খুব আলাদা হওয়া খুবই অসম্ভাব্য। ওজনের বৈচিত্র্য দেখায় যে ওজনগুলি গড় থেকে কতটা ভিন্ন হতে পারে। > যদি আমরা বেসবল লিগের বাইরের লোকদের ওজন নিই, বণ্টনটি সম্ভবত ভিন্ন হবে। তবে বণ্টনের আকৃতি একই থাকবে, তবে গড় এবং বৈচিত্র্য পরিবর্তিত হবে। সুতরাং, যদি আমরা আমাদের মডেলটি বেসবল খেলোয়াড়দের উপর প্রশিক্ষণ দিই, এটি বিশ্ববিদ্যালয়ের ছাত্রদের উপর প্রয়োগ করলে ভুল ফলাফল দিতে পারে, কারণ অন্তর্নিহিত বণ্টনটি ভিন্ন। ## স্বাভাবিক বণ্টন উপরের ওজনের বণ্টনটি খুবই সাধারণ, এবং বাস্তব জীবনের অনেক পরিমাপ একই ধরনের বণ্টন অনুসরণ করে, তবে ভিন্ন গড় এবং বৈচিত্র্য সহ। এই বণ্টনটিকে **স্বাভাবিক বণ্টন** বলা হয়, এবং এটি পরিসংখ্যানে একটি অত্যন্ত গুরুত্বপূর্ণ ভূমিকা পালন করে। স্বাভাবিক বণ্টন ব্যবহার করা হল সম্ভাব্য বেসবল খেলোয়াড়দের র‍্যান্ডম ওজন তৈরি করার একটি সঠিক উপায়। একবার আমরা গড় ওজন `mean` এবং মান বিচ্যুতি `std` জানলে, আমরা নিম্নলিখিত উপায়ে ১০০০ ওজন নমুনা তৈরি করতে পারি: ```python samples = np.random.normal(mean,std,1000) ``` যদি আমরা তৈরি করা নমুনাগুলির হিস্টোগ্রাম আঁকি, আমরা উপরের ছবির মতো একটি চিত্র দেখতে পাব। এবং যদি আমরা নমুনার সংখ্যা এবং বিনের সংখ্যা বাড়াই, আমরা একটি আদর্শ স্বাভাবিক বণ্টনের আরও কাছাকাছি একটি চিত্র তৈরি করতে পারি: ![গড়=0 এবং মান বিচ্যুতি=1 সহ স্বাভাবিক বণ্টন](../../../../translated_images/normal-histogram.dfae0d67c202137d552d0015fb87581eca263925e512404f3c12d8885315432e.bn.png) *গড়=0 এবং মান বিচ্যুতি=1 সহ স্বাভাবিক বণ্টন* ## আত্মবিশ্বাসের পরিসর যখন আমরা বেসবল খেলোয়াড়দের ওজন নিয়ে কথা বলি, আমরা ধরে নিই যে একটি নির্দিষ্ট **র‍্যান্ডম ভেরিয়েবল W** রয়েছে যা সমস্ত বেসবল খেলোয়াড়দের ওজনের আদর্শ সম্ভাবনা বণ্টনের সাথে মিলে যায় (তথাকথিত **জনসংখ্যা**)। আমাদের ওজনের ক্রমটি সমস্ত বেসবল খেলোয়াড়দের একটি উপসেটের সাথে মিলে যায়, যাকে আমরা **নমুনা** বলি। একটি আকর্ষণীয় প্রশ্ন হল, আমরা কি W এর বণ্টনের পরামিতি, অর্থাৎ জনসংখ্যার গড় এবং বৈচিত্র্য জানতে পারি? সবচেয়ে সহজ উত্তর হবে আমাদের নমুনার গড় এবং বৈচিত্র্য গণনা করা। তবে, এটি হতে পারে যে আমাদের র‍্যান্ডম নমুনা সম্পূর্ণ জনসংখ্যাকে সঠিকভাবে উপস্থাপন করে না। সুতরাং **আত্মবিশ্বাসের পরিসর** নিয়ে কথা বলা যৌক্তিক। > **আত্মবিশ্বাসের পরিসর** হল আমাদের নমুনা থেকে প্রাপ্ত জনসংখ্যার প্রকৃত গড়ের একটি অনুমান, যা একটি নির্দিষ্ট সম্ভাবনায় (বা **আত্মবিশ্বাসের স্তর**) সঠিক। 1, ..., Xn আমাদের ডিস্ট্রিবিউশন থেকে নেওয়া হয়েছে। প্রতিবার আমরা আমাদের ডিস্ট্রিবিউশন থেকে একটি নমুনা নিই, আমরা ভিন্ন গড় মান μ পাব। সুতরাং μ-কে একটি র‍্যান্ডম ভেরিয়েবল হিসেবে বিবেচনা করা যেতে পারে। একটি **কনফিডেন্স ইন্টারভ্যাল** কনফিডেন্স p সহ একটি মানের জোড়া (Lp,Rp), যেখানে **P**(Lp≤μ≤Rp) = p, অর্থাৎ মাপা গড় মানটি এই ইন্টারভ্যালের মধ্যে পড়ার সম্ভাবনা p এর সমান। এই কনফিডেন্স ইন্টারভ্যাল কীভাবে গণনা করা হয় তা বিশদে আলোচনা করা আমাদের সংক্ষিপ্ত পরিচিতির বাইরে। আরও কিছু বিশদ [উইকিপিডিয়ায়](https://en.wikipedia.org/wiki/Confidence_interval) পাওয়া যাবে। সংক্ষেপে, আমরা প্রকৃত জনসংখ্যার গড়ের তুলনায় গণনা করা নমুনার গড়ের ডিস্ট্রিবিউশন সংজ্ঞায়িত করি, যাকে **স্টুডেন্ট ডিস্ট্রিবিউশন** বলা হয়। > **মজার তথ্য**: স্টুডেন্ট ডিস্ট্রিবিউশন এর নামকরণ করা হয়েছে গণিতবিদ উইলিয়াম সিলি গসেট-এর নামে, যিনি "স্টুডেন্ট" ছদ্মনামে তার গবেষণা প্রকাশ করেছিলেন। তিনি গিনেস ব্রুয়ারিতে কাজ করতেন এবং, একটি মতানুযায়ী, তার নিয়োগকর্তা চায়নি যে সাধারণ মানুষ জানুক যে তারা কাঁচামালের গুণমান নির্ধারণে পরিসংখ্যানগত পরীক্ষা ব্যবহার করছিল। যদি আমরা আমাদের জনসংখ্যার গড় μ কনফিডেন্স p সহ অনুমান করতে চাই, তাহলে আমাদের একটি স্টুডেন্ট ডিস্ট্রিবিউশন A-এর *(1-p)/2-তম পার্সেন্টাইল* নিতে হবে, যা হয় টেবিল থেকে নেওয়া যেতে পারে, অথবা পরিসংখ্যান সফটওয়্যারের (যেমন Python, R, ইত্যাদি) কিছু বিল্ট-ইন ফাংশন ব্যবহার করে গণনা করা যেতে পারে। তারপর μ-এর জন্য ইন্টারভ্যাল হবে X±A*D/√n, যেখানে X হল নমুনার প্রাপ্ত গড়, D হল স্ট্যান্ডার্ড ডেভিয়েশন। > **নোট**: আমরা [ডিগ্রিজ অফ ফ্রিডম](https://en.wikipedia.org/wiki/Degrees_of_freedom_(statistics)) এর একটি গুরুত্বপূর্ণ ধারণার আলোচনা বাদ দিয়েছি, যা স্টুডেন্ট ডিস্ট্রিবিউশনের সাথে সম্পর্কিত। এই ধারণাটি আরও গভীরভাবে বোঝার জন্য আপনি পরিসংখ্যানের আরও সম্পূর্ণ বইগুলিতে রেফার করতে পারেন। ওজন এবং উচ্চতার জন্য কনফিডেন্স ইন্টারভ্যাল গণনার একটি উদাহরণ [সংযুক্ত নোটবুকে](notebook.ipynb) দেওয়া হয়েছে। | p | ওজনের গড় | |-----|-----------| | 0.85 | 201.73±0.94 | | 0.90 | 201.73±1.08 | | 0.95 | 201.73±1.28 | লক্ষ্য করুন যে কনফিডেন্স সম্ভাবনা যত বেশি, কনফিডেন্স ইন্টারভ্যাল ততই চওড়া হয়। ## হাইপোথিসিস টেস্টিং আমাদের বেসবল খেলোয়াড়দের ডেটাসেটে বিভিন্ন খেলোয়াড়ের ভূমিকা রয়েছে, যা নিচের টেবিলে সংক্ষেপে দেখানো হয়েছে (এই টেবিল কীভাবে গণনা করা যায় তা দেখতে [সংযুক্ত নোটবুকটি](notebook.ipynb) দেখুন): | ভূমিকা | উচ্চতা | ওজন | সংখ্যা | |------|--------|--------|-------| | ক্যাচার | 72.723684 | 204.328947 | 76 | | ডিজাইনেটেড হিটার | 74.222222 | 220.888889 | 18 | | ফার্স্ট বেসম্যান | 74.000000 | 213.109091 | 55 | | আউটফিল্ডার | 73.010309 | 199.113402 | 194 | | রিলিফ পিচার | 74.374603 | 203.517460 | 315 | | সেকেন্ড বেসম্যান | 71.362069 | 184.344828 | 58 | | শর্টস্টপ | 71.903846 | 182.923077 | 52 | | স্টার্টিং পিচার | 74.719457 | 205.163636 | 221 | | থার্ড বেসম্যান | 73.044444 | 200.955556 | 45 | আমরা লক্ষ্য করতে পারি যে ফার্স্ট বেসম্যানদের গড় উচ্চতা সেকেন্ড বেসম্যানদের চেয়ে বেশি। সুতরাং, আমরা এই সিদ্ধান্তে পৌঁছাতে পারি যে **ফার্স্ট বেসম্যানরা সেকেন্ড বেসম্যানদের চেয়ে লম্বা।** > এই বক্তব্যটিকে **একটি হাইপোথিসিস** বলা হয়, কারণ আমরা জানি না এটি আসলে সত্য কিনা। তবে, এই সিদ্ধান্তে পৌঁছানো সবসময় সহজ নয়। উপরের আলোচনায় আমরা জানি যে প্রতিটি গড়ের সাথে একটি কনফিডেন্স ইন্টারভ্যাল যুক্ত থাকে, এবং এই পার্থক্যটি কেবল একটি পরিসংখ্যানগত ত্রুটি হতে পারে। আমাদের হাইপোথিসিস পরীক্ষা করার জন্য আরও আনুষ্ঠানিক পদ্ধতির প্রয়োজন। আসুন ফার্স্ট এবং সেকেন্ড বেসম্যানদের উচ্চতার জন্য কনফিডেন্স ইন্টারভ্যাল আলাদাভাবে গণনা করি: | কনফিডেন্স | ফার্স্ট বেসম্যান | সেকেন্ড বেসম্যান | |------------|---------------|----------------| | 0.85 | 73.62..74.38 | 71.04..71.69 | | 0.90 | 73.56..74.44 | 70.99..71.73 | | 0.95 | 73.47..74.53 | 70.92..71.81 | আমরা দেখতে পাচ্ছি যে কোনো কনফিডেন্স লেভেলে ইন্টারভ্যালগুলো ওভারল্যাপ করে না। এটি প্রমাণ করে যে ফার্স্ট বেসম্যানরা সেকেন্ড বেসম্যানদের চেয়ে লম্বা। আরও আনুষ্ঠানিকভাবে, আমরা যে সমস্যাটি সমাধান করছি তা হল **দুটি সম্ভাব্য ডিস্ট্রিবিউশন একই কিনা**, বা অন্তত তাদের প্যারামিটারগুলো একই কিনা তা দেখা। ডিস্ট্রিবিউশন অনুযায়ী, আমাদের জন্য বিভিন্ন টেস্ট প্রয়োজন। যদি আমরা জানি যে আমাদের ডিস্ট্রিবিউশনগুলো নরমাল, আমরা **[স্টুডেন্ট টি-টেস্ট](https://en.wikipedia.org/wiki/Student%27s_t-test)** প্রয়োগ করতে পারি। স্টুডেন্ট টি-টেস্টে, আমরা তথাকথিত **t-value** গণনা করি, যা গড়ের মধ্যে পার্থক্য নির্দেশ করে, ভ্যারিয়েন্স বিবেচনা করে। এটি প্রমাণিত হয়েছে যে t-value **স্টুডেন্ট ডিস্ট্রিবিউশন** অনুসরণ করে, যা আমাদের একটি নির্দিষ্ট কনফিডেন্স লেভেল **p**-এর জন্য থ্রেশহোল্ড মান পেতে সাহায্য করে (এটি গণনা করা যেতে পারে, বা সংখ্যাসূচক টেবিল থেকে দেখা যেতে পারে)। তারপর আমরা t-value এবং এই থ্রেশহোল্ড তুলনা করি হাইপোথিসিস অনুমোদন বা প্রত্যাখ্যান করতে। Python-এ, আমরা **SciPy** প্যাকেজ ব্যবহার করতে পারি, যা `ttest_ind` ফাংশন অন্তর্ভুক্ত করে (অন্যান্য অনেক দরকারী পরিসংখ্যানগত ফাংশনের পাশাপাশি!)। এটি আমাদের জন্য t-value গণনা করে এবং কনফিডেন্স p-value এর রিভার্স লুকআপও করে, যাতে আমরা কেবল কনফিডেন্স দেখে সিদ্ধান্ত নিতে পারি। উদাহরণস্বরূপ, ফার্স্ট এবং সেকেন্ড বেসম্যানদের উচ্চতার তুলনা আমাদের নিম্নলিখিত ফলাফল দেয়: ```python from scipy.stats import ttest_ind tval, pval = ttest_ind(df.loc[df['Role']=='First_Baseman',['Height']], df.loc[df['Role']=='Designated_Hitter',['Height']],equal_var=False) print(f"T-value = {tval[0]:.2f}\nP-value: {pval[0]}") ``` ``` T-value = 7.65 P-value: 9.137321189738925e-12 ``` আমাদের ক্ষেত্রে, p-value খুব কম, যার অর্থ ফার্স্ট বেসম্যানরা লম্বা হওয়ার পক্ষে শক্তিশালী প্রমাণ রয়েছে। এছাড়াও, আমরা বিভিন্ন ধরনের হাইপোথিসিস পরীক্ষা করতে পারি, যেমন: * প্রমাণ করা যে একটি নির্দিষ্ট নমুনা কোনো ডিস্ট্রিবিউশন অনুসরণ করে। আমাদের ক্ষেত্রে আমরা ধরে নিয়েছি যে উচ্চতাগুলো নরমালি ডিস্ট্রিবিউটেড, তবে এটি আনুষ্ঠানিক পরিসংখ্যানগত যাচাই প্রয়োজন। * প্রমাণ করা যে একটি নমুনার গড় মান কোনো পূর্বনির্ধারিত মানের সাথে মেলে। * একাধিক নমুনার গড়ের তুলনা করা (যেমন: বিভিন্ন বয়সের গোষ্ঠীর মধ্যে সুখের স্তরের পার্থক্য কী)। ## বড় সংখ্যার আইন এবং সেন্ট্রাল লিমিট থিওরেম নরমাল ডিস্ট্রিবিউশন এত গুরুত্বপূর্ণ হওয়ার একটি কারণ হল তথাকথিত **সেন্ট্রাল লিমিট থিওরেম**। ধরে নিই আমাদের কাছে N সংখ্যক স্বাধীন মান X1, ..., XN এর একটি বড় নমুনা রয়েছে, যা μ গড় এবং σ2 ভ্যারিয়েন্স সহ কোনো ডিস্ট্রিবিউশন থেকে নেওয়া হয়েছে। তাহলে, যথেষ্ট বড় N-এর জন্য (অন্য কথায়, যখন N→∞), ΣiXi এর গড় নরমালি ডিস্ট্রিবিউটেড হবে, μ গড় এবং σ2/N ভ্যারিয়েন্স সহ। > সেন্ট্রাল লিমিট থিওরেমের আরেকটি ব্যাখ্যা হল যে, ডিস্ট্রিবিউশন যাই হোক না কেন, যখন আপনি যেকোনো র‍্যান্ডম ভেরিয়েবলের মানের যোগফলের গড় গণনা করেন, আপনি নরমাল ডিস্ট্রিবিউশন পাবেন। সেন্ট্রাল লিমিট থিওরেম থেকে আরও বোঝা যায় যে, যখন N→∞, নমুনার গড় μ-এর সমান হওয়ার সম্ভাবনা 1 হয়ে যায়। এটি **বড় সংখ্যার আইন** নামে পরিচিত। ## কোভেরিয়েন্স এবং করেলেশন ডেটা সায়েন্সের একটি কাজ হল ডেটার মধ্যে সম্পর্ক খুঁজে বের করা। আমরা বলি যে দুটি সিকোয়েন্স **করেলেট** করে যখন তারা একই সময়ে একই রকম আচরণ প্রদর্শন করে, অর্থাৎ তারা একসাথে বাড়ে/কমে, অথবা একটি সিকোয়েন্স বাড়লে অন্যটি কমে এবং এর বিপরীত। অন্য কথায়, দুটি সিকোয়েন্সের মধ্যে কিছু সম্পর্ক রয়েছে বলে মনে হয়। > করেলেশন প্রয়োজনীয়ভাবে দুটি সিকোয়েন্সের মধ্যে কারণ-প্রভাব সম্পর্ক নির্দেশ করে না; কখনও কখনও উভয় ভেরিয়েবলই কোনো বাহ্যিক কারণের উপর নির্ভর করতে পারে, অথবা এটি কেবল কাকতালীয় হতে পারে যে দুটি সিকোয়েন্স করেলেট করে। তবে, শক্তিশালী গাণিতিক করেলেশন একটি ভাল ইঙ্গিত দেয় যে দুটি ভেরিয়েবল কোনোভাবে সংযুক্ত। গাণিতিকভাবে, দুটি র‍্যান্ডম ভেরিয়েবলের মধ্যে সম্পর্ক দেখানোর প্রধান ধারণা হল **কোভেরিয়েন্স**, যা এইভাবে গণনা করা হয়: Cov(X,Y) = **E**\[(X-**E**(X))(Y-**E**(Y))\]। আমরা উভয় ভেরিয়েবলের গড় মান থেকে বিচ্যুতি গণনা করি, এবং তারপর সেই বিচ্যুতিগুলোর গুণফল। যদি উভয় ভেরিয়েবল একসাথে বিচ্যুত হয়, গুণফল সবসময় একটি ধনাত্মক মান হবে, যা ধনাত্মক কোভেরিয়েন্সে যোগ হবে। যদি উভয় ভেরিয়েবল সিঙ্কের বাইরে বিচ্যুত হয় (অর্থাৎ একটি গড়ের নিচে পড়ে যখন অন্যটি গড়ের উপরে ওঠে), আমরা সবসময় ঋণাত্মক সংখ্যা পাব, যা ঋণাত্মক কোভেরিয়েন্সে যোগ হবে। যদি বিচ্যুতিগুলো নির্ভরশীল না হয়, তারা প্রায় শূন্যে যোগ হবে। কোভেরিয়েন্সের পরম মান আমাদের করেলেশন কতটা বড় তা সম্পর্কে খুব বেশি কিছু বলে না, কারণ এটি প্রকৃত মানগুলোর মাত্রার উপর নির্ভর করে। এটি স্বাভাবিক করতে, আমরা উভয় ভেরিয়েবলের স্ট্যান্ডার্ড ডেভিয়েশন দ্বারা কোভেরিয়েন্স ভাগ করতে পারি, **করেলেশন** পেতে। ভালো দিকটি হল করেলেশন সর্বদা [-1,1] পরিসরে থাকে, যেখানে 1 মানে মানগুলোর মধ্যে শক্তিশালী ধনাত্মক করেলেশন, -1 মানে শক্তিশালী ঋণাত্মক করেলেশন, এবং 0 মানে কোনো করেলেশন নেই (ভেরিয়েবলগুলো স্বাধীন)। **উদাহরণ**: আমরা বেসবল খেলোয়াড়দের ওজন এবং উচ্চতার মধ্যে করেলেশন গণনা করতে পারি উপরের ডেটাসেট থেকে: ```python print(np.corrcoef(weights,heights)) ``` ফলস্বরূপ, আমরা একটি **করেলেশন ম্যাট্রিক্স** পাই যা এই রকম: ``` array([[1. , 0.52959196], [0.52959196, 1. ]]) ``` > করেলেশন ম্যাট্রিক্স C যেকোনো সংখ্যক ইনপুট সিকোয়েন্স S1, ..., Sn এর জন্য গণনা করা যেতে পারে। Cij এর মান হল Si এবং Sj এর মধ্যে করেলেশন, এবং ডায়াগোনাল উপাদানগুলো সর্বদা 1 (যা Si-এর স্ব-করেলেশন)। আমাদের ক্ষেত্রে, মান 0.53 নির্দেশ করে যে একজন ব্যক্তির ওজন এবং উচ্চতার মধ্যে কিছু করেলেশন রয়েছে। আমরা একটি স্ক্যাটার প্লটও তৈরি করতে পারি একটি মানের বিপরীতে অন্যটি সম্পর্কটি ভিজ্যুয়ালি দেখতে: ![ওজন এবং উচ্চতার মধ্যে সম্পর্ক](../../../../translated_images/weight-height-relationship.3f06bde4ca2aba9974182c4ef037ed602acd0fbbbbe2ca91cefd838a9e66bcf9.bn.png) > করেলেশন এবং কোভেরিয়েন্সের আরও উদাহরণ [সংযুক্ত নোটবুকে](notebook.ipynb) পাওয়া যাবে। ## উপসংহার এই অধ্যায়ে, আমরা শিখেছি: * ডেটার মৌলিক পরিসংখ্যানগত বৈশিষ্ট্য, যেমন গড়, ভ্যারিয়েন্স, মোড এবং কোয়ার্টাইল * র‍্যান্ডম ভেরিয়েবলের বিভিন্ন ডিস্ট্রিবিউশন, যার মধ্যে নরমাল ডিস্ট্রিবিউশন * বিভিন্ন বৈশিষ্ট্যের মধ্যে করেলেশন কীভাবে খুঁজে বের করতে হয় * কিছু হাইপোথিসিস প্রমাণ করার জন্য গাণিতিক এবং পরিসংখ্যানগত পদ্ধতি কীভাবে ব্যবহার করতে হয় * ডেটা নমুনা দেওয়া একটি র‍্যান্ডম ভেরিয়েবলের জন্য কনফিডেন্স ইন্টারভ্যাল কীভাবে গণনা করতে হয় যদিও এটি সম্ভাবনা এবং পরিসংখ্যানের মধ্যে বিদ্যমান বিষয়গুলোর একটি সম্পূর্ণ তালিকা নয়, এটি এই কোর্সে একটি ভাল সূচনা দেওয়ার জন্য যথেষ্ট হওয়া উচিত। ## 🚀 চ্যালেঞ্জ নোটবুকে দেওয়া নমুনা কোড ব্যবহার করে অন্যান্য হাইপোথিসিস পরীক্ষা করুন: 1. ফার্স্ট বেসম্যানরা সেকেন্ড বেসম্যানদের চেয়ে বয়স্ক। 2. ফার্স্ট বেসম্যানরা থার্ড বেসম্যানদের চেয়ে লম্বা। 3. শর্টস্টপরা সেকেন্ড বেসম্যানদের চেয়ে লম্বা। ## [পোস্ট-লেকচার কুইজ](https://ff-quizzes.netlify.app/en/ds/quiz/7) ## রিভিউ এবং স্ব-অধ্যয়ন সম্ভাবনা এবং পরিসংখ্যান একটি এত বিস্তৃত বিষয় যে এটি একটি সম্পূর্ণ কোর্সের যোগ্য। আপনি যদি তত্ত্বে আরও গভীর যেতে আগ্রহী হন, তবে আপনি নিম্নলিখিত বইগুলোর কিছু পড়তে পারেন: 1. [কার্লোস ফার্নান্দেজ-গ্রান্ডা](https://cims.nyu.edu/~cfgranda/) নিউ ইয়র্ক ইউনিভার্সিটি থেকে দুর্দান্ত লেকচার নোট [Probability and Statistics for Data Science](https://cims.nyu.edu/~cfgranda/pages/stuff/probability_stats_for_DS.pdf) (অনলাইনে উপলব্ধ)। 1. [পিটার এবং অ্যান্ড্রু ব্রুস। Practical Statistics for Data Scientists।](https://www.oreilly.com/library/view/practical-statistics-for/9781491952955/) [[R-এ নমুনা কোড](https://github.com/andrewgbruce/statistics-for-data-scientists)]। 1. [জেমস ডি. মিলার। Statistics for Data Science](https://www.packtpub.com/product/statistics-for-data-science/9781788290678) [[R-এ নমুনা কোড](https://github.com/PacktPublishing/Statistics-for-Data-Science)]। ## অ্যাসাইনমেন্ট [ছোট ডায়াবেটিস স্টাডি](assignment.md) ## ক্রেডিট এই পাঠটি ♥️ দিয়ে [দিমিত্রি সশনিকভ](http://soshnikov.com) দ্বারা রচিত। --- **অস্বীকৃতি**: এই নথিটি AI অনুবাদ পরিষেবা [Co-op Translator](https://github.com/Azure/co-op-translator) ব্যবহার করে অনুবাদ করা হয়েছে। আমরা যথাসম্ভব সঠিক অনুবাদ প্রদানের চেষ্টা করি, তবে অনুগ্রহ করে মনে রাখবেন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসঙ্গতি থাকতে পারে। মূল ভাষায় থাকা নথিটিকে প্রামাণিক উৎস হিসেবে বিবেচনা করা উচিত। গুরুত্বপূর্ণ তথ্যের ক্ষেত্রে, পেশাদার মানব অনুবাদ সুপারিশ করা হয়। এই অনুবাদ ব্যবহারের ফলে কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যা হলে আমরা তার জন্য দায়ী থাকব না।