You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

35 KiB

مقدمه‌ای کوتاه بر آمار و احتمال

 Sketchnote by (@sketchthedocs)
آمار و احتمال - Sketchnote by @nitya

نظریه آمار و احتمال دو حوزه مرتبط از ریاضیات هستند که اهمیت زیادی در علم داده دارند. ممکن است بتوان بدون دانش عمیق ریاضی با داده‌ها کار کرد، اما بهتر است حداقل با برخی مفاهیم پایه آشنا باشید. در اینجا یک مقدمه کوتاه ارائه می‌دهیم که به شما کمک می‌کند شروع کنید.

ویدئوی مقدمه

آزمون پیش از درس

احتمال و متغیرهای تصادفی

احتمال عددی بین ۰ و ۱ است که نشان می‌دهد یک رویداد چقدر محتمل است. احتمال به صورت تعداد نتایج مثبت (که منجر به رویداد می‌شوند) تقسیم بر تعداد کل نتایج تعریف می‌شود، به شرطی که همه نتایج به یک اندازه محتمل باشند. برای مثال، وقتی یک تاس می‌اندازیم، احتمال اینکه عدد زوج بیاید برابر است با ۳/۶ = ۰.۵.

وقتی درباره رویدادها صحبت می‌کنیم، از متغیرهای تصادفی استفاده می‌کنیم. برای مثال، متغیر تصادفی که عدد حاصل از انداختن تاس را نشان می‌دهد، می‌تواند مقادیر ۱ تا ۶ را بگیرد. مجموعه اعداد ۱ تا ۶ را فضای نمونه می‌نامند. می‌توانیم درباره احتمال اینکه یک متغیر تصادفی مقدار خاصی بگیرد صحبت کنیم، برای مثال P(X=3)=1/6.

متغیر تصادفی در مثال قبلی گسسته نامیده می‌شود، زیرا فضای نمونه آن قابل شمارش است، یعنی مقادیر جداگانه‌ای وجود دارند که می‌توان آنها را شماره‌گذاری کرد. در مواردی که فضای نمونه یک بازه از اعداد حقیقی یا کل مجموعه اعداد حقیقی باشد، چنین متغیرهایی پیوسته نامیده می‌شوند. یک مثال خوب زمان رسیدن اتوبوس است.

توزیع احتمال

در مورد متغیرهای تصادفی گسسته، توصیف احتمال هر رویداد با یک تابع P(X) آسان است. برای هر مقدار s از فضای نمونه S، عددی بین ۰ و ۱ ارائه می‌دهد، به طوری که مجموع همه مقادیر P(X=s) برای همه رویدادها برابر با ۱ باشد.

معروف‌ترین توزیع گسسته، توزیع یکنواخت است که در آن فضای نمونه شامل N عنصر است و احتمال برابر ۱/N برای هر یک از آنها دارد.

توصیف توزیع احتمال یک متغیر پیوسته، با مقادیر گرفته شده از یک بازه [a,b] یا کل مجموعه اعداد حقیقی ℝ، دشوارتر است. به مورد زمان رسیدن اتوبوس توجه کنید. در واقع، برای هر زمان دقیق رسیدن t، احتمال اینکه اتوبوس دقیقا در آن زمان برسد برابر با ۰ است!

حالا می‌دانید که رویدادهایی با احتمال ۰ اتفاق می‌افتند، و خیلی هم زیاد! حداقل هر بار که اتوبوس می‌رسد!

ما فقط می‌توانیم درباره احتمال اینکه یک متغیر در یک بازه خاص از مقادیر قرار گیرد صحبت کنیم، مثلا P(t1≤X<t2). در این حالت، توزیع احتمال با یک تابع چگالی احتمال p(x) توصیف می‌شود، به طوری که

P(t_1\le X<t_2)=\int_{t_1}^{t_2}p(x)dx

معادل پیوسته توزیع یکنواخت، توزیع یکنواخت پیوسته نامیده می‌شود که در یک بازه محدود تعریف شده است. احتمال اینکه مقدار X در یک بازه به طول l قرار گیرد متناسب با l است و تا ۱ افزایش می‌یابد.

توزیع مهم دیگر توزیع نرمال است که در ادامه به تفصیل درباره آن صحبت خواهیم کرد.

میانگین، واریانس و انحراف معیار

فرض کنید دنباله‌ای از n نمونه از یک متغیر تصادفی X داریم: x1, x2, ..., xn. می‌توانیم مقدار میانگین (یا میانگین حسابی) دنباله را به روش سنتی به صورت (x1+x2+xn)/n تعریف کنیم. با افزایش اندازه نمونه (یعنی گرفتن حد با n→∞)، میانگین (که امید ریاضی نیز نامیده می‌شود) توزیع را به دست خواهیم آورد. امید ریاضی را با E(x) نشان می‌دهیم.

می‌توان نشان داد که برای هر توزیع گسسته با مقادیر {x1, x2, ..., xN} و احتمالات متناظر p1, p2, ..., pN، امید ریاضی برابر خواهد بود با E(X)=x1p1+x2p2+...+xNpN.

برای تعیین اینکه مقادیر چقدر پراکنده هستند، می‌توانیم واریانس σ2 = ∑(xi - μ)2/n را محاسبه کنیم، که در آن μ میانگین دنباله است. مقدار σ انحراف معیار نامیده می‌شود و σ2 واریانس نامیده می‌شود.

مد، میانه و چارک‌ها

گاهی اوقات، میانگین به طور مناسب نمایانگر مقدار "معمولی" داده‌ها نیست. برای مثال، وقتی چند مقدار بسیار افراطی وجود دارند که کاملا خارج از محدوده هستند، می‌توانند میانگین را تحت تاثیر قرار دهند. یک شاخص خوب دیگر میانه است، مقداری که نیمی از نقاط داده کمتر از آن هستند و نیم دیگر بیشتر.

برای کمک به درک توزیع داده‌ها، صحبت درباره چارک‌ها مفید است:

  • چارک اول، یا Q1، مقداری است که ۲۵٪ داده‌ها کمتر از آن هستند
  • چارک سوم، یا Q3، مقداری است که ۷۵٪ داده‌ها کمتر از آن هستند

به صورت گرافیکی می‌توان رابطه بین میانه و چارک‌ها را در نموداری به نام جعبه‌نمودار نشان داد:

توضیح جعبه‌نمودار

در اینجا همچنین دامنه بین چارکی IQR=Q3-Q1 و مقادیر دورافتاده - مقادیری که خارج از مرزهای [Q1-1.5IQR,Q3+1.5IQR] قرار دارند - محاسبه می‌شوند.

برای توزیع محدود که تعداد کمی مقدار ممکن دارد، یک مقدار "معمولی" خوب مقداری است که بیشترین تکرار را دارد، که مد نامیده می‌شود. این مفهوم اغلب برای داده‌های دسته‌ای، مانند رنگ‌ها، به کار می‌رود. به وضعیتی توجه کنید که دو گروه از افراد داریم - برخی که به شدت رنگ قرمز را ترجیح می‌دهند و دیگرانی که رنگ آبی را ترجیح می‌دهند. اگر رنگ‌ها را با اعداد کدگذاری کنیم، مقدار میانگین برای رنگ مورد علاقه ممکن است جایی در طیف نارنجی-سبز باشد، که نشان‌دهنده ترجیح واقعی هیچ‌یک از گروه‌ها نیست. اما مد ممکن است یکی از رنگ‌ها یا هر دو رنگ باشد، اگر تعداد افراد رای‌دهنده برای آنها برابر باشد (در این حالت نمونه چندمدی نامیده می‌شود).

داده‌های دنیای واقعی

وقتی داده‌های دنیای واقعی را تحلیل می‌کنیم، آنها اغلب به معنای دقیق کلمه متغیرهای تصادفی نیستند، به این معنا که آزمایش‌هایی با نتیجه نامشخص انجام نمی‌دهیم. برای مثال، به تیمی از بازیکنان بیسبال و داده‌های بدنی آنها، مانند قد، وزن و سن، توجه کنید. این اعداد دقیقا تصادفی نیستند، اما همچنان می‌توانیم همان مفاهیم ریاضی را اعمال کنیم. برای مثال، دنباله‌ای از وزن افراد را می‌توان به عنوان دنباله‌ای از مقادیر گرفته شده از یک متغیر تصادفی در نظر گرفت. در زیر دنباله‌ای از وزن‌های بازیکنان واقعی بیسبال از لیگ برتر بیسبال آورده شده است، که از این مجموعه داده گرفته شده است (برای راحتی شما، فقط ۲۰ مقدار اول نشان داده شده‌اند):

[180.0, 215.0, 210.0, 210.0, 188.0, 176.0, 209.0, 200.0, 231.0, 180.0, 188.0, 180.0, 185.0, 160.0, 180.0, 185.0, 197.0, 189.0, 185.0, 219.0]

توجه: برای دیدن مثال کار با این مجموعه داده، به دفترچه همراه نگاه کنید. همچنین تعدادی چالش در طول این درس وجود دارد که می‌توانید با افزودن کدی به آن دفترچه آنها را کامل کنید. اگر مطمئن نیستید چگونه روی داده‌ها کار کنید، نگران نباشید - در آینده به کار با داده‌ها با استفاده از پایتون بازخواهیم گشت. اگر نمی‌دانید چگونه کد را در Jupyter Notebook اجرا کنید، به این مقاله نگاه کنید.

در اینجا جعبه‌نموداری که میانگین، میانه و چارک‌ها را برای داده‌های ما نشان می‌دهد آورده شده است:

جعبه‌نمودار وزن

از آنجا که داده‌های ما شامل اطلاعات مربوط به نقش‌های مختلف بازیکنان است، می‌توانیم جعبه‌نمودار را بر اساس نقش‌ها نیز رسم کنیم - این کار به ما اجازه می‌دهد تا ایده‌ای درباره تفاوت مقادیر پارامترها در نقش‌های مختلف به دست آوریم. این بار قد را در نظر می‌گیریم:

جعبه‌نمودار بر اساس نقش

این نمودار نشان می‌دهد که به طور متوسط، قد بازیکنان نقش اول بیشتر از بازیکنان نقش دوم است. در ادامه این درس یاد خواهیم گرفت که چگونه می‌توانیم این فرضیه را به صورت رسمی‌تر آزمایش کنیم و نشان دهیم که داده‌های ما از نظر آماری معنادار هستند.

وقتی با داده‌های دنیای واقعی کار می‌کنیم، فرض می‌کنیم که همه نقاط داده نمونه‌هایی گرفته شده از یک توزیع احتمالی هستند. این فرض به ما اجازه می‌دهد تا تکنیک‌های یادگیری ماشین را اعمال کنیم و مدل‌های پیش‌بینی‌کننده کارآمد بسازیم.

برای دیدن اینکه توزیع داده‌های ما چگونه است، می‌توانیم نموداری به نام هیستوگرام رسم کنیم. محور X شامل تعدادی بازه وزنی مختلف (به اصطلاح بخش‌ها) خواهد بود، و محور عمودی تعداد دفعاتی که نمونه متغیر تصادفی در یک بازه خاص قرار گرفته است را نشان می‌دهد.

هیستوگرام داده‌های دنیای واقعی

از این هیستوگرام می‌توانید ببینید که همه مقادیر حول میانگین وزنی خاصی متمرکز شده‌اند، و هرچه از آن وزن دورتر شویم - وزن‌های کمتری از آن مقدار مشاهده می‌شود. یعنی، احتمال اینکه وزن یک بازیکن بیسبال بسیار متفاوت از میانگین وزن باشد بسیار کم است. واریانس وزن‌ها نشان می‌دهد که وزن‌ها تا چه حد ممکن است از میانگین متفاوت باشند.

اگر وزن‌های افراد دیگر، نه از لیگ بیسبال، را بگیریم، احتمالاً توزیع متفاوت خواهد بود. با این حال، شکل توزیع همان خواهد بود، اما میانگین و واریانس تغییر خواهند کرد. بنابراین، اگر مدل خود را بر اساس بازیکنان بیسبال آموزش دهیم، احتمالاً نتایج اشتباهی هنگام اعمال آن بر دانشجویان یک دانشگاه خواهد داد، زیرا توزیع زیرین متفاوت است.

توزیع نرمال

توزیع وزن‌هایی که در بالا مشاهده کردیم بسیار معمولی است، و بسیاری از اندازه‌گیری‌های دنیای واقعی از همان نوع توزیع پیروی می‌کنند، اما با میانگین و واریانس متفاوت. این توزیع توزیع نرمال نامیده می‌شود و نقش بسیار مهمی در آمار دارد.

استفاده از توزیع نرمال روش صحیحی برای تولید وزن‌های تصادفی بازیکنان بالقوه بیسبال است. وقتی میانگین وزن mean و انحراف معیار std را بدانیم، می‌توانیم ۱۰۰۰ نمونه وزنی به صورت زیر تولید کنیم:

samples = np.random.normal(mean,std,1000)

اگر هیستوگرام نمونه‌های تولید شده را رسم کنیم، تصویری بسیار مشابه با تصویر نشان داده شده در بالا خواهیم دید. و اگر تعداد نمونه‌ها و تعداد بخش‌ها را افزایش دهیم، می‌توانیم تصویری از توزیع نرمال که به حالت ایده‌آل نزدیک‌تر است تولید کنیم:

توزیع نرمال با میانگین=۰ و انحراف معیار=۱

توزیع نرمال با میانگین=۰ و انحراف معیار=۱

بازه‌های اطمینان

وقتی درباره وزن‌های بازیکنان بیسبال صحبت می‌کنیم، فرض می‌کنیم که یک متغیر تصادفی W وجود دارد که به توزیع احتمالی ایده‌آل وزن‌های همه بازیکنان بیسبال (به اصطلاح جمعیت) مربوط می‌شود. دنباله وزن‌های ما مربوط به زیرمجموعه‌ای از همه بازیکنان بیسبال است که آن را نمونه می‌نامیم. یک سوال جالب این است که آیا می‌توانیم پارامترهای توزیع W، یعنی میانگین و واریانس جمعیت، را بدانیم؟

ساده‌ترین پاسخ این است که میانگین و واریانس نمونه خود را محاسبه کنیم. با این حال، ممکن است نمونه تصادفی ما به طور دقیق نمایانگر کل جمعیت نباشد. بنابراین منطقی است که درباره بازه اطمینان صحبت کنیم.

بازه اطمینان تخمینی از میانگین واقعی جمعیت با توجه به نمونه ما است، که با احتمال مشخصی (یا سطح اطمینان) دقیق است.

فرض کنید نمونه‌ای داریم X <زیر> 1, ..., Xn از توزیع ما. هر بار که نمونه‌ای از توزیع خود می‌گیریم، به یک مقدار میانگین متفاوت μ می‌رسیم. بنابراین μ می‌تواند به عنوان یک متغیر تصادفی در نظر گرفته شود. یک بازه اطمینان با اطمینان p یک جفت مقدار (Lp,Rp) است، به طوری که P(Lp≤μ≤Rp) = p، یعنی احتمال اینکه مقدار میانگین اندازه‌گیری شده در این بازه قرار گیرد برابر با p است.

بحث در مورد نحوه محاسبه این بازه‌های اطمینان فراتر از مقدمه کوتاه ما است. جزئیات بیشتر را می‌توانید در ویکی‌پدیا پیدا کنید. به طور خلاصه، ما توزیع میانگین نمونه محاسبه شده را نسبت به میانگین واقعی جمعیت تعریف می‌کنیم، که به آن توزیع دانشجو گفته می‌شود.

واقعیت جالب: توزیع دانشجو به نام ریاضیدان ویلیام سیلی گاست نامگذاری شده است، که مقاله خود را با نام مستعار "دانشجو" منتشر کرد. او در کارخانه آبجوسازی گینس کار می‌کرد و طبق یکی از نسخه‌ها، کارفرمای او نمی‌خواست عموم مردم بدانند که آنها از آزمون‌های آماری برای تعیین کیفیت مواد اولیه استفاده می‌کنند.

اگر بخواهیم میانگین μ جمعیت خود را با اطمینان p تخمین بزنیم، باید (1-p)/2-امین صدک از توزیع دانشجو A را بگیریم، که می‌تواند از جداول گرفته شود یا با استفاده از برخی توابع داخلی نرم‌افزارهای آماری (مانند Python، R و غیره) محاسبه شود. سپس بازه μ به صورت X±A*D/√n خواهد بود، که در آن X میانگین نمونه به دست آمده و D انحراف معیار است.

توجه: ما همچنین بحث در مورد مفهوم مهم درجات آزادی را که در رابطه با توزیع دانشجو مهم است، حذف می‌کنیم. برای درک عمیق‌تر این مفهوم می‌توانید به کتاب‌های کامل‌تر در زمینه آمار مراجعه کنید.

یک مثال از محاسبه بازه اطمینان برای وزن‌ها و قدها در دفترچه‌های همراه ارائه شده است.

p میانگین وزن
0.85 201.73±0.94
0.90 201.73±1.08
0.95 201.73±1.28

توجه کنید که هرچه احتمال اطمینان بالاتر باشد، بازه اطمینان گسترده‌تر است.

آزمون فرضیه

در مجموعه داده بازیکنان بیسبال ما، نقش‌های مختلفی وجود دارد که می‌توان آنها را به صورت زیر خلاصه کرد (به دفترچه همراه نگاه کنید تا ببینید چگونه این جدول محاسبه می‌شود):

نقش قد وزن تعداد
Catcher 72.723684 204.328947 76
Designated_Hitter 74.222222 220.888889 18
First_Baseman 74.000000 213.109091 55
Outfielder 73.010309 199.113402 194
Relief_Pitcher 74.374603 203.517460 315
Second_Baseman 71.362069 184.344828 58
Shortstop 71.903846 182.923077 52
Starting_Pitcher 74.719457 205.163636 221
Third_Baseman 73.044444 200.955556 45

می‌توانیم مشاهده کنیم که میانگین قد بازیکنان First Baseman بیشتر از Second Baseman است. بنابراین ممکن است وسوسه شویم که نتیجه بگیریم بازیکنان First Baseman بلندتر از بازیکنان Second Baseman هستند.

این بیان یک فرضیه نامیده می‌شود، زیرا نمی‌دانیم آیا این واقعیت واقعاً درست است یا خیر.

با این حال، همیشه واضح نیست که آیا می‌توانیم این نتیجه‌گیری را انجام دهیم. از بحث بالا می‌دانیم که هر میانگین دارای یک بازه اطمینان مرتبط است و بنابراین این تفاوت ممکن است فقط یک خطای آماری باشد. ما به یک روش رسمی‌تر برای آزمون فرضیه خود نیاز داریم.

بیایید بازه‌های اطمینان را جداگانه برای قدهای بازیکنان First Baseman و Second Baseman محاسبه کنیم:

اطمینان First Baseman Second Baseman
0.85 73.62..74.38 71.04..71.69
0.90 73.56..74.44 70.99..71.73
0.95 73.47..74.53 70.92..71.81

می‌توانیم ببینیم که تحت هیچ سطح اطمینانی بازه‌ها همپوشانی ندارند. این فرضیه ما را که بازیکنان First Baseman بلندتر از بازیکنان Second Baseman هستند، اثبات می‌کند.

به طور رسمی‌تر، مسئله‌ای که ما حل می‌کنیم این است که ببینیم آیا دو توزیع احتمالی یکسان هستند یا حداقل دارای پارامترهای یکسان هستند. بسته به توزیع، باید از آزمون‌های مختلفی برای این کار استفاده کنیم. اگر بدانیم که توزیع‌های ما نرمال هستند، می‌توانیم از آزمون t دانشجو استفاده کنیم.

در آزمون t دانشجو، ما مقدار t را محاسبه می‌کنیم، که تفاوت بین میانگین‌ها را با در نظر گرفتن واریانس نشان می‌دهد. نشان داده شده است که مقدار t از توزیع دانشجو پیروی می‌کند، که به ما امکان می‌دهد مقدار آستانه را برای سطح اطمینان p مشخص کنیم (این مقدار می‌تواند محاسبه شود یا در جداول عددی جستجو شود). سپس مقدار t را با این آستانه مقایسه می‌کنیم تا فرضیه را تأیید یا رد کنیم.

در Python، می‌توانیم از بسته SciPy استفاده کنیم، که شامل تابع ttest_ind است (علاوه بر بسیاری از توابع آماری مفید دیگر!). این تابع مقدار t را برای ما محاسبه می‌کند و همچنین جستجوی معکوس مقدار اطمینان p را انجام می‌دهد، بنابراین می‌توانیم فقط به اطمینان نگاه کنیم تا نتیجه‌گیری کنیم.

برای مثال، مقایسه ما بین قدهای بازیکنان First Baseman و Second Baseman نتایج زیر را به ما می‌دهد:

from scipy.stats import ttest_ind

tval, pval = ttest_ind(df.loc[df['Role']=='First_Baseman',['Height']], df.loc[df['Role']=='Designated_Hitter',['Height']],equal_var=False)
print(f"T-value = {tval[0]:.2f}\nP-value: {pval[0]}")
T-value = 7.65
P-value: 9.137321189738925e-12

در مورد ما، مقدار p بسیار کم است، به این معنی که شواهد قوی‌ای وجود دارد که نشان می‌دهد بازیکنان First Baseman بلندتر هستند.

همچنین انواع دیگری از فرضیه‌ها وجود دارد که ممکن است بخواهیم آزمون کنیم، برای مثال:

  • اثبات اینکه یک نمونه داده شده از یک توزیع خاص پیروی می‌کند. در مورد ما فرض کرده‌ایم که قدها به صورت نرمال توزیع شده‌اند، اما این نیاز به تأیید آماری رسمی دارد.
  • اثبات اینکه مقدار میانگین یک نمونه با یک مقدار از پیش تعریف شده مطابقت دارد
  • مقایسه میانگین‌های چندین نمونه (مثلاً تفاوت در سطح شادی بین گروه‌های سنی مختلف)

قانون اعداد بزرگ و قضیه حد مرکزی

یکی از دلایلی که توزیع نرمال بسیار مهم است، قضیه حد مرکزی است. فرض کنید یک نمونه بزرگ از مقادیر مستقل N داریم X1, ..., XN، که از هر توزیعی با میانگین μ و واریانس σ2 نمونه‌برداری شده‌اند. سپس، برای N به اندازه کافی بزرگ (به عبارت دیگر، وقتی N→∞)، میانگین ΣiXi به صورت نرمال توزیع می‌شود، با میانگین μ و واریانس σ2/N.

یک روش دیگر برای تفسیر قضیه حد مرکزی این است که بگوییم صرف نظر از توزیع، وقتی میانگین مجموع مقادیر هر متغیر تصادفی را محاسبه می‌کنید، به توزیع نرمال می‌رسید.

از قضیه حد مرکزی همچنین نتیجه می‌شود که وقتی N→∞، احتمال اینکه میانگین نمونه برابر با μ باشد به 1 می‌رسد. این به عنوان قانون اعداد بزرگ شناخته می‌شود.

کوواریانس و همبستگی

یکی از کارهایی که علم داده انجام می‌دهد، یافتن روابط بین داده‌ها است. می‌گوییم دو دنباله همبستگی دارند وقتی رفتار مشابهی را در یک زمان نشان می‌دهند، یعنی یا به طور همزمان افزایش/کاهش می‌یابند، یا یک دنباله افزایش می‌یابد وقتی دیگری کاهش می‌یابد و بالعکس. به عبارت دیگر، به نظر می‌رسد که بین دو دنباله رابطه‌ای وجود دارد.

همبستگی لزوماً نشان‌دهنده رابطه علّی بین دو دنباله نیست؛ گاهی هر دو متغیر می‌توانند به یک علت خارجی وابسته باشند، یا ممکن است صرفاً به صورت تصادفی دو دنباله همبستگی داشته باشند. با این حال، همبستگی ریاضی قوی نشانه خوبی است که دو متغیر به نوعی به هم مرتبط هستند.

به صورت ریاضی، مفهوم اصلی که رابطه بین دو متغیر تصادفی را نشان می‌دهد کوواریانس است، که به این صورت محاسبه می‌شود: Cov(X,Y) = E[(X-E(X))(Y-E(Y))]. انحراف هر دو متغیر از میانگین‌هایشان را محاسبه می‌کنیم و سپس حاصل‌ضرب این انحراف‌ها را می‌گیریم. اگر هر دو متغیر با هم انحراف داشته باشند، حاصل‌ضرب همیشه یک مقدار مثبت خواهد بود، که به کوواریانس مثبت اضافه می‌شود. اگر هر دو متغیر به صورت غیرهمزمان انحراف داشته باشند (یعنی یکی زیر میانگین باشد وقتی دیگری بالای میانگین است)، همیشه اعداد منفی خواهیم داشت، که به کوواریانس منفی اضافه می‌شود. اگر انحراف‌ها وابسته نباشند، تقریباً به صفر اضافه می‌شوند.

مقدار مطلق کوواریانس چیز زیادی در مورد میزان همبستگی به ما نمی‌گوید، زیرا به بزرگی مقادیر واقعی بستگی دارد. برای نرمال‌سازی آن، می‌توانیم کوواریانس را بر انحراف معیار هر دو متغیر تقسیم کنیم تا همبستگی به دست آوریم. نکته خوب این است که همبستگی همیشه در محدوده [-1,1] است، که در آن 1 نشان‌دهنده همبستگی مثبت قوی بین مقادیر، -1 نشان‌دهنده همبستگی منفی قوی، و 0 نشان‌دهنده عدم همبستگی (متغیرها مستقل هستند) است.

مثال: می‌توانیم همبستگی بین وزن‌ها و قدهای بازیکنان بیسبال را از مجموعه داده ذکر شده در بالا محاسبه کنیم:

print(np.corrcoef(weights,heights))

در نتیجه، ماتریس همبستگی به این صورت به دست می‌آید:

array([[1.        , 0.52959196],
       [0.52959196, 1.        ]])

ماتریس همبستگی C را می‌توان برای هر تعداد دنباله ورودی S1, ..., Sn محاسبه کرد. مقدار Cij همبستگی بین Si و Sj است و عناصر قطر همیشه 1 هستند (که همچنین خودهمبستگی Si است).

در مورد ما، مقدار 0.53 نشان می‌دهد که بین وزن و قد یک فرد همبستگی وجود دارد. همچنین می‌توانیم نمودار پراکندگی یک مقدار در مقابل دیگری را رسم کنیم تا رابطه را به صورت بصری ببینیم:

رابطه بین وزن و قد

مثال‌های بیشتری از همبستگی و کوواریانس را می‌توانید در دفترچه همراه پیدا کنید.

نتیجه‌گیری

در این بخش، یاد گرفتیم:

  • ویژگی‌های آماری پایه داده‌ها، مانند میانگین، واریانس، مد و چارک‌ها
  • توزیع‌های مختلف متغیرهای تصادفی، از جمله توزیع نرمال
  • نحوه یافتن همبستگی بین ویژگی‌های مختلف
  • نحوه استفاده از ابزارهای ریاضی و آماری برای اثبات برخی فرضیه‌ها
  • نحوه محاسبه بازه‌های اطمینان برای متغیر تصادفی با توجه به نمونه داده

در حالی که این قطعاً لیست کاملی از موضوعاتی که در احتمال و آمار وجود دارد نیست، باید برای شروع خوب در این دوره کافی باشد.

🚀 چالش

از کد نمونه در دفترچه استفاده کنید تا فرضیه‌های زیر را آزمون کنید:

  1. بازیکنان First Baseman از بازیکنان Second Baseman مسن‌تر هستند
  2. بازیکنان First Baseman از بازیکنان Third Baseman بلندتر هستند
  3. بازیکنان Shortstop از بازیکنان Second Baseman بلندتر هستند

آزمون پس از درس

مرور و مطالعه خودآموز

احتمال و آمار موضوعی بسیار گسترده است که شایسته دوره‌ای جداگانه است. اگر علاقه‌مند به مطالعه عمیق‌تر نظریه هستید، ممکن است بخواهید به خواندن برخی از کتاب‌های زیر ادامه دهید:

  1. کارلوس فرناندز-گرندا از دانشگاه نیویورک یادداشت‌های درسی عالی احتمال و آمار برای علم داده دارد (به صورت آنلاین در دسترس است)
  2. پیتر و اندرو بروس. آمار عملی برای دانشمندان داده. [کد نمونه در R].
  3. جیمز دی. میلر. آمار برای علم داده [کد نمونه در R]

تکلیف

مطالعه کوچک دیابت

اعتبار

این درس با ♥️ توسط دیمیتری سوشنیکوف نوشته شده است.


سلب مسئولیت:
این سند با استفاده از سرویس ترجمه هوش مصنوعی Co-op Translator ترجمه شده است. در حالی که ما برای دقت تلاش می‌کنیم، لطفاً توجه داشته باشید که ترجمه‌های خودکار ممکن است شامل خطاها یا نادرستی‌هایی باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، ترجمه حرفه‌ای انسانی توصیه می‌شود. ما هیچ مسئولیتی در قبال سوءتفاهم‌ها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم.