35 KiB
مقدمهای کوتاه بر آمار و احتمال
![]() |
---|
آمار و احتمال - طرح دستی توسط @nitya |
نظریه آمار و احتمال دو حوزه مرتبط از ریاضیات هستند که در علم داده بسیار کاربرد دارند. ممکن است بتوان بدون دانش عمیق ریاضی با دادهها کار کرد، اما بهتر است حداقل با برخی مفاهیم پایه آشنا باشید. در اینجا یک مقدمه کوتاه ارائه میدهیم که به شما کمک میکند شروع کنید.
آزمون پیش از درس
احتمال و متغیرهای تصادفی
احتمال عددی بین ۰ و ۱ است که نشان میدهد یک رویداد چقدر محتمل است. احتمال به صورت تعداد نتایج مثبت (که منجر به رویداد میشوند) تقسیم بر تعداد کل نتایج تعریف میشود، به شرطی که همه نتایج به یک اندازه محتمل باشند. برای مثال، وقتی یک تاس میاندازیم، احتمال اینکه عددی زوج بیاید برابر است با ۳/۶ = ۰.۵.
وقتی درباره رویدادها صحبت میکنیم، از متغیرهای تصادفی استفاده میکنیم. برای مثال، متغیر تصادفی که عدد حاصل از انداختن تاس را نشان میدهد، میتواند مقادیری از ۱ تا ۶ بگیرد. مجموعه اعداد از ۱ تا ۶ را فضای نمونه مینامند. میتوانیم درباره احتمال اینکه یک متغیر تصادفی مقدار خاصی بگیرد صحبت کنیم، مثلاً P(X=3)=1/6.
متغیر تصادفی در مثال قبلی گسسته نامیده میشود، زیرا فضای نمونه آن قابل شمارش است، یعنی مقادیر جداگانهای وجود دارند که میتوان آنها را شمارهگذاری کرد. در مواردی که فضای نمونه یک بازه از اعداد حقیقی یا کل مجموعه اعداد حقیقی باشد، چنین متغیرهایی پیوسته نامیده میشوند. یک مثال خوب زمان رسیدن اتوبوس است.
توزیع احتمال
در مورد متغیرهای تصادفی گسسته، توصیف احتمال هر رویداد با یک تابع P(X) آسان است. برای هر مقدار s از فضای نمونه S، این تابع عددی بین ۰ و ۱ میدهد، به طوری که مجموع تمام مقادیر P(X=s) برای همه رویدادها برابر با ۱ باشد.
معروفترین توزیع گسسته، توزیع یکنواخت است که در آن فضای نمونه شامل N عنصر است و احتمال هر یک از آنها برابر با ۱/N است.
توصیف توزیع احتمال یک متغیر پیوسته، با مقادیری که از یک بازه [a,b] یا کل مجموعه اعداد حقیقی ℝ گرفته میشوند، دشوارتر است. به مورد زمان رسیدن اتوبوس فکر کنید. در واقع، برای هر زمان دقیق رسیدن t، احتمال اینکه اتوبوس دقیقاً در آن زمان برسد برابر با ۰ است!
حالا میدانید که رویدادهایی با احتمال ۰ اتفاق میافتند، و آن هم خیلی زیاد! حداقل هر بار که اتوبوس میرسد!
ما فقط میتوانیم درباره احتمال اینکه یک متغیر در یک بازه خاص از مقادیر قرار گیرد صحبت کنیم، مثلاً P(t1≤X<t2). در این حالت، توزیع احتمال با یک تابع چگالی احتمال p(x) توصیف میشود، به طوری که:
معادل پیوسته توزیع یکنواخت، توزیع یکنواخت پیوسته نامیده میشود که بر روی یک بازه محدود تعریف شده است. احتمال اینکه مقدار X در یک بازه به طول l قرار گیرد متناسب با l است و تا ۱ افزایش مییابد.
یکی دیگر از توزیعهای مهم، توزیع نرمال است که در ادامه به طور مفصلتر درباره آن صحبت خواهیم کرد.
میانگین، واریانس و انحراف معیار
فرض کنید دنبالهای از n نمونه از یک متغیر تصادفی X داریم: x1, x2, ..., xn. میتوانیم مقدار میانگین (یا میانگین حسابی) این دنباله را به روش سنتی به صورت (x1+x2+...+xn)/n تعریف کنیم. با افزایش اندازه نمونه (یعنی گرفتن حد با n→∞)، میانگین (که امید ریاضی نیز نامیده میشود) توزیع را به دست خواهیم آورد. امید ریاضی را با E(x) نشان میدهیم.
میتوان نشان داد که برای هر توزیع گسسته با مقادیر {x1, x2, ..., xN} و احتمالات متناظر p1, p2, ..., pN، امید ریاضی برابر است با E(X)=x1p1+x2p2+...+xNpN.
برای تعیین میزان پراکندگی مقادیر، میتوانیم واریانس را به صورت σ2 = ∑(xi - μ)2/n محاسبه کنیم، که در آن μ میانگین دنباله است. مقدار σ انحراف معیار نامیده میشود و σ2 واریانس نام دارد.
مد، میانه و چارکها
گاهی اوقات، میانگین به طور کافی مقدار "معمولی" داده را نشان نمیدهد. برای مثال، وقتی چند مقدار بسیار افراطی وجود دارند که کاملاً خارج از محدوده هستند، میتوانند میانگین را تحت تأثیر قرار دهند. یک شاخص خوب دیگر میانه است، مقداری که نیمی از نقاط داده کمتر از آن و نیمی دیگر بیشتر از آن هستند.
برای درک بهتر توزیع دادهها، صحبت درباره چارکها مفید است:
- چارک اول یا Q1، مقداری است که ۲۵٪ دادهها کمتر از آن هستند.
- چارک سوم یا Q3، مقداری است که ۷۵٪ دادهها کمتر از آن هستند.
به صورت گرافیکی میتوان رابطه بین میانه و چارکها را در نموداری به نام باکسپلات نشان داد:

در اینجا همچنین دامنه بین چارکی IQR=Q3-Q1 و مقادیر دورافتاده - مقادیری که خارج از محدوده [Q1-1.5IQR,Q3+1.5IQR] هستند - محاسبه میشوند.
برای توزیع محدود که تعداد کمی مقدار ممکن دارد، یک مقدار "معمولی" خوب مقداری است که بیشترین تکرار را دارد، که مد نامیده میشود. این مفهوم اغلب برای دادههای دستهبندیشده، مانند رنگها، به کار میرود. به وضعیتی فکر کنید که دو گروه از افراد وجود دارند - برخی که به شدت رنگ قرمز را ترجیح میدهند و دیگرانی که رنگ آبی را ترجیح میدهند. اگر رنگها را با اعداد کدگذاری کنیم، میانگین رنگ مورد علاقه ممکن است جایی در طیف نارنجی-سبز باشد، که نشاندهنده ترجیح واقعی هیچیک از گروهها نیست. اما مد میتواند یکی از رنگها یا هر دو رنگ باشد، اگر تعداد افراد رأیدهنده برای آنها برابر باشد (در این حالت نمونه را چندمدی مینامیم).
دادههای دنیای واقعی
وقتی دادههای دنیای واقعی را تحلیل میکنیم، آنها اغلب به معنای دقیق کلمه متغیرهای تصادفی نیستند، به این معنا که ما آزمایشهایی با نتایج ناشناخته انجام نمیدهیم. برای مثال، تیمی از بازیکنان بیسبال و دادههای بدنی آنها، مانند قد، وزن و سن را در نظر بگیرید. این اعداد دقیقاً تصادفی نیستند، اما همچنان میتوانیم از همان مفاهیم ریاضی استفاده کنیم. برای مثال، دنبالهای از وزن افراد را میتوان به عنوان دنبالهای از مقادیر گرفتهشده از یک متغیر تصادفی در نظر گرفت. در زیر دنبالهای از وزن بازیکنان واقعی بیسبال از لیگ برتر بیسبال آورده شده است، که از این مجموعه داده گرفته شده است (برای راحتی شما، فقط ۲۰ مقدار اول نشان داده شده است):
[180.0, 215.0, 210.0, 210.0, 188.0, 176.0, 209.0, 200.0, 231.0, 180.0, 188.0, 180.0, 185.0, 160.0, 180.0, 185.0, 197.0, 189.0, 185.0, 219.0]
توجه: برای دیدن مثال کار با این مجموعه داده، به دفترچه همراه نگاهی بیندازید. در طول این درس، تعدادی چالش نیز وجود دارد که میتوانید با افزودن کد به آن دفترچه آنها را تکمیل کنید. اگر مطمئن نیستید چگونه با دادهها کار کنید، نگران نباشید - در آینده به کار با دادهها با استفاده از پایتون بازخواهیم گشت. اگر نمیدانید چگونه کد را در Jupyter Notebook اجرا کنید، به این مقاله مراجعه کنید.
در اینجا باکسپلاتی که میانگین، میانه و چارکها را برای دادههای ما نشان میدهد آورده شده است:
از آنجا که دادههای ما شامل اطلاعات مربوط به نقشهای مختلف بازیکنان است، میتوانیم باکسپلات را بر اساس نقش نیز انجام دهیم - این کار به ما ایدهای میدهد که چگونه مقادیر پارامترها در نقشهای مختلف متفاوت است. این بار قد را در نظر میگیریم:
این نمودار نشان میدهد که به طور متوسط، قد بازیکنان بیس اول بیشتر از بازیکنان بیس دوم است. در ادامه این درس یاد خواهیم گرفت که چگونه میتوانیم این فرضیه را به صورت رسمیتر آزمایش کنیم و نشان دهیم که دادههای ما از نظر آماری معنادار هستند.
هنگام کار با دادههای دنیای واقعی، فرض میکنیم که همه نقاط داده نمونههایی گرفتهشده از یک توزیع احتمال هستند. این فرض به ما اجازه میدهد از تکنیکهای یادگیری ماشین استفاده کنیم و مدلهای پیشبینیکننده کاربردی بسازیم.
برای دیدن توزیع دادههای خود، میتوانیم نموداری به نام هیستوگرام رسم کنیم. محور X شامل تعدادی بازه وزنی مختلف (به اصطلاح باکسها) خواهد بود و محور عمودی تعداد دفعاتی که نمونه متغیر تصادفی در یک بازه خاص قرار گرفته است را نشان میدهد.
از این هیستوگرام میتوانید ببینید که همه مقادیر حول یک وزن میانگین خاص متمرکز شدهاند و هرچه از آن وزن دورتر شویم، تعداد وزنهایی با آن مقدار کمتر میشود. یعنی، بسیار غیرمحتمل است که وزن یک بازیکن بیسبال بسیار متفاوت از وزن میانگین باشد. واریانس وزنها نشان میدهد که وزنها تا چه حد ممکن است از میانگین متفاوت باشند.
اگر وزن افراد دیگری را، نه از لیگ بیسبال، در نظر بگیریم، احتمالاً توزیع متفاوت خواهد بود. با این حال، شکل توزیع یکسان خواهد بود، اما میانگین و واریانس تغییر خواهند کرد. بنابراین، اگر مدل خود را بر روی بازیکنان بیسبال آموزش دهیم، احتمالاً هنگام اعمال آن بر دانشجویان یک دانشگاه نتایج اشتباهی خواهد داد، زیرا توزیع زیرین متفاوت است.
توزیع نرمال
توزیع وزنهایی که در بالا دیدیم بسیار معمول است و بسیاری از اندازهگیریهای دنیای واقعی از همان نوع توزیع پیروی میکنند، اما با میانگین و واریانس متفاوت. این توزیع توزیع نرمال نامیده میشود و نقش بسیار مهمی در آمار دارد.
استفاده از توزیع نرمال راه درستی برای تولید وزنهای تصادفی بازیکنان بالقوه بیسبال است. وقتی میانگین وزن mean
و انحراف معیار std
را بدانیم، میتوانیم ۱۰۰۰ نمونه وزن به روش زیر تولید کنیم:
samples = np.random.normal(mean,std,1000)
اگر هیستوگرام نمونههای تولیدشده را رسم کنیم، تصویری بسیار شبیه به آنچه در بالا نشان داده شده است خواهیم دید. و اگر تعداد نمونهها و تعداد باکسها را افزایش دهیم، میتوانیم تصویری از توزیع نرمال که به حالت ایدهآل نزدیکتر است تولید کنیم:
توزیع نرمال با میانگین=۰ و انحراف معیار=۱
بازههای اطمینان
وقتی درباره وزن بازیکنان بیسبال صحبت میکنیم، فرض میکنیم که یک متغیر تصادفی W وجود دارد که به توزیع احتمال ایدهآل وزنهای همه بازیکنان بیسبال (به اصطلاح جمعیت) مربوط است. دنباله وزنهای ما به زیرمجموعهای از همه بازیکنان بیسبال که آن را نمونه مینامیم مربوط است. یک سؤال جالب این است که آیا میتوانیم پارامترهای توزیع W، یعنی میانگین و واریانس جمعیت، را بدانیم؟
سادهترین پاسخ این است که میانگین و واریانس نمونه خود را محاسبه کنیم. با این حال، ممکن است نمونه تصادفی ما به طور دقیق نماینده کل جمعیت نباشد. بنابراین منطقی است که درباره بازه اطمینان صحبت کنیم.
فاصله اطمینان برآوردی از میانگین واقعی جامعه بر اساس نمونه ما است که با یک احتمال مشخص (یا سطح اطمینان) دقیق است. فرض کنید نمونهای داریم X1, ..., Xn از توزیع ما. هر بار که نمونهای از توزیع خود میگیریم، به یک مقدار میانگین متفاوت μ میرسیم. بنابراین μ میتواند به عنوان یک متغیر تصادفی در نظر گرفته شود. یک بازه اطمینان با اطمینان p یک جفت مقدار (Lp,Rp) است، به طوری که P(Lp≤μ≤Rp) = p، یعنی احتمال اینکه مقدار میانگین اندازهگیری شده در این بازه قرار گیرد برابر با p است.
بحث در مورد نحوه محاسبه این بازههای اطمینان فراتر از مقدمه کوتاه ما است. جزئیات بیشتر را میتوانید در ویکیپدیا پیدا کنید. به طور خلاصه، توزیع میانگین نمونه محاسبه شده نسبت به میانگین واقعی جمعیت تعریف میشود، که به آن توزیع دانشجو گفته میشود.
نکته جالب: توزیع دانشجو به نام ریاضیدان ویلیام سیلی گاست نامگذاری شده است، که مقاله خود را با نام مستعار "Student" منتشر کرد. او در کارخانه آبجوسازی گینس کار میکرد و طبق یکی از نسخهها، کارفرمای او نمیخواست عموم مردم بدانند که آنها از آزمونهای آماری برای تعیین کیفیت مواد اولیه استفاده میکنند.
اگر بخواهیم میانگین μ جمعیت خود را با اطمینان p تخمین بزنیم، باید (1-p)/2-امین صدک از توزیع دانشجو A را بگیریم، که میتواند از جداول گرفته شود یا با استفاده از برخی توابع داخلی نرمافزارهای آماری (مانند Python، R و غیره) محاسبه شود. سپس بازه μ به صورت X±A*D/√n خواهد بود، که در آن X میانگین نمونه به دست آمده و D انحراف معیار است.
توجه: ما همچنین بحث در مورد مفهوم مهم درجات آزادی را که در ارتباط با توزیع دانشجو مهم است، حذف کردهایم. برای درک عمیقتر این مفهوم میتوانید به کتابهای کاملتر در زمینه آمار مراجعه کنید.
یک مثال از محاسبه بازه اطمینان برای وزنها و قدها در دفترچههای همراه ارائه شده است.
p | میانگین وزن |
---|---|
0.85 | 201.73±0.94 |
0.90 | 201.73±1.08 |
0.95 | 201.73±1.28 |
توجه کنید که هرچه احتمال اطمینان بالاتر باشد، بازه اطمینان گستردهتر است.
آزمون فرضیه
در مجموعه داده بازیکنان بیسبال ما، نقشهای مختلف بازیکنان وجود دارد که میتوان آنها را به صورت زیر خلاصه کرد (به دفترچه همراه نگاه کنید تا ببینید این جدول چگونه محاسبه شده است):
نقش | قد | وزن | تعداد |
---|---|---|---|
Catcher | 72.723684 | 204.328947 | 76 |
Designated_Hitter | 74.222222 | 220.888889 | 18 |
First_Baseman | 74.000000 | 213.109091 | 55 |
Outfielder | 73.010309 | 199.113402 | 194 |
Relief_Pitcher | 74.374603 | 203.517460 | 315 |
Second_Baseman | 71.362069 | 184.344828 | 58 |
Shortstop | 71.903846 | 182.923077 | 52 |
Starting_Pitcher | 74.719457 | 205.163636 | 221 |
Third_Baseman | 73.044444 | 200.955556 | 45 |
میتوانیم مشاهده کنیم که میانگین قد بازیکنان First Baseman بیشتر از Second Baseman است. بنابراین ممکن است وسوسه شویم که نتیجه بگیریم بازیکنان First Baseman بلندتر از بازیکنان Second Baseman هستند.
این بیان یک فرضیه نامیده میشود، زیرا نمیدانیم آیا این واقعیت واقعاً درست است یا خیر.
با این حال، همیشه واضح نیست که آیا میتوانیم این نتیجهگیری را انجام دهیم. از بحث بالا میدانیم که هر میانگین دارای یک بازه اطمینان مرتبط است و بنابراین این تفاوت ممکن است فقط یک خطای آماری باشد. ما به یک روش رسمیتر برای آزمون فرضیه خود نیاز داریم.
بیایید بازههای اطمینان را جداگانه برای قدهای بازیکنان First Baseman و Second Baseman محاسبه کنیم:
اطمینان | First Baseman | Second Baseman |
---|---|---|
0.85 | 73.62..74.38 | 71.04..71.69 |
0.90 | 73.56..74.44 | 70.99..71.73 |
0.95 | 73.47..74.53 | 70.92..71.81 |
میتوانیم ببینیم که تحت هیچ سطح اطمینانی بازهها همپوشانی ندارند. این فرضیه ما را که بازیکنان First Baseman بلندتر از بازیکنان Second Baseman هستند، اثبات میکند.
به طور رسمیتر، مسئلهای که ما حل میکنیم این است که ببینیم آیا دو توزیع احتمالی یکسان هستند یا حداقل پارامترهای یکسانی دارند. بسته به توزیع، باید از آزمونهای مختلفی برای این کار استفاده کنیم. اگر بدانیم که توزیعهای ما نرمال هستند، میتوانیم از آزمون t دانشجو استفاده کنیم.
در آزمون t دانشجو، ما مقدار t-value را محاسبه میکنیم، که تفاوت بین میانگینها را با در نظر گرفتن واریانس نشان میدهد. نشان داده شده است که مقدار t از توزیع دانشجو پیروی میکند، که به ما امکان میدهد مقدار آستانه را برای یک سطح اطمینان p مشخص به دست آوریم (این مقدار میتواند محاسبه شود یا در جداول عددی جستجو شود). سپس مقدار t را با این آستانه مقایسه میکنیم تا فرضیه را تأیید یا رد کنیم.
در Python، میتوانیم از بسته SciPy استفاده کنیم، که شامل تابع ttest_ind
است (علاوه بر بسیاری از توابع آماری مفید دیگر!). این تابع مقدار t را برای ما محاسبه میکند و همچنین جستجوی معکوس مقدار p اطمینان را انجام میدهد، بنابراین میتوانیم فقط به اطمینان نگاه کنیم تا نتیجهگیری کنیم.
برای مثال، مقایسه ما بین قدهای بازیکنان First Baseman و Second Baseman نتایج زیر را به ما میدهد:
from scipy.stats import ttest_ind
tval, pval = ttest_ind(df.loc[df['Role']=='First_Baseman',['Height']], df.loc[df['Role']=='Designated_Hitter',['Height']],equal_var=False)
print(f"T-value = {tval[0]:.2f}\nP-value: {pval[0]}")
T-value = 7.65
P-value: 9.137321189738925e-12
در مورد ما، مقدار p بسیار کم است، به این معنی که شواهد قویای وجود دارد که نشان میدهد بازیکنان First Baseman بلندتر هستند.
همچنین انواع دیگری از فرضیهها وجود دارد که ممکن است بخواهیم آزمون کنیم، برای مثال:
- اثبات اینکه یک نمونه داده شده از یک توزیع خاص پیروی میکند. در مورد ما فرض کردهایم که قدها به صورت نرمال توزیع شدهاند، اما این نیاز به تأیید آماری رسمی دارد.
- اثبات اینکه مقدار میانگین یک نمونه با یک مقدار از پیش تعریف شده مطابقت دارد
- مقایسه میانگینهای چندین نمونه (مثلاً تفاوت در سطح شادی بین گروههای سنی مختلف)
قانون اعداد بزرگ و قضیه حد مرکزی
یکی از دلایلی که توزیع نرمال بسیار مهم است، قضیه حد مرکزی است. فرض کنید نمونه بزرگی از مقادیر مستقل N داریم X1, ..., XN، که از هر توزیعی با میانگین μ و واریانس σ2 نمونهبرداری شدهاند. سپس، برای N به اندازه کافی بزرگ (به عبارت دیگر، وقتی N→∞)، میانگین ΣiXi به صورت نرمال توزیع میشود، با میانگین μ و واریانس σ2/N.
یک روش دیگر برای تفسیر قضیه حد مرکزی این است که بگوییم صرف نظر از توزیع، وقتی میانگین مجموع مقادیر هر متغیر تصادفی را محاسبه میکنید، به توزیع نرمال میرسید.
از قضیه حد مرکزی همچنین نتیجه میشود که وقتی N→∞، احتمال اینکه میانگین نمونه برابر با μ باشد به 1 میرسد. این به عنوان قانون اعداد بزرگ شناخته میشود.
کوواریانس و همبستگی
یکی از کارهایی که علم داده انجام میدهد، یافتن روابط بین دادهها است. میگوییم دو دنباله همبستگی دارند وقتی رفتار مشابهی را در یک زمان مشخص نشان میدهند، یعنی یا به طور همزمان افزایش/کاهش مییابند، یا یک دنباله افزایش مییابد وقتی دیگری کاهش مییابد و بالعکس. به عبارت دیگر، به نظر میرسد که بین دو دنباله رابطهای وجود دارد.
همبستگی لزوماً نشاندهنده رابطه علّی بین دو دنباله نیست؛ گاهی هر دو متغیر میتوانند به یک علت خارجی وابسته باشند، یا ممکن است صرفاً به صورت تصادفی دو دنباله همبستگی داشته باشند. با این حال، همبستگی ریاضی قوی نشانه خوبی است که دو متغیر به نوعی به هم مرتبط هستند.
به صورت ریاضی، مفهوم اصلی که رابطه بین دو متغیر تصادفی را نشان میدهد، کوواریانس است، که به این صورت محاسبه میشود: Cov(X,Y) = E[(X-E(X))(Y-E(Y))]. انحراف هر دو متغیر از میانگینهایشان را محاسبه میکنیم و سپس حاصلضرب این انحرافها را میگیریم. اگر هر دو متغیر با هم انحراف داشته باشند، حاصلضرب همیشه یک مقدار مثبت خواهد بود، که به کوواریانس مثبت اضافه میشود. اگر هر دو متغیر به صورت غیرهمزمان انحراف داشته باشند (یعنی یکی زیر میانگین باشد وقتی دیگری بالای میانگین است)، همیشه اعداد منفی خواهیم داشت، که به کوواریانس منفی اضافه میشود. اگر انحرافها وابسته نباشند، تقریباً به صفر اضافه میشوند.
مقدار مطلق کوواریانس اطلاعات زیادی در مورد میزان همبستگی به ما نمیدهد، زیرا به بزرگی مقادیر واقعی بستگی دارد. برای نرمالسازی آن، میتوانیم کوواریانس را بر انحراف معیار هر دو متغیر تقسیم کنیم تا همبستگی به دست آید. نکته خوب این است که همبستگی همیشه در محدوده [-1,1] است، که در آن 1 نشاندهنده همبستگی مثبت قوی بین مقادیر، -1 نشاندهنده همبستگی منفی قوی، و 0 نشاندهنده عدم همبستگی (متغیرها مستقل هستند) است.
مثال: میتوانیم همبستگی بین وزنها و قدهای بازیکنان بیسبال را از مجموعه داده ذکر شده در بالا محاسبه کنیم:
print(np.corrcoef(weights,heights))
در نتیجه، ماتریس همبستگی به این صورت به دست میآید:
array([[1. , 0.52959196],
[0.52959196, 1. ]])
ماتریس همبستگی C را میتوان برای هر تعداد دنباله ورودی S1, ..., Sn محاسبه کرد. مقدار Cij همبستگی بین Si و Sj است و عناصر قطر همیشه 1 هستند (که همچنین همبستگی خودی Si است).
در مورد ما، مقدار 0.53 نشان میدهد که بین وزن و قد یک فرد مقداری همبستگی وجود دارد. همچنین میتوانیم نمودار پراکندگی یک مقدار در مقابل دیگری را رسم کنیم تا رابطه را به صورت بصری ببینیم:
مثالهای بیشتری از همبستگی و کوواریانس را میتوانید در دفترچه همراه پیدا کنید.
نتیجهگیری
در این بخش، یاد گرفتیم:
- ویژگیهای آماری پایه دادهها، مانند میانگین، واریانس، مد و چارکها
- توزیعهای مختلف متغیرهای تصادفی، از جمله توزیع نرمال
- نحوه یافتن همبستگی بین ویژگیهای مختلف
- نحوه استفاده از ابزارهای ریاضی و آماری برای اثبات برخی فرضیهها
- نحوه محاسبه بازههای اطمینان برای متغیر تصادفی با توجه به نمونه داده
در حالی که این قطعاً لیست کاملی از موضوعاتی که در احتمال و آمار وجود دارد نیست، باید برای شروع خوب در این دوره کافی باشد.
🚀 چالش
از کد نمونه در دفترچه استفاده کنید تا فرضیههای زیر را آزمون کنید:
- بازیکنان First Baseman از بازیکنان Second Baseman مسنتر هستند
- بازیکنان First Baseman از بازیکنان Third Baseman بلندتر هستند
- بازیکنان Shortstop از بازیکنان Second Baseman بلندتر هستند
آزمون پس از درس
مرور و مطالعه خودآموز
احتمال و آمار موضوعی بسیار گسترده است که شایسته دورهای جداگانه است. اگر علاقهمند به مطالعه عمیقتر نظریه هستید، ممکن است بخواهید به خواندن برخی از کتابهای زیر ادامه دهید:
- کارلوس فرناندز-گرندا از دانشگاه نیویورک یادداشتهای درسی عالی دارد احتمال و آمار برای علم داده (به صورت آنلاین در دسترس است)
- پیتر و اندرو بروس. آمار عملی برای دانشمندان داده. [کد نمونه در R].
- جیمز دی. میلر. آمار برای علم داده [کد نمونه در R]
تکلیف
اعتبار
این درس با ♥️ توسط دمیتری سوشنیکوف نوشته شده است.
سلب مسئولیت:
این سند با استفاده از سرویس ترجمه هوش مصنوعی Co-op Translator ترجمه شده است. در حالی که ما تلاش میکنیم دقت را حفظ کنیم، لطفاً توجه داشته باشید که ترجمههای خودکار ممکن است شامل خطاها یا نادرستیها باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، ترجمه حرفهای انسانی توصیه میشود. ما هیچ مسئولیتی در قبال سوء تفاهمها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم.