|
2 weeks ago | |
---|---|---|
.. | ||
solution | 2 weeks ago | |
README.md | 2 weeks ago | |
assignment.md | 2 weeks ago | |
notebook.ipynb | 2 weeks ago |
README.md
شروع کار با پایتون و Scikit-learn برای مدلهای رگرسیون
اسکچنوت توسط Tomomi Imura
آزمون پیش از درس
این درس به زبان R نیز موجود است!
مقدمه
در این چهار درس، شما یاد خواهید گرفت که چگونه مدلهای رگرسیون بسازید. به زودی در مورد کاربردهای این مدلها صحبت خواهیم کرد. اما قبل از شروع، مطمئن شوید که ابزارهای مناسب برای شروع فرآیند را در اختیار دارید!
در این درس، شما یاد خواهید گرفت که:
- کامپیوتر خود را برای وظایف یادگیری ماشین محلی تنظیم کنید.
- با Jupyter notebooks کار کنید.
- از Scikit-learn استفاده کنید، شامل نصب آن.
- رگرسیون خطی را با یک تمرین عملی بررسی کنید.
نصبها و تنظیمات
🎥 روی تصویر بالا کلیک کنید تا یک ویدئوی کوتاه درباره تنظیم کامپیوتر برای یادگیری ماشین مشاهده کنید.
-
نصب پایتون. مطمئن شوید که پایتون روی کامپیوتر شما نصب شده است. شما از پایتون برای بسیاری از وظایف علم داده و یادگیری ماشین استفاده خواهید کرد. اکثر سیستمهای کامپیوتری از قبل شامل نصب پایتون هستند. همچنین بستههای Python Coding Packs مفیدی وجود دارند که تنظیمات را برای برخی کاربران آسانتر میکنند.
برخی کاربردهای پایتون ممکن است به یک نسخه خاص از نرمافزار نیاز داشته باشند، در حالی که دیگر کاربردها به نسخه دیگری نیاز دارند. به همین دلیل، کار کردن در یک محیط مجازی مفید است.
-
نصب Visual Studio Code. مطمئن شوید که Visual Studio Code روی کامپیوتر شما نصب شده است. دستورالعملهای نصب Visual Studio Code را برای نصب پایه دنبال کنید. شما در این دوره از پایتون در Visual Studio Code استفاده خواهید کرد، بنابراین ممکن است بخواهید نحوه تنظیم Visual Studio Code برای توسعه پایتون را مرور کنید.
با کار کردن روی این مجموعه ماژولهای یادگیری با پایتون راحتتر شوید.
🎥 روی تصویر بالا کلیک کنید تا یک ویدئو درباره استفاده از پایتون در VS Code مشاهده کنید.
-
نصب Scikit-learn، با دنبال کردن این دستورالعملها. از آنجا که باید مطمئن شوید که از پایتون 3 استفاده میکنید، توصیه میشود از یک محیط مجازی استفاده کنید. توجه داشته باشید، اگر این کتابخانه را روی یک مک M1 نصب میکنید، دستورالعملهای خاصی در صفحه لینک شده وجود دارد.
-
نصب Jupyter Notebook. شما باید بسته Jupyter را نصب کنید.
محیط نویسندگی یادگیری ماشین شما
شما از notebooks برای توسعه کد پایتون و ایجاد مدلهای یادگیری ماشین استفاده خواهید کرد. این نوع فایل یک ابزار رایج برای دانشمندان داده است و با پسوند .ipynb
شناسایی میشود.
نوتبوکها یک محیط تعاملی هستند که به توسعهدهنده اجازه میدهند هم کدنویسی کنند و هم یادداشتها و مستندات پیرامون کد بنویسند، که برای پروژههای آزمایشی یا تحقیقاتی بسیار مفید است.
🎥 روی تصویر بالا کلیک کنید تا یک ویدئوی کوتاه درباره این تمرین مشاهده کنید.
تمرین - کار با یک نوتبوک
در این پوشه، فایل notebook.ipynb را پیدا خواهید کرد.
-
فایل notebook.ipynb را در Visual Studio Code باز کنید.
یک سرور Jupyter با پایتون 3+ شروع خواهد شد. شما بخشهایی از نوتبوک را پیدا خواهید کرد که میتوانند
اجرا شوند
، قطعات کد. شما میتوانید یک بلوک کد را با انتخاب آیکونی که شبیه دکمه پخش است اجرا کنید. -
آیکون
md
را انتخاب کنید و کمی متن مارکداون اضافه کنید، و متن زیر را وارد کنید # خوش آمدید به نوتبوک خود.سپس کمی کد پایتون اضافه کنید.
-
در بلوک کد تایپ کنید print('hello notebook').
-
فلش را انتخاب کنید تا کد اجرا شود.
شما باید عبارت چاپ شده را مشاهده کنید:
hello notebook
شما میتوانید کد خود را با نظرات ترکیب کنید تا نوتبوک را خود-مستند کنید.
✅ برای یک دقیقه فکر کنید که محیط کاری یک توسعهدهنده وب چقدر با محیط کاری یک دانشمند داده متفاوت است.
شروع کار با Scikit-learn
اکنون که پایتون در محیط محلی شما تنظیم شده است و با Jupyter notebooks راحت هستید، بیایید با Scikit-learn نیز راحت شویم (تلفظ آن sci
مانند science
). Scikit-learn یک API گسترده ارائه میدهد تا به شما در انجام وظایف یادگیری ماشین کمک کند.
طبق وبسایت آنها، "Scikit-learn یک کتابخانه یادگیری ماشین متنباز است که از یادگیری نظارتشده و بدون نظارت پشتیبانی میکند. همچنین ابزارهای مختلفی برای برازش مدل، پیشپردازش دادهها، انتخاب مدل و ارزیابی، و بسیاری از امکانات دیگر ارائه میدهد."
در این دوره، شما از Scikit-learn و ابزارهای دیگر برای ساخت مدلهای یادگیری ماشین استفاده خواهید کرد تا وظایفی را که به آنها "یادگیری ماشین سنتی" میگوییم انجام دهید. ما عمداً از شبکههای عصبی و یادگیری عمیق اجتناب کردهایم، زیرا آنها بهتر در برنامه درسی آینده ما با عنوان "AI برای مبتدیان" پوشش داده میشوند.
Scikit-learn ساخت مدلها و ارزیابی آنها برای استفاده را ساده میکند. این کتابخانه عمدتاً بر استفاده از دادههای عددی تمرکز دارد و شامل چندین مجموعه داده آماده برای استفاده به عنوان ابزارهای یادگیری است. همچنین مدلهای پیشساختهای برای دانشآموزان دارد تا امتحان کنند. بیایید فرآیند بارگذاری دادههای از پیش بستهبندی شده و استفاده از یک تخمینگر برای اولین مدل یادگیری ماشین با Scikit-learn را با دادههای پایه بررسی کنیم.
تمرین - اولین نوتبوک Scikit-learn شما
این آموزش از مثال رگرسیون خطی در وبسایت Scikit-learn الهام گرفته شده است.
🎥 روی تصویر بالا کلیک کنید تا یک ویدئوی کوتاه درباره این تمرین مشاهده کنید.
در فایل notebook.ipynb مرتبط با این درس، تمام سلولها را با فشار دادن آیکون 'سطل زباله' پاک کنید.
در این بخش، شما با یک مجموعه داده کوچک درباره دیابت که در Scikit-learn برای اهداف یادگیری ساخته شده است کار خواهید کرد. تصور کنید که میخواهید یک درمان برای بیماران دیابتی آزمایش کنید. مدلهای یادگیری ماشین ممکن است به شما کمک کنند تعیین کنید کدام بیماران بر اساس ترکیب متغیرها بهتر به درمان پاسخ میدهند. حتی یک مدل رگرسیون بسیار پایه، زمانی که بصریسازی شود، ممکن است اطلاعاتی درباره متغیرهایی ارائه دهد که به شما در سازماندهی آزمایشهای بالینی نظری کمک کند.
✅ روشهای رگرسیون زیادی وجود دارند، و انتخاب شما بستگی به پاسخی دارد که به دنبال آن هستید. اگر میخواهید ارتفاع احتمالی یک فرد را بر اساس سن او پیشبینی کنید، از رگرسیون خطی استفاده میکنید، زیرا به دنبال یک مقدار عددی هستید. اگر علاقهمند به کشف این هستید که آیا یک نوع غذا باید به عنوان وگان در نظر گرفته شود یا نه، به دنبال یک تخصیص دستهبندی هستید، بنابراین از رگرسیون لجستیک استفاده میکنید. بعداً درباره رگرسیون لجستیک بیشتر یاد خواهید گرفت. کمی فکر کنید که چه سوالاتی میتوانید از دادهها بپرسید و کدام یک از این روشها مناسبتر خواهد بود.
بیایید این کار را شروع کنیم.
وارد کردن کتابخانهها
برای این کار، ما برخی کتابخانهها را وارد خواهیم کرد:
- matplotlib. این یک ابزار گرافیکی مفید است و ما از آن برای ایجاد یک نمودار خطی استفاده خواهیم کرد.
- numpy. numpy یک کتابخانه مفید برای کار با دادههای عددی در پایتون است.
- sklearn. این همان کتابخانه Scikit-learn است.
برخی کتابخانهها را برای کمک به وظایف خود وارد کنید.
-
واردات را با تایپ کد زیر اضافه کنید:
import matplotlib.pyplot as plt import numpy as np from sklearn import datasets, linear_model, model_selection
در بالا، شما
matplotlib
وnumpy
را وارد میکنید وdatasets
،linear_model
وmodel_selection
را ازsklearn
وارد میکنید.model_selection
برای تقسیم دادهها به مجموعههای آموزشی و آزمایشی استفاده میشود.
مجموعه داده دیابت
مجموعه داده دیابت شامل 442 نمونه داده درباره دیابت است، با 10 متغیر ویژگی، برخی از آنها شامل:
- age: سن به سال
- bmi: شاخص توده بدنی
- bp: فشار خون متوسط
- s1 tc: سلولهای T (نوعی از گلبولهای سفید خون)
✅ این مجموعه داده شامل مفهوم 'جنسیت' به عنوان یک متغیر ویژگی مهم برای تحقیق درباره دیابت است. بسیاری از مجموعه دادههای پزشکی شامل این نوع طبقهبندی دودویی هستند. کمی فکر کنید که چگونه چنین دستهبندیهایی ممکن است بخشهایی از جمعیت را از درمانها حذف کنند.
اکنون دادههای X و y را بارگذاری کنید.
🎓 به یاد داشته باشید، این یادگیری نظارتشده است و ما به یک هدف 'y' نامگذاری شده نیاز داریم.
در یک سلول کد جدید، مجموعه داده دیابت را با فراخوانی load_diabetes()
بارگذاری کنید. ورودی return_X_y=True
نشان میدهد که X
یک ماتریس داده خواهد بود و y
هدف رگرسیون خواهد بود.
-
برخی دستورات چاپ اضافه کنید تا شکل ماتریس داده و اولین عنصر آن را نشان دهید:
X, y = datasets.load_diabetes(return_X_y=True) print(X.shape) print(X[0])
چیزی که به عنوان پاسخ دریافت میکنید، یک tuple است. کاری که انجام میدهید این است که دو مقدار اول tuple را به ترتیب به
X
وy
اختصاص دهید. بیشتر درباره tupleها یاد بگیرید.شما میتوانید ببینید که این دادهها شامل 442 آیتم هستند که در آرایههایی با 10 عنصر شکل گرفتهاند:
(442, 10) [ 0.03807591 0.05068012 0.06169621 0.02187235 -0.0442235 -0.03482076 -0.04340085 -0.00259226 0.01990842 -0.01764613]
✅ کمی فکر کنید درباره رابطه بین دادهها و هدف رگرسیون. رگرسیون خطی روابط بین ویژگی X و متغیر هدف y را پیشبینی میکند. آیا میتوانید هدف مجموعه داده دیابت را در مستندات پیدا کنید؟ این مجموعه داده چه چیزی را نشان میدهد، با توجه به هدف؟
-
سپس، بخشی از این مجموعه داده را برای رسم انتخاب کنید، با انتخاب ستون سوم مجموعه داده. شما میتوانید این کار را با استفاده از عملگر
:
برای انتخاب تمام ردیفها انجام دهید، و سپس ستون سوم را با استفاده از ایندکس (2) انتخاب کنید. همچنین میتوانید دادهها را به یک آرایه 2D تغییر شکل دهید - همانطور که برای رسم لازم است - با استفاده ازreshape(n_rows, n_columns)
. اگر یکی از پارامترها -1 باشد، بعد مربوطه به طور خودکار محاسبه میشود.X = X[:, 2] X = X.reshape((-1,1))
✅ در هر زمان، دادهها را چاپ کنید تا شکل آنها را بررسی کنید.
-
اکنون که دادهها آماده رسم هستند، میتوانید ببینید آیا یک ماشین میتواند به تعیین یک تقسیم منطقی بین اعداد در این مجموعه داده کمک کند. برای انجام این کار، باید هم دادهها (X) و هم هدف (y) را به مجموعههای آزمایشی و آموزشی تقسیم کنید. Scikit-learn یک روش ساده برای انجام این کار دارد؛ شما میتوانید دادههای آزمایشی خود را در یک نقطه مشخص تقسیم کنید.
X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=0.33)
-
اکنون آماده آموزش مدل خود هستید! مدل رگرسیون خطی را بارگذاری کنید و آن را با مجموعههای آموزشی X و y خود با استفاده از
model.fit()
آموزش دهید:model = linear_model.LinearRegression() model.fit(X_train, y_train)
✅
model.fit()
یک تابع است که در بسیاری از کتابخانههای یادگیری ماشین مانند TensorFlow مشاهده خواهید کرد. -
سپس، با استفاده از دادههای آزمایشی، یک پیشبینی ایجاد کنید، با استفاده از تابع
predict()
. این برای رسم خط بین گروههای داده استفاده خواهد شد.y_pred = model.predict(X_test)
-
اکنون زمان نمایش دادهها در یک نمودار است. Matplotlib یک ابزار بسیار مفید برای این کار است. یک نمودار پراکندگی از تمام دادههای آزمایشی X و y ایجاد کنید، و از پیشبینی برای رسم یک خط در مناسبترین مکان، بین گروههای داده مدل استفاده کنید.
plt.scatter(X_test, y_test, color='black') plt.plot(X_test, y_pred, color='blue', linewidth=3) plt.xlabel('Scaled BMIs') plt.ylabel('Disease Progression') plt.title('A Graph Plot Showing Diabetes Progression Against BMI') plt.show()
✅ کمی فکر کنید که اینجا چه اتفاقی میافتد. یک خط مستقیم از میان نقاط کوچک زیادی از داده عبور میکند، اما دقیقاً چه کاری انجام میدهد؟ آیا میتوانید ببینید که چگونه باید بتوانید از این خط برای پیشبینی محل قرارگیری یک نقطه داده جدید و دیدهنشده نسبت به محور y نمودار استفاده کنید؟ سعی کنید کاربرد عملی این مدل را به زبان بیاورید.
تبریک میگویم، شما اولین مدل رگرسیون خطی خود را ساختید، با آن یک پیشبینی انجام دادید و آن را در یک نمودار نمایش دادید!
🚀چالش
یک متغیر دیگر از این مجموعه داده را رسم کنید. نکته: این خط را ویرایش کنید: X = X[:,2]
. با توجه به هدف این مجموعه داده، چه چیزی میتوانید درباره پیشرفت بیماری دیابت کشف کنید؟
آزمون پس از درس
مرور و مطالعه شخصی
در این آموزش، شما با رگرسیون خطی ساده کار کردید، نه رگرسیون تکمتغیره یا چندمتغیره. کمی درباره تفاوتهای این روشها بخوانید یا به این ویدیو نگاهی بیندازید.
بیشتر درباره مفهوم رگرسیون بخوانید و فکر کنید که چه نوع سوالاتی میتوانند با این تکنیک پاسخ داده شوند. این آموزش را بگیرید تا درک خود را عمیقتر کنید.
تکلیف
سلب مسئولیت:
این سند با استفاده از سرویس ترجمه هوش مصنوعی Co-op Translator ترجمه شده است. در حالی که ما تلاش میکنیم دقت را حفظ کنیم، لطفاً توجه داشته باشید که ترجمههای خودکار ممکن است شامل خطاها یا نادرستیها باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، توصیه میشود از ترجمه حرفهای انسانی استفاده کنید. ما مسئولیتی در قبال سوء تفاهمها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم.