|
|
<!--
|
|
|
CO_OP_TRANSLATOR_METADATA:
|
|
|
{
|
|
|
"original_hash": "fa81d226c71d5af7a2cade31c1c92b88",
|
|
|
"translation_date": "2025-09-04T22:33:17+00:00",
|
|
|
"source_file": "2-Regression/1-Tools/README.md",
|
|
|
"language_code": "fa"
|
|
|
}
|
|
|
-->
|
|
|
# شروع کار با پایتون و Scikit-learn برای مدلهای رگرسیون
|
|
|
|
|
|

|
|
|
|
|
|
> اسکچنوت توسط [Tomomi Imura](https://www.twitter.com/girlie_mac)
|
|
|
|
|
|
## [آزمون پیش از درس](https://ff-quizzes.netlify.app/en/ml/)
|
|
|
|
|
|
> ### [این درس به زبان R نیز موجود است!](../../../../2-Regression/1-Tools/solution/R/lesson_1.html)
|
|
|
|
|
|
## مقدمه
|
|
|
|
|
|
در این چهار درس، شما یاد خواهید گرفت که چگونه مدلهای رگرسیون بسازید. به زودی در مورد کاربردهای این مدلها صحبت خواهیم کرد. اما قبل از شروع، مطمئن شوید که ابزارهای مناسب برای شروع فرآیند را در اختیار دارید!
|
|
|
|
|
|
در این درس، شما یاد خواهید گرفت که:
|
|
|
|
|
|
- کامپیوتر خود را برای وظایف یادگیری ماشین محلی تنظیم کنید.
|
|
|
- با Jupyter notebooks کار کنید.
|
|
|
- از Scikit-learn استفاده کنید، شامل نصب آن.
|
|
|
- رگرسیون خطی را با یک تمرین عملی بررسی کنید.
|
|
|
|
|
|
## نصبها و تنظیمات
|
|
|
|
|
|
[](https://youtu.be/-DfeD2k2Kj0 "یادگیری ماشین برای مبتدیان - تنظیم ابزارها برای ساخت مدلهای یادگیری ماشین")
|
|
|
|
|
|
> 🎥 روی تصویر بالا کلیک کنید تا یک ویدئوی کوتاه درباره تنظیم کامپیوتر برای یادگیری ماشین مشاهده کنید.
|
|
|
|
|
|
1. **نصب پایتون**. مطمئن شوید که [پایتون](https://www.python.org/downloads/) روی کامپیوتر شما نصب شده است. شما از پایتون برای بسیاری از وظایف علم داده و یادگیری ماشین استفاده خواهید کرد. اکثر سیستمهای کامپیوتری از قبل شامل نصب پایتون هستند. همچنین بستههای [Python Coding Packs](https://code.visualstudio.com/learn/educators/installers?WT.mc_id=academic-77952-leestott) مفیدی وجود دارند که تنظیمات را برای برخی کاربران آسانتر میکنند.
|
|
|
|
|
|
برخی کاربردهای پایتون ممکن است به یک نسخه خاص از نرمافزار نیاز داشته باشند، در حالی که دیگر کاربردها به نسخه دیگری نیاز دارند. به همین دلیل، کار کردن در یک [محیط مجازی](https://docs.python.org/3/library/venv.html) مفید است.
|
|
|
|
|
|
2. **نصب Visual Studio Code**. مطمئن شوید که Visual Studio Code روی کامپیوتر شما نصب شده است. دستورالعملهای [نصب Visual Studio Code](https://code.visualstudio.com/) را برای نصب پایه دنبال کنید. شما در این دوره از پایتون در Visual Studio Code استفاده خواهید کرد، بنابراین ممکن است بخواهید نحوه [تنظیم Visual Studio Code](https://docs.microsoft.com/learn/modules/python-install-vscode?WT.mc_id=academic-77952-leestott) برای توسعه پایتون را مرور کنید.
|
|
|
|
|
|
> با کار کردن روی این مجموعه [ماژولهای یادگیری](https://docs.microsoft.com/users/jenlooper-2911/collections/mp1pagggd5qrq7?WT.mc_id=academic-77952-leestott) با پایتون راحتتر شوید.
|
|
|
>
|
|
|
> [](https://youtu.be/yyQM70vi7V8 "تنظیم پایتون با Visual Studio Code")
|
|
|
>
|
|
|
> 🎥 روی تصویر بالا کلیک کنید تا یک ویدئو درباره استفاده از پایتون در VS Code مشاهده کنید.
|
|
|
|
|
|
3. **نصب Scikit-learn**، با دنبال کردن [این دستورالعملها](https://scikit-learn.org/stable/install.html). از آنجا که باید مطمئن شوید که از پایتون 3 استفاده میکنید، توصیه میشود از یک محیط مجازی استفاده کنید. توجه داشته باشید، اگر این کتابخانه را روی یک مک M1 نصب میکنید، دستورالعملهای خاصی در صفحه لینک شده وجود دارد.
|
|
|
|
|
|
4. **نصب Jupyter Notebook**. شما باید [بسته Jupyter](https://pypi.org/project/jupyter/) را نصب کنید.
|
|
|
|
|
|
## محیط نویسندگی یادگیری ماشین شما
|
|
|
|
|
|
شما از **notebooks** برای توسعه کد پایتون و ایجاد مدلهای یادگیری ماشین استفاده خواهید کرد. این نوع فایل یک ابزار رایج برای دانشمندان داده است و با پسوند `.ipynb` شناسایی میشود.
|
|
|
|
|
|
نوتبوکها یک محیط تعاملی هستند که به توسعهدهنده اجازه میدهند هم کدنویسی کنند و هم یادداشتها و مستندات پیرامون کد بنویسند، که برای پروژههای آزمایشی یا تحقیقاتی بسیار مفید است.
|
|
|
|
|
|
[](https://youtu.be/7E-jC8FLA2E "یادگیری ماشین برای مبتدیان - تنظیم Jupyter Notebooks برای شروع ساخت مدلهای رگرسیون")
|
|
|
|
|
|
> 🎥 روی تصویر بالا کلیک کنید تا یک ویدئوی کوتاه درباره این تمرین مشاهده کنید.
|
|
|
|
|
|
### تمرین - کار با یک نوتبوک
|
|
|
|
|
|
در این پوشه، فایل _notebook.ipynb_ را پیدا خواهید کرد.
|
|
|
|
|
|
1. فایل _notebook.ipynb_ را در Visual Studio Code باز کنید.
|
|
|
|
|
|
یک سرور Jupyter با پایتون 3+ شروع خواهد شد. شما بخشهایی از نوتبوک را پیدا خواهید کرد که میتوانند `اجرا شوند`، قطعات کد. شما میتوانید یک بلوک کد را با انتخاب آیکونی که شبیه دکمه پخش است اجرا کنید.
|
|
|
|
|
|
2. آیکون `md` را انتخاب کنید و کمی متن مارکداون اضافه کنید، و متن زیر را وارد کنید **# خوش آمدید به نوتبوک خود**.
|
|
|
|
|
|
سپس کمی کد پایتون اضافه کنید.
|
|
|
|
|
|
3. در بلوک کد تایپ کنید **print('hello notebook')**.
|
|
|
4. فلش را انتخاب کنید تا کد اجرا شود.
|
|
|
|
|
|
شما باید عبارت چاپ شده را مشاهده کنید:
|
|
|
|
|
|
```output
|
|
|
hello notebook
|
|
|
```
|
|
|
|
|
|

|
|
|
|
|
|
شما میتوانید کد خود را با نظرات ترکیب کنید تا نوتبوک را خود-مستند کنید.
|
|
|
|
|
|
✅ برای یک دقیقه فکر کنید که محیط کاری یک توسعهدهنده وب چقدر با محیط کاری یک دانشمند داده متفاوت است.
|
|
|
|
|
|
## شروع کار با Scikit-learn
|
|
|
|
|
|
اکنون که پایتون در محیط محلی شما تنظیم شده است و با Jupyter notebooks راحت هستید، بیایید با Scikit-learn نیز راحت شویم (تلفظ آن `sci` مانند `science`). Scikit-learn یک [API گسترده](https://scikit-learn.org/stable/modules/classes.html#api-ref) ارائه میدهد تا به شما در انجام وظایف یادگیری ماشین کمک کند.
|
|
|
|
|
|
طبق [وبسایت آنها](https://scikit-learn.org/stable/getting_started.html)، "Scikit-learn یک کتابخانه یادگیری ماشین متنباز است که از یادگیری نظارتشده و بدون نظارت پشتیبانی میکند. همچنین ابزارهای مختلفی برای برازش مدل، پیشپردازش دادهها، انتخاب مدل و ارزیابی، و بسیاری از امکانات دیگر ارائه میدهد."
|
|
|
|
|
|
در این دوره، شما از Scikit-learn و ابزارهای دیگر برای ساخت مدلهای یادگیری ماشین استفاده خواهید کرد تا وظایفی را که به آنها "یادگیری ماشین سنتی" میگوییم انجام دهید. ما عمداً از شبکههای عصبی و یادگیری عمیق اجتناب کردهایم، زیرا آنها بهتر در برنامه درسی آینده ما با عنوان "AI برای مبتدیان" پوشش داده میشوند.
|
|
|
|
|
|
Scikit-learn ساخت مدلها و ارزیابی آنها برای استفاده را ساده میکند. این کتابخانه عمدتاً بر استفاده از دادههای عددی تمرکز دارد و شامل چندین مجموعه داده آماده برای استفاده به عنوان ابزارهای یادگیری است. همچنین مدلهای پیشساختهای برای دانشآموزان دارد تا امتحان کنند. بیایید فرآیند بارگذاری دادههای از پیش بستهبندی شده و استفاده از یک تخمینگر برای اولین مدل یادگیری ماشین با Scikit-learn را با دادههای پایه بررسی کنیم.
|
|
|
|
|
|
## تمرین - اولین نوتبوک Scikit-learn شما
|
|
|
|
|
|
> این آموزش از [مثال رگرسیون خطی](https://scikit-learn.org/stable/auto_examples/linear_model/plot_ols.html#sphx-glr-auto-examples-linear-model-plot-ols-py) در وبسایت Scikit-learn الهام گرفته شده است.
|
|
|
|
|
|
[](https://youtu.be/2xkXL5EUpS0 "یادگیری ماشین برای مبتدیان - اولین پروژه رگرسیون خطی شما در پایتون")
|
|
|
|
|
|
> 🎥 روی تصویر بالا کلیک کنید تا یک ویدئوی کوتاه درباره این تمرین مشاهده کنید.
|
|
|
|
|
|
در فایل _notebook.ipynb_ مرتبط با این درس، تمام سلولها را با فشار دادن آیکون 'سطل زباله' پاک کنید.
|
|
|
|
|
|
در این بخش، شما با یک مجموعه داده کوچک درباره دیابت که در Scikit-learn برای اهداف یادگیری ساخته شده است کار خواهید کرد. تصور کنید که میخواهید یک درمان برای بیماران دیابتی آزمایش کنید. مدلهای یادگیری ماشین ممکن است به شما کمک کنند تعیین کنید کدام بیماران بر اساس ترکیب متغیرها بهتر به درمان پاسخ میدهند. حتی یک مدل رگرسیون بسیار پایه، زمانی که بصریسازی شود، ممکن است اطلاعاتی درباره متغیرهایی ارائه دهد که به شما در سازماندهی آزمایشهای بالینی نظری کمک کند.
|
|
|
|
|
|
✅ روشهای رگرسیون زیادی وجود دارند، و انتخاب شما بستگی به پاسخی دارد که به دنبال آن هستید. اگر میخواهید ارتفاع احتمالی یک فرد را بر اساس سن او پیشبینی کنید، از رگرسیون خطی استفاده میکنید، زیرا به دنبال یک **مقدار عددی** هستید. اگر علاقهمند به کشف این هستید که آیا یک نوع غذا باید به عنوان وگان در نظر گرفته شود یا نه، به دنبال یک **تخصیص دستهبندی** هستید، بنابراین از رگرسیون لجستیک استفاده میکنید. بعداً درباره رگرسیون لجستیک بیشتر یاد خواهید گرفت. کمی فکر کنید که چه سوالاتی میتوانید از دادهها بپرسید و کدام یک از این روشها مناسبتر خواهد بود.
|
|
|
|
|
|
بیایید این کار را شروع کنیم.
|
|
|
|
|
|
### وارد کردن کتابخانهها
|
|
|
|
|
|
برای این کار، ما برخی کتابخانهها را وارد خواهیم کرد:
|
|
|
|
|
|
- **matplotlib**. این یک [ابزار گرافیکی](https://matplotlib.org/) مفید است و ما از آن برای ایجاد یک نمودار خطی استفاده خواهیم کرد.
|
|
|
- **numpy**. [numpy](https://numpy.org/doc/stable/user/whatisnumpy.html) یک کتابخانه مفید برای کار با دادههای عددی در پایتون است.
|
|
|
- **sklearn**. این همان [کتابخانه Scikit-learn](https://scikit-learn.org/stable/user_guide.html) است.
|
|
|
|
|
|
برخی کتابخانهها را برای کمک به وظایف خود وارد کنید.
|
|
|
|
|
|
1. واردات را با تایپ کد زیر اضافه کنید:
|
|
|
|
|
|
```python
|
|
|
import matplotlib.pyplot as plt
|
|
|
import numpy as np
|
|
|
from sklearn import datasets, linear_model, model_selection
|
|
|
```
|
|
|
|
|
|
در بالا، شما `matplotlib` و `numpy` را وارد میکنید و `datasets`، `linear_model` و `model_selection` را از `sklearn` وارد میکنید. `model_selection` برای تقسیم دادهها به مجموعههای آموزشی و آزمایشی استفاده میشود.
|
|
|
|
|
|
### مجموعه داده دیابت
|
|
|
|
|
|
مجموعه داده [دیابت](https://scikit-learn.org/stable/datasets/toy_dataset.html#diabetes-dataset) شامل 442 نمونه داده درباره دیابت است، با 10 متغیر ویژگی، برخی از آنها شامل:
|
|
|
|
|
|
- age: سن به سال
|
|
|
- bmi: شاخص توده بدنی
|
|
|
- bp: فشار خون متوسط
|
|
|
- s1 tc: سلولهای T (نوعی از گلبولهای سفید خون)
|
|
|
|
|
|
✅ این مجموعه داده شامل مفهوم 'جنسیت' به عنوان یک متغیر ویژگی مهم برای تحقیق درباره دیابت است. بسیاری از مجموعه دادههای پزشکی شامل این نوع طبقهبندی دودویی هستند. کمی فکر کنید که چگونه چنین دستهبندیهایی ممکن است بخشهایی از جمعیت را از درمانها حذف کنند.
|
|
|
|
|
|
اکنون دادههای X و y را بارگذاری کنید.
|
|
|
|
|
|
> 🎓 به یاد داشته باشید، این یادگیری نظارتشده است و ما به یک هدف 'y' نامگذاری شده نیاز داریم.
|
|
|
|
|
|
در یک سلول کد جدید، مجموعه داده دیابت را با فراخوانی `load_diabetes()` بارگذاری کنید. ورودی `return_X_y=True` نشان میدهد که `X` یک ماتریس داده خواهد بود و `y` هدف رگرسیون خواهد بود.
|
|
|
|
|
|
1. برخی دستورات چاپ اضافه کنید تا شکل ماتریس داده و اولین عنصر آن را نشان دهید:
|
|
|
|
|
|
```python
|
|
|
X, y = datasets.load_diabetes(return_X_y=True)
|
|
|
print(X.shape)
|
|
|
print(X[0])
|
|
|
```
|
|
|
|
|
|
چیزی که به عنوان پاسخ دریافت میکنید، یک tuple است. کاری که انجام میدهید این است که دو مقدار اول tuple را به ترتیب به `X` و `y` اختصاص دهید. بیشتر درباره [tupleها](https://wikipedia.org/wiki/Tuple) یاد بگیرید.
|
|
|
|
|
|
شما میتوانید ببینید که این دادهها شامل 442 آیتم هستند که در آرایههایی با 10 عنصر شکل گرفتهاند:
|
|
|
|
|
|
```text
|
|
|
(442, 10)
|
|
|
[ 0.03807591 0.05068012 0.06169621 0.02187235 -0.0442235 -0.03482076
|
|
|
-0.04340085 -0.00259226 0.01990842 -0.01764613]
|
|
|
```
|
|
|
|
|
|
✅ کمی فکر کنید درباره رابطه بین دادهها و هدف رگرسیون. رگرسیون خطی روابط بین ویژگی X و متغیر هدف y را پیشبینی میکند. آیا میتوانید [هدف](https://scikit-learn.org/stable/datasets/toy_dataset.html#diabetes-dataset) مجموعه داده دیابت را در مستندات پیدا کنید؟ این مجموعه داده چه چیزی را نشان میدهد، با توجه به هدف؟
|
|
|
|
|
|
2. سپس، بخشی از این مجموعه داده را برای رسم انتخاب کنید، با انتخاب ستون سوم مجموعه داده. شما میتوانید این کار را با استفاده از عملگر `:` برای انتخاب تمام ردیفها انجام دهید، و سپس ستون سوم را با استفاده از ایندکس (2) انتخاب کنید. همچنین میتوانید دادهها را به یک آرایه 2D تغییر شکل دهید - همانطور که برای رسم لازم است - با استفاده از `reshape(n_rows, n_columns)`. اگر یکی از پارامترها -1 باشد، بعد مربوطه به طور خودکار محاسبه میشود.
|
|
|
|
|
|
```python
|
|
|
X = X[:, 2]
|
|
|
X = X.reshape((-1,1))
|
|
|
```
|
|
|
|
|
|
✅ در هر زمان، دادهها را چاپ کنید تا شکل آنها را بررسی کنید.
|
|
|
|
|
|
3. اکنون که دادهها آماده رسم هستند، میتوانید ببینید آیا یک ماشین میتواند به تعیین یک تقسیم منطقی بین اعداد در این مجموعه داده کمک کند. برای انجام این کار، باید هم دادهها (X) و هم هدف (y) را به مجموعههای آزمایشی و آموزشی تقسیم کنید. Scikit-learn یک روش ساده برای انجام این کار دارد؛ شما میتوانید دادههای آزمایشی خود را در یک نقطه مشخص تقسیم کنید.
|
|
|
|
|
|
```python
|
|
|
X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=0.33)
|
|
|
```
|
|
|
|
|
|
4. اکنون آماده آموزش مدل خود هستید! مدل رگرسیون خطی را بارگذاری کنید و آن را با مجموعههای آموزشی X و y خود با استفاده از `model.fit()` آموزش دهید:
|
|
|
|
|
|
```python
|
|
|
model = linear_model.LinearRegression()
|
|
|
model.fit(X_train, y_train)
|
|
|
```
|
|
|
|
|
|
✅ `model.fit()` یک تابع است که در بسیاری از کتابخانههای یادگیری ماشین مانند TensorFlow مشاهده خواهید کرد.
|
|
|
|
|
|
5. سپس، با استفاده از دادههای آزمایشی، یک پیشبینی ایجاد کنید، با استفاده از تابع `predict()`. این برای رسم خط بین گروههای داده استفاده خواهد شد.
|
|
|
|
|
|
```python
|
|
|
y_pred = model.predict(X_test)
|
|
|
```
|
|
|
|
|
|
6. اکنون زمان نمایش دادهها در یک نمودار است. Matplotlib یک ابزار بسیار مفید برای این کار است. یک نمودار پراکندگی از تمام دادههای آزمایشی X و y ایجاد کنید، و از پیشبینی برای رسم یک خط در مناسبترین مکان، بین گروههای داده مدل استفاده کنید.
|
|
|
|
|
|
```python
|
|
|
plt.scatter(X_test, y_test, color='black')
|
|
|
plt.plot(X_test, y_pred, color='blue', linewidth=3)
|
|
|
plt.xlabel('Scaled BMIs')
|
|
|
plt.ylabel('Disease Progression')
|
|
|
plt.title('A Graph Plot Showing Diabetes Progression Against BMI')
|
|
|
plt.show()
|
|
|
```
|
|
|
|
|
|

|
|
|
✅ کمی فکر کنید که اینجا چه اتفاقی میافتد. یک خط مستقیم از میان نقاط کوچک زیادی از داده عبور میکند، اما دقیقاً چه کاری انجام میدهد؟ آیا میتوانید ببینید که چگونه باید بتوانید از این خط برای پیشبینی محل قرارگیری یک نقطه داده جدید و دیدهنشده نسبت به محور y نمودار استفاده کنید؟ سعی کنید کاربرد عملی این مدل را به زبان بیاورید.
|
|
|
|
|
|
تبریک میگویم، شما اولین مدل رگرسیون خطی خود را ساختید، با آن یک پیشبینی انجام دادید و آن را در یک نمودار نمایش دادید!
|
|
|
|
|
|
---
|
|
|
## 🚀چالش
|
|
|
|
|
|
یک متغیر دیگر از این مجموعه داده را رسم کنید. نکته: این خط را ویرایش کنید: `X = X[:,2]`. با توجه به هدف این مجموعه داده، چه چیزی میتوانید درباره پیشرفت بیماری دیابت کشف کنید؟
|
|
|
|
|
|
## [آزمون پس از درس](https://ff-quizzes.netlify.app/en/ml/)
|
|
|
|
|
|
## مرور و مطالعه شخصی
|
|
|
|
|
|
در این آموزش، شما با رگرسیون خطی ساده کار کردید، نه رگرسیون تکمتغیره یا چندمتغیره. کمی درباره تفاوتهای این روشها بخوانید یا به [این ویدیو](https://www.coursera.org/lecture/quantifying-relationships-regression-models/linear-vs-nonlinear-categorical-variables-ai2Ef) نگاهی بیندازید.
|
|
|
|
|
|
بیشتر درباره مفهوم رگرسیون بخوانید و فکر کنید که چه نوع سوالاتی میتوانند با این تکنیک پاسخ داده شوند. این [آموزش](https://docs.microsoft.com/learn/modules/train-evaluate-regression-models?WT.mc_id=academic-77952-leestott) را بگیرید تا درک خود را عمیقتر کنید.
|
|
|
|
|
|
## تکلیف
|
|
|
|
|
|
[یک مجموعه داده متفاوت](assignment.md)
|
|
|
|
|
|
---
|
|
|
|
|
|
**سلب مسئولیت**:
|
|
|
این سند با استفاده از سرویس ترجمه هوش مصنوعی [Co-op Translator](https://github.com/Azure/co-op-translator) ترجمه شده است. در حالی که ما تلاش میکنیم دقت را حفظ کنیم، لطفاً توجه داشته باشید که ترجمههای خودکار ممکن است شامل خطاها یا نادرستیها باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، توصیه میشود از ترجمه حرفهای انسانی استفاده کنید. ما مسئولیتی در قبال سوء تفاهمها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم. |