You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
59 lines
9.7 KiB
59 lines
9.7 KiB
<!--
|
|
CO_OP_TRANSLATOR_METADATA:
|
|
{
|
|
"original_hash": "d92f57eb110dc7f765c05cbf0f837c77",
|
|
"translation_date": "2025-08-24T22:18:43+00:00",
|
|
"source_file": "4-Data-Science-Lifecycle/15-analyzing/README.md",
|
|
"language_code": "fa"
|
|
}
|
|
-->
|
|
# چرخه زندگی علم داده: تحلیل
|
|
|
|
|](../../sketchnotes/15-Analyzing.png)|
|
|
|:---:|
|
|
| چرخه زندگی علم داده: تحلیل - _طرح دستی توسط [@nitya](https://twitter.com/nitya)_ |
|
|
|
|
## آزمون پیش از درس
|
|
|
|
## [آزمون پیش از درس](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/28)
|
|
|
|
تحلیل در چرخه زندگی داده تأیید میکند که دادهها میتوانند به سوالات مطرحشده پاسخ دهند یا یک مشکل خاص را حل کنند. این مرحله همچنین میتواند بر تأیید اینکه یک مدل به درستی به این سوالات و مشکلات پرداخته است، تمرکز کند. این درس بر تحلیل اکتشافی دادهها یا EDA متمرکز است، که تکنیکهایی برای تعریف ویژگیها و روابط درون دادهها هستند و میتوانند برای آمادهسازی دادهها برای مدلسازی استفاده شوند.
|
|
|
|
ما از یک مجموعه داده نمونه از [Kaggle](https://www.kaggle.com/balaka18/email-spam-classification-dataset-csv/version/1) استفاده خواهیم کرد تا نشان دهیم چگونه این کار با استفاده از پایتون و کتابخانه Pandas قابل اجرا است. این مجموعه داده شامل شمارش برخی کلمات رایج موجود در ایمیلها است، منابع این ایمیلها ناشناس هستند. از [دفترچه یادداشت](../../../../4-Data-Science-Lifecycle/15-analyzing/notebook.ipynb) در این پوشه استفاده کنید تا مراحل را دنبال کنید.
|
|
|
|
## تحلیل اکتشافی دادهها
|
|
|
|
مرحله جمعآوری در چرخه زندگی جایی است که دادهها به دست میآیند و همچنین مشکلات و سوالات موجود مطرح میشوند، اما چگونه میتوانیم مطمئن شویم که دادهها میتوانند از نتیجه نهایی حمایت کنند؟
|
|
به یاد داشته باشید که یک دانشمند داده ممکن است سوالات زیر را هنگام دریافت دادهها مطرح کند:
|
|
- آیا داده کافی برای حل این مشکل دارم؟
|
|
- آیا کیفیت داده برای این مشکل قابل قبول است؟
|
|
- اگر از طریق این دادهها اطلاعات اضافی کشف کنم، آیا باید اهداف را تغییر داده یا بازتعریف کنیم؟
|
|
|
|
تحلیل اکتشافی دادهها فرآیند آشنایی با دادهها است و میتواند برای پاسخ به این سوالات و همچنین شناسایی چالشهای کار با مجموعه داده استفاده شود. بیایید بر برخی از تکنیکهای مورد استفاده برای دستیابی به این هدف تمرکز کنیم.
|
|
|
|
## پروفایلسازی دادهها، آمار توصیفی، و Pandas
|
|
چگونه میتوانیم ارزیابی کنیم که آیا داده کافی برای حل این مشکل داریم؟ پروفایلسازی دادهها میتواند اطلاعات کلی و خلاصهای درباره مجموعه داده ما از طریق تکنیکهای آمار توصیفی ارائه دهد. پروفایلسازی دادهها به ما کمک میکند بفهمیم چه چیزی در دسترس ما است، و آمار توصیفی به ما کمک میکند بفهمیم چه مقدار از آن در دسترس ما است.
|
|
|
|
در چند درس قبلی، از Pandas برای ارائه برخی آمار توصیفی با استفاده از تابع [`describe()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html) استفاده کردهایم. این تابع تعداد، مقادیر حداکثر و حداقل، میانگین، انحراف معیار و چارکها را بر روی دادههای عددی ارائه میدهد. استفاده از آمار توصیفی مانند تابع `describe()` میتواند به شما کمک کند ارزیابی کنید که چه مقدار داده دارید و آیا به داده بیشتری نیاز دارید.
|
|
|
|
## نمونهگیری و پرسوجو
|
|
بررسی همه چیز در یک مجموعه داده بزرگ میتواند بسیار زمانبر باشد و معمولاً این کار به یک کامپیوتر واگذار میشود. با این حال، نمونهگیری ابزاری مفید برای درک دادهها است و به ما اجازه میدهد درک بهتری از آنچه در مجموعه داده وجود دارد و نمایندگی آن داشته باشیم. با یک نمونه، میتوانید از احتمال و آمار استفاده کنید تا به برخی نتیجهگیریهای کلی درباره دادههای خود برسید. در حالی که هیچ قانون مشخصی برای مقدار دادهای که باید نمونهگیری کنید وجود ندارد، مهم است که توجه داشته باشید هرچه داده بیشتری نمونهگیری کنید، تعمیم دقیقتری درباره دادهها میتوانید انجام دهید.
|
|
Pandas دارای تابع [`sample()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html) در کتابخانه خود است که میتوانید یک آرگومان از تعداد نمونههای تصادفی مورد نظر خود را وارد کنید و استفاده کنید.
|
|
|
|
پرسوجوی کلی دادهها میتواند به شما کمک کند به برخی سوالات و نظریههای کلی که ممکن است داشته باشید پاسخ دهید. برخلاف نمونهگیری، پرسوجوها به شما اجازه میدهند کنترل داشته باشید و بر بخشهای خاصی از دادهها که درباره آنها سوال دارید تمرکز کنید.
|
|
تابع [`query()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.query.html) در کتابخانه Pandas به شما اجازه میدهد ستونها را انتخاب کنید و پاسخهای سادهای درباره دادهها از طریق ردیفهای بازیابیشده دریافت کنید.
|
|
|
|
## بررسی با استفاده از مصورسازیها
|
|
لازم نیست منتظر بمانید تا دادهها کاملاً پاکسازی و تحلیل شوند تا شروع به ایجاد مصورسازیها کنید. در واقع، داشتن یک نمایش بصری هنگام بررسی میتواند به شناسایی الگوها، روابط، و مشکلات در دادهها کمک کند. علاوه بر این، مصورسازیها وسیلهای برای ارتباط با کسانی که در مدیریت دادهها دخیل نیستند فراهم میکنند و میتوانند فرصتی برای به اشتراکگذاری و روشن کردن سوالات اضافی که در مرحله جمعآوری مطرح نشدهاند، باشند. به [بخش مصورسازیها](../../../../../../../../../3-Data-Visualization) مراجعه کنید تا درباره برخی روشهای محبوب برای بررسی بصری بیشتر بدانید.
|
|
|
|
## بررسی برای شناسایی ناسازگاریها
|
|
همه موضوعات در این درس میتوانند به شناسایی مقادیر گمشده یا ناسازگار کمک کنند، اما Pandas توابعی برای بررسی برخی از این موارد ارائه میدهد. [isna() یا isnull()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.isna.html) میتوانند مقادیر گمشده را بررسی کنند. یکی از بخشهای مهم بررسی این مقادیر در دادههای شما این است که بررسی کنید چرا آنها در وهله اول به این شکل درآمدهاند. این میتواند به شما کمک کند تصمیم بگیرید که چه [اقداماتی برای حل آنها انجام دهید](../../../../../../../../../2-Working-With-Data/08-data-preparation/notebook.ipynb).
|
|
|
|
## [آزمون پیش از درس](https://purple-hill-04aebfb03.1.azurestaticapps.net/quiz/27)
|
|
|
|
## تکلیف
|
|
|
|
[بررسی برای پاسخها](assignment.md)
|
|
|
|
**سلب مسئولیت**:
|
|
این سند با استفاده از سرویس ترجمه هوش مصنوعی [Co-op Translator](https://github.com/Azure/co-op-translator) ترجمه شده است. در حالی که ما تلاش میکنیم دقت را حفظ کنیم، لطفاً توجه داشته باشید که ترجمههای خودکار ممکن است شامل خطاها یا نادرستیها باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حیاتی، ترجمه حرفهای انسانی توصیه میشود. ما مسئولیتی در قبال سوء تفاهمها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم. |