You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/fa/4-Data-Science-Lifecycle/15-analyzing
leestott 153371c81d
🌐 Update translations via Co-op Translator
2 weeks ago
..
README.md 🌐 Update translations via Co-op Translator 2 weeks ago
assignment.ipynb 🌐 Update translations via Co-op Translator 3 weeks ago
assignment.md 🌐 Update translations via Co-op Translator 4 weeks ago
notebook.ipynb 🌐 Update translations via Co-op Translator 3 weeks ago

README.md

چرخه زندگی علم داده: تحلیل

طرح دستی توسط (@sketchthedocs)
چرخه زندگی علم داده: تحلیل - طرح دستی توسط @nitya

پیش‌ آزمون

تحلیل در چرخه زندگی داده تأیید می‌کند که داده‌ها می‌توانند به سوالات مطرح‌شده پاسخ دهند یا یک مشکل خاص را حل کنند. این مرحله همچنین می‌تواند بر تأیید اینکه یک مدل به درستی به این سوالات و مشکلات پرداخته است، تمرکز کند. این درس بر تحلیل اکتشافی داده‌ها یا EDA تمرکز دارد، که تکنیک‌هایی برای تعریف ویژگی‌ها و روابط درون داده‌ها هستند و می‌توانند برای آماده‌سازی داده‌ها برای مدل‌سازی استفاده شوند.

ما از یک مجموعه داده نمونه از Kaggle استفاده خواهیم کرد تا نشان دهیم چگونه این کار با استفاده از پایتون و کتابخانه Pandas قابل اجرا است. این مجموعه داده شامل شمارش برخی کلمات رایج در ایمیل‌ها است، منابع این ایمیل‌ها ناشناس هستند. از دفترچه یادداشت در این پوشه استفاده کنید تا مراحل را دنبال کنید.

تحلیل اکتشافی داده‌ها

مرحله جمع‌آوری در چرخه زندگی جایی است که داده‌ها به دست می‌آیند و همچنین مشکلات و سوالات مطرح می‌شوند، اما چگونه می‌توانیم مطمئن شویم که داده‌ها می‌توانند از نتیجه نهایی حمایت کنند؟
به یاد داشته باشید که یک دانشمند داده ممکن است سوالات زیر را هنگام دریافت داده‌ها مطرح کند:

  • آیا داده کافی برای حل این مشکل دارم؟
  • آیا کیفیت داده برای این مشکل قابل قبول است؟
  • اگر از طریق این داده‌ها اطلاعات بیشتری کشف کنم، آیا باید اهداف را تغییر دهیم یا بازتعریف کنیم؟

تحلیل اکتشافی داده‌ها فرآیند آشنایی با داده‌ها است و می‌تواند برای پاسخ به این سوالات و همچنین شناسایی چالش‌های کار با مجموعه داده استفاده شود. بیایید بر برخی از تکنیک‌های مورد استفاده برای دستیابی به این هدف تمرکز کنیم.

پروفایل‌سازی داده‌ها، آمار توصیفی و Pandas

چگونه ارزیابی کنیم که آیا داده کافی برای حل این مشکل داریم؟ پروفایل‌سازی داده‌ها می‌تواند اطلاعات کلی و خلاصه‌ای درباره مجموعه داده ما از طریق تکنیک‌های آمار توصیفی ارائه دهد. پروفایل‌سازی به ما کمک می‌کند بفهمیم چه چیزی در دسترس ما است، و آمار توصیفی به ما کمک می‌کند بفهمیم چه مقدار از آن در دسترس است.

در چند درس قبلی، از Pandas برای ارائه برخی آمار توصیفی با استفاده از تابع describe() استفاده کرده‌ایم. این تابع تعداد، مقادیر حداکثر و حداقل، میانگین، انحراف معیار و چارک‌ها را بر روی داده‌های عددی ارائه می‌دهد. استفاده از آمار توصیفی مانند تابع describe() می‌تواند به شما کمک کند ارزیابی کنید که چه مقدار داده دارید و آیا به داده بیشتری نیاز دارید یا خیر.

نمونه‌گیری و پرس‌وجو

بررسی همه چیز در یک مجموعه داده بزرگ می‌تواند بسیار زمان‌بر باشد و معمولاً این کار به یک کامپیوتر واگذار می‌شود. با این حال، نمونه‌گیری ابزاری مفید برای درک داده‌ها است و به ما اجازه می‌دهد درک بهتری از آنچه در مجموعه داده وجود دارد و نمایندگی آن داشته باشیم. با یک نمونه، می‌توانید از احتمال و آمار استفاده کنید تا به برخی نتیجه‌گیری‌های کلی درباره داده‌های خود برسید. در حالی که هیچ قانون مشخصی برای مقدار داده‌ای که باید نمونه‌گیری کنید وجود ندارد، مهم است که توجه داشته باشید هرچه داده بیشتری نمونه‌گیری کنید، تعمیم دقیق‌تری می‌توانید درباره داده‌ها داشته باشید.

Pandas دارای تابع sample() در کتابخانه خود است که می‌توانید یک آرگومان از تعداد نمونه‌های تصادفی مورد نظر خود را وارد کنید و استفاده کنید.

پرس‌وجوی کلی داده‌ها می‌تواند به شما کمک کند به برخی سوالات و نظریه‌های کلی که ممکن است داشته باشید پاسخ دهید. برخلاف نمونه‌گیری، پرس‌وجوها به شما اجازه می‌دهند کنترل داشته باشید و بر بخش‌های خاصی از داده‌ها که درباره آن‌ها سوال دارید تمرکز کنید.
تابع query() در کتابخانه Pandas به شما اجازه می‌دهد ستون‌ها را انتخاب کنید و پاسخ‌های ساده‌ای درباره داده‌ها از طریق ردیف‌های بازیابی‌شده دریافت کنید.

بررسی با استفاده از مصورسازی‌ها

لازم نیست منتظر بمانید تا داده‌ها کاملاً پاک‌سازی و تحلیل شوند تا شروع به ایجاد مصورسازی‌ها کنید. در واقع، داشتن یک نمایش بصری هنگام بررسی می‌تواند به شناسایی الگوها، روابط و مشکلات در داده‌ها کمک کند. علاوه بر این، مصورسازی‌ها وسیله‌ای برای ارتباط با کسانی که در مدیریت داده‌ها دخیل نیستند فراهم می‌کنند و می‌توانند فرصتی برای به اشتراک‌گذاری و روشن کردن سوالات اضافی که در مرحله جمع‌آوری مطرح نشده‌اند، باشند. به بخش مصورسازی‌ها مراجعه کنید تا درباره برخی روش‌های محبوب برای بررسی بصری بیشتر بدانید.

بررسی برای شناسایی ناسازگاری‌ها

همه موضوعات در این درس می‌توانند به شناسایی مقادیر گم‌شده یا ناسازگار کمک کنند، اما Pandas توابعی برای بررسی برخی از این موارد ارائه می‌دهد. isna() یا isnull() می‌توانند مقادیر گم‌شده را بررسی کنند. یکی از بخش‌های مهم بررسی این مقادیر در داده‌های شما این است که بررسی کنید چرا آن‌ها در وهله اول به این شکل درآمده‌اند. این می‌تواند به شما کمک کند تصمیم بگیرید که چه اقداماتی برای حل آن‌ها انجام دهید.

پس‌ آزمون

تکلیف

بررسی برای پاسخ‌ها


سلب مسئولیت:
این سند با استفاده از سرویس ترجمه هوش مصنوعی Co-op Translator ترجمه شده است. در حالی که ما برای دقت تلاش می‌کنیم، لطفاً توجه داشته باشید که ترجمه‌های خودکار ممکن است شامل خطاها یا نادرستی‌هایی باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، ترجمه حرفه‌ای انسانی توصیه می‌شود. ما هیچ مسئولیتی در قبال سوءتفاهم‌ها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم.