History

leestott ddda89c203 🌐 Update translations via Co-op Translator		8 months ago
..
README.md	🌐 Update translations via Co-op Translator	8 months ago
assignment.ipynb	🌐 Update translations via Co-op Translator	8 months ago
assignment.md	🌐 Update translations via Co-op Translator	8 months ago
notebook.ipynb	🌐 Update translations via Co-op Translator	8 months ago

README.md

چرخه زندگی علم داده: تحلیل


چرخه زندگی علم داده: تحلیل - طرح دستی توسط @nitya

آزمون پیش از درس

تحلیل در چرخه زندگی داده تأیید می‌کند که داده‌ها می‌توانند به سؤالات مطرح‌شده پاسخ دهند یا یک مشکل خاص را حل کنند. این مرحله همچنین می‌تواند بر تأیید اینکه یک مدل به درستی این سؤالات و مشکلات را بررسی می‌کند، تمرکز کند. این درس بر تحلیل اکتشافی داده‌ها یا EDA متمرکز است، که تکنیک‌هایی برای تعریف ویژگی‌ها و روابط درون داده‌ها هستند و می‌توانند برای آماده‌سازی داده‌ها برای مدل‌سازی استفاده شوند.

ما از یک مجموعه داده نمونه از Kaggle استفاده خواهیم کرد تا نشان دهیم چگونه این کار با استفاده از پایتون و کتابخانه Pandas قابل اجرا است. این مجموعه داده شامل شمارش برخی کلمات رایج در ایمیل‌ها است، منابع این ایمیل‌ها ناشناس هستند. از دفترچه یادداشت در این پوشه استفاده کنید تا مراحل را دنبال کنید.

تحلیل اکتشافی داده‌ها

مرحله جمع‌آوری در چرخه زندگی جایی است که داده‌ها به دست می‌آیند و همچنین مشکلات و سؤالات مطرح می‌شوند، اما چگونه می‌توانیم مطمئن شویم که داده‌ها می‌توانند از نتیجه نهایی پشتیبانی کنند؟
به یاد داشته باشید که یک دانشمند داده ممکن است هنگام دریافت داده‌ها این سؤالات را مطرح کند:

آیا داده کافی برای حل این مشکل دارم؟
آیا کیفیت داده‌ها برای این مشکل قابل قبول است؟
اگر از طریق این داده‌ها اطلاعات بیشتری کشف کنم، آیا باید اهداف را تغییر دهیم یا بازتعریف کنیم؟

تحلیل اکتشافی داده‌ها فرآیند آشنایی با داده‌ها است و می‌تواند برای پاسخ به این سؤالات و همچنین شناسایی چالش‌های کار با مجموعه داده استفاده شود. بیایید بر برخی از تکنیک‌های مورد استفاده برای دستیابی به این هدف تمرکز کنیم.

پروفایل‌سازی داده‌ها، آمار توصیفی و Pandas

چگونه می‌توانیم ارزیابی کنیم که آیا داده کافی برای حل این مشکل داریم؟ پروفایل‌سازی داده‌ها می‌تواند اطلاعات کلی و خلاصه‌ای درباره مجموعه داده ما از طریق تکنیک‌های آمار توصیفی ارائه دهد. پروفایل‌سازی داده‌ها به ما کمک می‌کند بفهمیم چه چیزی در دسترس ما است، و آمار توصیفی به ما کمک می‌کند بفهمیم چه مقدار از آن در دسترس است.

در چند درس قبلی، از Pandas برای ارائه برخی آمار توصیفی با استفاده از تابع describe() استفاده کرده‌ایم. این تابع تعداد، مقادیر حداکثر و حداقل، میانگین، انحراف معیار و چارک‌ها را بر روی داده‌های عددی ارائه می‌دهد. استفاده از آمار توصیفی مانند تابع describe() می‌تواند به شما کمک کند ارزیابی کنید که چه مقدار داده دارید و آیا به داده بیشتری نیاز دارید یا خیر.

نمونه‌گیری و پرس‌وجو

بررسی همه چیز در یک مجموعه داده بزرگ می‌تواند بسیار زمان‌بر باشد و معمولاً این کار به یک کامپیوتر واگذار می‌شود. با این حال، نمونه‌گیری ابزاری مفید برای درک داده‌ها است و به ما اجازه می‌دهد درک بهتری از آنچه در مجموعه داده وجود دارد و نمایندگی آن داشته باشیم. با یک نمونه، می‌توانید از احتمال و آمار استفاده کنید تا به برخی نتیجه‌گیری‌های کلی درباره داده‌های خود برسید. در حالی که هیچ قانون مشخصی برای مقدار داده‌ای که باید نمونه‌گیری کنید وجود ندارد، مهم است که توجه داشته باشید هرچه داده بیشتری نمونه‌گیری کنید، تعمیم دقیق‌تری درباره داده‌ها می‌توانید انجام دهید.

Pandas دارای تابع sample() در کتابخانه خود است که می‌توانید آرگومانی از تعداد نمونه‌های تصادفی مورد نظر خود را وارد کنید و استفاده کنید.

پرس‌وجوی کلی داده‌ها می‌تواند به شما کمک کند به برخی سؤالات و نظریه‌های کلی که ممکن است داشته باشید پاسخ دهید. برخلاف نمونه‌گیری، پرس‌وجوها به شما اجازه می‌دهند کنترل داشته باشید و بر بخش‌های خاصی از داده‌ها که درباره آن‌ها سؤال دارید تمرکز کنید.
تابع query() در کتابخانه Pandas به شما اجازه می‌دهد ستون‌ها را انتخاب کنید و پاسخ‌های ساده‌ای درباره داده‌ها از طریق ردیف‌های بازیابی‌شده دریافت کنید.

بررسی با استفاده از بصری‌سازی‌ها

لازم نیست تا زمانی که داده‌ها کاملاً پاک‌سازی و تحلیل شوند صبر کنید تا شروع به ایجاد بصری‌سازی‌ها کنید. در واقع، داشتن یک نمایش بصری هنگام بررسی می‌تواند به شناسایی الگوها، روابط و مشکلات در داده‌ها کمک کند. علاوه بر این، بصری‌سازی‌ها وسیله‌ای برای ارتباط با کسانی که در مدیریت داده‌ها دخیل نیستند فراهم می‌کنند و می‌توانند فرصتی برای به اشتراک‌گذاری و روشن کردن سؤالات اضافی که در مرحله جمع‌آوری مطرح نشده‌اند باشند. به بخش بصری‌سازی‌ها مراجعه کنید تا درباره برخی روش‌های محبوب برای بررسی بصری بیشتر بدانید.

بررسی برای شناسایی ناسازگاری‌ها

همه موضوعات این درس می‌توانند به شناسایی مقادیر گم‌شده یا ناسازگار کمک کنند، اما Pandas توابعی برای بررسی برخی از این موارد ارائه می‌دهد. isna() یا isnull() می‌توانند مقادیر گم‌شده را بررسی کنند. یکی از بخش‌های مهم بررسی این مقادیر در داده‌های شما این است که بررسی کنید چرا آن‌ها در وهله اول به این شکل درآمده‌اند. این می‌تواند به شما کمک کند تصمیم بگیرید که چه اقداماتی برای حل آن‌ها انجام دهید.

آزمون پس از درس

تکلیف

بررسی برای پاسخ‌ها

سلب مسئولیت:
این سند با استفاده از سرویس ترجمه هوش مصنوعی Co-op Translator ترجمه شده است. در حالی که ما برای دقت تلاش می‌کنیم، لطفاً توجه داشته باشید که ترجمه‌های خودکار ممکن است شامل خطاها یا نادرستی‌هایی باشند. سند اصلی به زبان بومی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، ترجمه حرفه‌ای انسانی توصیه می‌شود. ما هیچ مسئولیتی در قبال سوءتفاهم‌ها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم.