|
|
8 months ago | |
|---|---|---|
| .. | ||
| README.md | 8 months ago | |
| assignment.ipynb | 8 months ago | |
| assignment.md | 8 months ago | |
| notebook.ipynb | 8 months ago | |
README.md
چرخه زندگی علم داده: تحلیل
![]() |
|---|
| چرخه زندگی علم داده: تحلیل - طرح دستی توسط @nitya |
آزمون پیش از درس
آزمون پیش از درس
تحلیل در چرخه زندگی داده تأیید میکند که دادهها میتوانند به سؤالات مطرحشده پاسخ دهند یا یک مشکل خاص را حل کنند. این مرحله همچنین میتواند بر تأیید اینکه یک مدل به درستی این سؤالات و مشکلات را بررسی میکند، تمرکز کند. این درس بر تحلیل اکتشافی دادهها یا EDA متمرکز است، که تکنیکهایی برای تعریف ویژگیها و روابط درون دادهها هستند و میتوانند برای آمادهسازی دادهها برای مدلسازی استفاده شوند.
ما از یک مجموعه داده نمونه از Kaggle استفاده خواهیم کرد تا نشان دهیم چگونه این کار با استفاده از پایتون و کتابخانه Pandas قابل اجرا است. این مجموعه داده شامل شمارش برخی کلمات رایج در ایمیلها است، منابع این ایمیلها ناشناس هستند. از دفترچه یادداشت در این پوشه استفاده کنید تا مراحل را دنبال کنید.
تحلیل اکتشافی دادهها
مرحله جمعآوری در چرخه زندگی جایی است که دادهها به دست میآیند و همچنین مشکلات و سؤالات مطرح میشوند، اما چگونه میتوانیم مطمئن شویم که دادهها میتوانند از نتیجه نهایی پشتیبانی کنند؟
به یاد داشته باشید که یک دانشمند داده ممکن است هنگام دریافت دادهها این سؤالات را مطرح کند:
- آیا داده کافی برای حل این مشکل دارم؟
- آیا کیفیت دادهها برای این مشکل قابل قبول است؟
- اگر از طریق این دادهها اطلاعات بیشتری کشف کنم، آیا باید اهداف را تغییر دهیم یا بازتعریف کنیم؟
تحلیل اکتشافی دادهها فرآیند آشنایی با دادهها است و میتواند برای پاسخ به این سؤالات و همچنین شناسایی چالشهای کار با مجموعه داده استفاده شود. بیایید بر برخی از تکنیکهای مورد استفاده برای دستیابی به این هدف تمرکز کنیم.
پروفایلسازی دادهها، آمار توصیفی و Pandas
چگونه میتوانیم ارزیابی کنیم که آیا داده کافی برای حل این مشکل داریم؟ پروفایلسازی دادهها میتواند اطلاعات کلی و خلاصهای درباره مجموعه داده ما از طریق تکنیکهای آمار توصیفی ارائه دهد. پروفایلسازی دادهها به ما کمک میکند بفهمیم چه چیزی در دسترس ما است، و آمار توصیفی به ما کمک میکند بفهمیم چه مقدار از آن در دسترس است.
در چند درس قبلی، از Pandas برای ارائه برخی آمار توصیفی با استفاده از تابع describe() استفاده کردهایم. این تابع تعداد، مقادیر حداکثر و حداقل، میانگین، انحراف معیار و چارکها را بر روی دادههای عددی ارائه میدهد. استفاده از آمار توصیفی مانند تابع describe() میتواند به شما کمک کند ارزیابی کنید که چه مقدار داده دارید و آیا به داده بیشتری نیاز دارید یا خیر.
نمونهگیری و پرسوجو
بررسی همه چیز در یک مجموعه داده بزرگ میتواند بسیار زمانبر باشد و معمولاً این کار به یک کامپیوتر واگذار میشود. با این حال، نمونهگیری ابزاری مفید برای درک دادهها است و به ما اجازه میدهد درک بهتری از آنچه در مجموعه داده وجود دارد و نمایندگی آن داشته باشیم. با یک نمونه، میتوانید از احتمال و آمار استفاده کنید تا به برخی نتیجهگیریهای کلی درباره دادههای خود برسید. در حالی که هیچ قانون مشخصی برای مقدار دادهای که باید نمونهگیری کنید وجود ندارد، مهم است که توجه داشته باشید هرچه داده بیشتری نمونهگیری کنید، تعمیم دقیقتری درباره دادهها میتوانید انجام دهید.
Pandas دارای تابع sample() در کتابخانه خود است که میتوانید آرگومانی از تعداد نمونههای تصادفی مورد نظر خود را وارد کنید و استفاده کنید.
پرسوجوی کلی دادهها میتواند به شما کمک کند به برخی سؤالات و نظریههای کلی که ممکن است داشته باشید پاسخ دهید. برخلاف نمونهگیری، پرسوجوها به شما اجازه میدهند کنترل داشته باشید و بر بخشهای خاصی از دادهها که درباره آنها سؤال دارید تمرکز کنید.
تابع query() در کتابخانه Pandas به شما اجازه میدهد ستونها را انتخاب کنید و پاسخهای سادهای درباره دادهها از طریق ردیفهای بازیابیشده دریافت کنید.
بررسی با استفاده از بصریسازیها
لازم نیست تا زمانی که دادهها کاملاً پاکسازی و تحلیل شوند صبر کنید تا شروع به ایجاد بصریسازیها کنید. در واقع، داشتن یک نمایش بصری هنگام بررسی میتواند به شناسایی الگوها، روابط و مشکلات در دادهها کمک کند. علاوه بر این، بصریسازیها وسیلهای برای ارتباط با کسانی که در مدیریت دادهها دخیل نیستند فراهم میکنند و میتوانند فرصتی برای به اشتراکگذاری و روشن کردن سؤالات اضافی که در مرحله جمعآوری مطرح نشدهاند باشند. به بخش بصریسازیها مراجعه کنید تا درباره برخی روشهای محبوب برای بررسی بصری بیشتر بدانید.
بررسی برای شناسایی ناسازگاریها
همه موضوعات این درس میتوانند به شناسایی مقادیر گمشده یا ناسازگار کمک کنند، اما Pandas توابعی برای بررسی برخی از این موارد ارائه میدهد. isna() یا isnull() میتوانند مقادیر گمشده را بررسی کنند. یکی از بخشهای مهم بررسی این مقادیر در دادههای شما این است که بررسی کنید چرا آنها در وهله اول به این شکل درآمدهاند. این میتواند به شما کمک کند تصمیم بگیرید که چه اقداماتی برای حل آنها انجام دهید.
آزمون پس از درس
تکلیف
سلب مسئولیت:
این سند با استفاده از سرویس ترجمه هوش مصنوعی Co-op Translator ترجمه شده است. در حالی که ما برای دقت تلاش میکنیم، لطفاً توجه داشته باشید که ترجمههای خودکار ممکن است شامل خطاها یا نادرستیهایی باشند. سند اصلی به زبان بومی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، ترجمه حرفهای انسانی توصیه میشود. ما هیچ مسئولیتی در قبال سوءتفاهمها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم.
