|
|
6 months ago | |
|---|---|---|
| .. | ||
| README.md | 6 months ago | |
| assignment.md | 7 months ago | |
| notebook.ipynb | 6 months ago | |
README.md
معرفی چرخه عمر علم داده
![]() |
|---|
| معرفی چرخه عمر علم داده - طرح دستی توسط @nitya |
پیش آزمون
تا این مرحله احتمالاً متوجه شدهاید که علم داده یک فرآیند است. این فرآیند را میتوان به ۵ مرحله تقسیم کرد:
- جمعآوری
- پردازش
- تحلیل
- ارتباط
- نگهداری
این درس بر سه بخش از چرخه عمر تمرکز دارد: جمعآوری، پردازش و نگهداری.
عکس از مدرسه اطلاعات برکلی
جمعآوری
اولین مرحله چرخه عمر بسیار مهم است زیرا مراحل بعدی به آن وابسته هستند. این مرحله عملاً دو بخش را در یک مرحله ترکیب میکند: به دست آوردن دادهها و تعریف هدف و مشکلاتی که باید حل شوند.
تعریف اهداف پروژه نیازمند درک عمیقتر از مسئله یا سوال است. ابتدا باید افرادی را شناسایی و پیدا کنیم که نیاز به حل مشکل خود دارند. این افراد ممکن است ذینفعان یک کسبوکار یا حامیان پروژه باشند که میتوانند کمک کنند تا مشخص شود چه کسی یا چه چیزی از این پروژه بهرهمند خواهد شد و چرا به آن نیاز دارند. یک هدف خوب تعریفشده باید قابل اندازهگیری و کمی باشد تا بتوان نتیجه قابل قبولی را تعریف کرد.
سوالاتی که یک دانشمند داده ممکن است بپرسد:
- آیا این مشکل قبلاً مورد بررسی قرار گرفته است؟ چه چیزی کشف شده است؟
- آیا هدف و مقصود توسط همه افراد درگیر درک شده است؟
- آیا ابهامی وجود دارد و چگونه میتوان آن را کاهش داد؟
- محدودیتها چیست؟
- نتیجه نهایی احتمالاً چگونه خواهد بود؟
- چه مقدار منابع (زمان، افراد، محاسبات) در دسترس است؟
مرحله بعدی شناسایی، جمعآوری و در نهایت بررسی دادههای مورد نیاز برای دستیابی به این اهداف تعریفشده است. در این مرحله از جمعآوری، دانشمندان داده باید کمیت و کیفیت دادهها را نیز ارزیابی کنند. این نیازمند مقداری بررسی دادهها است تا تأیید شود که دادههای جمعآوریشده از رسیدن به نتیجه مطلوب حمایت میکنند.
سوالاتی که یک دانشمند داده ممکن است درباره دادهها بپرسد:
- چه دادههایی در حال حاضر در دسترس من است؟
- مالک این دادهها کیست؟
- نگرانیهای مربوط به حریم خصوصی چیست؟
- آیا داده کافی برای حل این مشکل دارم؟
- آیا کیفیت داده برای این مشکل قابل قبول است؟
- اگر از طریق این دادهها اطلاعات اضافی کشف کنم، آیا باید اهداف را تغییر یا بازتعریف کنیم؟
پردازش
مرحله پردازش چرخه عمر بر کشف الگوها در دادهها و مدلسازی تمرکز دارد. برخی از تکنیکهای مورد استفاده در مرحله پردازش نیازمند روشهای آماری برای کشف الگوها هستند. معمولاً این کار برای انسان با مجموعه دادههای بزرگ خستهکننده خواهد بود و به کامپیوترها برای انجام کارهای سنگین و سرعت بخشیدن به فرآیند متکی است. این مرحله همچنین جایی است که علم داده و یادگیری ماشین با یکدیگر تلاقی میکنند. همانطور که در درس اول یاد گرفتید، یادگیری ماشین فرآیند ساخت مدلها برای درک دادهها است. مدلها نمایشی از رابطه بین متغیرهای موجود در دادهها هستند که به پیشبینی نتایج کمک میکنند.
تکنیکهای رایج مورد استفاده در این مرحله در برنامه درسی یادگیری ماشین برای مبتدیان پوشش داده شدهاند. لینکهای زیر را دنبال کنید تا بیشتر درباره آنها بیاموزید:
- طبقهبندی: سازماندهی دادهها در دستهها برای استفاده کارآمدتر.
- خوشهبندی: گروهبندی دادهها در گروههای مشابه.
- رگرسیون: تعیین روابط بین متغیرها برای پیشبینی یا پیشبینی مقادیر.
نگهداری
در نمودار چرخه عمر، ممکن است متوجه شده باشید که نگهداری بین جمعآوری و پردازش قرار دارد. نگهداری یک فرآیند مداوم برای مدیریت، ذخیره و ایمنسازی دادهها در طول فرآیند یک پروژه است و باید در طول کل پروژه مورد توجه قرار گیرد.
ذخیرهسازی دادهها
ملاحظات مربوط به نحوه و محل ذخیره دادهها میتواند بر هزینه ذخیرهسازی و همچنین عملکرد دسترسی سریع به دادهها تأثیر بگذارد. تصمیماتی از این دست احتمالاً تنها توسط یک دانشمند داده گرفته نمیشود، اما ممکن است آنها مجبور شوند بر اساس نحوه ذخیره دادهها، انتخابهایی در مورد نحوه کار با دادهها انجام دهند.
در اینجا برخی جنبههای سیستمهای ذخیرهسازی داده مدرن که میتوانند این انتخابها را تحت تأثیر قرار دهند آورده شده است:
در محل، خارج از محل، یا ابر عمومی و خصوصی
در محل به معنای میزبانی و مدیریت دادهها بر روی تجهیزات خودتان است، مانند داشتن یک سرور با هارد دیسکهایی که دادهها را ذخیره میکنند، در حالی که خارج از محل به تجهیزات متعلق به شما وابسته نیست، مانند یک مرکز داده. ابر عمومی یک انتخاب محبوب برای ذخیره دادهها است که نیاز به دانش در مورد نحوه یا محل دقیق ذخیره دادهها ندارد، جایی که عمومی به زیرساخت یکپارچهای اشاره دارد که توسط همه کسانی که از ابر استفاده میکنند به اشتراک گذاشته میشود. برخی سازمانها سیاستهای امنیتی سختگیرانهای دارند که نیاز دارند دسترسی کامل به تجهیزات میزبان دادهها داشته باشند و به یک ابر خصوصی که خدمات ابری خود را ارائه میدهد، متکی خواهند بود. شما در درسهای بعدی بیشتر درباره دادهها در ابر خواهید آموخت.
داده سرد در مقابل داده گرم
هنگام آموزش مدلهای خود، ممکن است به دادههای آموزشی بیشتری نیاز داشته باشید. اگر از مدل خود راضی هستید، دادههای بیشتری برای استفاده مدل به منظور انجام وظیفهاش وارد خواهد شد. در هر صورت، هزینه ذخیرهسازی و دسترسی به دادهها با افزایش حجم آن افزایش خواهد یافت. جدا کردن دادههایی که به ندرت استفاده میشوند، معروف به داده سرد، از دادههایی که به طور مکرر دسترسی پیدا میشوند، معروف به داده گرم، میتواند گزینهای ارزانتر برای ذخیرهسازی دادهها از طریق خدمات سختافزاری یا نرمافزاری باشد. اگر نیاز به دسترسی به داده سرد باشد، ممکن است کمی بیشتر طول بکشد تا در مقایسه با داده گرم بازیابی شود.
مدیریت دادهها
هنگام کار با دادهها ممکن است متوجه شوید که برخی از دادهها نیاز به پاکسازی دارند، با استفاده از تکنیکهایی که در درس مربوط به آمادهسازی دادهها پوشش داده شدهاند، تا مدلهای دقیقی ساخته شوند. وقتی دادههای جدید وارد میشوند، نیاز به همان کاربردها برای حفظ کیفیت دارند. برخی پروژهها شامل استفاده از یک ابزار خودکار برای پاکسازی، تجمیع و فشردهسازی دادهها قبل از انتقال آنها به محل نهاییشان هستند. Azure Data Factory نمونهای از یکی از این ابزارها است.
ایمنسازی دادهها
یکی از اهداف اصلی ایمنسازی دادهها این است که اطمینان حاصل شود کسانی که با دادهها کار میکنند کنترل کاملی بر آنچه جمعآوری شده و در چه زمینهای استفاده میشود دارند. حفظ امنیت دادهها شامل محدود کردن دسترسی فقط به کسانی است که به آن نیاز دارند، رعایت قوانین و مقررات محلی، و همچنین حفظ استانداردهای اخلاقی، همانطور که در درس اخلاق پوشش داده شده است.
در اینجا برخی از اقداماتی که یک تیم ممکن است با در نظر گرفتن امنیت انجام دهد آورده شده است:
- تأیید اینکه تمام دادهها رمزگذاری شدهاند
- ارائه اطلاعات به مشتریان در مورد نحوه استفاده از دادههایشان
- حذف دسترسی به دادهها از کسانی که پروژه را ترک کردهاند
- اجازه دادن به فقط برخی اعضای پروژه برای تغییر دادهها
🚀 چالش
نسخههای مختلفی از چرخه عمر علم داده وجود دارد که هر مرحله ممکن است نامها و تعداد مراحل متفاوتی داشته باشد اما شامل همان فرآیندهای ذکر شده در این درس خواهد بود.
چرخه عمر فرآیند تیم علم داده و استاندارد صنعتی برای دادهکاوی را بررسی کنید. سه شباهت و تفاوت بین این دو را نام ببرید.
| فرآیند تیم علم داده (TDSP) | استاندارد صنعتی برای دادهکاوی (CRISP-DM) |
|---|---|
![]() |
![]() |
| تصویر توسط مایکروسافت | تصویر توسط اتحاد فرآیند علم داده |
پسآزمون
مرور و مطالعه شخصی
اجرای چرخه عمر علم داده شامل نقشها و وظایف متعدد است، جایی که برخی ممکن است بر بخشهای خاصی از هر مرحله تمرکز کنند. فرآیند تیم علم داده چند منبع ارائه میدهد که انواع نقشها و وظایفی که ممکن است کسی در یک پروژه داشته باشد را توضیح میدهد.
تکلیف
سلب مسئولیت:
این سند با استفاده از سرویس ترجمه هوش مصنوعی Co-op Translator ترجمه شده است. در حالی که ما برای دقت تلاش میکنیم، لطفاً توجه داشته باشید که ترجمههای خودکار ممکن است شامل خطاها یا نادرستیهایی باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، ترجمه حرفهای انسانی توصیه میشود. ما هیچ مسئولیتی در قبال سوءتفاهمها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم.



