History

leestott 6f54872d94 🌐 Update translations via Co-op Translator		6 months ago
..
README.md	🌐 Update translations via Co-op Translator	6 months ago
assignment.md	🌐 Update translations via Co-op Translator	7 months ago
notebook.ipynb	🌐 Update translations via Co-op Translator	6 months ago

معرفی چرخه عمر علم داده


معرفی چرخه عمر علم داده - طرح دستی توسط @nitya

پیش‌ آزمون

تا این مرحله احتمالاً متوجه شده‌اید که علم داده یک فرآیند است. این فرآیند را می‌توان به ۵ مرحله تقسیم کرد:

جمع‌آوری
پردازش
تحلیل
ارتباط
نگهداری

این درس بر سه بخش از چرخه عمر تمرکز دارد: جمع‌آوری، پردازش و نگهداری.

عکس از مدرسه اطلاعات برکلی

جمع‌آوری

اولین مرحله چرخه عمر بسیار مهم است زیرا مراحل بعدی به آن وابسته هستند. این مرحله عملاً دو بخش را در یک مرحله ترکیب می‌کند: به دست آوردن داده‌ها و تعریف هدف و مشکلاتی که باید حل شوند.
تعریف اهداف پروژه نیازمند درک عمیق‌تر از مسئله یا سوال است. ابتدا باید افرادی را شناسایی و پیدا کنیم که نیاز به حل مشکل خود دارند. این افراد ممکن است ذینفعان یک کسب‌وکار یا حامیان پروژه باشند که می‌توانند کمک کنند تا مشخص شود چه کسی یا چه چیزی از این پروژه بهره‌مند خواهد شد و چرا به آن نیاز دارند. یک هدف خوب تعریف‌شده باید قابل اندازه‌گیری و کمی باشد تا بتوان نتیجه قابل قبولی را تعریف کرد.

سوالاتی که یک دانشمند داده ممکن است بپرسد:

آیا این مشکل قبلاً مورد بررسی قرار گرفته است؟ چه چیزی کشف شده است؟
آیا هدف و مقصود توسط همه افراد درگیر درک شده است؟
آیا ابهامی وجود دارد و چگونه می‌توان آن را کاهش داد؟
محدودیت‌ها چیست؟
نتیجه نهایی احتمالاً چگونه خواهد بود؟
چه مقدار منابع (زمان، افراد، محاسبات) در دسترس است؟

مرحله بعدی شناسایی، جمع‌آوری و در نهایت بررسی داده‌های مورد نیاز برای دستیابی به این اهداف تعریف‌شده است. در این مرحله از جمع‌آوری، دانشمندان داده باید کمیت و کیفیت داده‌ها را نیز ارزیابی کنند. این نیازمند مقداری بررسی داده‌ها است تا تأیید شود که داده‌های جمع‌آوری‌شده از رسیدن به نتیجه مطلوب حمایت می‌کنند.

سوالاتی که یک دانشمند داده ممکن است درباره داده‌ها بپرسد:

چه داده‌هایی در حال حاضر در دسترس من است؟
مالک این داده‌ها کیست؟
نگرانی‌های مربوط به حریم خصوصی چیست؟
آیا داده کافی برای حل این مشکل دارم؟
آیا کیفیت داده برای این مشکل قابل قبول است؟
اگر از طریق این داده‌ها اطلاعات اضافی کشف کنم، آیا باید اهداف را تغییر یا بازتعریف کنیم؟

پردازش

مرحله پردازش چرخه عمر بر کشف الگوها در داده‌ها و مدل‌سازی تمرکز دارد. برخی از تکنیک‌های مورد استفاده در مرحله پردازش نیازمند روش‌های آماری برای کشف الگوها هستند. معمولاً این کار برای انسان با مجموعه داده‌های بزرگ خسته‌کننده خواهد بود و به کامپیوترها برای انجام کارهای سنگین و سرعت بخشیدن به فرآیند متکی است. این مرحله همچنین جایی است که علم داده و یادگیری ماشین با یکدیگر تلاقی می‌کنند. همان‌طور که در درس اول یاد گرفتید، یادگیری ماشین فرآیند ساخت مدل‌ها برای درک داده‌ها است. مدل‌ها نمایشی از رابطه بین متغیرهای موجود در داده‌ها هستند که به پیش‌بینی نتایج کمک می‌کنند.

تکنیک‌های رایج مورد استفاده در این مرحله در برنامه درسی یادگیری ماشین برای مبتدیان پوشش داده شده‌اند. لینک‌های زیر را دنبال کنید تا بیشتر درباره آن‌ها بیاموزید:

طبقه‌بندی: سازماندهی داده‌ها در دسته‌ها برای استفاده کارآمدتر.
خوشه‌بندی: گروه‌بندی داده‌ها در گروه‌های مشابه.
رگرسیون: تعیین روابط بین متغیرها برای پیش‌بینی یا پیش‌بینی مقادیر.

نگهداری

در نمودار چرخه عمر، ممکن است متوجه شده باشید که نگهداری بین جمع‌آوری و پردازش قرار دارد. نگهداری یک فرآیند مداوم برای مدیریت، ذخیره و ایمن‌سازی داده‌ها در طول فرآیند یک پروژه است و باید در طول کل پروژه مورد توجه قرار گیرد.

ذخیره‌سازی داده‌ها

ملاحظات مربوط به نحوه و محل ذخیره داده‌ها می‌تواند بر هزینه ذخیره‌سازی و همچنین عملکرد دسترسی سریع به داده‌ها تأثیر بگذارد. تصمیماتی از این دست احتمالاً تنها توسط یک دانشمند داده گرفته نمی‌شود، اما ممکن است آن‌ها مجبور شوند بر اساس نحوه ذخیره داده‌ها، انتخاب‌هایی در مورد نحوه کار با داده‌ها انجام دهند.

در اینجا برخی جنبه‌های سیستم‌های ذخیره‌سازی داده مدرن که می‌توانند این انتخاب‌ها را تحت تأثیر قرار دهند آورده شده است:

در محل، خارج از محل، یا ابر عمومی و خصوصی

در محل به معنای میزبانی و مدیریت داده‌ها بر روی تجهیزات خودتان است، مانند داشتن یک سرور با هارد دیسک‌هایی که داده‌ها را ذخیره می‌کنند، در حالی که خارج از محل به تجهیزات متعلق به شما وابسته نیست، مانند یک مرکز داده. ابر عمومی یک انتخاب محبوب برای ذخیره داده‌ها است که نیاز به دانش در مورد نحوه یا محل دقیق ذخیره داده‌ها ندارد، جایی که عمومی به زیرساخت یکپارچه‌ای اشاره دارد که توسط همه کسانی که از ابر استفاده می‌کنند به اشتراک گذاشته می‌شود. برخی سازمان‌ها سیاست‌های امنیتی سختگیرانه‌ای دارند که نیاز دارند دسترسی کامل به تجهیزات میزبان داده‌ها داشته باشند و به یک ابر خصوصی که خدمات ابری خود را ارائه می‌دهد، متکی خواهند بود. شما در درس‌های بعدی بیشتر درباره داده‌ها در ابر خواهید آموخت.

داده سرد در مقابل داده گرم

هنگام آموزش مدل‌های خود، ممکن است به داده‌های آموزشی بیشتری نیاز داشته باشید. اگر از مدل خود راضی هستید، داده‌های بیشتری برای استفاده مدل به منظور انجام وظیفه‌اش وارد خواهد شد. در هر صورت، هزینه ذخیره‌سازی و دسترسی به داده‌ها با افزایش حجم آن افزایش خواهد یافت. جدا کردن داده‌هایی که به ندرت استفاده می‌شوند، معروف به داده سرد، از داده‌هایی که به طور مکرر دسترسی پیدا می‌شوند، معروف به داده گرم، می‌تواند گزینه‌ای ارزان‌تر برای ذخیره‌سازی داده‌ها از طریق خدمات سخت‌افزاری یا نرم‌افزاری باشد. اگر نیاز به دسترسی به داده سرد باشد، ممکن است کمی بیشتر طول بکشد تا در مقایسه با داده گرم بازیابی شود.

مدیریت داده‌ها

هنگام کار با داده‌ها ممکن است متوجه شوید که برخی از داده‌ها نیاز به پاک‌سازی دارند، با استفاده از تکنیک‌هایی که در درس مربوط به آماده‌سازی داده‌ها پوشش داده شده‌اند، تا مدل‌های دقیقی ساخته شوند. وقتی داده‌های جدید وارد می‌شوند، نیاز به همان کاربردها برای حفظ کیفیت دارند. برخی پروژه‌ها شامل استفاده از یک ابزار خودکار برای پاک‌سازی، تجمیع و فشرده‌سازی داده‌ها قبل از انتقال آن‌ها به محل نهایی‌شان هستند. Azure Data Factory نمونه‌ای از یکی از این ابزارها است.

ایمن‌سازی داده‌ها

یکی از اهداف اصلی ایمن‌سازی داده‌ها این است که اطمینان حاصل شود کسانی که با داده‌ها کار می‌کنند کنترل کاملی بر آنچه جمع‌آوری شده و در چه زمینه‌ای استفاده می‌شود دارند. حفظ امنیت داده‌ها شامل محدود کردن دسترسی فقط به کسانی است که به آن نیاز دارند، رعایت قوانین و مقررات محلی، و همچنین حفظ استانداردهای اخلاقی، همان‌طور که در درس اخلاق پوشش داده شده است.

در اینجا برخی از اقداماتی که یک تیم ممکن است با در نظر گرفتن امنیت انجام دهد آورده شده است:

تأیید اینکه تمام داده‌ها رمزگذاری شده‌اند
ارائه اطلاعات به مشتریان در مورد نحوه استفاده از داده‌هایشان
حذف دسترسی به داده‌ها از کسانی که پروژه را ترک کرده‌اند
اجازه دادن به فقط برخی اعضای پروژه برای تغییر داده‌ها

🚀 چالش

نسخه‌های مختلفی از چرخه عمر علم داده وجود دارد که هر مرحله ممکن است نام‌ها و تعداد مراحل متفاوتی داشته باشد اما شامل همان فرآیندهای ذکر شده در این درس خواهد بود.

چرخه عمر فرآیند تیم علم داده و استاندارد صنعتی برای داده‌کاوی را بررسی کنید. سه شباهت و تفاوت بین این دو را نام ببرید.

فرآیند تیم علم داده (TDSP)	استاندارد صنعتی برای داده‌کاوی (CRISP-DM)

تصویر توسط مایکروسافت	تصویر توسط اتحاد فرآیند علم داده

پس‌آزمون

مرور و مطالعه شخصی

اجرای چرخه عمر علم داده شامل نقش‌ها و وظایف متعدد است، جایی که برخی ممکن است بر بخش‌های خاصی از هر مرحله تمرکز کنند. فرآیند تیم علم داده چند منبع ارائه می‌دهد که انواع نقش‌ها و وظایفی که ممکن است کسی در یک پروژه داشته باشد را توضیح می‌دهد.

تکلیف

ارزیابی یک مجموعه داده

سلب مسئولیت:
این سند با استفاده از سرویس ترجمه هوش مصنوعی Co-op Translator ترجمه شده است. در حالی که ما برای دقت تلاش می‌کنیم، لطفاً توجه داشته باشید که ترجمه‌های خودکار ممکن است شامل خطاها یا نادرستی‌هایی باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، ترجمه حرفه‌ای انسانی توصیه می‌شود. ما هیچ مسئولیتی در قبال سوءتفاهم‌ها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم.

README.md Unescape Escape