History

leestott ddda89c203 🌐 Update translations via Co-op Translator		9 months ago
..
README.md	🌐 Update translations via Co-op Translator	9 months ago
assignment.md	🌐 Update translations via Co-op Translator	10 months ago
notebook.ipynb	🌐 Update translations via Co-op Translator	9 months ago

معرفی چرخه حیات علم داده


معرفی چرخه حیات علم داده - طرح توسط @nitya

پیش‌ آزمون

تا این مرحله احتمالاً متوجه شده‌اید که علم داده یک فرآیند است. این فرآیند را می‌توان به ۵ مرحله تقسیم کرد:

جمع‌آوری
پردازش
تحلیل
ارتباط
نگهداری

این درس بر سه بخش از چرخه حیات تمرکز دارد: جمع‌آوری، پردازش و نگهداری.

عکس از مدرسه اطلاعات برکلی

جمع‌آوری

اولین مرحله چرخه حیات بسیار مهم است زیرا مراحل بعدی به آن وابسته هستند. این مرحله عملاً دو بخش را در یک مرحله ترکیب می‌کند: به دست آوردن داده‌ها و تعریف هدف و مشکلاتی که باید حل شوند.
تعریف اهداف پروژه نیازمند درک عمیق‌تر از مسئله یا سوال است. ابتدا باید افرادی را شناسایی و پیدا کنیم که نیاز به حل مشکل خود دارند. این افراد ممکن است ذینفعان یک کسب‌وکار یا حامیان پروژه باشند که می‌توانند کمک کنند تا مشخص شود چه کسی یا چه چیزی از این پروژه بهره‌مند خواهد شد و چرا به آن نیاز دارند. یک هدف خوب تعریف‌شده باید قابل اندازه‌گیری و کمی باشد تا بتوان نتیجه قابل قبولی را تعریف کرد.

سوالاتی که یک دانشمند داده ممکن است بپرسد:

آیا این مشکل قبلاً مورد بررسی قرار گرفته است؟ چه چیزی کشف شده است؟
آیا هدف و منظور برای همه افراد درگیر قابل درک است؟
آیا ابهامی وجود دارد و چگونه می‌توان آن را کاهش داد؟
محدودیت‌ها چیست؟
نتیجه نهایی ممکن است چگونه باشد؟
چه مقدار منابع (زمان، افراد، محاسبات) در دسترس است؟

مرحله بعدی شناسایی، جمع‌آوری و در نهایت بررسی داده‌هایی است که برای دستیابی به این اهداف تعریف‌شده نیاز داریم. در این مرحله از جمع‌آوری، دانشمندان داده باید کمیت و کیفیت داده‌ها را نیز ارزیابی کنند. این نیازمند مقداری بررسی داده‌ها است تا تأیید شود که داده‌های جمع‌آوری‌شده به دستیابی به نتیجه مطلوب کمک خواهند کرد.

سوالاتی که یک دانشمند داده ممکن است درباره داده‌ها بپرسد:

چه داده‌هایی در حال حاضر در دسترس من است؟
مالک این داده‌ها کیست؟
نگرانی‌های مربوط به حریم خصوصی چیست؟
آیا داده کافی برای حل این مشکل دارم؟
آیا کیفیت داده برای این مشکل قابل قبول است؟
اگر از طریق این داده‌ها اطلاعات اضافی کشف کنم، آیا باید اهداف را تغییر یا بازتعریف کنیم؟

پردازش

مرحله پردازش چرخه حیات بر کشف الگوها در داده‌ها و همچنین مدل‌سازی تمرکز دارد. برخی از تکنیک‌های مورد استفاده در مرحله پردازش نیازمند روش‌های آماری برای کشف الگوها هستند. معمولاً این کار برای انسان با مجموعه داده‌های بزرگ خسته‌کننده خواهد بود و به کامپیوترها برای انجام کارهای سنگین و سرعت بخشیدن به فرآیند متکی است. این مرحله همچنین جایی است که علم داده و یادگیری ماشین با یکدیگر تلاقی می‌کنند. همان‌طور که در درس اول یاد گرفتید، یادگیری ماشین فرآیند ساخت مدل‌ها برای درک داده‌ها است. مدل‌ها نمایشی از رابطه بین متغیرهای داده هستند که به پیش‌بینی نتایج کمک می‌کنند.

تکنیک‌های رایج مورد استفاده در این مرحله در برنامه درسی یادگیری ماشین برای مبتدیان پوشش داده شده‌اند. لینک‌های زیر را دنبال کنید تا بیشتر درباره آن‌ها بیاموزید:

طبقه‌بندی: سازماندهی داده‌ها در دسته‌ها برای استفاده کارآمدتر.
خوشه‌بندی: گروه‌بندی داده‌ها در گروه‌های مشابه.
رگرسیون: تعیین روابط بین متغیرها برای پیش‌بینی یا پیش‌بینی مقادیر.

نگهداری

در نمودار چرخه حیات، ممکن است متوجه شده باشید که نگهداری بین جمع‌آوری و پردازش قرار دارد. نگهداری یک فرآیند مداوم برای مدیریت، ذخیره و ایمن‌سازی داده‌ها در طول فرآیند یک پروژه است و باید در طول کل پروژه مورد توجه قرار گیرد.

ذخیره‌سازی داده‌ها

نحوه و محل ذخیره‌سازی داده‌ها می‌تواند بر هزینه ذخیره‌سازی و همچنین عملکرد دسترسی سریع به داده‌ها تأثیر بگذارد. تصمیماتی از این دست احتمالاً تنها توسط یک دانشمند داده گرفته نمی‌شود، اما ممکن است آن‌ها مجبور شوند بر اساس نحوه ذخیره‌سازی داده‌ها، انتخاب‌هایی در مورد نحوه کار با داده‌ها انجام دهند.

برخی جنبه‌های سیستم‌های ذخیره‌سازی داده مدرن که می‌توانند این انتخاب‌ها را تحت تأثیر قرار دهند:

در محل، خارج از محل، یا ابر عمومی و خصوصی

در محل به معنای میزبانی و مدیریت داده‌ها بر روی تجهیزات خودتان است، مانند داشتن یک سرور با هارد دیسک‌هایی که داده‌ها را ذخیره می‌کنند، در حالی که خارج از محل به تجهیزات متعلق به شما وابسته نیست، مانند یک مرکز داده. ابر عمومی یک انتخاب محبوب برای ذخیره‌سازی داده‌ها است که نیاز به دانش در مورد نحوه یا محل دقیق ذخیره‌سازی داده‌ها ندارد، جایی که عمومی به زیرساخت یکپارچه‌ای اشاره دارد که توسط همه کسانی که از ابر استفاده می‌کنند، به اشتراک گذاشته می‌شود. برخی سازمان‌ها سیاست‌های امنیتی سختگیرانه‌ای دارند که نیازمند دسترسی کامل به تجهیزات میزبانی داده‌ها هستند و به یک ابر خصوصی که خدمات ابری خود را ارائه می‌دهد، متکی خواهند بود. شما در درس‌های بعدی بیشتر درباره داده‌ها در ابر خواهید آموخت.

داده سرد در مقابل داده گرم

هنگام آموزش مدل‌های خود، ممکن است به داده‌های آموزشی بیشتری نیاز داشته باشید. اگر از مدل خود راضی هستید، داده‌های بیشتری برای خدمت به هدف مدل وارد خواهند شد. در هر صورت، هزینه ذخیره‌سازی و دسترسی به داده‌ها با افزایش حجم آن‌ها افزایش خواهد یافت. جدا کردن داده‌هایی که به ندرت استفاده می‌شوند، معروف به داده سرد، از داده‌هایی که به طور مکرر دسترسی پیدا می‌کنند، معروف به داده گرم، می‌تواند یک گزینه ارزان‌تر برای ذخیره‌سازی داده‌ها از طریق خدمات سخت‌افزاری یا نرم‌افزاری باشد. اگر نیاز به دسترسی به داده سرد باشد، ممکن است کمی بیشتر طول بکشد تا در مقایسه با داده گرم بازیابی شود.

مدیریت داده‌ها

هنگام کار با داده‌ها ممکن است متوجه شوید که برخی از داده‌ها نیاز به پاک‌سازی دارند، با استفاده از تکنیک‌هایی که در درس مربوط به آماده‌سازی داده‌ها پوشش داده شده‌اند، تا مدل‌های دقیقی ساخته شوند. وقتی داده‌های جدید وارد می‌شوند، نیاز به همان کاربردها برای حفظ کیفیت دارند. برخی پروژه‌ها شامل استفاده از یک ابزار خودکار برای پاک‌سازی، تجمیع و فشرده‌سازی داده‌ها قبل از انتقال آن‌ها به محل نهایی خواهند بود. Azure Data Factory نمونه‌ای از یکی از این ابزارها است.

ایمن‌سازی داده‌ها

یکی از اهداف اصلی ایمن‌سازی داده‌ها این است که اطمینان حاصل شود کسانی که با داده‌ها کار می‌کنند، کنترل کاملی بر آنچه جمع‌آوری می‌شود و در چه زمینه‌ای استفاده می‌شود، دارند. حفظ امنیت داده‌ها شامل محدود کردن دسترسی فقط به کسانی است که به آن نیاز دارند، رعایت قوانین و مقررات محلی، و همچنین حفظ استانداردهای اخلاقی، همان‌طور که در درس اخلاق پوشش داده شده است.

برخی کارهایی که یک تیم ممکن است با در نظر گرفتن امنیت انجام دهد:

تأیید اینکه تمام داده‌ها رمزگذاری شده‌اند
ارائه اطلاعات به مشتریان در مورد نحوه استفاده از داده‌هایشان
حذف دسترسی به داده‌ها از کسانی که پروژه را ترک کرده‌اند
اجازه دادن به اعضای خاص پروژه برای تغییر داده‌ها

🚀 چالش

نسخه‌های مختلفی از چرخه حیات علم داده وجود دارد که هر مرحله ممکن است نام‌ها و تعداد مراحل متفاوتی داشته باشد، اما فرآیندهای ذکر شده در این درس را شامل می‌شود.

چرخه حیات فرآیند تیم علم داده و استاندارد صنعتی برای داده‌کاوی را بررسی کنید. سه شباهت و تفاوت بین این دو را نام ببرید.

فرآیند تیم علم داده (TDSP)	استاندارد صنعتی برای داده‌کاوی (CRISP-DM)

تصویر توسط مایکروسافت	تصویر توسط اتحاد فرآیند علم داده

پس‌آزمون

مرور و مطالعه شخصی

اجرای چرخه حیات علم داده شامل نقش‌ها و وظایف متعددی است که برخی ممکن است بر بخش‌های خاصی از هر مرحله تمرکز کنند. فرآیند تیم علم داده چندین منبع ارائه می‌دهد که انواع نقش‌ها و وظایفی را که ممکن است کسی در یک پروژه داشته باشد، توضیح می‌دهد.

تکلیف

ارزیابی یک مجموعه داده

سلب مسئولیت:
این سند با استفاده از سرویس ترجمه هوش مصنوعی Co-op Translator ترجمه شده است. در حالی که ما برای دقت تلاش می‌کنیم، لطفاً توجه داشته باشید که ترجمه‌های خودکار ممکن است شامل خطاها یا نادقتی‌ها باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، ترجمه حرفه‌ای انسانی توصیه می‌شود. ما هیچ مسئولیتی در قبال سوءتفاهم‌ها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم.

README.md Unescape Escape