# مقدمه‌ای بر علم داده در فضای ابری |![طرح‌نگاری توسط [(@sketchthedocs)](https://sketchthedocs.dev)](../../sketchnotes/17-DataScience-Cloud.png)| |:---:| | علم داده در فضای ابری: مقدمه - _طرح‌نگاری توسط [@nitya](https://twitter.com/nitya)_ | در این درس، اصول اولیه فضای ابری را یاد خواهید گرفت، سپس خواهید دید که چرا استفاده از خدمات ابری برای اجرای پروژه‌های علم داده می‌تواند برای شما جذاب باشد و به چند نمونه از پروژه‌های علم داده که در فضای ابری اجرا شده‌اند، نگاهی خواهیم انداخت. ## [پیش‌ آزمون](https://ff-quizzes.netlify.app/en/ds/quiz/32) ## فضای ابری چیست؟ فضای ابری یا محاسبات ابری، ارائه طیف گسترده‌ای از خدمات محاسباتی به صورت پرداخت به میزان استفاده است که بر روی زیرساختی در اینترنت میزبانی می‌شود. این خدمات شامل راه‌حل‌هایی مانند ذخیره‌سازی، پایگاه‌های داده، شبکه‌سازی، نرم‌افزار، تحلیل‌ها و خدمات هوشمند می‌شود. معمولاً فضای ابری عمومی، خصوصی و ترکیبی به صورت زیر تفکیک می‌شوند: * فضای ابری عمومی: فضای ابری عمومی توسط یک ارائه‌دهنده خدمات ابری شخص ثالث مالکیت و مدیریت می‌شود که منابع محاسباتی خود را از طریق اینترنت به عموم ارائه می‌دهد. * فضای ابری خصوصی: به منابع محاسبات ابری که به طور انحصاری توسط یک کسب‌وکار یا سازمان استفاده می‌شود اشاره دارد، با خدمات و زیرساختی که در یک شبکه خصوصی نگهداری می‌شود. * فضای ابری ترکیبی: فضای ابری ترکیبی سیستمی است که فضای ابری عمومی و خصوصی را ترکیب می‌کند. کاربران می‌توانند از یک مرکز داده محلی استفاده کنند، در حالی که اجازه می‌دهند داده‌ها و برنامه‌ها بر روی یک یا چند فضای ابری عمومی اجرا شوند. بیشتر خدمات محاسبات ابری در سه دسته قرار می‌گیرند: زیرساخت به عنوان سرویس (IaaS)، پلتفرم به عنوان سرویس (PaaS) و نرم‌افزار به عنوان سرویس (SaaS). * زیرساخت به عنوان سرویس (IaaS): کاربران زیرساخت‌های فناوری اطلاعات مانند سرورها و ماشین‌های مجازی (VMs)، ذخیره‌سازی، شبکه‌ها و سیستم‌های عامل را اجاره می‌کنند. * پلتفرم به عنوان سرویس (PaaS): کاربران محیطی برای توسعه، آزمایش، ارائه و مدیریت برنامه‌های نرم‌افزاری اجاره می‌کنند. کاربران نیازی به نگرانی در مورد تنظیم یا مدیریت زیرساخت‌های زیرین سرورها، ذخیره‌سازی، شبکه و پایگاه‌های داده مورد نیاز برای توسعه ندارند. * نرم‌افزار به عنوان سرویس (SaaS): کاربران به برنامه‌های نرم‌افزاری از طریق اینترنت دسترسی پیدا می‌کنند، به صورت تقاضا و معمولاً بر اساس اشتراک. کاربران نیازی به نگرانی در مورد میزبانی و مدیریت برنامه نرم‌افزاری، زیرساخت زیرین یا نگهداری، مانند به‌روزرسانی‌های نرم‌افزاری و وصله‌های امنیتی ندارند. برخی از بزرگ‌ترین ارائه‌دهندگان خدمات ابری شامل Amazon Web Services، Google Cloud Platform و Microsoft Azure هستند. ## چرا فضای ابری را برای علم داده انتخاب کنیم؟ توسعه‌دهندگان و متخصصان فناوری اطلاعات به دلایل مختلفی تصمیم به کار با فضای ابری می‌گیرند، از جمله: * نوآوری: شما می‌توانید برنامه‌های خود را با ادغام خدمات نوآورانه‌ای که توسط ارائه‌دهندگان فضای ابری ایجاد شده‌اند، تقویت کنید. * انعطاف‌پذیری: شما فقط برای خدماتی که نیاز دارید پرداخت می‌کنید و می‌توانید از طیف گسترده‌ای از خدمات انتخاب کنید. معمولاً به صورت پرداخت به میزان استفاده است و خدمات خود را بر اساس نیازهای در حال تغییر خود تنظیم می‌کنید. * بودجه: نیازی به سرمایه‌گذاری اولیه برای خرید سخت‌افزار و نرم‌افزار، تنظیم و اجرای مراکز داده محلی ندارید و فقط برای آنچه استفاده می‌کنید پرداخت می‌کنید. * مقیاس‌پذیری: منابع شما می‌توانند بر اساس نیازهای پروژه شما مقیاس‌پذیر باشند، به این معنی که برنامه‌های شما می‌توانند قدرت محاسباتی، ذخیره‌سازی و پهنای باند بیشتری یا کمتری استفاده کنند و به عوامل خارجی در هر زمان معین تطبیق یابند. * بهره‌وری: شما می‌توانید بر روی کسب‌وکار خود تمرکز کنید به جای صرف زمان بر روی وظایفی که می‌توانند توسط شخص دیگری مدیریت شوند، مانند مدیریت مراکز داده. * قابلیت اطمینان: محاسبات ابری چندین روش برای پشتیبان‌گیری مداوم از داده‌های شما ارائه می‌دهد و می‌توانید برنامه‌های بازیابی از بحران تنظیم کنید تا کسب‌وکار و خدمات شما حتی در زمان بحران ادامه یابد. * امنیت: شما می‌توانید از سیاست‌ها، فناوری‌ها و کنترل‌هایی بهره‌مند شوید که امنیت پروژه شما را تقویت می‌کنند. این‌ها برخی از رایج‌ترین دلایلی هستند که افراد تصمیم به استفاده از خدمات ابری می‌گیرند. حال که درک بهتری از فضای ابری و مزایای اصلی آن داریم، بیایید به طور خاص به وظایف دانشمندان داده و توسعه‌دهندگانی که با داده کار می‌کنند نگاه کنیم و ببینیم چگونه فضای ابری می‌تواند به آن‌ها در مواجهه با چالش‌های مختلف کمک کند: * ذخیره‌سازی حجم زیادی از داده‌ها: به جای خرید، مدیریت و حفاظت از سرورهای بزرگ، می‌توانید داده‌های خود را مستقیماً در فضای ابری ذخیره کنید، با راه‌حل‌هایی مانند Azure Cosmos DB، Azure SQL Database و Azure Data Lake Storage. * انجام یکپارچه‌سازی داده‌ها: یکپارچه‌سازی داده‌ها بخش ضروری علم داده است که به شما امکان می‌دهد از جمع‌آوری داده‌ها به اقدام کردن انتقال پیدا کنید. با خدمات یکپارچه‌سازی داده‌ها که در فضای ابری ارائه می‌شوند، می‌توانید داده‌ها را از منابع مختلف جمع‌آوری، تبدیل و یکپارچه کنید و آن‌ها را در یک انبار داده واحد قرار دهید، با استفاده از Data Factory. * پردازش داده‌ها: پردازش حجم زیادی از داده‌ها نیاز به قدرت محاسباتی زیادی دارد و همه افراد به ماشین‌های قدرتمند دسترسی ندارند، به همین دلیل بسیاری از افراد تصمیم می‌گیرند مستقیماً از قدرت محاسباتی عظیم فضای ابری برای اجرای و ارائه راه‌حل‌های خود استفاده کنند. * استفاده از خدمات تحلیل داده‌ها: خدمات ابری مانند Azure Synapse Analytics، Azure Stream Analytics و Azure Databricks به شما کمک می‌کنند داده‌های خود را به بینش‌های قابل اجرا تبدیل کنید. * استفاده از خدمات یادگیری ماشین و هوش داده: به جای شروع از ابتدا، می‌توانید از الگوریتم‌های یادگیری ماشین ارائه شده توسط ارائه‌دهنده فضای ابری استفاده کنید، با خدماتی مانند AzureML. همچنین می‌توانید از خدمات شناختی مانند تبدیل گفتار به متن، تبدیل متن به گفتار، بینایی کامپیوتری و موارد دیگر استفاده کنید. ## نمونه‌هایی از علم داده در فضای ابری بیایید این موضوع را با بررسی چند سناریو ملموس‌تر کنیم. ### تحلیل احساسات شبکه‌های اجتماعی به صورت لحظه‌ای با یک سناریوی رایج که توسط افرادی که یادگیری ماشین را شروع می‌کنند مطالعه می‌شود، شروع می‌کنیم: تحلیل احساسات شبکه‌های اجتماعی به صورت لحظه‌ای. فرض کنید شما یک وب‌سایت خبری دارید و می‌خواهید از داده‌های زنده استفاده کنید تا بفهمید خوانندگان شما ممکن است به چه محتوایی علاقه‌مند باشند. برای دانستن بیشتر در این مورد، می‌توانید برنامه‌ای بسازید که تحلیل احساسات داده‌های منتشر شده در توییتر را به صورت لحظه‌ای انجام دهد، در موضوعاتی که برای خوانندگان شما مرتبط هستند. شاخص‌های کلیدی که بررسی خواهید کرد حجم توییت‌ها در موضوعات خاص (هشتگ‌ها) و احساسات است که با استفاده از ابزارهای تحلیل که تحلیل احساسات را در موضوعات مشخص انجام می‌دهند، تعیین می‌شود. مراحل لازم برای ایجاد این پروژه به شرح زیر است: * ایجاد یک مرکز رویداد برای جمع‌آوری ورودی، که داده‌ها را از توییتر جمع‌آوری می‌کند. * پیکربندی و شروع یک برنامه کلاینت توییتر، که APIهای استریمینگ توییتر را فراخوانی می‌کند. * ایجاد یک شغل تحلیل استریم. * مشخص کردن ورودی و پرس‌وجوی شغل. * ایجاد یک مقصد خروجی و مشخص کردن خروجی شغل. * شروع شغل. برای مشاهده فرآیند کامل، به [مستندات](https://docs.microsoft.com/azure/stream-analytics/stream-analytics-twitter-sentiment-analysis-trends?WT.mc_id=academic-77958-bethanycheum&ocid=AID30411099) مراجعه کنید. ### تحلیل مقالات علمی بیایید به مثال دیگری از پروژه‌ای که توسط [دمیتری سوشنیکوف](http://soshnikov.com)، یکی از نویسندگان این دوره آموزشی، ایجاد شده است نگاه کنیم. دمیتری ابزاری ایجاد کرده است که مقالات مربوط به کووید را تحلیل می‌کند. با بررسی این پروژه، خواهید دید چگونه می‌توانید ابزاری ایجاد کنید که از مقالات علمی دانش استخراج کند، بینش کسب کند و به محققان کمک کند تا به طور کارآمد در میان مجموعه‌های بزرگ مقالات حرکت کنند. بیایید مراحل مختلف استفاده شده برای این کار را ببینیم: * استخراج و پیش‌پردازش اطلاعات با [Text Analytics for Health](https://docs.microsoft.com/azure/cognitive-services/text-analytics/how-tos/text-analytics-for-health?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) * استفاده از [Azure ML](https://azure.microsoft.com/services/machine-learning?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) برای موازی‌سازی پردازش. * ذخیره‌سازی و پرس‌وجوی اطلاعات با [Cosmos DB](https://azure.microsoft.com/services/cosmos-db?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) * ایجاد داشبورد تعاملی برای کاوش و بصری‌سازی داده‌ها با استفاده از Power BI. برای مشاهده فرآیند کامل، به [وبلاگ دمیتری](https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/) مراجعه کنید. همان‌طور که می‌بینید، می‌توانیم از خدمات ابری به روش‌های مختلفی برای انجام علم داده استفاده کنیم. ## پاورقی منابع: * https://azure.microsoft.com/overview/what-is-cloud-computing?ocid=AID3041109 * https://docs.microsoft.com/azure/stream-analytics/stream-analytics-twitter-sentiment-analysis-trends?ocid=AID3041109 * https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/ ## پس‌آزمون ## [پس‌آزمون](https://ff-quizzes.netlify.app/en/ds/quiz/33) ## تکلیف [تحقیق بازار](assignment.md) --- **سلب مسئولیت**: این سند با استفاده از سرویس ترجمه هوش مصنوعی [Co-op Translator](https://github.com/Azure/co-op-translator) ترجمه شده است. در حالی که ما برای دقت تلاش می‌کنیم، لطفاً توجه داشته باشید که ترجمه‌های خودکار ممکن است شامل خطاها یا نادقتی‌هایی باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، ترجمه حرفه‌ای انسانی توصیه می‌شود. ما هیچ مسئولیتی در قبال سوءتفاهم‌ها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم.