15 KiB
مقدمهای بر علم داده در فضای ابری
![]() |
---|
علم داده در فضای ابری: مقدمه - طرحنگاری توسط @nitya |
در این درس، اصول اولیه فضای ابری را یاد خواهید گرفت، سپس خواهید دید چرا استفاده از خدمات ابری برای اجرای پروژههای علم داده میتواند برای شما جذاب باشد و به چند نمونه از پروژههای علم داده که در فضای ابری اجرا شدهاند، نگاهی خواهیم انداخت.
پیش آزمون
فضای ابری چیست؟
فضای ابری یا محاسبات ابری، ارائه طیف گستردهای از خدمات محاسباتی به صورت پرداخت به میزان استفاده است که بر روی زیرساختی در اینترنت میزبانی میشود. این خدمات شامل راهحلهایی مانند ذخیرهسازی، پایگاههای داده، شبکهسازی، نرمافزار، تحلیلها و خدمات هوشمند میشود.
معمولاً فضای ابری عمومی، خصوصی و ترکیبی به صورت زیر تفکیک میشوند:
- فضای ابری عمومی: فضای ابری عمومی توسط یک ارائهدهنده خدمات ابری شخص ثالث مالکیت و مدیریت میشود که منابع محاسباتی خود را از طریق اینترنت به عموم ارائه میدهد.
- فضای ابری خصوصی: به منابع محاسبات ابری که به طور انحصاری توسط یک کسبوکار یا سازمان استفاده میشود، اشاره دارد. خدمات و زیرساختها در یک شبکه خصوصی نگهداری میشوند.
- فضای ابری ترکیبی: فضای ابری ترکیبی سیستمی است که فضای ابری عمومی و خصوصی را ترکیب میکند. کاربران میتوانند از یک مرکز داده داخلی استفاده کنند، در حالی که اجازه میدهند دادهها و برنامهها بر روی یک یا چند فضای ابری عمومی اجرا شوند.
بیشتر خدمات محاسبات ابری در سه دسته قرار میگیرند: زیرساخت به عنوان سرویس (IaaS)، پلتفرم به عنوان سرویس (PaaS) و نرمافزار به عنوان سرویس (SaaS).
- زیرساخت به عنوان سرویس (IaaS): کاربران زیرساختهای فناوری اطلاعات مانند سرورها و ماشینهای مجازی (VMs)، ذخیرهسازی، شبکهها و سیستمهای عامل را اجاره میکنند.
- پلتفرم به عنوان سرویس (PaaS): کاربران محیطی برای توسعه، آزمایش، ارائه و مدیریت برنامههای نرمافزاری اجاره میکنند. کاربران نیازی به نگرانی در مورد تنظیم یا مدیریت زیرساختهای زیرین مانند سرورها، ذخیرهسازی، شبکه و پایگاههای داده ندارند.
- نرمافزار به عنوان سرویس (SaaS): کاربران به برنامههای نرمافزاری از طریق اینترنت دسترسی پیدا میکنند، به صورت تقاضا و معمولاً بر اساس اشتراک. کاربران نیازی به نگرانی در مورد میزبانی و مدیریت برنامه نرمافزاری، زیرساختهای زیرین یا نگهداری مانند بهروزرسانیهای نرمافزاری و وصلههای امنیتی ندارند.
برخی از بزرگترین ارائهدهندگان خدمات ابری شامل Amazon Web Services، Google Cloud Platform و Microsoft Azure هستند.
چرا فضای ابری را برای علم داده انتخاب کنیم؟
توسعهدهندگان و متخصصان فناوری اطلاعات به دلایل مختلفی تصمیم به کار با فضای ابری میگیرند، از جمله:
- نوآوری: شما میتوانید برنامههای خود را با ادغام خدمات نوآورانهای که توسط ارائهدهندگان فضای ابری ایجاد شدهاند، تقویت کنید.
- انعطافپذیری: شما فقط برای خدماتی که نیاز دارید پرداخت میکنید و میتوانید از طیف گستردهای از خدمات انتخاب کنید. معمولاً پرداخت به میزان استفاده انجام میشود و خدمات شما بر اساس نیازهای در حال تغییر شما تنظیم میشود.
- بودجه: نیازی به سرمایهگذاری اولیه برای خرید سختافزار و نرمافزار، تنظیم و اجرای مراکز داده داخلی ندارید و فقط برای آنچه استفاده میکنید پرداخت میکنید.
- مقیاسپذیری: منابع شما میتوانند بر اساس نیازهای پروژه شما مقیاسپذیر باشند، به این معنی که برنامههای شما میتوانند قدرت محاسباتی، ذخیرهسازی و پهنای باند بیشتری یا کمتری استفاده کنند و به عوامل خارجی در هر زمان پاسخ دهند.
- بهرهوری: شما میتوانید بر کسبوکار خود تمرکز کنید به جای صرف زمان بر وظایفی که میتوانند توسط دیگران مدیریت شوند، مانند مدیریت مراکز داده.
- قابلیت اطمینان: محاسبات ابری راههای مختلفی برای پشتیبانگیری مداوم از دادههای شما ارائه میدهد و میتوانید برنامههای بازیابی از بحران تنظیم کنید تا کسبوکار و خدمات شما حتی در زمانهای بحرانی ادامه یابد.
- امنیت: شما میتوانید از سیاستها، فناوریها و کنترلهایی بهرهمند شوید که امنیت پروژه شما را تقویت میکنند.
اینها برخی از رایجترین دلایلی هستند که افراد تصمیم به استفاده از خدمات ابری میگیرند. حال که درک بهتری از فضای ابری و مزایای اصلی آن داریم، بیایید به طور خاص به وظایف دانشمندان داده و توسعهدهندگانی که با داده کار میکنند نگاه کنیم و ببینیم چگونه فضای ابری میتواند به آنها در مواجهه با چالشهای مختلف کمک کند:
- ذخیرهسازی حجم زیادی از دادهها: به جای خرید، مدیریت و حفاظت از سرورهای بزرگ، میتوانید دادههای خود را مستقیماً در فضای ابری ذخیره کنید، با راهحلهایی مانند Azure Cosmos DB، Azure SQL Database و Azure Data Lake Storage.
- انجام یکپارچهسازی دادهها: یکپارچهسازی دادهها بخش ضروری علم داده است که به شما امکان میدهد از جمعآوری دادهها به اقدام کردن برسید. با خدمات یکپارچهسازی دادهها که در فضای ابری ارائه میشوند، میتوانید دادهها را از منابع مختلف جمعآوری، تبدیل و یکپارچه کنید و آنها را در یک انبار داده واحد ذخیره کنید، با استفاده از Data Factory.
- پردازش دادهها: پردازش حجم زیادی از دادهها نیاز به قدرت محاسباتی زیادی دارد و همه افراد به ماشینهای قدرتمند دسترسی ندارند، به همین دلیل بسیاری از افراد تصمیم میگیرند مستقیماً از قدرت محاسباتی عظیم فضای ابری برای اجرای و ارائه راهحلهای خود استفاده کنند.
- استفاده از خدمات تحلیل دادهها: خدمات ابری مانند Azure Synapse Analytics، Azure Stream Analytics و Azure Databricks به شما کمک میکنند دادههای خود را به بینشهای قابل اجرا تبدیل کنید.
- استفاده از خدمات یادگیری ماشین و هوش داده: به جای شروع از ابتدا، میتوانید از الگوریتمهای یادگیری ماشین ارائهشده توسط ارائهدهنده فضای ابری استفاده کنید، با خدماتی مانند AzureML. همچنین میتوانید از خدمات شناختی مانند تبدیل گفتار به متن، متن به گفتار، بینایی کامپیوتری و موارد دیگر استفاده کنید.
نمونههایی از علم داده در فضای ابری
بیایید این موضوع را با بررسی چند سناریو ملموستر کنیم.
تحلیل احساسات شبکههای اجتماعی به صورت لحظهای
با یک سناریو که معمولاً توسط افرادی که با یادگیری ماشین شروع میکنند مطالعه میشود، شروع میکنیم: تحلیل احساسات شبکههای اجتماعی به صورت لحظهای.
فرض کنید شما یک وبسایت خبری دارید و میخواهید از دادههای زنده استفاده کنید تا بفهمید خوانندگان شما به چه محتوایی علاقهمند هستند. برای دانستن بیشتر در این مورد، میتوانید برنامهای بسازید که تحلیل احساسات دادههای منتشرشده در توییتر را به صورت لحظهای انجام دهد، در موضوعاتی که برای خوانندگان شما مرتبط هستند.
شاخصهای کلیدی که بررسی خواهید کرد شامل حجم توییتها در موضوعات خاص (هشتگها) و احساسات است که با استفاده از ابزارهای تحلیل احساسات در موضوعات مشخصشده تعیین میشود.
مراحل لازم برای ایجاد این پروژه به شرح زیر است:
- ایجاد یک مرکز رویداد برای جمعآوری دادههای ورودی از توییتر
- پیکربندی و شروع یک برنامه کلاینت توییتر که APIهای استریمینگ توییتر را فراخوانی میکند
- ایجاد یک شغل تحلیل استریم
- مشخص کردن ورودی و پرسوجوی شغل
- ایجاد یک مقصد خروجی و مشخص کردن خروجی شغل
- شروع شغل
برای مشاهده فرآیند کامل، به مستندات مراجعه کنید.
تحلیل مقالات علمی
بیایید به مثال دیگری از پروژهای که توسط دمیتری سوشنیکوف، یکی از نویسندگان این دوره آموزشی، ایجاد شده است، نگاه کنیم.
دمیتری ابزاری ایجاد کرده است که مقالات مرتبط با کووید را تحلیل میکند. با بررسی این پروژه، خواهید دید چگونه میتوانید ابزاری ایجاد کنید که از مقالات علمی دانش استخراج کند، بینش کسب کند و به محققان کمک کند تا به طور کارآمد در میان مجموعههای بزرگ مقالات حرکت کنند.
بیایید مراحل مختلف استفادهشده برای این پروژه را ببینیم:
- استخراج و پیشپردازش اطلاعات با تحلیل متن برای سلامت
- استفاده از Azure ML برای موازیسازی پردازش
- ذخیرهسازی و پرسوجوی اطلاعات با Cosmos DB
- ایجاد داشبورد تعاملی برای کاوش و بصریسازی دادهها با استفاده از Power BI
برای مشاهده فرآیند کامل، به وبلاگ دمیتری مراجعه کنید.
همانطور که میبینید، میتوانیم از خدمات ابری به روشهای مختلفی برای انجام علم داده استفاده کنیم.
پاورقی
منابع:
- https://azure.microsoft.com/overview/what-is-cloud-computing?ocid=AID3041109
- https://docs.microsoft.com/azure/stream-analytics/stream-analytics-twitter-sentiment-analysis-trends?ocid=AID3041109
- https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/
آزمون پس از درس
تکلیف
سلب مسئولیت:
این سند با استفاده از سرویس ترجمه هوش مصنوعی Co-op Translator ترجمه شده است. در حالی که ما تلاش میکنیم دقت را حفظ کنیم، لطفاً توجه داشته باشید که ترجمههای خودکار ممکن است شامل خطاها یا نادرستیها باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، توصیه میشود از ترجمه حرفهای انسانی استفاده کنید. ما مسئولیتی در قبال سوء تفاهمها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم.