15 KiB
مقدمهای بر علم داده در فضای ابری
![]() |
---|
علم داده در فضای ابری: مقدمه - طرحنگاری توسط @nitya |
در این درس، اصول اولیه فضای ابری را یاد خواهید گرفت، سپس خواهید دید که چرا استفاده از خدمات ابری برای اجرای پروژههای علم داده میتواند برای شما جذاب باشد و به چند نمونه از پروژههای علم داده که در فضای ابری اجرا شدهاند، نگاهی خواهیم انداخت.
پیش آزمون
فضای ابری چیست؟
فضای ابری یا محاسبات ابری، ارائه طیف گستردهای از خدمات محاسباتی به صورت پرداخت به میزان استفاده است که بر روی زیرساختی در اینترنت میزبانی میشود. این خدمات شامل راهحلهایی مانند ذخیرهسازی، پایگاههای داده، شبکهسازی، نرمافزار، تحلیلها و خدمات هوشمند میشود.
معمولاً فضای ابری عمومی، خصوصی و ترکیبی به صورت زیر تفکیک میشوند:
- فضای ابری عمومی: فضای ابری عمومی توسط یک ارائهدهنده خدمات ابری شخص ثالث مالکیت و مدیریت میشود که منابع محاسباتی خود را از طریق اینترنت به عموم ارائه میدهد.
- فضای ابری خصوصی: به منابع محاسبات ابری که به طور انحصاری توسط یک کسبوکار یا سازمان استفاده میشود اشاره دارد، با خدمات و زیرساختی که در یک شبکه خصوصی نگهداری میشود.
- فضای ابری ترکیبی: فضای ابری ترکیبی سیستمی است که فضای ابری عمومی و خصوصی را ترکیب میکند. کاربران میتوانند از یک مرکز داده محلی استفاده کنند، در حالی که اجازه میدهند دادهها و برنامهها بر روی یک یا چند فضای ابری عمومی اجرا شوند.
بیشتر خدمات محاسبات ابری در سه دسته قرار میگیرند: زیرساخت به عنوان سرویس (IaaS)، پلتفرم به عنوان سرویس (PaaS) و نرمافزار به عنوان سرویس (SaaS).
- زیرساخت به عنوان سرویس (IaaS): کاربران زیرساختهای فناوری اطلاعات مانند سرورها و ماشینهای مجازی (VMs)، ذخیرهسازی، شبکهها و سیستمهای عامل را اجاره میکنند.
- پلتفرم به عنوان سرویس (PaaS): کاربران محیطی برای توسعه، آزمایش، ارائه و مدیریت برنامههای نرمافزاری اجاره میکنند. کاربران نیازی به نگرانی در مورد تنظیم یا مدیریت زیرساختهای زیرین سرورها، ذخیرهسازی، شبکه و پایگاههای داده مورد نیاز برای توسعه ندارند.
- نرمافزار به عنوان سرویس (SaaS): کاربران به برنامههای نرمافزاری از طریق اینترنت دسترسی پیدا میکنند، به صورت تقاضا و معمولاً بر اساس اشتراک. کاربران نیازی به نگرانی در مورد میزبانی و مدیریت برنامه نرمافزاری، زیرساخت زیرین یا نگهداری، مانند بهروزرسانیهای نرمافزاری و وصلههای امنیتی ندارند.
برخی از بزرگترین ارائهدهندگان خدمات ابری شامل Amazon Web Services، Google Cloud Platform و Microsoft Azure هستند.
چرا فضای ابری را برای علم داده انتخاب کنیم؟
توسعهدهندگان و متخصصان فناوری اطلاعات به دلایل مختلفی تصمیم به کار با فضای ابری میگیرند، از جمله:
- نوآوری: شما میتوانید برنامههای خود را با ادغام خدمات نوآورانهای که توسط ارائهدهندگان فضای ابری ایجاد شدهاند، تقویت کنید.
- انعطافپذیری: شما فقط برای خدماتی که نیاز دارید پرداخت میکنید و میتوانید از طیف گستردهای از خدمات انتخاب کنید. معمولاً به صورت پرداخت به میزان استفاده است و خدمات خود را بر اساس نیازهای در حال تغییر خود تنظیم میکنید.
- بودجه: نیازی به سرمایهگذاری اولیه برای خرید سختافزار و نرمافزار، تنظیم و اجرای مراکز داده محلی ندارید و فقط برای آنچه استفاده میکنید پرداخت میکنید.
- مقیاسپذیری: منابع شما میتوانند بر اساس نیازهای پروژه شما مقیاسپذیر باشند، به این معنی که برنامههای شما میتوانند قدرت محاسباتی، ذخیرهسازی و پهنای باند بیشتری یا کمتری استفاده کنند و به عوامل خارجی در هر زمان معین تطبیق یابند.
- بهرهوری: شما میتوانید بر روی کسبوکار خود تمرکز کنید به جای صرف زمان بر روی وظایفی که میتوانند توسط شخص دیگری مدیریت شوند، مانند مدیریت مراکز داده.
- قابلیت اطمینان: محاسبات ابری چندین روش برای پشتیبانگیری مداوم از دادههای شما ارائه میدهد و میتوانید برنامههای بازیابی از بحران تنظیم کنید تا کسبوکار و خدمات شما حتی در زمان بحران ادامه یابد.
- امنیت: شما میتوانید از سیاستها، فناوریها و کنترلهایی بهرهمند شوید که امنیت پروژه شما را تقویت میکنند.
اینها برخی از رایجترین دلایلی هستند که افراد تصمیم به استفاده از خدمات ابری میگیرند. حال که درک بهتری از فضای ابری و مزایای اصلی آن داریم، بیایید به طور خاص به وظایف دانشمندان داده و توسعهدهندگانی که با داده کار میکنند نگاه کنیم و ببینیم چگونه فضای ابری میتواند به آنها در مواجهه با چالشهای مختلف کمک کند:
- ذخیرهسازی حجم زیادی از دادهها: به جای خرید، مدیریت و حفاظت از سرورهای بزرگ، میتوانید دادههای خود را مستقیماً در فضای ابری ذخیره کنید، با راهحلهایی مانند Azure Cosmos DB، Azure SQL Database و Azure Data Lake Storage.
- انجام یکپارچهسازی دادهها: یکپارچهسازی دادهها بخش ضروری علم داده است که به شما امکان میدهد از جمعآوری دادهها به اقدام کردن انتقال پیدا کنید. با خدمات یکپارچهسازی دادهها که در فضای ابری ارائه میشوند، میتوانید دادهها را از منابع مختلف جمعآوری، تبدیل و یکپارچه کنید و آنها را در یک انبار داده واحد قرار دهید، با استفاده از Data Factory.
- پردازش دادهها: پردازش حجم زیادی از دادهها نیاز به قدرت محاسباتی زیادی دارد و همه افراد به ماشینهای قدرتمند دسترسی ندارند، به همین دلیل بسیاری از افراد تصمیم میگیرند مستقیماً از قدرت محاسباتی عظیم فضای ابری برای اجرای و ارائه راهحلهای خود استفاده کنند.
- استفاده از خدمات تحلیل دادهها: خدمات ابری مانند Azure Synapse Analytics، Azure Stream Analytics و Azure Databricks به شما کمک میکنند دادههای خود را به بینشهای قابل اجرا تبدیل کنید.
- استفاده از خدمات یادگیری ماشین و هوش داده: به جای شروع از ابتدا، میتوانید از الگوریتمهای یادگیری ماشین ارائه شده توسط ارائهدهنده فضای ابری استفاده کنید، با خدماتی مانند AzureML. همچنین میتوانید از خدمات شناختی مانند تبدیل گفتار به متن، تبدیل متن به گفتار، بینایی کامپیوتری و موارد دیگر استفاده کنید.
نمونههایی از علم داده در فضای ابری
بیایید این موضوع را با بررسی چند سناریو ملموستر کنیم.
تحلیل احساسات شبکههای اجتماعی به صورت لحظهای
با یک سناریوی رایج که توسط افرادی که یادگیری ماشین را شروع میکنند مطالعه میشود، شروع میکنیم: تحلیل احساسات شبکههای اجتماعی به صورت لحظهای.
فرض کنید شما یک وبسایت خبری دارید و میخواهید از دادههای زنده استفاده کنید تا بفهمید خوانندگان شما ممکن است به چه محتوایی علاقهمند باشند. برای دانستن بیشتر در این مورد، میتوانید برنامهای بسازید که تحلیل احساسات دادههای منتشر شده در توییتر را به صورت لحظهای انجام دهد، در موضوعاتی که برای خوانندگان شما مرتبط هستند.
شاخصهای کلیدی که بررسی خواهید کرد حجم توییتها در موضوعات خاص (هشتگها) و احساسات است که با استفاده از ابزارهای تحلیل که تحلیل احساسات را در موضوعات مشخص انجام میدهند، تعیین میشود.
مراحل لازم برای ایجاد این پروژه به شرح زیر است:
- ایجاد یک مرکز رویداد برای جمعآوری ورودی، که دادهها را از توییتر جمعآوری میکند.
- پیکربندی و شروع یک برنامه کلاینت توییتر، که APIهای استریمینگ توییتر را فراخوانی میکند.
- ایجاد یک شغل تحلیل استریم.
- مشخص کردن ورودی و پرسوجوی شغل.
- ایجاد یک مقصد خروجی و مشخص کردن خروجی شغل.
- شروع شغل.
برای مشاهده فرآیند کامل، به مستندات مراجعه کنید.
تحلیل مقالات علمی
بیایید به مثال دیگری از پروژهای که توسط دمیتری سوشنیکوف، یکی از نویسندگان این دوره آموزشی، ایجاد شده است نگاه کنیم.
دمیتری ابزاری ایجاد کرده است که مقالات مربوط به کووید را تحلیل میکند. با بررسی این پروژه، خواهید دید چگونه میتوانید ابزاری ایجاد کنید که از مقالات علمی دانش استخراج کند، بینش کسب کند و به محققان کمک کند تا به طور کارآمد در میان مجموعههای بزرگ مقالات حرکت کنند.
بیایید مراحل مختلف استفاده شده برای این کار را ببینیم:
- استخراج و پیشپردازش اطلاعات با Text Analytics for Health
- استفاده از Azure ML برای موازیسازی پردازش.
- ذخیرهسازی و پرسوجوی اطلاعات با Cosmos DB
- ایجاد داشبورد تعاملی برای کاوش و بصریسازی دادهها با استفاده از Power BI.
برای مشاهده فرآیند کامل، به وبلاگ دمیتری مراجعه کنید.
همانطور که میبینید، میتوانیم از خدمات ابری به روشهای مختلفی برای انجام علم داده استفاده کنیم.
پاورقی
منابع:
- https://azure.microsoft.com/overview/what-is-cloud-computing?ocid=AID3041109
- https://docs.microsoft.com/azure/stream-analytics/stream-analytics-twitter-sentiment-analysis-trends?ocid=AID3041109
- https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/
پسآزمون
پسآزمون
تکلیف
سلب مسئولیت:
این سند با استفاده از سرویس ترجمه هوش مصنوعی Co-op Translator ترجمه شده است. در حالی که ما برای دقت تلاش میکنیم، لطفاً توجه داشته باشید که ترجمههای خودکار ممکن است شامل خطاها یا نادقتیهایی باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، ترجمه حرفهای انسانی توصیه میشود. ما هیچ مسئولیتی در قبال سوءتفاهمها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم.