# מבוא למדעי הנתונים בענן |![ סקצ'נוט מאת [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/17-DataScience-Cloud.png)| |:---:| | מדעי הנתונים בענן: מבוא - _סקצ'נוט מאת [@nitya](https://twitter.com/nitya)_ | בשיעור זה תלמדו את העקרונות הבסיסיים של הענן, תבינו מדוע כדאי להשתמש בשירותי ענן לפרויקטים של מדעי הנתונים, ונבחן כמה דוגמאות לפרויקטים של מדעי הנתונים שמתבצעים בענן. ## [שאלון לפני ההרצאה](https://ff-quizzes.netlify.app/en/ds/quiz/32) ## מהו הענן? הענן, או מחשוב ענן, הוא אספקת מגוון רחב של שירותי מחשוב בתשלום לפי שימוש, המתארחים על תשתית דרך האינטרנט. השירותים כוללים פתרונות כמו אחסון, מסדי נתונים, רשתות, תוכנה, אנליטיקה ושירותים חכמים. נהוג להבחין בין ענן ציבורי, ענן פרטי וענן היברידי באופן הבא: * **ענן ציבורי**: ענן ציבורי הוא בבעלות ומופעל על ידי ספק שירותי ענן צד שלישי, המספק את משאביו דרך האינטרנט לציבור הרחב. * **ענן פרטי**: מתייחס למשאבי מחשוב ענן המשמשים באופן בלעדי עסק או ארגון יחיד, עם שירותים ותשתית המתוחזקים ברשת פרטית. * **ענן היברידי**: מערכת המשלבת עננים ציבוריים ופרטיים. משתמשים בוחרים מרכז נתונים מקומי, תוך אפשרות להריץ נתונים ויישומים בעננים ציבוריים. רוב שירותי מחשוב הענן מתחלקים לשלוש קטגוריות: תשתית כשירות (IaaS), פלטפורמה כשירות (PaaS) ותוכנה כשירות (SaaS). * **תשתית כשירות (IaaS)**: משתמשים שוכרים תשתית IT כמו שרתים, מכונות וירטואליות (VMs), אחסון, רשתות ומערכות הפעלה. * **פלטפורמה כשירות (PaaS)**: משתמשים שוכרים סביבה לפיתוח, בדיקה, אספקה וניהול של יישומי תוכנה, מבלי לדאוג לתשתית הבסיסית. * **תוכנה כשירות (SaaS)**: משתמשים מקבלים גישה ליישומי תוכנה דרך האינטרנט, לפי דרישה ובדרך כלל במנוי, מבלי לדאוג לאירוח, ניהול או תחזוקה. חלק מספקי הענן הגדולים ביותר הם Amazon Web Services, Google Cloud Platform ו-Microsoft Azure. ## מדוע לבחור בענן עבור מדעי הנתונים? מפתחים ואנשי IT בוחרים לעבוד עם הענן ממספר סיבות, כולל: * **חדשנות**: ניתן לשלב שירותים חדשניים של ספקי ענן ישירות ביישומים שלכם. * **גמישות**: משלמים רק על השירותים הנדרשים וניתן לבחור מתוך מגוון רחב של שירותים. התשלום הוא לפי שימוש, וניתן להתאים את השירותים לצרכים המשתנים. * **תקציב**: אין צורך בהשקעות ראשוניות ברכישת חומרה ותוכנה, הקמת מרכזי נתונים מקומיים ותפעולם. משלמים רק על מה שמשתמשים. * **יכולת הרחבה**: המשאבים יכולים להתרחב או להצטמצם בהתאם לצרכי הפרויקט, כך שהיישומים יכולים להשתמש ביותר או פחות כוח מחשוב, אחסון ורוחב פס. * **פרודוקטיביות**: ניתן להתמקד בעסק במקום לבזבז זמן על משימות שניתן לנהל על ידי אחרים, כמו ניהול מרכזי נתונים. * **אמינות**: מחשוב ענן מציע דרכים רבות לגיבוי מתמשך של הנתונים, וניתן להגדיר תוכניות התאוששות מאסון. * **אבטחה**: ניתן ליהנות ממדיניות, טכנולוגיות ובקרות שמחזקות את אבטחת הפרויקט. אלו הן חלק מהסיבות הנפוצות ביותר לשימוש בשירותי ענן. כעת, לאחר שהבנו מהו הענן ומהם היתרונות המרכזיים שלו, נבחן כיצד הענן יכול לעזור למדעני נתונים ולמפתחים להתמודד עם אתגרים שונים: * **אחסון כמויות גדולות של נתונים**: במקום לרכוש, לנהל ולהגן על שרתים גדולים, ניתן לאחסן נתונים ישירות בענן עם פתרונות כמו Azure Cosmos DB, Azure SQL Database ו-Azure Data Lake Storage. * **ביצוע אינטגרציה של נתונים**: אינטגרציה של נתונים היא חלק חיוני במדעי הנתונים, המאפשרת מעבר מאיסוף נתונים לפעולה. שירותי אינטגרציה בענן מאפשרים לאסוף, לעבד ולשלב נתונים ממקורות שונים למחסן נתונים אחד, באמצעות Data Factory. * **עיבוד נתונים**: עיבוד כמויות גדולות של נתונים דורש כוח מחשוב רב, שלא תמיד זמין לכולם. לכן, רבים בוחרים להשתמש בכוח המחשוב העצום של הענן. * **שימוש בשירותי אנליטיקה**: שירותי ענן כמו Azure Synapse Analytics, Azure Stream Analytics ו-Azure Databricks עוזרים להפוך נתונים לתובנות מעשיות. * **שימוש בשירותי למידת מכונה ובינה מלאכותית**: במקום להתחיל מאפס, ניתן להשתמש באלגוריתמים של למידת מכונה שמציע ספק הענן, כמו AzureML. בנוסף, ניתן להשתמש בשירותים קוגניטיביים כמו זיהוי דיבור, המרה מטקסט לדיבור, ראייה ממוחשבת ועוד. ## דוגמאות למדעי הנתונים בענן בואו נהפוך את זה למוחשי יותר עם כמה תרחישים. ### ניתוח בזמן אמת של רגשות במדיה חברתית נתחיל בתרחיש נפוץ בלמידת מכונה: ניתוח רגשות במדיה חברתית בזמן אמת. נניח שאתם מנהלים אתר חדשות ורוצים להשתמש בנתונים חיים כדי להבין מה מעניין את הקוראים שלכם. ניתן לבנות תוכנית שמבצעת ניתוח רגשות בזמן אמת של פרסומים בטוויטר בנושאים רלוונטיים. המדדים המרכזיים שתבדקו הם כמות הציוצים על נושאים מסוימים (האשטגים) ורגשות, שנקבעים באמצעות כלים אנליטיים. השלבים ליצירת הפרויקט הם: * יצירת Event Hub לאיסוף נתונים מטוויטר * הגדרת והפעלת אפליקציית לקוח לטוויטר, שתשתמש ב-Streaming APIs של טוויטר * יצירת משימת Stream Analytics * הגדרת קלט ושאילתה למשימה * יצירת יעד פלט והגדרת הפלט של המשימה * הפעלת המשימה לצפייה בתהליך המלא, עיינו ב-[תיעוד](https://docs.microsoft.com/azure/stream-analytics/stream-analytics-twitter-sentiment-analysis-trends?WT.mc_id=academic-77958-bethanycheum&ocid=AID30411099). ### ניתוח מאמרים מדעיים דוגמה נוספת היא פרויקט שיצר [דמיטרי סושניקוב](http://soshnikov.com), אחד ממחברי הקורס. דמיטרי יצר כלי לניתוח מאמרים על COVID. בפרויקט זה ניתן לראות כיצד ליצור כלי שמפיק תובנות ממאמרים מדעיים ועוזר לחוקרים לנווט באוספים גדולים של מאמרים. השלבים בפרויקט כוללים: * חילוץ ועיבוד מידע עם [Text Analytics for Health](https://docs.microsoft.com/azure/cognitive-services/text-analytics/how-tos/text-analytics-for-health?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) * שימוש ב-[Azure ML](https://azure.microsoft.com/services/machine-learning?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) לעיבוד מקבילי * אחסון ושאילתות מידע עם [Cosmos DB](https://azure.microsoft.com/services/cosmos-db?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) * יצירת לוח מחוונים אינטראקטיבי לחקר ויזואליזציה של נתונים באמצעות Power BI לצפייה בתהליך המלא, בקרו ב-[בלוג של דמיטרי](https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/). כפי שניתן לראות, ניתן להשתמש בשירותי ענן בדרכים רבות לביצוע מדעי נתונים. ## הערת שוליים מקורות: * https://azure.microsoft.com/overview/what-is-cloud-computing?ocid=AID3041109 * https://docs.microsoft.com/azure/stream-analytics/stream-analytics-twitter-sentiment-analysis-trends?ocid=AID3041109 * https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/ ## שאלון לאחר ההרצאה ## [שאלון לאחר ההרצאה](https://ff-quizzes.netlify.app/en/ds/quiz/33) ## משימה [מחקר שוק](assignment.md) --- **כתב ויתור**: מסמך זה תורגם באמצעות שירות תרגום מבוסס בינה מלאכותית [Co-op Translator](https://github.com/Azure/co-op-translator). למרות שאנו שואפים לדיוק, יש לקחת בחשבון שתרגומים אוטומטיים עשויים להכיל שגיאות או אי-דיוקים. המסמך המקורי בשפתו המקורית נחשב למקור הסמכותי. למידע קריטי, מומלץ להשתמש בתרגום מקצועי על ידי בני אדם. איננו נושאים באחריות לכל אי-הבנה או פרשנות שגויה הנובעת משימוש בתרגום זה.