|
|
<!--
|
|
|
CO_OP_TRANSLATOR_METADATA:
|
|
|
{
|
|
|
"original_hash": "5f8e7cdefa096664ae86f795be571580",
|
|
|
"translation_date": "2025-09-05T23:10:58+00:00",
|
|
|
"source_file": "5-Data-Science-In-Cloud/17-Introduction/README.md",
|
|
|
"language_code": "he"
|
|
|
}
|
|
|
-->
|
|
|
# מבוא למדעי הנתונים בענן
|
|
|
|
|
|
| ](../../sketchnotes/17-DataScience-Cloud.png)|
|
|
|
|:---:|
|
|
|
| מדעי הנתונים בענן: מבוא - _סקצ'נוט מאת [@nitya](https://twitter.com/nitya)_ |
|
|
|
|
|
|
בשיעור זה תלמדו את העקרונות הבסיסיים של הענן, תבינו מדוע כדאי להשתמש בשירותי ענן לפרויקטים של מדעי הנתונים, ונבחן כמה דוגמאות לפרויקטים של מדעי הנתונים שמתבצעים בענן.
|
|
|
|
|
|
## [שאלון לפני ההרצאה](https://ff-quizzes.netlify.app/en/ds/quiz/32)
|
|
|
|
|
|
## מהו הענן?
|
|
|
|
|
|
הענן, או מחשוב ענן, הוא אספקת מגוון רחב של שירותי מחשוב בתשלום לפי שימוש, המתארחים על תשתית דרך האינטרנט. השירותים כוללים פתרונות כמו אחסון, מסדי נתונים, רשתות, תוכנה, אנליטיקה ושירותים חכמים.
|
|
|
|
|
|
נהוג להבחין בין ענן ציבורי, ענן פרטי וענן היברידי באופן הבא:
|
|
|
|
|
|
* **ענן ציבורי**: ענן ציבורי הוא בבעלות ומופעל על ידי ספק שירותי ענן צד שלישי, המספק את משאביו דרך האינטרנט לציבור הרחב.
|
|
|
* **ענן פרטי**: מתייחס למשאבי מחשוב ענן המשמשים באופן בלעדי עסק או ארגון יחיד, עם שירותים ותשתית המתוחזקים ברשת פרטית.
|
|
|
* **ענן היברידי**: מערכת המשלבת עננים ציבוריים ופרטיים. משתמשים בוחרים מרכז נתונים מקומי, תוך אפשרות להריץ נתונים ויישומים בעננים ציבוריים.
|
|
|
|
|
|
רוב שירותי מחשוב הענן מתחלקים לשלוש קטגוריות: תשתית כשירות (IaaS), פלטפורמה כשירות (PaaS) ותוכנה כשירות (SaaS).
|
|
|
|
|
|
* **תשתית כשירות (IaaS)**: משתמשים שוכרים תשתית IT כמו שרתים, מכונות וירטואליות (VMs), אחסון, רשתות ומערכות הפעלה.
|
|
|
* **פלטפורמה כשירות (PaaS)**: משתמשים שוכרים סביבה לפיתוח, בדיקה, אספקה וניהול של יישומי תוכנה, מבלי לדאוג לתשתית הבסיסית.
|
|
|
* **תוכנה כשירות (SaaS)**: משתמשים מקבלים גישה ליישומי תוכנה דרך האינטרנט, לפי דרישה ובדרך כלל במנוי, מבלי לדאוג לאירוח, ניהול או תחזוקה.
|
|
|
|
|
|
חלק מספקי הענן הגדולים ביותר הם Amazon Web Services, Google Cloud Platform ו-Microsoft Azure.
|
|
|
|
|
|
## מדוע לבחור בענן עבור מדעי הנתונים?
|
|
|
|
|
|
מפתחים ואנשי IT בוחרים לעבוד עם הענן ממספר סיבות, כולל:
|
|
|
|
|
|
* **חדשנות**: ניתן לשלב שירותים חדשניים של ספקי ענן ישירות ביישומים שלכם.
|
|
|
* **גמישות**: משלמים רק על השירותים הנדרשים וניתן לבחור מתוך מגוון רחב של שירותים. התשלום הוא לפי שימוש, וניתן להתאים את השירותים לצרכים המשתנים.
|
|
|
* **תקציב**: אין צורך בהשקעות ראשוניות ברכישת חומרה ותוכנה, הקמת מרכזי נתונים מקומיים ותפעולם. משלמים רק על מה שמשתמשים.
|
|
|
* **יכולת הרחבה**: המשאבים יכולים להתרחב או להצטמצם בהתאם לצרכי הפרויקט, כך שהיישומים יכולים להשתמש ביותר או פחות כוח מחשוב, אחסון ורוחב פס.
|
|
|
* **פרודוקטיביות**: ניתן להתמקד בעסק במקום לבזבז זמן על משימות שניתן לנהל על ידי אחרים, כמו ניהול מרכזי נתונים.
|
|
|
* **אמינות**: מחשוב ענן מציע דרכים רבות לגיבוי מתמשך של הנתונים, וניתן להגדיר תוכניות התאוששות מאסון.
|
|
|
* **אבטחה**: ניתן ליהנות ממדיניות, טכנולוגיות ובקרות שמחזקות את אבטחת הפרויקט.
|
|
|
|
|
|
אלו הן חלק מהסיבות הנפוצות ביותר לשימוש בשירותי ענן. כעת, לאחר שהבנו מהו הענן ומהם היתרונות המרכזיים שלו, נבחן כיצד הענן יכול לעזור למדעני נתונים ולמפתחים להתמודד עם אתגרים שונים:
|
|
|
|
|
|
* **אחסון כמויות גדולות של נתונים**: במקום לרכוש, לנהל ולהגן על שרתים גדולים, ניתן לאחסן נתונים ישירות בענן עם פתרונות כמו Azure Cosmos DB, Azure SQL Database ו-Azure Data Lake Storage.
|
|
|
* **ביצוע אינטגרציה של נתונים**: אינטגרציה של נתונים היא חלק חיוני במדעי הנתונים, המאפשרת מעבר מאיסוף נתונים לפעולה. שירותי אינטגרציה בענן מאפשרים לאסוף, לעבד ולשלב נתונים ממקורות שונים למחסן נתונים אחד, באמצעות Data Factory.
|
|
|
* **עיבוד נתונים**: עיבוד כמויות גדולות של נתונים דורש כוח מחשוב רב, שלא תמיד זמין לכולם. לכן, רבים בוחרים להשתמש בכוח המחשוב העצום של הענן.
|
|
|
* **שימוש בשירותי אנליטיקה**: שירותי ענן כמו Azure Synapse Analytics, Azure Stream Analytics ו-Azure Databricks עוזרים להפוך נתונים לתובנות מעשיות.
|
|
|
* **שימוש בשירותי למידת מכונה ובינה מלאכותית**: במקום להתחיל מאפס, ניתן להשתמש באלגוריתמים של למידת מכונה שמציע ספק הענן, כמו AzureML. בנוסף, ניתן להשתמש בשירותים קוגניטיביים כמו זיהוי דיבור, המרה מטקסט לדיבור, ראייה ממוחשבת ועוד.
|
|
|
|
|
|
## דוגמאות למדעי הנתונים בענן
|
|
|
|
|
|
בואו נהפוך את זה למוחשי יותר עם כמה תרחישים.
|
|
|
|
|
|
### ניתוח בזמן אמת של רגשות במדיה חברתית
|
|
|
נתחיל בתרחיש נפוץ בלמידת מכונה: ניתוח רגשות במדיה חברתית בזמן אמת.
|
|
|
|
|
|
נניח שאתם מנהלים אתר חדשות ורוצים להשתמש בנתונים חיים כדי להבין מה מעניין את הקוראים שלכם. ניתן לבנות תוכנית שמבצעת ניתוח רגשות בזמן אמת של פרסומים בטוויטר בנושאים רלוונטיים.
|
|
|
|
|
|
המדדים המרכזיים שתבדקו הם כמות הציוצים על נושאים מסוימים (האשטגים) ורגשות, שנקבעים באמצעות כלים אנליטיים.
|
|
|
|
|
|
השלבים ליצירת הפרויקט הם:
|
|
|
|
|
|
* יצירת Event Hub לאיסוף נתונים מטוויטר
|
|
|
* הגדרת והפעלת אפליקציית לקוח לטוויטר, שתשתמש ב-Streaming APIs של טוויטר
|
|
|
* יצירת משימת Stream Analytics
|
|
|
* הגדרת קלט ושאילתה למשימה
|
|
|
* יצירת יעד פלט והגדרת הפלט של המשימה
|
|
|
* הפעלת המשימה
|
|
|
|
|
|
לצפייה בתהליך המלא, עיינו ב-[תיעוד](https://docs.microsoft.com/azure/stream-analytics/stream-analytics-twitter-sentiment-analysis-trends?WT.mc_id=academic-77958-bethanycheum&ocid=AID30411099).
|
|
|
|
|
|
### ניתוח מאמרים מדעיים
|
|
|
דוגמה נוספת היא פרויקט שיצר [דמיטרי סושניקוב](http://soshnikov.com), אחד ממחברי הקורס.
|
|
|
|
|
|
דמיטרי יצר כלי לניתוח מאמרים על COVID. בפרויקט זה ניתן לראות כיצד ליצור כלי שמפיק תובנות ממאמרים מדעיים ועוזר לחוקרים לנווט באוספים גדולים של מאמרים.
|
|
|
|
|
|
השלבים בפרויקט כוללים:
|
|
|
|
|
|
* חילוץ ועיבוד מידע עם [Text Analytics for Health](https://docs.microsoft.com/azure/cognitive-services/text-analytics/how-tos/text-analytics-for-health?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109)
|
|
|
* שימוש ב-[Azure ML](https://azure.microsoft.com/services/machine-learning?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109) לעיבוד מקבילי
|
|
|
* אחסון ושאילתות מידע עם [Cosmos DB](https://azure.microsoft.com/services/cosmos-db?WT.mc_id=academic-77958-bethanycheum&ocid=AID3041109)
|
|
|
* יצירת לוח מחוונים אינטראקטיבי לחקר ויזואליזציה של נתונים באמצעות Power BI
|
|
|
|
|
|
לצפייה בתהליך המלא, בקרו ב-[בלוג של דמיטרי](https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/).
|
|
|
|
|
|
כפי שניתן לראות, ניתן להשתמש בשירותי ענן בדרכים רבות לביצוע מדעי נתונים.
|
|
|
|
|
|
## הערת שוליים
|
|
|
|
|
|
מקורות:
|
|
|
* https://azure.microsoft.com/overview/what-is-cloud-computing?ocid=AID3041109
|
|
|
* https://docs.microsoft.com/azure/stream-analytics/stream-analytics-twitter-sentiment-analysis-trends?ocid=AID3041109
|
|
|
* https://soshnikov.com/science/analyzing-medical-papers-with-azure-and-text-analytics-for-health/
|
|
|
|
|
|
## שאלון לאחר ההרצאה
|
|
|
|
|
|
## [שאלון לאחר ההרצאה](https://ff-quizzes.netlify.app/en/ds/quiz/33)
|
|
|
|
|
|
## משימה
|
|
|
|
|
|
[מחקר שוק](assignment.md)
|
|
|
|
|
|
---
|
|
|
|
|
|
**כתב ויתור**:
|
|
|
מסמך זה תורגם באמצעות שירות תרגום מבוסס בינה מלאכותית [Co-op Translator](https://github.com/Azure/co-op-translator). למרות שאנו שואפים לדיוק, יש לקחת בחשבון שתרגומים אוטומטיים עשויים להכיל שגיאות או אי-דיוקים. המסמך המקורי בשפתו המקורית נחשב למקור הסמכותי. למידע קריטי, מומלץ להשתמש בתרגום מקצועי על ידי בני אדם. איננו נושאים באחריות לכל אי-הבנה או פרשנות שגויה הנובעת משימוש בתרגום זה. |