You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/he/5-Data-Science-In-Cloud/17-Introduction/README.md

11 KiB

מבוא למדעי הנתונים בענן

 סקצ'נוט מאת (@sketchthedocs)
מדעי הנתונים בענן: מבוא - סקצ'נוט מאת @nitya

בשיעור זה תלמדו את העקרונות הבסיסיים של הענן, תבינו מדוע כדאי להשתמש בשירותי ענן לפרויקטים של מדעי הנתונים, ונבחן כמה דוגמאות לפרויקטים של מדעי הנתונים שמתבצעים בענן.

שאלון לפני ההרצאה

מהו הענן?

הענן, או מחשוב ענן, הוא אספקת מגוון רחב של שירותי מחשוב בתשלום לפי שימוש, המתארחים על תשתית דרך האינטרנט. השירותים כוללים פתרונות כמו אחסון, מסדי נתונים, רשתות, תוכנה, אנליטיקה ושירותים חכמים.

נהוג להבחין בין ענן ציבורי, ענן פרטי וענן היברידי באופן הבא:

  • ענן ציבורי: ענן ציבורי הוא בבעלות ומופעל על ידי ספק שירותי ענן צד שלישי, המספק את משאבי המחשוב שלו דרך האינטרנט לציבור הרחב.
  • ענן פרטי: מתייחס למשאבי מחשוב ענן המשמשים באופן בלעדי עסק או ארגון יחיד, עם שירותים ותשתית המתוחזקים ברשת פרטית.
  • ענן היברידי: מערכת המשלבת בין עננים ציבוריים ופרטיים. משתמשים בוחרים מרכז נתונים מקומי, תוך אפשרות להריץ נתונים ויישומים על עננים ציבוריים.

רוב שירותי מחשוב הענן מתחלקים לשלוש קטגוריות: תשתית כשירות (IaaS), פלטפורמה כשירות (PaaS) ותוכנה כשירות (SaaS).

  • תשתית כשירות (IaaS): משתמשים שוכרים תשתית IT כמו שרתים, מכונות וירטואליות (VMs), אחסון, רשתות ומערכות הפעלה.
  • פלטפורמה כשירות (PaaS): משתמשים שוכרים סביבה לפיתוח, בדיקה, אספקה וניהול של יישומי תוכנה. אין צורך לדאוג להקמת או ניהול התשתית הבסיסית.
  • תוכנה כשירות (SaaS): משתמשים מקבלים גישה ליישומי תוכנה דרך האינטרנט, לפי דרישה ובדרך כלל במנוי. אין צורך לדאוג לאירוח, ניהול או תחזוקת היישום.

חלק מספקי הענן הגדולים ביותר הם Amazon Web Services, Google Cloud Platform ו-Microsoft Azure.

למה לבחור בענן עבור מדעי הנתונים?

מפתחים ואנשי IT בוחרים לעבוד עם הענן ממספר סיבות, כולל:

  • חדשנות: ניתן לשלב שירותים חדשניים שפותחו על ידי ספקי הענן ישירות ביישומים שלכם.
  • גמישות: משלמים רק על השירותים הנדרשים וניתן לבחור מתוך מגוון רחב של שירותים. התשלום הוא לפי שימוש, וניתן להתאים את השירותים לצרכים המשתנים.
  • תקציב: אין צורך בהשקעות ראשוניות ברכישת חומרה ותוכנה, הקמת מרכזי נתונים מקומיים ותפעולם. משלמים רק על מה שמשתמשים.
  • יכולת הרחבה: המשאבים יכולים להתרחב או להצטמצם בהתאם לצרכי הפרויקט, כך שהיישומים יכולים להשתמש ביותר או פחות כוח מחשוב, אחסון ורוחב פס בהתאם לצרכים.
  • פרודוקטיביות: ניתן להתמקד בעסק במקום לבזבז זמן על משימות שניתן לנהל על ידי אחרים, כמו ניהול מרכזי נתונים.
  • אמינות: מחשוב ענן מציע דרכים רבות לגיבוי מתמשך של הנתונים, וניתן להגדיר תוכניות התאוששות מאסון כדי לשמור על פעילות העסק והשירותים גם בזמני משבר.
  • אבטחה: ניתן ליהנות ממדיניות, טכנולוגיות ובקרות שמחזקות את אבטחת הפרויקט.

אלו הן חלק מהסיבות הנפוצות ביותר לבחירה בשירותי ענן. כעת, לאחר שהבנו מהו הענן ומהם היתרונות המרכזיים שלו, נבחן באופן ספציפי יותר את עבודתם של מדעני נתונים ומפתחים העובדים עם נתונים, וכיצד הענן יכול לעזור להם להתמודד עם אתגרים שונים:

  • אחסון כמויות גדולות של נתונים: במקום לרכוש, לנהל ולהגן על שרתים גדולים, ניתן לאחסן את הנתונים ישירות בענן, עם פתרונות כמו Azure Cosmos DB, Azure SQL Database ו-Azure Data Lake Storage.
  • ביצוע אינטגרציה של נתונים: אינטגרציה של נתונים היא חלק חיוני במדעי הנתונים, שמאפשר מעבר מאיסוף נתונים לפעולה. עם שירותי אינטגרציה בענן, ניתן לאסוף, לעבד ולשלב נתונים ממקורות שונים למחסן נתונים אחד, באמצעות Data Factory.
  • עיבוד נתונים: עיבוד כמויות גדולות של נתונים דורש כוח מחשוב רב, ולא לכולם יש גישה למכונות חזקות מספיק. לכן, רבים בוחרים להשתמש ישירות בכוח המחשוב העצום של הענן כדי להריץ ולפרוס את הפתרונות שלהם.
  • שימוש בשירותי אנליטיקה: שירותי ענן כמו Azure Synapse Analytics, Azure Stream Analytics ו-Azure Databricks עוזרים להפוך נתונים לתובנות שניתן לפעול לפיהן.
  • שימוש בשירותי למידת מכונה ובינה מלאכותית: במקום להתחיל מאפס, ניתן להשתמש באלגוריתמים של למידת מכונה שמציע ספק הענן, עם שירותים כמו AzureML. בנוסף, ניתן להשתמש בשירותים קוגניטיביים כמו זיהוי דיבור, המרת טקסט לדיבור, ראייה ממוחשבת ועוד.

דוגמאות למדעי הנתונים בענן

בואו נהפוך את זה למוחשי יותר על ידי בחינת כמה תרחישים.

ניתוח בזמן אמת של תחושות במדיה חברתית

נתחיל בתרחיש נפוץ בקרב מתחילים בלמידת מכונה: ניתוח תחושות במדיה חברתית בזמן אמת.

נניח שאתם מנהלים אתר חדשות ורוצים לנצל נתונים חיים כדי להבין איזה תוכן עשוי לעניין את הקוראים שלכם. כדי לדעת זאת, ניתן לבנות תוכנית שמבצעת ניתוח תחושות בזמן אמת של נתונים מפרסומים בטוויטר, בנושאים הרלוונטיים לקוראים שלכם.

המדדים המרכזיים שתבדקו הם נפח הציוצים בנושאים מסוימים (האשטגים) ותחושות, שנקבעות באמצעות כלים אנליטיים שמבצעים ניתוח תחושות סביב הנושאים שצוינו.

השלבים הנדרשים ליצירת פרויקט זה הם:

  • יצירת Event Hub לאיסוף נתונים מטוויטר
  • הגדרת והפעלת אפליקציית לקוח לטוויטר, שתשתמש ב-Streaming APIs של טוויטר
  • יצירת משימת Stream Analytics
  • הגדרת קלט ושאילתה למשימה
  • יצירת יעד פלט והגדרת הפלט של המשימה
  • הפעלת המשימה

לצפייה בתהליך המלא, עיינו ב-תיעוד.

ניתוח מאמרים מדעיים

ניקח דוגמה נוספת לפרויקט שיצר דמיטרי סושניקוב, אחד ממחברי הקורס הזה.

דמיטרי יצר כלי שמנתח מאמרים על COVID. על ידי סקירת פרויקט זה, תוכלו לראות כיצד ליצור כלי שמפיק ידע ממאמרים מדעיים, מספק תובנות ועוזר לחוקרים לנווט באוספים גדולים של מאמרים בצורה יעילה.

השלבים השונים בפרויקט זה כוללים:

  • חילוץ ועיבוד מידע עם Text Analytics for Health
  • שימוש ב-Azure ML לעיבוד מקבילי
  • אחסון ושאילת מידע עם Cosmos DB
  • יצירת לוח מחוונים אינטראקטיבי לחקר ויזואליזציה של נתונים באמצעות Power BI

לצפייה בתהליך המלא, בקרו ב-הבלוג של דמיטרי.

כפי שניתן לראות, ניתן לנצל שירותי ענן בדרכים רבות לביצוע מדעי נתונים.

הערת שוליים

מקורות:

שאלון לאחר ההרצאה

שאלון לאחר ההרצאה

משימה

מחקר שוק


כתב ויתור:
מסמך זה תורגם באמצעות שירות תרגום מבוסס בינה מלאכותית Co-op Translator. למרות שאנו שואפים לדיוק, יש לקחת בחשבון שתרגומים אוטומטיים עשויים להכיל שגיאות או אי-דיוקים. המסמך המקורי בשפתו המקורית נחשב למקור הסמכותי. למידע קריטי, מומלץ להשתמש בתרגום מקצועי על ידי בני אדם. איננו נושאים באחריות לכל אי-הבנה או פרשנות שגויה הנובעת משימוש בתרגום זה.