22 KiB
מדע הנתונים בעולם האמיתי
![]() |
---|
מדע הנתונים בעולם האמיתי - איור מאת @nitya |
אנחנו כמעט בסוף המסע הלימודי הזה!
התחלנו עם הגדרות של מדע הנתונים ואתיקה, חקרנו כלים וטכניקות שונות לניתוח ויזואליזציה של נתונים, סקרנו את מחזור החיים של מדע הנתונים, ובחנו כיצד להרחיב ולייעל תהליכי עבודה במדע הנתונים באמצעות שירותי מחשוב ענן. אז אתם בטח שואלים את עצמכם: "איך בדיוק אני מחבר את כל מה שלמדתי להקשרים בעולם האמיתי?"
בשיעור הזה, נחקור יישומים של מדע הנתונים בתעשייה ונצלול לדוגמאות ספציפיות בתחומי המחקר, מדעי הרוח הדיגיטליים וקיימות. נבחן הזדמנויות לפרויקטים לסטודנטים ונסיים עם משאבים שימושיים שיעזרו לכם להמשיך את מסע הלמידה שלכם!
חידון לפני השיעור
מדע הנתונים + תעשייה
בזכות הדמוקרטיזציה של הבינה המלאכותית, מפתחים מוצאים כיום שקל יותר לעצב ולשלב תובנות מבוססות נתונים והחלטות מונעות בינה מלאכותית בחוויות משתמש ותהליכי פיתוח. הנה כמה דוגמאות ליישומים של מדע הנתונים בעולם האמיתי בתעשייה:
-
Google Flu Trends השתמש במדע הנתונים כדי לקשר בין מונחי חיפוש למגמות שפעת. למרות שהגישה הייתה פגומה, היא העלתה את המודעות לאפשרויות (ולאתגרים) של תחזיות בריאות מבוססות נתונים.
-
תחזיות מסלולים של UPS - מסביר כיצד UPS משתמשת במדע הנתונים ולמידת מכונה כדי לחזות מסלולים אופטימליים למשלוחים, תוך התחשבות בתנאי מזג האוויר, דפוסי תנועה, מועדי אספקה ועוד.
-
ויזואליזציה של מסלולי מוניות בניו יורק - נתונים שנאספו באמצעות חוקי חופש המידע עזרו להמחיש יום בחיי המוניות בניו יורק, ולעזור לנו להבין כיצד הן מנווטות בעיר העמוסה, כמה כסף הן מרוויחות, ומה משך הנסיעות בכל פרק זמן של 24 שעות.
-
Uber Data Science Workbench - משתמש בנתונים (על מיקומי איסוף והורדה, משך נסיעות, מסלולים מועדפים וכו') שנאספים ממיליוני נסיעות יומיות של אובר כדי לבנות כלי ניתוח נתונים המסייע בקביעת מחירים, בטיחות, זיהוי הונאות והחלטות ניווט.
-
אנליטיקה בספורט - מתמקדת ב_אנליטיקה חזויה_ (ניתוח קבוצות ושחקנים - כמו Moneyball - וניהול אוהדים) וב_ויזואליזציה של נתונים_ (לוחות מחוונים לקבוצות ואוהדים, משחקים וכו') עם יישומים כמו גיוס כישרונות, הימורים בספורט וניהול מלאי/אצטדיונים.
-
מדע הנתונים בבנקאות - מדגיש את הערך של מדע הנתונים בתעשיית הפיננסים עם יישומים הנעים ממודלים של סיכונים וזיהוי הונאות, ועד פילוח לקוחות, תחזיות בזמן אמת ומערכות המלצה. אנליטיקה חזויה גם מניעה מדדים קריטיים כמו ציוני אשראי.
-
מדע הנתונים בבריאות - מדגיש יישומים כמו הדמיה רפואית (למשל, MRI, רנטגן, CT-Scan), גנומיקה (ריצוף DNA), פיתוח תרופות (הערכת סיכונים, תחזית הצלחה), אנליטיקה חזויה (טיפול בחולים ולוגיסטיקת אספקה), מעקב ומניעת מחלות ועוד.
קרדיט לתמונה: Data Flair: 6 Amazing Data Science Applications
התרשים מציג תחומים ודוגמאות נוספים ליישום טכניקות מדע הנתונים. רוצים לחקור יישומים נוספים? עיינו בסעיף סקירה ולימוד עצמי למטה.
מדע הנתונים + מחקר
![]() |
---|
מדע הנתונים ומחקר - איור מאת @nitya |
בעוד שיישומים בעולם האמיתי מתמקדים לעיתים קרובות במקרי שימוש בתעשייה בקנה מידה רחב, יישומים ופרויקטים בתחום המחקר יכולים להיות שימושיים משתי פרספקטיבות:
- הזדמנויות לחדשנות - חקר פיתוח מהיר של רעיונות מתקדמים ובדיקת חוויות משתמש ליישומים של הדור הבא.
- אתגרי פריסה - חקירת נזקים פוטנציאליים או השלכות בלתי צפויות של טכנולוגיות מדע הנתונים בהקשרים בעולם האמיתי.
עבור סטודנטים, פרויקטי מחקר אלו יכולים לספק הזדמנויות ללמידה ושיתוף פעולה, לשפר את ההבנה שלכם בנושא ולהרחיב את המודעות והמעורבות שלכם עם אנשים או צוותים רלוונטיים שעובדים בתחומי עניין. אז איך נראים פרויקטי מחקר וכיצד הם יכולים להשפיע?
בואו נבחן דוגמה אחת - מחקר Gender Shades של MIT מאת ג'וי בואולמיני (MIT Media Labs) עם מאמר מחקר מרכזי שנכתב בשיתוף עם טימניט גברו (אז במיקרוסופט מחקר) שהתמקד ב:
- מה: מטרת פרויקט המחקר הייתה להעריך הטיה קיימת באלגוריתמים ובמאגרי נתונים לניתוח פנים אוטומטי בהתבסס על מגדר וגוון עור.
- למה: ניתוח פנים משמש בתחומים כמו אכיפת חוק, אבטחת שדות תעופה, מערכות גיוס ועוד - הקשרים שבהם סיווגים שגויים (למשל, עקב הטיה) יכולים לגרום לנזקים כלכליים וחברתיים פוטנציאליים לפרטים או קבוצות מושפעות. הבנת ההטיות (והסרתן או הפחתתן) היא מפתח להוגנות בשימוש.
- איך: החוקרים זיהו שמדדים קיימים השתמשו בעיקר בנבדקים בעלי עור בהיר, ואספו מאגר נתונים חדש (1000+ תמונות) שהיה מאוזן יותר לפי מגדר וגוון עור. מאגר הנתונים שימש להערכת הדיוק של שלושה מוצרים לסיווג מגדר (ממיקרוסופט, IBM ו-Face++).
התוצאות הראו שלמרות שהדיוק הכולל היה טוב, הייתה הבחנה ברורה בשיעורי השגיאות בין תתי קבוצות שונות - עם שגיאות זיהוי מגדר גבוהות יותר לנשים או אנשים בעלי גוון עור כהה יותר, מה שמעיד על הטיה.
תוצאות מרכזיות: המחקר העלה את המודעות לכך שמדע הנתונים זקוק ל_מאגרי נתונים מייצגים_ יותר (תתי קבוצות מאוזנות) ול_צוותים מגוונים_ יותר (רקע מגוון) כדי לזהות ולהסיר או להפחית הטיות כאלו מוקדם יותר בפתרונות AI. מאמצי מחקר כמו זה גם תורמים להגדרת עקרונות ופרקטיקות ל_בינה מלאכותית אחראית_ בארגונים רבים, לשיפור ההוגנות במוצרים ותהליכים מבוססי AI.
רוצים ללמוד על מאמצי מחקר רלוונטיים במיקרוסופט?
- עיינו בפרויקטי מחקר של מיקרוסופט בתחום הבינה המלאכותית.
- חקרו פרויקטים של סטודנטים מבית הספר לקיץ במדע הנתונים של מיקרוסופט.
- עיינו בפרויקט Fairlearn וביוזמות בינה מלאכותית אחראית.
מדע הנתונים + מדעי הרוח
![]() |
---|
מדע הנתונים ומדעי הרוח הדיגיטליים - איור מאת @nitya |
מדעי הרוח הדיגיטליים הוגדרו כ"אוסף של פרקטיקות וגישות המשלבות שיטות חישוביות עם חקירה הומניסטית". פרויקטים של סטנפורד כמו "היסטוריה מחדש" ו_"חשיבה פואטית"_ מדגימים את הקשר בין מדעי הרוח הדיגיטליים ומדע הנתונים - תוך הדגשת טכניקות כמו ניתוח רשתות, ויזואליזציה של מידע, ניתוח מרחבי וטקסטואלי שיכולים לעזור לנו לבחון מחדש מאגרי נתונים היסטוריים וספרותיים כדי להפיק תובנות חדשות ופרספקטיבות.
רוצים לחקור ולהרחיב פרויקט בתחום הזה?
עיינו ב"אמילי דיקינסון ומטר המצב רוח" - דוגמה נהדרת מג'ן לופר ששואלת כיצד נוכל להשתמש במדע הנתונים כדי לבחון מחדש שירה מוכרת ולהעריך מחדש את משמעותה ואת תרומתה של המחברת בהקשרים חדשים. למשל, האם נוכל לחזות את העונה שבה נכתבה שירה על ידי ניתוח הטון או הרגש שלה - ומה זה אומר על מצב הרוח של המחברת בתקופה הרלוונטית?
כדי לענות על השאלה הזו, אנו עוקבים אחר שלבי מחזור החיים של מדע הנתונים:
רכישת נתונים
- לאסוף מאגר נתונים רלוונטי לניתוח. אפשרויות כוללות שימוש ב-API (למשל, Poetry DB API) או גרידת דפי אינטרנט (למשל, פרויקט גוטנברג) באמצעות כלים כמו Scrapy.ניקוי נתונים
- מסביר כיצד ניתן לעצב, לנקות ולפשט טקסט באמצעות כלים בסיסיים כמו Visual Studio Code ו-Microsoft Excel.ניתוח נתונים
- מסביר כיצד ניתן לייבא את מאגר הנתונים ל"מחברות" לניתוח באמצעות חבילות Python (כמו pandas, numpy ו-matplotlib) לארגון וויזואליזציה של הנתונים.ניתוח רגשות
- מסביר כיצד ניתן לשלב שירותי ענן כמו Text Analytics, באמצעות כלים ללא קוד כמו Power Automate לתהליכי עיבוד נתונים אוטומטיים.
באמצעות תהליך זה, נוכל לחקור את ההשפעות העונתיות על הרגש בשירים, ולעזור לנו לעצב פרספקטיבות משלנו על המחברת. נסו זאת בעצמכם - ואז הרחיבו את המחברת כדי לשאול שאלות נוספות או להמחיש את הנתונים בדרכים חדשות!
תוכלו להשתמש בכמה מהכלים בערכת הכלים של מדעי הרוח הדיגיטליים כדי להמשיך לחקור כיוונים אלו.
מדע הנתונים + קיימות
![]() |
---|
מדע הנתונים וקיימות - איור מאת @nitya |
אג'נדה 2030 לפיתוח בר קיימא - שאומצה על ידי כל המדינות החברות באו"ם בשנת 2015 - מזהה 17 יעדים, כולל כאלו שמתמקדים בהגנה על כדור הארץ מפני התדרדרות והשפעות שינויי האקלים. יוזמת Microsoft Sustainability תומכת ביעדים אלו על ידי חקר דרכים שבהן פתרונות טכנולוגיים יכולים לתמוך ולבנות עתיד בר קיימא יותר עם מיקוד ב-4 יעדים - להיות שליליים בפחמן, חיוביים במים, ללא פסולת, וביודיוורסיים עד 2030.
התמודדות עם אתגרים אלו בקנה מידה רחב ובזמן דורשת חשיבה בקנה מידה ענני - ונתונים בקנה מידה גדול. יוזמת המחשב הפלנטרי מספקת 4 רכיבים שיעזרו למדעני נתונים ומפתחים במאמץ זה:
-
קטלוג נתונים - עם פטה-בייטים של נתוני מערכות כדור הארץ (חינמיים ומאוחסנים ב-Azure).
-
Planetary API - כדי לעזור למשתמשים לחפש נתונים רלוונטיים במרחב ובזמן.
-
Hub - סביבה מנוהלת למדענים לעיבוד מאגרי נתונים גיאו-מרחביים עצומים.
-
יישומים - מציגים מקרי שימוש וכלים לתובנות קיימות. פרויקט המחשב הפלנטרי נמצא כרגע בתצוגה מקדימה (נכון לספטמבר 2021) - כך תוכלו להתחיל לתרום לפתרונות קיימות באמצעות מדע הנתונים.
-
בקשו גישה כדי להתחיל לחקור ולהתחבר לעמיתים.
-
חקור את התיעוד כדי להבין אילו מערכי נתונים ו-APIs נתמכים.
-
חקור יישומים כמו ניטור מערכות אקולוגיות לקבלת השראה לרעיונות ליישומים.
חשבו כיצד תוכלו להשתמש בהדמיית נתונים כדי לחשוף או להעצים תובנות רלוונטיות בתחומים כמו שינויי אקלים וכריתת יערות. או חשבו כיצד ניתן להשתמש בתובנות כדי ליצור חוויות משתמש חדשות שמניעות שינויים התנהגותיים לחיים ברי קיימא יותר.
מדע הנתונים + סטודנטים
דיברנו על יישומים בעולם האמיתי בתעשייה ובמחקר, וחקרנו דוגמאות ליישומי מדע הנתונים במדעי הרוח הדיגיטליים ובקיימות. אז איך תוכלו לפתח את הכישורים שלכם ולשתף את המומחיות שלכם כמתחילים במדע הנתונים?
הנה כמה דוגמאות לפרויקטים של סטודנטים במדע הנתונים שיכולים להוות השראה עבורכם.
- בית הספר לקיץ במדע הנתונים של MSR עם פרויקטים ב-GitHub שחוקרים נושאים כמו:
- דיגיטציה של תרבות חומרית: חקר התפלגויות סוציו-אקונומיות בסירקאפ - מאת אורנלה אלטוניאן והצוות שלה בקלרמונט, תוך שימוש ב-ArcGIS StoryMaps.
🚀 אתגר
חפשו מאמרים שממליצים על פרויקטים במדע הנתונים שמתאימים למתחילים - כמו 50 תחומי הנושא האלו או 21 רעיונות לפרויקטים או 16 פרויקטים עם קוד מקור שתוכלו לפרק ולהרכיב מחדש. ואל תשכחו לכתוב בלוג על מסעות הלמידה שלכם ולשתף את התובנות שלכם איתנו.
חידון לאחר ההרצאה
סקירה ולימוד עצמי
רוצים לחקור עוד מקרי שימוש? הנה כמה מאמרים רלוונטיים:
- 17 יישומים ודוגמאות של מדע הנתונים - יולי 2021
- 11 יישומים עוצרי נשימה של מדע הנתונים בעולם האמיתי - מאי 2021
- מדע הנתונים בעולם האמיתי - אוסף מאמרים
- מדע הנתונים ב: חינוך, חקלאות, פיננסים, סרטים ועוד.
משימה
חקור מערך נתונים של המחשב הפלנטרי
כתב ויתור:
מסמך זה תורגם באמצעות שירות תרגום מבוסס בינה מלאכותית Co-op Translator. בעוד שאנו שואפים לדיוק, יש להיות מודעים לכך שתרגומים אוטומטיים עשויים להכיל שגיאות או אי-דיוקים. המסמך המקורי בשפתו המקורית צריך להיחשב כמקור הסמכותי. למידע קריטי, מומלץ להשתמש בתרגום מקצועי על ידי בני אדם. איננו נושאים באחריות לכל אי-הבנה או פרשנות שגויה הנובעת משימוש בתרגום זה.