9.6 KiB
סוגי נתונים
כפי שכבר ציינו, נתונים נמצאים בכל מקום. אנחנו רק צריכים לתפוס אותם בצורה הנכונה! חשוב להבחין בין נתונים מובנים לנתונים לא מובנים. נתונים מובנים מיוצגים בדרך כלל בצורה מסודרת, לעיתים כטבלה או מספר טבלאות, בעוד שנתונים לא מובנים הם פשוט אוסף של קבצים. לפעמים ניתן גם לדבר על נתונים חצי-מובנים, שיש להם סוג מסוים של מבנה שיכול להשתנות מאוד.
מובנים | חצי-מובנים | לא מובנים |
---|---|---|
רשימת אנשים עם מספרי הטלפון שלהם | דפי ויקיפדיה עם קישורים | טקסט של אנציקלופדיה בריטניקה |
טמפרטורה בכל חדרי הבניין בכל דקה במשך 20 השנים האחרונות | אוסף מאמרים מדעיים בפורמט JSON עם מחברים, תאריך פרסום ותקציר | שיתוף קבצים עם מסמכים ארגוניים |
נתונים על גיל ומגדר של כל האנשים הנכנסים לבניין | דפי אינטרנט | סרטון גולמי ממצלמת אבטחה |
מאיפה להשיג נתונים
ישנם מקורות רבים לנתונים, ויהיה בלתי אפשרי למנות את כולם! עם זאת, נזכיר כמה מהמקומות הטיפוסיים שבהם ניתן להשיג נתונים:
- מובנים
- האינטרנט של הדברים (IoT), כולל נתונים מחיישנים שונים, כמו חיישני טמפרטורה או לחץ, מספקים הרבה נתונים שימושיים. לדוגמה, אם בניין משרדים מצויד בחיישני IoT, ניתן לשלוט אוטומטית בחימום ובתאורה כדי למזער עלויות.
- סקרים שאנו מבקשים ממשתמשים למלא לאחר רכישה או לאחר ביקור באתר.
- ניתוח התנהגות יכול, למשל, לעזור לנו להבין עד כמה משתמש מעמיק באתר ומה הסיבה הטיפוסית לעזיבתו.
- לא מובנים
- טקסטים יכולים להיות מקור עשיר לתובנות, כמו ציון תחושת כללית, או חילוץ מילות מפתח ומשמעות סמנטית.
- תמונות או וידאו. סרטון ממצלמת אבטחה יכול לשמש להערכת תנועה בכביש ולהודיע לאנשים על פקקי תנועה אפשריים.
- יומני שרת אינטרנט יכולים לשמש להבנת אילו דפים באתר שלנו נצפים הכי הרבה ובמשך כמה זמן.
- חצי-מובנים
- גרפים של רשתות חברתיות יכולים להיות מקורות מצוינים לנתונים על אישיות המשתמשים ועל פוטנציאל ההשפעה שלהם בהפצת מידע.
- כאשר יש לנו אוסף תמונות ממסיבה, ניתן לנסות לחלץ נתוני דינמיקה קבוצתית על ידי בניית גרף של אנשים המצטלמים יחד.
על ידי הכרת מקורות הנתונים השונים, ניתן לחשוב על תרחישים שונים שבהם ניתן ליישם טכניקות מדע נתונים כדי להבין את המצב טוב יותר ולשפר תהליכים עסקיים.
מה אפשר לעשות עם נתונים
במדע הנתונים, אנו מתמקדים בשלבים הבאים במסע הנתונים:
כמובן, בהתאם לנתונים בפועל, חלק מהשלבים עשויים להיות חסרים (למשל, כאשר הנתונים כבר נמצאים בבסיס נתונים, או כאשר אין צורך באימון מודל), או שחלק מהשלבים עשויים לחזור על עצמם מספר פעמים (כמו עיבוד נתונים).
דיגיטציה ושינוי דיגיטלי
בעשור האחרון, עסקים רבים התחילו להבין את החשיבות של נתונים בקבלת החלטות עסקיות. כדי ליישם עקרונות מדע נתונים בניהול עסק, קודם כל יש לאסוף נתונים, כלומר לתרגם תהליכים עסקיים לצורה דיגיטלית. זה נקרא דיגיטציה. יישום טכניקות מדע נתונים על נתונים אלו כדי להנחות החלטות יכול להוביל לשיפורים משמעותיים בפרודוקטיביות (או אפילו לשינוי עסקי), הנקרא שינוי דיגיטלי.
בואו נבחן דוגמה. נניח שיש לנו קורס מדע נתונים (כמו זה) שאנו מעבירים לסטודנטים באופן מקוון, ואנו רוצים להשתמש במדע נתונים כדי לשפר אותו. איך אפשר לעשות זאת?
ניתן להתחיל בשאלה "מה ניתן לדיגיטציה?" הדרך הפשוטה ביותר תהיה למדוד את הזמן שלוקח לכל סטודנט להשלים כל מודול, ולמדוד את הידע שהושג על ידי מתן מבחן רב-ברירה בסוף כל מודול. על ידי חישוב ממוצע זמן ההשלמה בין כל הסטודנטים, ניתן לגלות אילו מודולים גורמים לקשיים הגדולים ביותר לסטודנטים ולעבוד על פישוטם. אתה עשוי לטעון שהגישה הזו אינה אידיאלית, מכיוון שמודולים יכולים להיות באורכים שונים. ייתכן שיותר הוגן לחלק את הזמן לפי אורך המודול (במספר התווים), ולהשוות את הערכים הללו במקום. כאשר אנו מתחילים לנתח תוצאות של מבחנים רב-ברירתיים, אנו יכולים לנסות לקבוע אילו מושגים קשה לתלמידים להבין, ולהשתמש במידע הזה כדי לשפר את התוכן. כדי לעשות זאת, עלינו לעצב מבחנים כך שכל שאלה תתאים למושג מסוים או ליחידת ידע.
אם נרצה להעמיק עוד יותר, נוכל לשרטט את הזמן שנדרש לכל מודול מול קטגוריית הגיל של התלמידים. ייתכן שנגלה שבקטגוריות גיל מסוימות לוקח זמן רב מדי לסיים את המודול, או שהתלמידים נושרים לפני סיומו. זה יכול לעזור לנו להציע המלצות גיל למודול, ולהפחית את אי שביעות הרצון של אנשים מציפיות שגויות.
🚀 אתגר
באתגר הזה, ננסה למצוא מושגים רלוונטיים לתחום מדעי הנתונים על ידי בחינת טקסטים. ניקח מאמר מוויקיפדיה על מדעי הנתונים, נוריד ונעבד את הטקסט, ואז נבנה ענן מילים כמו זה:
בקרו ב-notebook.ipynb
כדי לקרוא את הקוד. תוכלו גם להריץ את הקוד ולראות כיצד הוא מבצע את כל השינויים בנתונים בזמן אמת.
אם אינכם יודעים כיצד להריץ קוד ב-Jupyter Notebook, עיינו במאמר הזה: this article.
שאלון לאחר ההרצאה
משימות
- משימה 1: שנו את הקוד לעיל כדי למצוא מושגים קשורים לתחומים של Big Data ו-Machine Learning
- משימה 2: חשבו על תרחישים במדעי הנתונים
קרדיטים
השיעור הזה נכתב באהבה על ידי Dmitry Soshnikov
כתב ויתור:
מסמך זה תורגם באמצעות שירות תרגום מבוסס בינה מלאכותית Co-op Translator. למרות שאנו שואפים לדיוק, יש לקחת בחשבון שתרגומים אוטומטיים עשויים להכיל שגיאות או אי-דיוקים. המסמך המקורי בשפתו המקורית צריך להיחשב כמקור הסמכותי. למידע קריטי, מומלץ להשתמש בתרגום מקצועי על ידי בני אדם. איננו נושאים באחריות לאי-הבנות או לפרשנויות שגויות הנובעות משימוש בתרגום זה.