You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/he/1-Introduction/01-defining-data-science/README.md

9.7 KiB

סוגי נתונים

כפי שכבר הזכרנו, נתונים נמצאים בכל מקום. אנחנו רק צריכים ללכוד אותם בצורה הנכונה! חשוב להבחין בין נתונים מובנים לנתונים לא מובנים. הראשונים מיוצגים בדרך כלל בצורה מסודרת, לעיתים קרובות כטבלה או מספר טבלאות, בעוד שהאחרונים הם פשוט אוסף של קבצים. לפעמים ניתן גם לדבר על נתונים חצי-מובנים, שיש להם סוג מסוים של מבנה שיכול להשתנות מאוד.

נתונים מובנים נתונים חצי-מובנים נתונים לא מובנים
רשימת אנשים עם מספרי הטלפון שלהם דפי ויקיפדיה עם קישורים טקסט של אנציקלופדיה בריטניקה
טמפרטורה בכל חדרי הבניין בכל דקה במשך 20 השנים האחרונות אוסף מאמרים מדעיים בפורמט JSON עם מחברים, תאריך פרסום ותקציר שיתוף קבצים עם מסמכים ארגוניים
נתונים על גיל ומגדר של כל האנשים הנכנסים לבניין דפי אינטרנט וידאו גולמי ממצלמת אבטחה

מאיפה להשיג נתונים

ישנם מקורות רבים לנתונים, ולא ניתן למנות את כולם! עם זאת, נזכיר כמה מהמקומות הטיפוסיים שבהם ניתן להשיג נתונים:

  • מובנים
    • האינטרנט של הדברים (IoT), כולל נתונים מחיישנים שונים, כמו חיישני טמפרטורה או לחץ, מספקים הרבה נתונים שימושיים. לדוגמה, אם בניין משרדים מצויד בחיישני IoT, ניתן לשלוט אוטומטית בחימום ובתאורה כדי למזער עלויות.
    • סקרים שאנו מבקשים ממשתמשים למלא לאחר רכישה או לאחר ביקור באתר.
    • ניתוח התנהגות יכול, למשל, לעזור לנו להבין עד כמה משתמש מעמיק באתר ומהי הסיבה הטיפוסית לעזיבתו.
  • לא מובנים
    • טקסטים יכולים להיות מקור עשיר לתובנות, כמו ציון תחושה כללית, או חילוץ מילות מפתח ומשמעות סמנטית.
    • תמונות או וידאו. וידאו ממצלמת אבטחה יכול לשמש להערכת עומסי תנועה בכביש ולהודיע לאנשים על פקקים אפשריים.
    • יומני שרת אינטרנט יכולים לשמש להבנת אילו דפים באתר שלנו נצפים הכי הרבה זמן.
  • חצי-מובנים
    • גרפים של רשתות חברתיות יכולים להיות מקורות מצוינים לנתונים על אישיות משתמשים ועל היעילות הפוטנציאלית בהפצת מידע.
    • כאשר יש לנו אוסף של תמונות ממסיבה, נוכל לנסות לחלץ נתוני דינמיקה קבוצתית על ידי בניית גרף של אנשים המצטלמים יחד.

על ידי הכרת מקורות הנתונים השונים, תוכלו לחשוב על תרחישים שונים שבהם ניתן ליישם טכניקות מדע נתונים כדי להבין את המצב טוב יותר ולשפר תהליכים עסקיים.

מה אפשר לעשות עם נתונים

במדע הנתונים, אנו מתמקדים בשלבים הבאים במסע הנתונים:

כמובן, בהתאם לנתונים בפועל, ייתכן שחלק מהשלבים ייחסרו (למשל, כאשר הנתונים כבר נמצאים בבסיס נתונים, או כאשר אין צורך באימון מודל), או שחלק מהשלבים יחזרו על עצמם מספר פעמים (כמו עיבוד נתונים).

דיגיטציה וטרנספורמציה דיגיטלית

בעשור האחרון, עסקים רבים החלו להבין את חשיבות הנתונים בקבלת החלטות עסקיות. כדי ליישם עקרונות מדע נתונים בניהול עסק, יש קודם כל לאסוף נתונים, כלומר לתרגם תהליכים עסקיים לצורה דיגיטלית. זה נקרא דיגיטציה. יישום טכניקות מדע נתונים על נתונים אלו כדי להנחות החלטות יכול להוביל לעלייה משמעותית בפרודוקטיביות (או אפילו לשינוי כיוון עסקי), הנקרא טרנספורמציה דיגיטלית.

בואו נבחן דוגמה. נניח שיש לנו קורס מדע נתונים (כמו זה) שאנו מעבירים לסטודנטים באופן מקוון, ואנו רוצים להשתמש במדע נתונים כדי לשפר אותו. איך נוכל לעשות זאת?

נוכל להתחיל בשאלה "מה ניתן לדיגיטציה?" הדרך הפשוטה ביותר תהיה למדוד את הזמן שלוקח לכל סטודנט להשלים כל מודול, ולמדוד את הידע שהושג על ידי מתן מבחן רב-ברירה בסוף כל מודול. על ידי חישוב ממוצע זמן ההשלמה של כל הסטודנטים, נוכל לגלות אילו מודולים גורמים לקשיים הגדולים ביותר ולעבוד על פישוטם. אתה עשוי לטעון שהגישה הזו אינה אידיאלית, מכיוון שמודולים יכולים להיות באורכים שונים. כנראה שיותר הוגן לחלק את הזמן לפי אורך המודול (במספר התווים), ולהשוות את הערכים הללו במקום זאת. כאשר אנו מתחילים לנתח תוצאות של מבחנים עם שאלות רב-ברירה, אנו יכולים לנסות לזהות אילו מושגים קשה לתלמידים להבין, ולהשתמש במידע הזה כדי לשפר את התוכן. כדי לעשות זאת, עלינו לעצב מבחנים כך שכל שאלה תתאים למושג מסוים או ליחידת ידע מסוימת.

אם נרצה להעמיק עוד יותר, נוכל לשרטט את הזמן שנדרש לכל מודול מול קטגוריית הגיל של התלמידים. ייתכן שנגלה שבחלק מקטגוריות הגיל לוקח זמן רב מדי לסיים את המודול, או שתלמידים נושרים לפני שהם מסיימים אותו. זה יכול לעזור לנו להציע המלצות גיל למודול, ולמזער את חוסר שביעות הרצון של אנשים מציפיות שגויות.

🚀 אתגר

באתגר הזה, ננסה למצוא מושגים רלוונטיים לתחום מדעי הנתונים על ידי ניתוח טקסטים. ניקח מאמר מוויקיפדיה על מדעי הנתונים, נוריד ונעבד את הטקסט, ואז נבנה ענן מילים כמו זה:

ענן מילים למדעי הנתונים

בקרו ב-notebook.ipynb כדי לעבור על הקוד. תוכלו גם להריץ את הקוד ולראות כיצד הוא מבצע את כל השינויים בנתונים בזמן אמת.

אם אינכם יודעים כיצד להריץ קוד ב-Jupyter Notebook, עיינו ב-מאמר הזה.

שאלון לאחר ההרצאה

משימות

קרדיטים

השיעור הזה נכתב באהבה ♥️ על ידי דמיטרי סושניקוב


כתב ויתור:
מסמך זה תורגם באמצעות שירות תרגום מבוסס בינה מלאכותית Co-op Translator. בעוד שאנו שואפים לדיוק, יש להיות מודעים לכך שתרגומים אוטומטיים עשויים להכיל שגיאות או אי-דיוקים. המסמך המקורי בשפתו המקורית נחשב למקור הסמכותי. למידע קריטי, מומלץ להשתמש בתרגום מקצועי על ידי מתרגם אנושי. איננו נושאים באחריות לכל אי-הבנה או פרשנות שגויה הנובעת משימוש בתרגום זה.