You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/he/1-Introduction/03-defining-data/README.md

12 KiB

הגדרת נתונים

סקצ'נוט מאת (@sketchthedocs)
הגדרת נתונים - סקצ'נוט מאת @nitya

נתונים הם עובדות, מידע, תצפיות ומדידות המשמשים לגילויים ולתמיכה בקבלת החלטות מושכלת. נקודת נתונים היא יחידה בודדת של נתונים בתוך מערך נתונים, שהוא אוסף של נקודות נתונים. מערכי נתונים יכולים להגיע בפורמטים ומבנים שונים, ובדרך כלל יתבססו על המקור שלהם או על המקום שממנו הגיעו הנתונים. לדוגמה, הרווחים החודשיים של חברה עשויים להופיע בגיליון אלקטרוני, אך נתוני דופק לפי שעה משעון חכם עשויים להיות בפורמט JSON. זה נפוץ שמדעני נתונים עובדים עם סוגים שונים של נתונים בתוך מערך נתונים.

שיעור זה מתמקד בזיהוי וסיווג נתונים לפי מאפייניהם ומקורותיהם.

שאלון לפני ההרצאה

כיצד מתוארים נתונים

נתונים גולמיים

נתונים גולמיים הם נתונים שהגיעו ממקורם במצבם הראשוני ולא עברו ניתוח או ארגון. כדי להבין מה קורה במערך נתונים, יש לארגן אותו בפורמט שניתן להבנה על ידי בני אדם וגם על ידי הטכנולוגיה שבה הם עשויים להשתמש לניתוח נוסף. מבנה של מערך נתונים מתאר כיצד הוא מאורגן וניתן לסווג אותו כנתונים מובנים, לא מובנים וחצי מובנים. סוגי המבנה הללו ישתנו בהתאם למקור, אך בסופו של דבר יתאימו לשלוש הקטגוריות הללו.

נתונים כמותיים

נתונים כמותיים הם תצפיות מספריות בתוך מערך נתונים וניתן בדרך כלל לנתחם, למדוד אותם ולהשתמש בהם מתמטית. דוגמאות לנתונים כמותיים: אוכלוסיית מדינה, גובה של אדם או רווחים רבעוניים של חברה. עם ניתוח נוסף, ניתן להשתמש בנתונים כמותיים כדי לגלות מגמות עונתיות במדד איכות האוויר (AQI) או להעריך את ההסתברות לפקקי תנועה בשעות העומס ביום עבודה טיפוסי.

נתונים איכותניים

נתונים איכותניים, הידועים גם כנתונים קטגוריים, הם נתונים שלא ניתן למדוד באופן אובייקטיבי כמו תצפיות של נתונים כמותיים. מדובר בדרך כלל בפורמטים שונים של נתונים סובייקטיביים הלוכדים את האיכות של משהו, כמו מוצר או תהליך. לעיתים, נתונים איכותניים הם מספריים אך לא ישמשו בדרך כלל מתמטית, כמו מספרי טלפון או חותמות זמן. דוגמאות לנתונים איכותניים: תגובות על סרטונים, דגם וסוג של רכב או הצבע האהוב על החברים הקרובים שלך. ניתן להשתמש בנתונים איכותניים כדי להבין אילו מוצרים הצרכנים מעדיפים או לזהות מילות מפתח פופולריות בקורות חיים.

נתונים מובנים

נתונים מובנים הם נתונים המאורגנים בשורות ועמודות, כאשר לכל שורה יש את אותו סט של עמודות. עמודות מייצגות ערך מסוג מסוים ויזוהו בשם המתאר מה הערך מייצג, בעוד שהשורות מכילות את הערכים בפועל. לעיתים קרובות יהיו לעמודות סט כללים או מגבלות על הערכים, כדי להבטיח שהערכים מייצגים את העמודה בצורה מדויקת. לדוגמה, דמיינו גיליון אלקטרוני של לקוחות שבו לכל שורה חייב להיות מספר טלפון, ומספרי הטלפון לעולם אינם מכילים תווים אלפביתיים. ייתכן שיוחלו כללים על עמודת מספר הטלפון כדי לוודא שהיא לעולם אינה ריקה ומכילה רק מספרים.

יתרון של נתונים מובנים הוא שניתן לארגן אותם כך שניתן יהיה לקשר אותם לנתונים מובנים אחרים. עם זאת, מכיוון שהנתונים מעוצבים להיות מאורגנים בצורה מסוימת, ביצוע שינויים במבנה הכללי שלהם עשוי לדרוש מאמץ רב. לדוגמה, הוספת עמודת דוא"ל לגיליון הלקוחות שלא יכולה להיות ריקה פירושה שתצטרכו להבין כיצד להוסיף ערכים אלה לשורות הקיימות של הלקוחות במערך הנתונים.

דוגמאות לנתונים מובנים: גיליונות אלקטרוניים, מסדי נתונים יחסיים, מספרי טלפון, דפי חשבון בנק.

נתונים לא מובנים

נתונים לא מובנים בדרך כלל אינם ניתנים לסיווג לשורות או עמודות ואינם מכילים פורמט או סט כללים לעקוב אחריהם. מכיוון שלנתונים לא מובנים יש פחות מגבלות על המבנה שלהם, קל יותר להוסיף מידע חדש בהשוואה למערך נתונים מובנה. אם חיישן שמקליט נתונים על לחץ ברומטרי כל 2 דקות קיבל עדכון שמאפשר לו כעת למדוד ולהקליט טמפרטורה, אין צורך לשנות את הנתונים הקיימים אם הם לא מובנים. עם זאת, ייתכן שזה יגרום לניתוח או חקירה של סוג נתונים זה לקחת יותר זמן. לדוגמה, מדען שרוצה למצוא את הטמפרטורה הממוצעת של החודש הקודם מנתוני החיישן, אך מגלה שהחיישן הקליט "e" בחלק מהנתונים שלו כדי לציין שהוא היה מקולקל במקום מספר טיפוסי, מה שאומר שהנתונים אינם שלמים.

דוגמאות לנתונים לא מובנים: קבצי טקסט, הודעות טקסט, קבצי וידאו.

נתונים חצי מובנים

נתונים חצי מובנים כוללים מאפיינים שהופכים אותם לשילוב של נתונים מובנים ולא מובנים. הם בדרך כלל אינם תואמים לפורמט של שורות ועמודות, אך מאורגנים בצורה שנחשבת מובנית ועשויים לעקוב אחר פורמט קבוע או סט כללים. המבנה ישתנה בין מקורות, כמו היררכיה מוגדרת היטב למשהו גמיש יותר שמאפשר שילוב קל של מידע חדש. מטא-נתונים הם אינדיקטורים שעוזרים להחליט כיצד הנתונים מאורגנים ונשמרים ויהיו להם שמות שונים, בהתאם לסוג הנתונים. שמות נפוצים למטא-נתונים הם תגיות, אלמנטים, ישויות ותכונות. לדוגמה, הודעת דוא"ל טיפוסית תכלול נושא, גוף וקבוצת נמענים וניתן לארגן אותה לפי מי שלח אותה או מתי היא נשלחה.

דוגמאות לנתונים חצי מובנים: HTML, קבצי CSV, JavaScript Object Notation (JSON).

מקורות נתונים

מקור נתונים הוא המיקום הראשוני שבו הנתונים נוצרו או "חיים" וישתנה בהתאם לאופן ולזמן שבו נאספו. נתונים שנוצרו על ידי המשתמשים שלהם נקראים נתונים ראשוניים, בעוד שנתונים משניים מגיעים ממקור שאסף נתונים לשימוש כללי. לדוגמה, קבוצת מדענים שאוספת תצפיות ביער גשם תיחשב לנתונים ראשוניים, ואם הם יחליטו לשתף אותם עם מדענים אחרים, הם ייחשבו לנתונים משניים עבור אלה שמשתמשים בהם.

מסדי נתונים הם מקור נפוץ ומסתמכים על מערכת ניהול מסדי נתונים לאחסון ותחזוקת הנתונים, שבה משתמשים משתמשים בפקודות שנקראות שאילתות כדי לחקור את הנתונים. קבצים כמקורות נתונים יכולים להיות קבצי שמע, תמונה ווידאו וכן גיליונות אלקטרוניים כמו Excel. מקורות אינטרנט הם מיקום נפוץ לאחסון נתונים, שבו ניתן למצוא גם מסדי נתונים וגם קבצים. ממשקי תכנות יישומים, הידועים גם כ-APIs, מאפשרים למתכנתים ליצור דרכים לשתף נתונים עם משתמשים חיצוניים דרך האינטרנט, בעוד שתהליך של גרידת רשת (web scraping) שולף נתונים מדף אינטרנט. השיעורים בעבודה עם נתונים מתמקדים כיצד להשתמש במקורות נתונים שונים.

סיכום

בשיעור זה למדנו:

  • מה הם נתונים
  • כיצד מתוארים נתונים
  • כיצד מסווגים ומקטלגים נתונים
  • היכן ניתן למצוא נתונים

🚀 אתגר

Kaggle הוא מקור מצוין למערכי נתונים פתוחים. השתמשו ב-כלי החיפוש של מערכי נתונים כדי למצוא כמה מערכי נתונים מעניינים וסווגו 3-5 מערכי נתונים לפי הקריטריונים הבאים:

  • האם הנתונים כמותיים או איכותניים?
  • האם הנתונים מובנים, לא מובנים או חצי מובנים?

שאלון לאחר ההרצאה

סקירה ולימוד עצמי

  • יחידת Microsoft Learn, שכותרתה סיווג הנתונים שלך, כוללת פירוט מפורט של נתונים מובנים, חצי מובנים ולא מובנים.

משימה

סיווג מערכי נתונים


כתב ויתור:
מסמך זה תורגם באמצעות שירות תרגום מבוסס בינה מלאכותית Co-op Translator. בעוד שאנו שואפים לדיוק, יש להיות מודעים לכך שתרגומים אוטומטיים עשויים להכיל שגיאות או אי-דיוקים. המסמך המקורי בשפתו המקורית צריך להיחשב כמקור הסמכותי. למידע קריטי, מומלץ להשתמש בתרגום מקצועי על ידי בני אדם. איננו נושאים באחריות לכל אי-הבנה או פרשנות שגויה הנובעת משימוש בתרגום זה.