You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/he/1-Introduction/03-defining-data/README.md

12 KiB

הגדרת נתונים

 סקצ'נוט מאת (@sketchthedocs)
הגדרת נתונים - סקצ'נוט מאת @nitya

נתונים הם עובדות, מידע, תצפיות ומדידות שמשמשים לגילויים ולתמיכה בהחלטות מושכלות. נקודת נתונים היא יחידה אחת של נתונים בתוך מערך נתונים, שהוא אוסף של נקודות נתונים. מערכי נתונים יכולים להגיע בפורמטים ובמבנים שונים, ובדרך כלל יתבססו על המקור שלהם, או על המקום שממנו הגיעו הנתונים. לדוגמה, רווחים חודשיים של חברה עשויים להיות בגיליון אלקטרוני, אך נתוני דופק לפי שעה משעון חכם עשויים להיות בפורמט JSON. זה נפוץ שמדעני נתונים עובדים עם סוגים שונים של נתונים בתוך מערך נתונים.

השיעור הזה מתמקד בזיהוי וסיווג נתונים לפי מאפייניהם ומקורותיהם.

שאלון לפני השיעור

איך נתונים מתוארים

נתונים גולמיים

נתונים גולמיים הם נתונים שהגיעו ממקורם במצבם הראשוני ולא נותחו או אורגנו. כדי להבין מה קורה עם מערך נתונים, יש לארגן אותו בפורמט שניתן להבין על ידי בני אדם וגם על ידי הטכנולוגיה שהם עשויים להשתמש בה לניתוח נוסף. המבנה של מערך נתונים מתאר איך הוא מאורגן וניתן לסווג אותו כמאורגן, לא מאורגן וחצי מאורגן. סוגי המבנה הללו ישתנו בהתאם למקור, אך בסופו של דבר יתאימו לשלוש הקטגוריות הללו.

נתונים כמותיים

נתונים כמותיים הם תצפיות מספריות בתוך מערך נתונים וניתן בדרך כלל לנתח, למדוד ולהשתמש בהם מתמטית. כמה דוגמאות לנתונים כמותיים הם: אוכלוסיית מדינה, גובה של אדם או רווחים רבעוניים של חברה. עם ניתוח נוסף, נתונים כמותיים יכולים לשמש לגילוי מגמות עונתיות במדד איכות האוויר (AQI) או להערכת הסבירות של עומסי תנועה בשעות השיא ביום עבודה טיפוסי.

נתונים איכותיים

נתונים איכותיים, הידועים גם כנתונים קטגוריים, הם נתונים שלא ניתן למדוד באופן אובייקטיבי כמו תצפיות של נתונים כמותיים. בדרך כלל מדובר בפורמטים שונים של נתונים סובייקטיביים שמלכדים את האיכות של משהו, כמו מוצר או תהליך. לפעמים, נתונים איכותיים הם מספריים אך לא ישמשו בדרך כלל מתמטית, כמו מספרי טלפון או חותמות זמן. כמה דוגמאות לנתונים איכותיים הם: תגובות לסרטונים, סוג ודגם של רכב או הצבע האהוב על החברים הקרובים שלך. נתונים איכותיים יכולים לשמש להבנת אילו מוצרים צרכנים אוהבים יותר או לזיהוי מילות מפתח פופולריות בקורות חיים של מועמדים לעבודה.

נתונים מאורגנים

נתונים מאורגנים הם נתונים שמאורגנים לשורות ועמודות, כאשר לכל שורה יש את אותו סט של עמודות. עמודות מייצגות ערך מסוג מסוים ויהיו מזוהות עם שם שמתאר מה הערך מייצג, בעוד שורות מכילות את הערכים בפועל. לעמודות יהיו לעיתים קרובות סט ספציפי של כללים או הגבלות על הערכים, כדי להבטיח שהערכים מייצגים באופן מדויק את העמודה. לדוגמה, דמיינו גיליון אלקטרוני של לקוחות שבו לכל שורה חייב להיות מספר טלפון ומספרי הטלפון לעולם לא מכילים תווים אלפביתיים. ייתכן שיהיו כללים שיוחלו על עמודת מספר הטלפון כדי לוודא שהיא לעולם לא ריקה ומכילה רק מספרים.

יתרון של נתונים מאורגנים הוא שניתן לארגן אותם בצורה כזו שניתן לקשר אותם לנתונים מאורגנים אחרים. עם זאת, מכיוון שהנתונים מעוצבים להיות מאורגנים בצורה ספציפית, ביצוע שינויים במבנה הכללי שלהם יכול לדרוש מאמץ רב. לדוגמה, הוספת עמודת דוא"ל לגיליון הלקוחות שלא יכולה להיות ריקה פירושה שתצטרכו להבין איך להוסיף את הערכים הללו לשורות הקיימות של לקוחות במערך הנתונים.

דוגמאות לנתונים מאורגנים: גיליונות אלקטרוניים, מסדי נתונים יחסיים, מספרי טלפון, דפי חשבון בנק.

נתונים לא מאורגנים

נתונים לא מאורגנים בדרך כלל לא יכולים להיות מסווגים לשורות או עמודות ולא מכילים פורמט או סט של כללים לעקוב אחריהם. מכיוון שלנתונים לא מאורגנים יש פחות הגבלות על המבנה שלהם, קל יותר להוסיף מידע חדש בהשוואה למערך נתונים מאורגן. אם חיישן שמקליט נתונים על לחץ ברומטרי כל 2 דקות קיבל עדכון שמאפשר לו למדוד ולהקליט טמפרטורה, אין צורך לשנות את הנתונים הקיימים אם הם לא מאורגנים. עם זאת, זה עשוי לגרום לניתוח או חקירה של סוג נתונים זה לקחת יותר זמן. לדוגמה, מדען שרוצה למצוא את הטמפרטורה הממוצעת של החודש הקודם מנתוני החיישן, אך מגלה שהחיישן הקליט "e" בחלק מהנתונים שלו כדי לציין שהוא היה מקולקל במקום מספר טיפוסי, מה שאומר שהנתונים אינם שלמים.

דוגמאות לנתונים לא מאורגנים: קבצי טקסט, הודעות טקסט, קבצי וידאו.

נתונים חצי מאורגנים

נתונים חצי מאורגנים כוללים מאפיינים שהופכים אותם לשילוב של נתונים מאורגנים ולא מאורגנים. הם בדרך כלל לא תואמים לפורמט של שורות ועמודות אך מאורגנים בצורה שנחשבת למאורגנת ועשויים לעקוב אחר פורמט קבוע או סט של כללים. המבנה ישתנה בין מקורות, כמו היררכיה מוגדרת היטב למשהו גמיש יותר שמאפשר שילוב קל של מידע חדש. מטא-נתונים הם אינדיקטורים שעוזרים להחליט איך הנתונים מאורגנים ומאוחסנים ויהיו להם שמות שונים, בהתאם לסוג הנתונים. כמה שמות נפוצים למטא-נתונים הם תגיות, אלמנטים, ישויות ותכונות. לדוגמה, הודעת דוא"ל טיפוסית תכלול נושא, גוף ומערכת נמענים וניתן לארגן אותה לפי מי שלח אותה או מתי היא נשלחה.

דוגמאות לנתונים חצי מאורגנים: HTML, קבצי CSV, JavaScript Object Notation (JSON).

מקורות נתונים

מקור נתונים הוא המיקום הראשוני שבו הנתונים נוצרו, או המקום שבו הם "חיים" וישתנה בהתאם לאופן ולזמן שבו הם נאספו. נתונים שנוצרו על ידי המשתמשים שלהם נקראים נתונים ראשוניים בעוד שנתונים משניים מגיעים ממקור שאסף נתונים לשימוש כללי. לדוגמה, קבוצת מדענים שאוספת תצפיות ביער גשם תיחשב לנתונים ראשוניים ואם הם יחליטו לשתף אותם עם מדענים אחרים זה ייחשב לנתונים משניים עבור אלו שמשתמשים בהם.

מסדי נתונים הם מקור נפוץ ומסתמכים על מערכת ניהול מסדי נתונים לארח ולתחזק את הנתונים, כאשר משתמשים משתמשים בפקודות שנקראות שאילתות כדי לחקור את הנתונים. קבצים כמקורות נתונים יכולים להיות קבצי שמע, תמונה ווידאו וכן גיליונות אלקטרוניים כמו Excel. מקורות אינטרנט הם מיקום נפוץ לאירוח נתונים, שבו ניתן למצוא גם מסדי נתונים וגם קבצים. ממשקי תכנות יישומים, הידועים גם כ-APIs, מאפשרים למתכנתים ליצור דרכים לשתף נתונים עם משתמשים חיצוניים דרך האינטרנט, בעוד שתהליך של גרידת רשת (web scraping) שולף נתונים מדף אינטרנט. השיעורים בעבודה עם נתונים מתמקדים באיך להשתמש במקורות נתונים שונים.

סיכום

בשיעור הזה למדנו:

  • מה הם נתונים
  • איך נתונים מתוארים
  • איך נתונים מסווגים ומקוטלגים
  • איפה ניתן למצוא נתונים

🚀 אתגר

Kaggle הוא מקור מצוין למערכי נתונים פתוחים. השתמשו בכלי החיפוש של מערכי נתונים כדי למצוא כמה מערכי נתונים מעניינים וסווגו 3-5 מערכי נתונים לפי הקריטריונים הבאים:

  • האם הנתונים כמותיים או איכותיים?
  • האם הנתונים מאורגנים, לא מאורגנים או חצי מאורגנים?

שאלון אחרי השיעור

סקירה ולימוד עצמי

  • יחידת Microsoft Learn, בשם סיווג הנתונים שלך כוללת פירוט מפורט של נתונים מאורגנים, חצי מאורגנים ולא מאורגנים.

משימה

סיווג מערכי נתונים


כתב ויתור:
מסמך זה תורגם באמצעות שירות תרגום מבוסס בינה מלאכותית Co-op Translator. בעוד שאנו שואפים לדיוק, יש לקחת בחשבון שתרגומים אוטומטיים עשויים להכיל שגיאות או אי-דיוקים. המסמך המקורי בשפתו המקורית נחשב למקור הסמכותי. למידע קריטי, מומלץ להשתמש בתרגום מקצועי על ידי מתרגם אנושי. איננו נושאים באחריות לכל אי-הבנה או פרשנות שגויה הנובעת משימוש בתרגום זה.