7.9 KiB
מחזור החיים של מדעי הנתונים: ניתוח
![]() |
---|
מחזור החיים של מדעי הנתונים: ניתוח - סקצ'נוט מאת @nitya |
שאלון לפני השיעור
שאלון לפני השיעור
השלב של ניתוח במחזור החיים של הנתונים מאשר שהנתונים יכולים לענות על השאלות שהוצעו או לפתור בעיה מסוימת. שלב זה יכול גם להתמקד באישור שהמודל מתמודד בצורה נכונה עם השאלות והבעיות הללו. השיעור הזה מתמקד בניתוח נתונים חקרני (EDA), שהוא טכניקות להגדרת מאפיינים וקשרים בתוך הנתונים וניתן להשתמש בהם להכנת הנתונים למידול.
נשתמש במאגר נתונים לדוגמה מ-Kaggle כדי להראות כיצד ניתן ליישם זאת עם Python וספריית Pandas. מאגר הנתונים הזה מכיל ספירה של כמה מילים נפוצות שנמצאו באימיילים, כאשר מקורות האימיילים הללו הם אנונימיים. השתמשו ב-מחברת שבספרייה הזו כדי לעקוב.
ניתוח נתונים חקרני
שלב הלכידה במחזור החיים הוא המקום שבו הנתונים נאספים יחד עם הבעיות והשאלות הקיימות, אבל איך נדע שהנתונים יכולים לתמוך בתוצאה הסופית?
זכרו שמדען נתונים עשוי לשאול את השאלות הבאות כשהוא מקבל את הנתונים:
- האם יש לי מספיק נתונים כדי לפתור את הבעיה הזו?
- האם איכות הנתונים מספקת עבור הבעיה הזו?
- אם אני מגלה מידע נוסף דרך הנתונים האלה, האם כדאי לשקול לשנות או להגדיר מחדש את המטרות?
ניתוח נתונים חקרני הוא התהליך של היכרות עם הנתונים וניתן להשתמש בו כדי לענות על השאלות הללו, כמו גם לזהות את האתגרים בעבודה עם מאגר הנתונים. בואו נתמקד בכמה מהטכניקות שמשתמשים בהן כדי להשיג זאת.
פרופיל נתונים, סטטיסטיקה תיאורית ו-Pandas
איך נוכל להעריך אם יש לנו מספיק נתונים כדי לפתור את הבעיה הזו? פרופיל נתונים יכול לסכם ולאסוף מידע כללי על מאגר הנתונים שלנו באמצעות טכניקות של סטטיסטיקה תיאורית. פרופיל נתונים עוזר לנו להבין מה זמין לנו, וסטטיסטיקה תיאורית עוזרת לנו להבין כמה דברים זמינים לנו.
בכמה מהשיעורים הקודמים השתמשנו ב-Pandas כדי לספק סטטיסטיקה תיאורית עם הפונקציה describe()
. היא מספקת את הספירה, הערכים המקסימליים והמינימליים, ממוצע, סטיית תקן וקוונטילים על הנתונים המספריים. שימוש בסטטיסטיקה תיאורית כמו הפונקציה describe()
יכול לעזור לכם להעריך כמה יש לכם ואם אתם צריכים יותר.
דגימה ושאילתות
ניתוח כל הנתונים במאגר גדול יכול להיות מאוד גוזל זמן ומשימה שבדרך כלל נשארת למחשב לבצע. עם זאת, דגימה היא כלי מועיל להבנת הנתונים ומאפשרת לנו להבין טוב יותר מה נמצא במאגר הנתונים ומה הוא מייצג. עם דגימה, ניתן ליישם הסתברות וסטטיסטיקה כדי להגיע למסקנות כלליות על הנתונים שלכם. למרות שאין כלל מוגדר לגבי כמה נתונים כדאי לדגום, חשוב לציין שככל שתדגמו יותר נתונים, כך תוכלו להגיע להכללה מדויקת יותר על הנתונים.
ל-Pandas יש את הפונקציה sample()
בספרייה שלה, שבה ניתן להעביר ארגומנט של כמה דגימות אקראיות תרצו לקבל ולהשתמש בהן.
שאילתות כלליות על הנתונים יכולות לעזור לכם לענות על שאלות ותיאוריות כלליות שיש לכם. בניגוד לדגימה, שאילתות מאפשרות לכם לשלוט ולהתמקד בחלקים ספציפיים של הנתונים שיש לכם שאלות לגביהם.
הפונקציה query()
בספריית Pandas מאפשרת לכם לבחור עמודות ולקבל תשובות פשוטות על הנתונים דרך השורות שהתקבלו.
ניתוח באמצעות ויזואליזציות
אין צורך להמתין עד שהנתונים יהיו נקיים ומנותחים לחלוטין כדי להתחיל ליצור ויזואליזציות. למעשה, ייצוג חזותי בזמן הניתוח יכול לעזור לזהות דפוסים, קשרים ובעיות בנתונים. יתרה מכך, ויזואליזציות מספקות אמצעי תקשורת עם אלו שאינם מעורבים בניהול הנתונים ויכולות להיות הזדמנות לשתף ולהבהיר שאלות נוספות שלא טופלו בשלב הלכידה. עיינו ב-החלק על ויזואליזציות כדי ללמוד עוד על כמה דרכים פופולריות לנתח חזותית.
ניתוח לזיהוי אי עקביות
כל הנושאים בשיעור הזה יכולים לעזור לזהות ערכים חסרים או לא עקביים, אבל Pandas מספקת פונקציות לבדוק חלק מהם. isna() או isnull() יכולות לבדוק ערכים חסרים. חלק חשוב בניתוח הערכים הללו בתוך הנתונים שלכם הוא לחקור מדוע הם הגיעו למצב הזה מלכתחילה. זה יכול לעזור לכם להחליט אילו פעולות לנקוט כדי לפתור אותם.
שאלון לפני השיעור
משימה
כתב ויתור:
מסמך זה תורגם באמצעות שירות תרגום מבוסס בינה מלאכותית Co-op Translator. למרות שאנו שואפים לדיוק, יש לקחת בחשבון שתרגומים אוטומטיים עשויים להכיל שגיאות או אי-דיוקים. המסמך המקורי בשפתו המקורית נחשב למקור הסמכותי. למידע קריטי, מומלץ להשתמש בתרגום מקצועי על ידי בני אדם. איננו נושאים באחריות לכל אי-הבנה או פרשנות שגויה הנובעת משימוש בתרגום זה.