|
2 weeks ago | |
---|---|---|
.. | ||
README.md | 2 weeks ago | |
assignment.ipynb | 3 weeks ago | |
assignment.md | 3 weeks ago | |
notebook.ipynb | 3 weeks ago |
README.md
מחזור החיים של מדעי הנתונים: ניתוח
![]() |
---|
מחזור החיים של מדעי הנתונים: ניתוח - סקצ'נוט מאת @nitya |
שאלון לפני ההרצאה
בשלב הניתוח במחזור החיים של הנתונים מאשרים שהנתונים יכולים לענות על השאלות שהוצעו או לפתור בעיה מסוימת. שלב זה מתמקד גם באישור שמודל מסוים מתמודד בצורה נכונה עם השאלות והבעיות הללו. השיעור הזה מתמקד בניתוח נתונים חוקר (EDA), שהוא אוסף של טכניקות להגדרת מאפיינים וקשרים בתוך הנתונים, וניתן להשתמש בו כהכנה למידול.
נשתמש במערך נתונים לדוגמה מ-Kaggle כדי להדגים כיצד ניתן ליישם זאת באמצעות Python וספריית Pandas. מערך הנתונים הזה מכיל ספירה של מילים נפוצות שנמצאו באימיילים, כאשר מקורות האימיילים הם אנונימיים. השתמשו ב-מחברת שבספרייה זו כדי לעקוב אחר ההסברים.
ניתוח נתונים חוקר
שלב האיסוף במחזור החיים הוא המקום שבו הנתונים נאספים יחד עם הבעיות והשאלות הרלוונטיות, אבל איך נדע שהנתונים יכולים לתמוך בתוצאה הסופית?
זכרו שמדען נתונים עשוי לשאול את השאלות הבאות כאשר הוא מקבל את הנתונים:
- האם יש לי מספיק נתונים כדי לפתור את הבעיה הזו?
- האם איכות הנתונים מספקת עבור הבעיה הזו?
- אם אגלה מידע נוסף דרך הנתונים, האם כדאי לשקול לשנות או להגדיר מחדש את המטרות?
ניתוח נתונים חוקר הוא התהליך של היכרות עם הנתונים וניתן להשתמש בו כדי לענות על השאלות הללו, כמו גם לזהות את האתגרים בעבודה עם מערך הנתונים. בואו נתמקד בכמה מהטכניקות המשמשות להשגת מטרה זו.
פרופיל נתונים, סטטיסטיקה תיאורית ו-Pandas
איך נוכל להעריך אם יש לנו מספיק נתונים כדי לפתור את הבעיה? פרופיל נתונים יכול לסכם ולאסוף מידע כללי על מערך הנתונים שלנו באמצעות טכניקות של סטטיסטיקה תיאורית. פרופיל נתונים עוזר לנו להבין מה זמין לנו, וסטטיסטיקה תיאורית עוזרת לנו להבין כמה דברים זמינים לנו.
בכמה מהשיעורים הקודמים השתמשנו ב-Pandas כדי לספק סטטיסטיקה תיאורית באמצעות הפונקציה describe()
. פונקציה זו מספקת את הספירה, הערכים המקסימליים והמינימליים, הממוצע, סטיית התקן והקוונטילים של הנתונים המספריים. שימוש בסטטיסטיקה תיאורית כמו הפונקציה describe()
יכול לעזור לכם להעריך כמה נתונים יש לכם והאם אתם זקוקים ליותר.
דגימה ושאילתות
חקירת כל הנתונים במערך נתונים גדול יכולה להיות משימה גוזלת זמן, שבדרך כלל מבוצעת על ידי מחשב. עם זאת, דגימה היא כלי מועיל להבנת הנתונים ומאפשרת לנו לקבל הבנה טובה יותר של מה נמצא במערך הנתונים ומה הוא מייצג. באמצעות דגימה, ניתן ליישם הסתברות וסטטיסטיקה כדי להגיע למסקנות כלליות על הנתונים. למרות שאין כלל מוגדר לגבי כמה נתונים יש לדגום, חשוב לציין שככל שתדגמו יותר נתונים, כך תוכלו להגיע להכללות מדויקות יותר.
לספריית Pandas יש את הפונקציה sample()
, שבה ניתן להעביר פרמטר של כמה דגימות אקראיות תרצו לקבל ולהשתמש בהן.
שאילתות כלליות על הנתונים יכולות לעזור לכם לענות על שאלות ותיאוריות כלליות שיש לכם. בניגוד לדגימה, שאילתות מאפשרות לכם לשלוט ולהתמקד בחלקים ספציפיים של הנתונים שיש לכם שאלות לגביהם.
הפונקציה query()
בספריית Pandas מאפשרת לכם לבחור עמודות ולקבל תשובות פשוטות על הנתונים דרך השורות שנשלפו.
חקירה באמצעות ויזואליזציות
אין צורך להמתין עד שהנתונים יהיו נקיים ומנותחים לחלוטין כדי להתחיל ליצור ויזואליזציות. למעשה, ייצוג חזותי במהלך החקירה יכול לעזור בזיהוי דפוסים, קשרים ובעיות בנתונים. בנוסף, ויזואליזציות מספקות אמצעי תקשורת עם אלו שאינם מעורבים בניהול הנתונים ויכולות להוות הזדמנות לשתף ולהבהיר שאלות נוספות שלא טופלו בשלב האיסוף. עיינו ב-סעיף על ויזואליזציות כדי ללמוד עוד על דרכים פופולריות לחקור באופן חזותי.
חקירה לזיהוי אי-עקביות
כל הנושאים בשיעור זה יכולים לעזור בזיהוי ערכים חסרים או לא עקביים, אך Pandas מספקת פונקציות לבדיקה של חלק מהערכים הללו. isna() או isnull() יכולות לבדוק ערכים חסרים. חלק חשוב בחקירה של ערכים חסרים בתוך הנתונים שלכם הוא לחקור מדוע הם הגיעו למצב הזה מלכתחילה. זה יכול לעזור לכם להחליט אילו פעולות לנקוט כדי לפתור אותם.
שאלון לאחר ההרצאה
משימה
כתב ויתור:
מסמך זה תורגם באמצעות שירות תרגום מבוסס בינה מלאכותית Co-op Translator. למרות שאנו שואפים לדיוק, יש לקחת בחשבון שתרגומים אוטומטיים עשויים להכיל שגיאות או אי-דיוקים. המסמך המקורי בשפתו המקורית נחשב למקור הסמכותי. למידע קריטי, מומלץ להשתמש בתרגום מקצועי על ידי בני אדם. איננו נושאים באחריות לכל אי-הבנה או פרשנות שגויה הנובעת משימוש בתרגום זה.