History

leestott 153371c81d 🌐 Update translations via Co-op Translator		2 weeks ago
..
README.md	🌐 Update translations via Co-op Translator	2 weeks ago
assignment.ipynb	🌐 Update translations via Co-op Translator	3 weeks ago
assignment.md	🌐 Update translations via Co-op Translator	3 weeks ago
notebook.ipynb	🌐 Update translations via Co-op Translator	3 weeks ago

מחזור החיים של מדעי הנתונים: ניתוח


מחזור החיים של מדעי הנתונים: ניתוח - סקצ'נוט מאת @nitya

בשלב הניתוח במחזור החיים של הנתונים מאשרים שהנתונים יכולים לענות על השאלות שהוצעו או לפתור בעיה מסוימת. שלב זה מתמקד גם באישור שמודל מסוים מתמודד בצורה נכונה עם השאלות והבעיות הללו. השיעור הזה מתמקד בניתוח נתונים חוקר (EDA), שהוא אוסף של טכניקות להגדרת מאפיינים וקשרים בתוך הנתונים, וניתן להשתמש בו כהכנה למידול.

נשתמש במערך נתונים לדוגמה מ-Kaggle כדי להדגים כיצד ניתן ליישם זאת באמצעות Python וספריית Pandas. מערך הנתונים הזה מכיל ספירה של מילים נפוצות שנמצאו באימיילים, כאשר מקורות האימיילים הם אנונימיים. השתמשו ב-מחברת שבספרייה זו כדי לעקוב אחר ההסברים.

ניתוח נתונים חוקר

שלב האיסוף במחזור החיים הוא המקום שבו הנתונים נאספים יחד עם הבעיות והשאלות הרלוונטיות, אבל איך נדע שהנתונים יכולים לתמוך בתוצאה הסופית?
זכרו שמדען נתונים עשוי לשאול את השאלות הבאות כאשר הוא מקבל את הנתונים:

האם יש לי מספיק נתונים כדי לפתור את הבעיה הזו?
האם איכות הנתונים מספקת עבור הבעיה הזו?
אם אגלה מידע נוסף דרך הנתונים, האם כדאי לשקול לשנות או להגדיר מחדש את המטרות?

ניתוח נתונים חוקר הוא התהליך של היכרות עם הנתונים וניתן להשתמש בו כדי לענות על השאלות הללו, כמו גם לזהות את האתגרים בעבודה עם מערך הנתונים. בואו נתמקד בכמה מהטכניקות המשמשות להשגת מטרה זו.

פרופיל נתונים, סטטיסטיקה תיאורית ו-Pandas

איך נוכל להעריך אם יש לנו מספיק נתונים כדי לפתור את הבעיה? פרופיל נתונים יכול לסכם ולאסוף מידע כללי על מערך הנתונים שלנו באמצעות טכניקות של סטטיסטיקה תיאורית. פרופיל נתונים עוזר לנו להבין מה זמין לנו, וסטטיסטיקה תיאורית עוזרת לנו להבין כמה דברים זמינים לנו.

בכמה מהשיעורים הקודמים השתמשנו ב-Pandas כדי לספק סטטיסטיקה תיאורית באמצעות הפונקציה describe(). פונקציה זו מספקת את הספירה, הערכים המקסימליים והמינימליים, הממוצע, סטיית התקן והקוונטילים של הנתונים המספריים. שימוש בסטטיסטיקה תיאורית כמו הפונקציה describe() יכול לעזור לכם להעריך כמה נתונים יש לכם והאם אתם זקוקים ליותר.

דגימה ושאילתות

חקירת כל הנתונים במערך נתונים גדול יכולה להיות משימה גוזלת זמן, שבדרך כלל מבוצעת על ידי מחשב. עם זאת, דגימה היא כלי מועיל להבנת הנתונים ומאפשרת לנו לקבל הבנה טובה יותר של מה נמצא במערך הנתונים ומה הוא מייצג. באמצעות דגימה, ניתן ליישם הסתברות וסטטיסטיקה כדי להגיע למסקנות כלליות על הנתונים. למרות שאין כלל מוגדר לגבי כמה נתונים יש לדגום, חשוב לציין שככל שתדגמו יותר נתונים, כך תוכלו להגיע להכללות מדויקות יותר.

לספריית Pandas יש את הפונקציה sample(), שבה ניתן להעביר פרמטר של כמה דגימות אקראיות תרצו לקבל ולהשתמש בהן.

שאילתות כלליות על הנתונים יכולות לעזור לכם לענות על שאלות ותיאוריות כלליות שיש לכם. בניגוד לדגימה, שאילתות מאפשרות לכם לשלוט ולהתמקד בחלקים ספציפיים של הנתונים שיש לכם שאלות לגביהם.
הפונקציה query() בספריית Pandas מאפשרת לכם לבחור עמודות ולקבל תשובות פשוטות על הנתונים דרך השורות שנשלפו.

חקירה באמצעות ויזואליזציות

אין צורך להמתין עד שהנתונים יהיו נקיים ומנותחים לחלוטין כדי להתחיל ליצור ויזואליזציות. למעשה, ייצוג חזותי במהלך החקירה יכול לעזור בזיהוי דפוסים, קשרים ובעיות בנתונים. בנוסף, ויזואליזציות מספקות אמצעי תקשורת עם אלו שאינם מעורבים בניהול הנתונים ויכולות להוות הזדמנות לשתף ולהבהיר שאלות נוספות שלא טופלו בשלב האיסוף. עיינו ב-סעיף על ויזואליזציות כדי ללמוד עוד על דרכים פופולריות לחקור באופן חזותי.

חקירה לזיהוי אי-עקביות

כל הנושאים בשיעור זה יכולים לעזור בזיהוי ערכים חסרים או לא עקביים, אך Pandas מספקת פונקציות לבדיקה של חלק מהערכים הללו. isna() או isnull() יכולות לבדוק ערכים חסרים. חלק חשוב בחקירה של ערכים חסרים בתוך הנתונים שלכם הוא לחקור מדוע הם הגיעו למצב הזה מלכתחילה. זה יכול לעזור לכם להחליט אילו פעולות לנקוט כדי לפתור אותם.

שאלון לאחר ההרצאה

משימה

חקירה למציאת תשובות

כתב ויתור:
מסמך זה תורגם באמצעות שירות תרגום מבוסס בינה מלאכותית Co-op Translator. למרות שאנו שואפים לדיוק, יש לקחת בחשבון שתרגומים אוטומטיים עשויים להכיל שגיאות או אי-דיוקים. המסמך המקורי בשפתו המקורית נחשב למקור הסמכותי. למידע קריטי, מומלץ להשתמש בתרגום מקצועי על ידי בני אדם. איננו נושאים באחריות לכל אי-הבנה או פרשנות שגויה הנובעת משימוש בתרגום זה.

README.md

Unescape Escape

מחזור החיים של מדעי הנתונים: ניתוח

שאלון לפני ההרצאה

ניתוח נתונים חוקר

פרופיל נתונים, סטטיסטיקה תיאורית ו-Pandas

דגימה ושאילתות

חקירה באמצעות ויזואליזציות

חקירה לזיהוי אי-עקביות

שאלון לאחר ההרצאה

משימה

README.md Unescape Escape

מחזור החיים של מדעי הנתונים: ניתוח

שאלון לפני ההרצאה

ניתוח נתונים חוקר

פרופיל נתונים, סטטיסטיקה תיאורית ו-Pandas

דגימה ושאילתות

חקירה באמצעות ויזואליזציות

חקירה לזיהוי אי-עקביות

שאלון לאחר ההרצאה

משימה

README.md

Unescape Escape