{ "cells": [ { "cell_type": "markdown", "source": [ "## **מוזיקה ניגרית שנאספה מ-Spotify - ניתוח**\n", "\n", "Clustering הוא סוג של [למידה בלתי מונחית](https://wikipedia.org/wiki/Unsupervised_learning) שמניח כי מערך הנתונים אינו מתויג או שהקלטים שלו אינם מותאמים לפלטים מוגדרים מראש. הוא משתמש באלגוריתמים שונים כדי למיין נתונים לא מתויגים ולספק קבוצות בהתאם לדפוסים שהוא מזהה בנתונים.\n", "\n", "[**שאלון לפני ההרצאה**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n", "\n", "### **מבוא**\n", "\n", "[Clustering](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) הוא כלי שימושי מאוד לחקר נתונים. בואו נראה אם הוא יכול לעזור לגלות מגמות ודפוסים באופן שבו קהל ניגרי צורך מוזיקה.\n", "\n", "> ✅ הקדישו רגע לחשוב על השימושים של Clustering. בחיים האמיתיים, Clustering מתרחש בכל פעם שיש לכם ערימת כביסה ואתם צריכים למיין את הבגדים של בני המשפחה 🧦👕👖🩲. במדעי הנתונים, Clustering מתרחש כאשר מנסים לנתח את ההעדפות של משתמשים או לקבוע את המאפיינים של מערך נתונים לא מתויג. Clustering, במובן מסוים, עוזר לעשות סדר בכאוס, כמו מגירת גרביים.\n", "\n", "בסביבה מקצועית, Clustering יכול לשמש לקביעת דברים כמו פילוח שוק, למשל, לקבוע אילו קבוצות גיל קונות אילו מוצרים. שימוש נוסף יכול להיות זיהוי חריגות, אולי כדי לזהות הונאה מתוך מערך נתונים של עסקאות בכרטיסי אשראי. או שתוכלו להשתמש ב-Clustering כדי לזהות גידולים בסריקות רפואיות.\n", "\n", "✅ הקדישו רגע לחשוב כיצד נתקלתם ב-Clustering 'בעולם האמיתי', בסביבה בנקאית, מסחר אלקטרוני או עסקית.\n", "\n", "> 🎓 באופן מעניין, ניתוח Clustering מקורו בתחומי האנתרופולוגיה והפסיכולוגיה בשנות ה-30. האם אתם יכולים לדמיין כיצד הוא עשוי היה לשמש?\n", "\n", "לחילופין, תוכלו להשתמש בו לקיבוץ תוצאות חיפוש - לפי קישורי קניות, תמונות או ביקורות, למשל. Clustering שימושי כאשר יש לכם מערך נתונים גדול שברצונכם לצמצם ועליו לבצע ניתוח מעמיק יותר, כך שהטכניקה יכולה לשמש ללמידה על נתונים לפני בניית מודלים אחרים.\n", "\n", "✅ לאחר שמארגנים את הנתונים בקבוצות, ניתן להקצות להם מזהה קבוצה, וטכניקה זו יכולה להיות שימושית לשמירה על פרטיות מערך הנתונים; במקום להתייחס לנקודת נתונים לפי נתונים מזהים יותר, ניתן להתייחס אליה לפי מזהה הקבוצה שלה. האם אתם יכולים לחשוב על סיבות נוספות מדוע תעדיפו להתייחס למזהה קבוצה במקום לאלמנטים אחרים של הקבוצה כדי לזהות אותה?\n", "\n", "### התחלת עבודה עם Clustering\n", "\n", "> 🎓 האופן שבו אנו יוצרים קבוצות קשור מאוד לאופן שבו אנו אוספים את נקודות הנתונים לקבוצות. בואו נפרק כמה מושגים:\n", ">\n", "> 🎓 ['Transductive' לעומת 'Inductive'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n", ">\n", "> הסקה Transductive נגזרת ממקרים שנצפו באימון שממופים למקרים ספציפיים בבדיקה. הסקה Inductive נגזרת ממקרים באימון שממופים לכללים כלליים שמיושמים רק לאחר מכן על מקרים בבדיקה.\n", ">\n", "> דוגמה: דמיינו שיש לכם מערך נתונים שמתויג רק באופן חלקי. חלק מהפריטים הם 'תקליטים', חלק 'דיסקים', וחלק ריקים. המשימה שלכם היא לספק תוויות לריקים. אם תבחרו בגישה Inductive, תאמנו מודל שמחפש 'תקליטים' ו'דיסקים', ותיישמו את התוויות הללו על הנתונים הלא מתויגים. גישה זו תתקשה לסווג פריטים שהם למעשה 'קלטות'. גישה Transductive, לעומת זאת, מתמודדת עם נתונים לא ידועים בצורה יעילה יותר בכך שהיא עובדת על קיבוץ פריטים דומים יחד ואז מיישמת תווית על קבוצה. במקרה זה, הקבוצות עשויות לשקף 'דברים מוזיקליים עגולים' ו'דברים מוזיקליים מרובעים'.\n", ">\n", "> 🎓 ['גיאומטריה שטוחה' לעומת 'לא שטוחה'](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n", ">\n", "> נגזר מהמונחים המתמטיים, גיאומטריה שטוחה לעומת לא שטוחה מתייחסת למדידת המרחקים בין נקודות על ידי שיטות גיאומטריות 'שטוחות' ([אוקלידיות](https://wikipedia.org/wiki/Euclidean_geometry)) או 'לא שטוחות' (לא אוקלידיות).\n", ">\n", "> 'שטוחה' בהקשר זה מתייחסת לגיאומטריה אוקלידית (חלקים ממנה נלמדים כגיאומטריה 'מישורית'), ו'לא שטוחה' מתייחסת לגיאומטריה לא אוקלידית. מה לגיאומטריה וללמידת מכונה? ובכן, כשני תחומים שמבוססים על מתמטיקה, חייבת להיות דרך משותפת למדוד מרחקים בין נקודות בקבוצות, וזה יכול להיעשות בצורה 'שטוחה' או 'לא שטוחה', תלוי בטבע הנתונים. [מרחקים אוקלידיים](https://wikipedia.org/wiki/Euclidean_distance) נמדדים כאורך של קטע קו בין שתי נקודות. [מרחקים לא אוקלידיים](https://wikipedia.org/wiki/Non-Euclidean_geometry) נמדדים לאורך עקומה. אם הנתונים שלכם, כאשר הם מוצגים, נראים כאילו אינם קיימים על מישור, ייתכן שתצטרכו להשתמש באלגוריתם מיוחד כדי להתמודד איתם.\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"