{ "cells": [ { "cell_type": "markdown", "source": [ "## **Ανάλυση της Νιγηριανής Μουσικής από το Spotify**\n", "\n", "Η ομαδοποίηση (clustering) είναι ένας τύπος [Μη Εποπτευόμενης Μάθησης](https://wikipedia.org/wiki/Unsupervised_learning) που υποθέτει ότι ένα σύνολο δεδομένων δεν έχει ετικέτες ή ότι οι είσοδοι του δεν αντιστοιχούν σε προκαθορισμένες εξόδους. Χρησιμοποιεί διάφορους αλγορίθμους για να ταξινομήσει μη επισημασμένα δεδομένα και να παρέχει ομαδοποιήσεις σύμφωνα με τα μοτίβα που εντοπίζει στα δεδομένα.\n", "\n", "[**Κουίζ πριν τη διάλεξη**](https://gray-sand-07a10f403.1.azurestaticapps.net/quiz/27/)\n", "\n", "### **Εισαγωγή**\n", "\n", "Η [ομαδοποίηση](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) είναι πολύ χρήσιμη για την εξερεύνηση δεδομένων. Ας δούμε αν μπορεί να βοηθήσει στην ανακάλυψη τάσεων και μοτίβων στον τρόπο που το κοινό της Νιγηρίας καταναλώνει μουσική.\n", "\n", "> ✅ Σκεφτείτε για ένα λεπτό τις χρήσεις της ομαδοποίησης. Στην καθημερινή ζωή, η ομαδοποίηση συμβαίνει κάθε φορά που έχετε ένα σωρό από ρούχα και πρέπει να ξεχωρίσετε τα ρούχα των μελών της οικογένειάς σας 🧦👕👖🩲. Στην επιστήμη δεδομένων, η ομαδοποίηση συμβαίνει όταν προσπαθείτε να αναλύσετε τις προτιμήσεις ενός χρήστη ή να προσδιορίσετε τα χαρακτηριστικά ενός μη επισημασμένου συνόλου δεδομένων. Με έναν τρόπο, η ομαδοποίηση βοηθά να βάλουμε τάξη στο χάος, όπως ένα συρτάρι με κάλτσες.\n", "\n", "Σε επαγγελματικό περιβάλλον, η ομαδοποίηση μπορεί να χρησιμοποιηθεί για πράγματα όπως η τμηματοποίηση της αγοράς, ο προσδιορισμός των ηλικιακών ομάδων που αγοράζουν συγκεκριμένα προϊόντα, για παράδειγμα. Μια άλλη χρήση θα μπορούσε να είναι η ανίχνευση ανωμαλιών, όπως η ανίχνευση απάτης από ένα σύνολο δεδομένων συναλλαγών με πιστωτικές κάρτες. Ή μπορεί να χρησιμοποιηθεί για τον εντοπισμό όγκων σε μια παρτίδα ιατρικών σαρώσεων.\n", "\n", "✅ Σκεφτείτε για ένα λεπτό πώς μπορεί να έχετε συναντήσει την ομαδοποίηση «στην πράξη», σε τραπεζικές, ηλεκτρονικές αγορές ή επιχειρηματικές εφαρμογές.\n", "\n", "> 🎓 Ενδιαφέρον είναι ότι η ανάλυση ομαδοποίησης ξεκίνησε από τους τομείς της Ανθρωπολογίας και της Ψυχολογίας τη δεκαετία του 1930. Μπορείτε να φανταστείτε πώς μπορεί να είχε χρησιμοποιηθεί τότε;\n", "\n", "Εναλλακτικά, θα μπορούσατε να τη χρησιμοποιήσετε για την ομαδοποίηση αποτελεσμάτων αναζήτησης - για παράδειγμα, ανάμεσα σε συνδέσμους αγορών, εικόνες ή κριτικές. Η ομαδοποίηση είναι χρήσιμη όταν έχετε ένα μεγάλο σύνολο δεδομένων που θέλετε να μειώσετε και στο οποίο θέλετε να πραγματοποιήσετε πιο λεπτομερή ανάλυση. Έτσι, η τεχνική μπορεί να χρησιμοποιηθεί για να μάθετε περισσότερα για τα δεδομένα πριν κατασκευάσετε άλλα μοντέλα.\n", "\n", "✅ Αφού οργανώσετε τα δεδομένα σας σε ομάδες, τους αναθέτετε ένα Id ομάδας (cluster Id). Αυτή η τεχνική μπορεί να είναι χρήσιμη για τη διατήρηση της ιδιωτικότητας ενός συνόλου δεδομένων. Αντί να αναφέρεστε σε ένα σημείο δεδομένων με πιο αποκαλυπτικά στοιχεία, μπορείτε να το αναφέρετε με το Id της ομάδας του. Μπορείτε να σκεφτείτε άλλους λόγους για τους οποίους θα προτιμούσατε να αναφέρεστε σε ένα Id ομάδας αντί για άλλα στοιχεία της ομάδας για την ταυτοποίησή του;\n", "\n", "### Ξεκινώντας με την ομαδοποίηση\n", "\n", "> 🎓 Ο τρόπος που δημιουργούμε ομάδες έχει να κάνει πολύ με το πώς συγκεντρώνουμε τα σημεία δεδομένων σε ομάδες. Ας αναλύσουμε μερικές έννοιες:\n", ">\n", "> 🎓 ['Επαγωγική' vs. 'μεταγωγική'](https://wikipedia.org/wiki/Transduction_(machine_learning))\n", ">\n", "> Η μεταγωγική συμπερασματολογία προκύπτει από παρατηρούμενες περιπτώσεις εκπαίδευσης που αντιστοιχούν σε συγκεκριμένες περιπτώσεις δοκιμής. Η επαγωγική συμπερασματολογία προκύπτει από περιπτώσεις εκπαίδευσης που οδηγούν σε γενικούς κανόνες, οι οποίοι στη συνέχεια εφαρμόζονται σε περιπτώσεις δοκιμής.\n", ">\n", "> Παράδειγμα: Φανταστείτε ότι έχετε ένα σύνολο δεδομένων που είναι μόνο εν μέρει επισημασμένο. Κάποια αντικείμενα είναι «δίσκοι», κάποια «cd» και κάποια είναι κενά. Η δουλειά σας είναι να παρέχετε ετικέτες για τα κενά. Αν επιλέξετε μια επαγωγική προσέγγιση, θα εκπαιδεύσετε ένα μοντέλο αναζητώντας «δίσκους» και «cd» και θα εφαρμόσετε αυτές τις ετικέτες στα μη επισημασμένα δεδομένα. Αυτή η προσέγγιση θα δυσκολευτεί να ταξινομήσει αντικείμενα που είναι στην πραγματικότητα «κασέτες». Μια μεταγωγική προσέγγιση, από την άλλη, χειρίζεται αυτά τα άγνωστα δεδομένα πιο αποτελεσματικά, καθώς εργάζεται για να ομαδοποιήσει παρόμοια αντικείμενα και στη συνέχεια να εφαρμόσει μια ετικέτα σε μια ομάδα. Σε αυτή την περίπτωση, οι ομάδες μπορεί να αντικατοπτρίζουν «στρογγυλά μουσικά αντικείμενα» και «τετράγωνα μουσικά αντικείμενα».\n", ">\n", "> 🎓 ['Επίπεδη' vs. 'μη επίπεδη' γεωμετρία](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering)\n", ">\n", "> Προερχόμενη από τη μαθηματική ορολογία, η επίπεδη vs. μη επίπεδη γεωμετρία αναφέρεται στη μέτρηση αποστάσεων μεταξύ σημείων είτε με «επίπεδες» ([Ευκλείδειες](https://wikipedia.org/wiki/Euclidean_geometry)) είτε με μη επίπεδες (μη Ευκλείδειες) γεωμετρικές μεθόδους.\n", ">\n", "> «Επίπεδη» σε αυτό το πλαίσιο αναφέρεται στην Ευκλείδεια γεωμετρία (μέρη της οποίας διδάσκονται ως «επίπεδη» γεωμετρία), ενώ η μη επίπεδη αναφέρεται στη μη Ευκλείδεια γεωμετρία. Τι σχέση έχει η γεωμετρία με τη μηχανική μάθηση; Καθώς και οι δύο τομείς βασίζονται στα μαθηματικά, πρέπει να υπάρχει ένας κοινός τρόπος μέτρησης αποστάσεων μεταξύ σημείων στις ομάδες, και αυτό μπορεί να γίνει με «επίπεδο» ή «μη επίπεδο» τρόπο, ανάλογα με τη φύση των δεδομένων. Οι [Ευκλείδειες αποστάσεις](https://wikipedia.org/wiki/Euclidean_distance) μετρώνται ως το μήκος ενός ευθύγραμμου τμήματος μεταξύ δύο σημείων. Οι [μη Ευκλείδειες αποστάσεις](https://wikipedia.org/wiki/Non-Euclidean_geometry) μετρώνται κατά μήκος μιας καμπύλης. Αν τα δεδομένα σας, όταν απεικονίζονται, φαίνεται να μην υπάρχουν σε ένα επίπεδο, ίσως χρειαστεί να χρησιμοποιήσετε έναν εξειδικευμένο αλγόριθμο για να τα χειριστείτε.\n", "\n", "
\n",
" \n",
"
\n",
" \n",
"
\n",
" \n",
"