From f273a10eebc1ab3a558d13352546b7911a71c97c Mon Sep 17 00:00:00 2001 From: "localizeflow[bot]" Date: Tue, 26 May 2026 23:26:32 +0000 Subject: [PATCH] chore(i18n): sync translations with latest source changes (chunk 1/1, 9 changes) --- translations/el/.co-op-translator.json | 8 +- .../el/1-Introduction/1-intro-to-ML/README.md | 109 +++++---- .../el/5-Clustering/1-Visualize/README.md | 219 ++++++++++-------- translations/sv/.co-op-translator.json | 8 +- .../sv/1-Introduction/1-intro-to-ML/README.md | 97 ++++---- .../sv/5-Clustering/1-Visualize/README.md | 181 ++++++++------- translations/th/.co-op-translator.json | 8 +- .../th/1-Introduction/1-intro-to-ML/README.md | 121 +++++----- .../th/5-Clustering/1-Visualize/README.md | 202 ++++++++-------- 9 files changed, 502 insertions(+), 451 deletions(-) diff --git a/translations/el/.co-op-translator.json b/translations/el/.co-op-translator.json index 5ded33d93..f66035b83 100644 --- a/translations/el/.co-op-translator.json +++ b/translations/el/.co-op-translator.json @@ -1,7 +1,7 @@ { "1-Introduction/1-intro-to-ML/README.md": { - "original_hash": "69389392fa6346e0dfa30f664b7b6fec", - "translation_date": "2025-09-05T00:31:09+00:00", + "original_hash": "3a6394c6f5ce3f8aee8211e92eaf9ef0", + "translation_date": "2026-05-26T23:23:21+00:00", "source_file": "1-Introduction/1-intro-to-ML/README.md", "language_code": "el" }, @@ -240,8 +240,8 @@ "language_code": "el" }, "5-Clustering/1-Visualize/README.md": { - "original_hash": "730225ea274c9174fe688b21d421539d", - "translation_date": "2025-09-05T00:01:36+00:00", + "original_hash": "08b00d9fbffc667a7fe7fc19ac00dfbd", + "translation_date": "2026-05-26T23:22:51+00:00", "source_file": "5-Clustering/1-Visualize/README.md", "language_code": "el" }, diff --git a/translations/el/1-Introduction/1-intro-to-ML/README.md b/translations/el/1-Introduction/1-intro-to-ML/README.md index 8ef91ad00..5df106acd 100644 --- a/translations/el/1-Introduction/1-intro-to-ML/README.md +++ b/translations/el/1-Introduction/1-intro-to-ML/README.md @@ -6,68 +6,68 @@ [![ML για αρχάριους - Εισαγωγή στη Μηχανική Μάθηση για Αρχάριους](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "ML για αρχάριους - Εισαγωγή στη Μηχανική Μάθηση για Αρχάριους") -> 🎥 Κάντε κλικ στην εικόνα παραπάνω για ένα σύντομο βίντεο που επεξηγεί αυτό το μάθημα. +> 🎥 Κάντε κλικ στην εικόνα παραπάνω για ένα σύντομο βίντεο που εξηγεί αυτό το μάθημα. -Καλώς ήρθατε σε αυτό το μάθημα για την κλασική μηχανική μάθηση για αρχάριους! Είτε είστε εντελώς νέοι σε αυτό το θέμα, είτε έμπειροι επαγγελματίες που θέλετε να ανανεώσετε τις γνώσεις σας, είμαστε χαρούμενοι που είστε μαζί μας! Θέλουμε να δημιουργήσουμε ένα φιλικό σημείο εκκίνησης για τη μελέτη σας στη μηχανική μάθηση και θα χαρούμε να αξιολογήσουμε, να απαντήσουμε και να ενσωματώσουμε τα [σχόλιά σας](https://github.com/microsoft/ML-For-Beginners/discussions). +Καλώς ήρθατε σε αυτό το μάθημα για την κλασική μηχανική μάθηση για αρχάριους! Είτε είστε εντελώς νέοι σε αυτό το θέμα, είτε ένας έμπειρος επαγγελματίας ML που θέλει να ανανεώσει τις γνώσεις του σε κάποιον τομέα, χαίρόμαστε που σας έχουμε μαζί μας! Θέλουμε να δημιουργήσουμε ένα φιλικό σημείο εκκίνησης για τις σπουδές σας στην ML και θα χαρούμε να αξιολογήσουμε, να απαντήσουμε και να ενσωματώσουμε τα [σχόλιά σας](https://github.com/microsoft/ML-For-Beginners/discussions). -[![Εισαγωγή στη Μηχανική Μάθηση](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "Εισαγωγή στη Μηχανική Μάθηση") +[![Εισαγωγή στη ML](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "Εισαγωγή στη ML") -> 🎥 Κάντε κλικ στην εικόνα παραπάνω για ένα βίντεο: Ο John Guttag του MIT παρουσιάζει τη μηχανική μάθηση +> 🎥 Κάντε κλικ στην εικόνα παραπάνω για βίντεο: Ο John Guttag του MIT παρουσιάζει τη μηχανική μάθηση --- ## Ξεκινώντας με τη μηχανική μάθηση -Πριν ξεκινήσετε με αυτό το πρόγραμμα σπουδών, πρέπει να έχετε τον υπολογιστή σας έτοιμο να τρέξει notebooks τοπικά. +Πριν ξεκινήσετε με αυτό το πρόγραμμα σπουδών, πρέπει να έχετε τον υπολογιστή σας έτοιμο για εκτέλεση σημειωματάριων τοπικά. -- **Ρυθμίστε τον υπολογιστή σας με αυτά τα βίντεο**. Χρησιμοποιήστε τους παρακάτω συνδέσμους για να μάθετε [πώς να εγκαταστήσετε την Python](https://youtu.be/CXZYvNRIAKM) στο σύστημά σας και [πώς να ρυθμίσετε έναν επεξεργαστή κειμένου](https://youtu.be/EU8eayHWoZg) για ανάπτυξη. -- **Μάθετε Python**. Συνιστάται επίσης να έχετε μια βασική κατανόηση της [Python](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott), μιας γλώσσας προγραμματισμού χρήσιμης για επιστήμονες δεδομένων που χρησιμοποιούμε σε αυτό το μάθημα. -- **Μάθετε Node.js και JavaScript**. Χρησιμοποιούμε επίσης JavaScript μερικές φορές σε αυτό το μάθημα για την κατασκευή web εφαρμογών, οπότε θα χρειαστεί να έχετε εγκατεστημένα [node](https://nodejs.org) και [npm](https://www.npmjs.com/), καθώς και [Visual Studio Code](https://code.visualstudio.com/) διαθέσιμο για ανάπτυξη τόσο σε Python όσο και σε JavaScript. -- **Δημιουργήστε έναν λογαριασμό GitHub**. Αφού μας βρήκατε εδώ στο [GitHub](https://github.com), ίσως έχετε ήδη έναν λογαριασμό, αλλά αν όχι, δημιουργήστε έναν και στη συνέχεια κάντε fork αυτό το πρόγραμμα σπουδών για να το χρησιμοποιήσετε μόνοι σας. (Μη διστάσετε να μας δώσετε ένα αστέρι, επίσης 😊) -- **Εξερευνήστε το Scikit-learn**. Εξοικειωθείτε με το [Scikit-learn](https://scikit-learn.org/stable/user_guide.html), ένα σύνολο βιβλιοθηκών ML που αναφέρουμε σε αυτά τα μαθήματα. +- **Ρυθμίστε τον υπολογιστή σας με αυτά τα βίντεο**. Χρησιμοποιήστε τους παρακάτω συνδέσμους για να μάθετε [πώς να εγκαταστήσετε το Python](https://youtu.be/CXZYvNRIAKM) στο σύστημά σας και να [ρυθμίσετε έναν επεξεργαστή κειμένου](https://youtu.be/EU8eayHWoZg) για ανάπτυξη. +- **Μάθετε Python**. Συνιστάται επίσης να έχετε βασική κατανόηση του [Python](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott), μιας γλώσσας προγραμματισμού χρήσιμης για επιστήμονες δεδομένων που χρησιμοποιούμε σε αυτό το μάθημα. +- **Μάθετε Node.js και JavaScript**. Χρησιμοποιούμε επίσης JavaScript λίγες φορές σε αυτό το μάθημα κατά την ανάπτυξη web εφαρμογών, οπότε θα χρειαστεί να έχετε εγκατεστημένα το [node](https://nodejs.org) και το [npm](https://www.npmjs.com/), καθώς και το [Visual Studio Code](https://code.visualstudio.com/) διαθέσιμο για ανάπτυξη Python και JavaScript. +- **Δημιουργήστε λογαριασμό στο GitHub**. Δεδομένου ότι μας βρήκατε εδώ στο [GitHub](https://github.com), ίσως ήδη έχετε λογαριασμό, αλλά αν όχι, δημιουργήστε έναν και στη συνέχεια κάντε fork αυτό το πρόγραμμα σπουδών για προσωπική χρήση. (Να μας βάζετε και αστέρι, αν θέλετε 😊) +- **Εξερευνήστε το Scikit-learn**. Εξοικειωθείτε με το [Scikit-learn](https://scikit-learn.org/stable/user_guide.html), ένα σύνολο βιβλιοθηκών ML που αναφερόμαστε σε αυτά τα μαθήματα. --- ## Τι είναι η μηχανική μάθηση; -Ο όρος 'μηχανική μάθηση' είναι ένας από τους πιο δημοφιλείς και συχνά χρησιμοποιούμενους όρους της εποχής μας. Υπάρχει μια σημαντική πιθανότητα να έχετε ακούσει αυτόν τον όρο τουλάχιστον μία φορά αν έχετε κάποια εξοικείωση με την τεχνολογία, ανεξάρτητα από τον τομέα στον οποίο εργάζεστε. Ωστόσο, οι μηχανισμοί της μηχανικής μάθησης παραμένουν μυστήριο για τους περισσότερους ανθρώπους. Για έναν αρχάριο στη μηχανική μάθηση, το θέμα μπορεί μερικές φορές να φαίνεται συντριπτικό. Επομένως, είναι σημαντικό να κατανοήσουμε τι είναι πραγματικά η μηχανική μάθηση και να τη μάθουμε βήμα προς βήμα, μέσα από πρακτικά παραδείγματα. +Ο όρος «μηχανική μάθηση» είναι ένας από τους πιο δημοφιλείς και συχνά χρησιμοποιούμενους όρους σήμερα. Υπάρχει σημαντική πιθανότητα να έχετε ακούσει αυτόν τον όρο τουλάχιστον μία φορά αν έχετε κάποια εξοικείωση με την τεχνολογία, ανεξάρτητα από τον τομέα στον οποίο εργάζεστε. Ωστόσο, οι μηχανισμοί της μηχανικής μάθησης είναι άγνωστοι στους περισσότερους ανθρώπους. Για έναν αρχάριο στη μηχανική μάθηση, το θέμα μπορεί μερικές φορές να φαίνεται συντριπτικό. Επομένως, είναι σημαντικό να κατανοήσουμε τι ακριβώς είναι η μηχανική μάθηση και να μάθουμε βήμα-βήμα, μέσα από πρακτικά παραδείγματα. --- -## Η καμπύλη υπερβολής +## Η καμπύλη της υπερβολής -![ml hype curve](../../../../1-Introduction/1-intro-to-ML/images/hype.png) +![ml hype curve](../../../../translated_images/el/hype.07183d711a17aafe.webp) -> Το Google Trends δείχνει την πρόσφατη 'καμπύλη υπερβολής' του όρου 'μηχανική μάθηση' +> Το Google Trends δείχνει την πρόσφατη «καμπύλη υπερβολής» του όρου «μηχανική μάθηση» --- ## Ένα μυστηριώδες σύμπαν -Ζούμε σε ένα σύμπαν γεμάτο συναρπαστικά μυστήρια. Μεγάλοι επιστήμονες όπως ο Stephen Hawking, ο Albert Einstein και πολλοί άλλοι έχουν αφιερώσει τη ζωή τους στην αναζήτηση σημαντικών πληροφοριών που αποκαλύπτουν τα μυστήρια του κόσμου γύρω μας. Αυτή είναι η ανθρώπινη κατάσταση της μάθησης: ένα παιδί μαθαίνει νέα πράγματα και αποκαλύπτει τη δομή του κόσμου του χρόνο με τον χρόνο καθώς μεγαλώνει. +Ζούμε σε ένα σύμπαν γεμάτο συναρπαστικά μυστήρια. Μεγάλοι επιστήμονες όπως ο Stephen Hawking, ο Albert Einstein και πολλοί άλλοι αφιέρωσαν τη ζωή τους στην αναζήτηση ουσιωδών πληροφοριών που αποκαλύπτουν τα μυστήρια του κόσμου γύρω μας. Αυτή είναι η ανθρώπινη φύση της μάθησης: ένα ανθρώπινο παιδί μαθαίνει νέα πράγματα και αποκαλύπτει τη δομή του κόσμου του χρόνο με τον χρόνο καθώς μεγαλώνει και φτάνει στην ενηλικίωση. --- ## Ο εγκέφαλος του παιδιού -Ο εγκέφαλος και οι αισθήσεις ενός παιδιού αντιλαμβάνονται τα γεγονότα του περιβάλλοντός τους και σταδιακά μαθαίνουν τα κρυμμένα μοτίβα της ζωής που βοηθούν το παιδί να δημιουργήσει λογικούς κανόνες για να αναγνωρίσει τα μοτίβα που έχει μάθει. Η διαδικασία μάθησης του ανθρώπινου εγκεφάλου κάνει τους ανθρώπους το πιο εξελιγμένο ζωντανό πλάσμα αυτού του κόσμου. Η συνεχής μάθηση μέσω της ανακάλυψης κρυμμένων μοτίβων και στη συνέχεια η καινοτομία πάνω σε αυτά τα μοτίβα μας επιτρέπει να γινόμαστε καλύτεροι καθ' όλη τη διάρκεια της ζωής μας. Αυτή η ικανότητα μάθησης και εξέλιξης σχετίζεται με μια έννοια που ονομάζεται [πλαστικότητα του εγκεφάλου](https://www.simplypsychology.org/brain-plasticity.html). Επιφανειακά, μπορούμε να βρούμε κάποιες παρακινητικές ομοιότητες μεταξύ της διαδικασίας μάθησης του ανθρώπινου εγκεφάλου και των εννοιών της μηχανικής μάθησης. +Ο εγκέφαλος και οι αισθήσεις ενός παιδιού αντιλαμβάνονται τα γεγονότα του περιβάλλοντος και σταδιακά μαθαίνουν τα κρυφά πρότυπα της ζωής, τα οποία βοηθούν το παιδί να διαμορφώσει λογικούς κανόνες για να αναγνωρίζει τα μαθεμένα πρότυπα. Η διαδικασία μάθησης του ανθρώπινου εγκεφάλου κάνει τον άνθρωπο το πιο εξελιγμένο έμβιο όν αυτού του κόσμου. Η συνεχής μάθηση μέσω της ανακάλυψης κρυφών προτύπων και η καινοτομία πάνω σε αυτά τα πρότυπα μας επιτρέπει να γινόμαστε όλο και καλύτεροι καθ’ όλη τη διάρκεια της ζωής μας. Αυτή η ικανότητα μάθησης και εξελισσόμενης δυνατότητας σχετίζεται με μια έννοια που ονομάζεται [πλαστικότητα του εγκεφάλου](https://www.simplypsychology.org/brain-plasticity.html). Επιφανειακά, μπορούμε να αντλήσουμε κάποιες παραλληλίες για κίνητρο μεταξύ της διαδικασίας μάθησης του ανθρώπινου εγκεφάλου και των εννοιών της μηχανικής μάθησης. --- ## Ο ανθρώπινος εγκέφαλος -Ο [ανθρώπινος εγκέφαλος](https://www.livescience.com/29365-human-brain.html) αντιλαμβάνεται πράγματα από τον πραγματικό κόσμο, επεξεργάζεται τις πληροφορίες που αντιλαμβάνεται, λαμβάνει λογικές αποφάσεις και εκτελεί συγκεκριμένες ενέργειες βάσει των περιστάσεων. Αυτό είναι που ονομάζουμε έξυπνη συμπεριφορά. Όταν προγραμματίζουμε μια απομίμηση της διαδικασίας έξυπνης συμπεριφοράς σε μια μηχανή, αυτό ονομάζεται τεχνητή νοημοσύνη (AI). +Ο [ανθρώπινος εγκέφαλος](https://www.livescience.com/29365-human-brain.html) αντιλαμβάνεται πράγματα από τον πραγματικό κόσμο, επεξεργάζεται τις αντιληφθείσες πληροφορίες, παίρνει ορθολογικές αποφάσεις και εκτελεί ορισμένες ενέργειες με βάση τις συνθήκες. Αυτό ονομάζουμε συμπεριφορά με νοημοσύνη. Όταν προγραμματίζουμε μία εκδοχή αυτής της διαδικασίας νοητικής συμπεριφοράς σε μια μηχανή, το ονομάζουμε τεχνητή νοημοσύνη (AI). --- -## Κάποια ορολογία +## Λίγη ορολογία -Παρόλο που οι όροι μπορεί να προκαλούν σύγχυση, η μηχανική μάθηση (ML) είναι ένα σημαντικό υποσύνολο της τεχνητής νοημοσύνης. **Η ML ασχολείται με τη χρήση εξειδικευμένων αλγορίθμων για την ανακάλυψη σημαντικών πληροφοριών και την εύρεση κρυμμένων μοτίβων από δεδομένα που έχουν αντιληφθεί, ώστε να υποστηρίξει τη διαδικασία λήψης λογικών αποφάσεων**. +Παρόλο που οι όροι μπορούν να συγχέονται, η μηχανική μάθηση (ML) είναι ένα σημαντικό υποσύνολο της τεχνητής νοημοσύνης. **Η ML ασχολείται με τη χρήση εξειδικευμένων αλγορίθμων για την ανεύρεση ουσιωδών πληροφοριών και την εύρεση κρυφών προτύπων από αντιληπτά δεδομένα ώστε να υποστηρίξει τη λογική διαδικασία λήψης αποφάσεων**. --- ## AI, ML, Βαθιά Μάθηση -![AI, ML, deep learning, data science](../../../../1-Introduction/1-intro-to-ML/images/ai-ml-ds.png) +![AI, ML, deep learning, data science](../../../../translated_images/el/ai-ml-ds.537ea441b124ebf6.webp) -> Ένα διάγραμμα που δείχνει τις σχέσεις μεταξύ AI, ML, βαθιάς μάθησης και επιστήμης δεδομένων. Infographic από την [Jen Looper](https://twitter.com/jenlooper) εμπνευσμένο από [αυτό το γραφικό](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) +> Διάγραμμα που δείχνει τις σχέσεις μεταξύ AI, ML, βαθιάς μάθησης και επιστήμης δεδομένων. Γραφικό από [Jen Looper](https://twitter.com/jenlooper) εμπνευσμένο από [αυτό το γραφικό](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) --- -## Έννοιες που θα καλύψουμε +## Έννοιες που θα καλυφθούν -Σε αυτό το πρόγραμμα σπουδών, θα καλύψουμε μόνο τις βασικές έννοιες της μηχανικής μάθησης που πρέπει να γνωρίζει ένας αρχάριος. Καλύπτουμε αυτό που ονομάζουμε 'κλασική μηχανική μάθηση', χρησιμοποιώντας κυρίως το Scikit-learn, μια εξαιρετική βιβλιοθήκη που πολλοί μαθητές χρησιμοποιούν για να μάθουν τα βασικά. Για να κατανοήσετε ευρύτερες έννοιες της τεχνητής νοημοσύνης ή της βαθιάς μάθησης, είναι απαραίτητη μια ισχυρή θεμελιώδης γνώση της μηχανικής μάθησης, την οποία θέλουμε να προσφέρουμε εδώ. +Σε αυτό το πρόγραμμα σπουδών θα καλύψουμε μόνο τις βασικές έννοιες της μηχανικής μάθησης που πρέπει να γνωρίζει ένας αρχάριος. Καλύπτουμε αυτό που ονομάζουμε «κλασική μηχανική μάθηση», κυρίως χρησιμοποιώντας το Scikit-learn, μια εξαιρετική βιβλιοθήκη που πολλοί φοιτητές χρησιμοποιούν για να μάθουν τα βασικά. Για να κατανοήσει κανείς ευρύτερες έννοιες της τεχνητής νοημοσύνης ή της βαθιάς μάθησης, μια ισχυρή θεμελιώδης γνώση της μηχανικής μάθησης είναι απαραίτητη, και γι’ αυτό θέλουμε να την προσφέρουμε εδώ. --- ## Σε αυτό το μάθημα θα μάθετε: @@ -75,13 +75,13 @@ - βασικές έννοιες της μηχανικής μάθησης - την ιστορία της ML - ML και δικαιοσύνη -- τεχνικές ML παλινδρόμησης -- τεχνικές ML ταξινόμησης -- τεχνικές ML ομαδοποίησης -- τεχνικές ML επεξεργασίας φυσικής γλώσσας -- τεχνικές ML πρόβλεψης χρονοσειρών +- τεχνικές παλινδρόμησης ML +- τεχνικές ταξινόμησης ML +- τεχνικές ομαδοποίησης ML +- τεχνικές επεξεργασίας φυσικής γλώσσας ML +- τεχνικές πρόβλεψης χρονοσειρών ML - ενισχυτική μάθηση -- εφαρμογές της ML στον πραγματικό κόσμο +- εφαρμογές πραγματικού κόσμου για ML --- ## Τι δεν θα καλύψουμε @@ -90,61 +90,68 @@ - νευρωνικά δίκτυα - AI -Για να προσφέρουμε μια καλύτερη εμπειρία μάθησης, θα αποφύγουμε τις πολυπλοκότητες των νευρωνικών δικτύων, της 'βαθιάς μάθησης' - της δημιουργίας μοντέλων με πολλά επίπεδα χρησιμοποιώντας νευρωνικά δίκτυα - και της AI, την οποία θα συζητήσουμε σε ένα διαφορετικό πρόγραμμα σπουδών. Θα προσφέρουμε επίσης ένα επερχόμενο πρόγραμμα σπουδών για την επιστήμη δεδομένων για να επικεντρωθούμε σε αυτήν την πτυχή αυτού του ευρύτερου πεδίου. +Για μια καλύτερη μαθησιακή εμπειρία, θα αποφύγουμε τις πολυπλοκότητες των νευρωνικών δικτύων, της «βαθιάς μάθησης» – πολλαπλών επιπέδων μοντελοποίησης με νευρωνικά δίκτυα – και της AI, την οποία θα εξετάσουμε σε διαφορετικό πρόγραμμα σπουδών. Επίσης θα προσφέρουμε στον μέλλον ένα πρόγραμμα για την επιστήμη δεδομένων που θα εστιάσει σε αυτόν τον τομέα. --- ## Γιατί να μελετήσετε μηχανική μάθηση; -Η μηχανική μάθηση, από την οπτική των συστημάτων, ορίζεται ως η δημιουργία αυτοματοποιημένων συστημάτων που μπορούν να μάθουν κρυμμένα μοτίβα από δεδομένα για να βοηθήσουν στη λήψη έξυπνων αποφάσεων. +Η μηχανική μάθηση, από την οπτική συστημάτων, ορίζεται ως η δημιουργία αυτοματοποιημένων συστημάτων που μπορούν να μάθουν κρυφά πρότυπα από δεδομένα για να βοηθήσουν στη λήψη ευφυών αποφάσεων. -Αυτή η κίνητρο είναι χαλαρά εμπνευσμένο από το πώς ο ανθρώπινος εγκέφαλος μαθαίνει ορισμένα πράγματα βάσει των δεδομένων που αντιλαμβάνεται από τον έξω κόσμο. +Αυτή η ώθηση εμπνέεται χαλαρά από το πώς ο ανθρώπινος εγκέφαλος μαθαίνει ορισμένα πράγματα βάσει των δεδομένων που αντιλαμβάνεται από τον εξωτερικό κόσμο. -✅ Σκεφτείτε για ένα λεπτό γιατί μια επιχείρηση θα ήθελε να χρησιμοποιήσει στρατηγικές μηχανικής μάθησης αντί να δημιουργήσει μια μηχανή βασισμένη σε σκληρούς κανόνες. +✅ Σκεφτείτε για ένα λεπτό γιατί μια επιχείρηση θα ήθελε να χρησιμοποιήσει στρατηγικές μηχανικής μάθησης αντί να δημιουργήσει μια μηχανή βασισμένη σε αυστηρούς κανόνες. + +--- +## Γιατί έχει σημασία η ποιότητα των δεδομένων + +Τα δεδομένα υψηλής ποιότητας βελτιώνουν την απόδοση του μοντέλου. Κακά ή θορυβώδη δεδομένα μπορούν να οδηγήσουν σε ανακριβείς προβλέψεις, ακόμα και με τη χρήση προηγμένων αλγορίθμων μηχανικής μάθησης. --- ## Εφαρμογές της μηχανικής μάθησης -Οι εφαρμογές της μηχανικής μάθησης είναι πλέον σχεδόν παντού και είναι τόσο διαδεδομένες όσο τα δεδομένα που ρέουν γύρω από τις κοινωνίες μας, που παράγονται από τα έξυπνα τηλέφωνα, τις συνδεδεμένες συσκευές και άλλα συστήματα. Λαμβάνοντας υπόψη το τεράστιο δυναμικό των προηγμένων αλγορίθμων μηχανικής μάθησης, οι ερευνητές εξερευνούν την ικανότητά τους να λύνουν πολυδιάστατα και πολυεπιστημονικά προβλήματα της πραγματικής ζωής με εξαιρετικά θετικά αποτελέσματα. +Οι εφαρμογές της μηχανικής μάθησης είναι πλέον σχεδόν παντού, τόσο διαδεδομένες όσο τα δεδομένα που ρέουν στην κοινωνία μας, που παράγονται από τα έξυπνα τηλέφωνά μας, τις συνδεδεμένες συσκευές και άλλα συστήματα. Λαμβάνοντας υπόψη το τεράστιο δυναμικό των σύγχρονων αλγορίθμων μηχανικής μάθησης, οι ερευνητές εξερευνούν τις δυνατότητές τους να λύσουν πολυδιάστατα και διεπιστημονικά προβλήματα της πραγματικής ζωής με θετικά αποτελέσματα. --- -## Παραδείγματα εφαρμοσμένης ML +## Παραδείγματα εφαρμογής ML **Μπορείτε να χρησιμοποιήσετε τη μηχανική μάθηση με πολλούς τρόπους**: -- Για να προβλέψετε την πιθανότητα ασθένειας από το ιατρικό ιστορικό ή τις αναφορές ενός ασθενούς. -- Για να αξιοποιήσετε δεδομένα καιρού για να προβλέψετε καιρικά φαινόμενα. -- Για να κατανοήσετε το συναίσθημα ενός κειμένου. -- Για να εντοπίσετε ψευδείς ειδήσεις και να σταματήσετε τη διάδοση προπαγάνδας. +- Να προβλέψετε την πιθανότητα ασθένειας από το ιατρικό ιστορικό ή τις αναφορές ενός ασθενούς. +- Να χρησιμοποιήσετε δεδομένα καιρού για να προβλέψετε καιρικά φαινόμενα. +- Να κατανοήσετε τη συναισθηματική φόρτιση ενός κειμένου. +- Να ανιχνεύσετε ψευδείς ειδήσεις για να σταματήσετε τη διάδοση προπαγάνδας. -Η χρηματοοικονομική, η οικονομία, η επιστήμη της γης, η εξερεύνηση του διαστήματος, η βιοϊατρική μηχανική, η γνωστική επιστήμη και ακόμη και τομείς στις ανθρωπιστικές επιστήμες έχουν προσαρμόσει τη μηχανική μάθηση για να λύσουν τα δύσκολα προβλήματα επεξεργασίας δεδομένων του τομέα τους. +Οι χρηματοοικονομικοί τομείς, η οικονομία, η γεωεπιστήμη, η εξερεύνηση του διαστήματος, η βιοϊατρική μηχανική, οι γνωστικές επιστήμες και ακόμη και οι ανθρωπιστικές επιστήμες έχουν υιοθετήσει τη μηχανική μάθηση για να λύσουν τα δύσκολα, βαριά στην επεξεργασία των δεδομένων, προβλήματα του τομέα τους. --- ## Συμπέρασμα -Η μηχανική μάθηση αυτοματοποιεί τη διαδικασία ανακάλυψης μοτίβων βρίσκοντας σημαντικές πληροφορίες από δεδομένα του πραγματικού κόσμου ή δεδομένα που έχουν δημιουργηθεί. Έχει αποδειχθεί εξαιρετικά πολύτιμη σε επιχειρηματικές, υγειονομικές και χρηματοοικονομικές εφαρμογές, μεταξύ άλλων. +Η μηχανική μάθηση αυτοματοποιεί τη διαδικασία ανακάλυψης προτύπων βρίσκοντας ουσιώδη στοιχεία από δεδομένα του πραγματικού κόσμου ή παραγόμενα δεδομένα. Έχει αποδειχτεί πολύτιμη σε επιχειρήσεις, την υγεία και τις χρηματοοικονομικές εφαρμογές, μεταξύ άλλων. -Στο εγγύς μέλλον, η κατανόηση των βασικών της μηχανικής μάθησης θα είναι απαραίτητη για ανθρώπους από οποιονδήποτε τομέα λόγω της ευρείας υιοθέτησής της. +Στο κοντινό μέλλον, η κατανόηση των βασικών της μηχανικής μάθησης θα γίνει απαραίτητη για ανθρώπους από κάθε τομέα λόγω της ευρείας υιοθέτησής της. --- # 🚀 Πρόκληση -Σχεδιάστε, σε χαρτί ή χρησιμοποιώντας μια online εφαρμογή όπως το [Excalidraw](https://excalidraw.com/), την κατανόησή σας για τις διαφορές μεταξύ AI, ML, βαθιάς μάθησης και επιστήμης δεδομένων. Προσθέστε κάποιες ιδέες για προβλήματα που είναι καλές αυτές οι τεχνικές να λύσουν. +Σχεδιάστε, σε χαρτί ή χρησιμοποιώντας μια διαδικτυακή εφαρμογή όπως το [Excalidraw](https://excalidraw.com/), την κατανόησή σας για τις διαφορές μεταξύ AI, ML, βαθιάς μάθησης και επιστήμης δεδομένων. Προσθέστε μερικές ιδέες για τα προβλήματα που καλείται καλό να λύσει η κάθε τεχνική. -# [Μετά-διάλεξη κουίζ](https://ff-quizzes.netlify.app/en/ml/) +# [Μετα-διάλεξη κουίζ](https://ff-quizzes.netlify.app/en/ml/) --- -# Ανασκόπηση & Αυτομελέτη +# Επανεξέταση & Αυτοδιδασκαλία -Για να μάθετε περισσότερα σχετικά με το πώς μπορείτε να εργαστείτε με αλγορίθμους ML στο cloud, ακολουθήστε αυτό το [Learning Path](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott). +Για να μάθετε περισσότερα για το πώς μπορείτε να εργαστείτε με αλγορίθμους ML στο σύννεφο, ακολουθήστε αυτή τη [διαδρομή εκμάθησης](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott). -Ακολουθήστε ένα [Learning Path](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) σχετικά με τα βασικά της ML. +Παρακολουθήστε μια [διαδρομή εκμάθησης](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) για τα βασικά της ML. --- -# Εργασία +# Άσκηση -[Ξεκινήστε](assignment.md) +[Ξεκινήστε και τρέξτε](assignment.md) --- -**Αποποίηση ευθύνης**: -Αυτό το έγγραφο έχει μεταφραστεί χρησιμοποιώντας την υπηρεσία αυτόματης μετάφρασης [Co-op Translator](https://github.com/Azure/co-op-translator). Παρόλο που καταβάλλουμε προσπάθειες για ακρίβεια, παρακαλούμε να έχετε υπόψη ότι οι αυτοματοποιημένες μεταφράσεις ενδέχεται να περιέχουν λάθη ή ανακρίβειες. Το πρωτότυπο έγγραφο στη μητρική του γλώσσα θα πρέπει να θεωρείται η αυθεντική πηγή. Για κρίσιμες πληροφορίες, συνιστάται επαγγελματική ανθρώπινη μετάφραση. Δεν φέρουμε ευθύνη για τυχόν παρεξηγήσεις ή εσφαλμένες ερμηνείες που προκύπτουν από τη χρήση αυτής της μετάφρασης. \ No newline at end of file + +**Αποποίηση ευθυνών**: +Αυτό το έγγραφο έχει μεταφραστεί χρησιμοποιώντας την υπηρεσία μετάφρασης με τεχνητή νοημοσύνη [Co-op Translator](https://github.com/Azure/co-op-translator). Ενώ επιδιώκουμε την ακρίβεια, παρακαλούμε να έχετε υπόψη ότι οι αυτοματοποιημένες μεταφράσεις ενδέχεται να περιέχουν λάθη ή ανακρίβειες. Το πρωτότυπο έγγραφο στη μητρική του γλώσσα πρέπει να θεωρείται η αυθεντική πηγή. Για κρίσιμες πληροφορίες, συνιστάται επαγγελματική ανθρώπινη μετάφραση. Δεν φέρουμε ευθύνη για τυχόν παρεξηγήσεις ή λανθασμένες ερμηνείες που προκύπτουν από τη χρήση αυτής της μετάφρασης. + \ No newline at end of file diff --git a/translations/el/5-Clustering/1-Visualize/README.md b/translations/el/5-Clustering/1-Visualize/README.md index 060571808..1a46e70e3 100644 --- a/translations/el/5-Clustering/1-Visualize/README.md +++ b/translations/el/5-Clustering/1-Visualize/README.md @@ -1,117 +1,142 @@ # Εισαγωγή στην ομαδοποίηση -Η ομαδοποίηση είναι ένας τύπος [Μη Εποπτευόμενης Μάθησης](https://wikipedia.org/wiki/Unsupervised_learning) που υποθέτει ότι ένα σύνολο δεδομένων είναι μη επισημασμένο ή ότι οι είσοδοι του δεν αντιστοιχούν σε προκαθορισμένες εξόδους. Χρησιμοποιεί διάφορους αλγόριθμους για να ταξινομήσει μη επισημασμένα δεδομένα και να παρέχει ομάδες σύμφωνα με τα μοτίβα που εντοπίζει στα δεδομένα. +Η ομαδοποίηση είναι ένας τύπος [Ανεπίβλεπτου Μάθησης](https://wikipedia.org/wiki/Unsupervised_learning) που προϋποθέτει ότι ένα σύνολο δεδομένων δεν έχει ετικέτες ή ότι οι είσοδοί του δεν αντιστοιχούν σε προκαθορισμένες εξόδους. Χρησιμοποιεί διάφορους αλγόριθμους για να ταξινομήσει τα μη επισημασμένα δεδομένα και να παρέχει ομαδοποιήσεις σύμφωνα με τα μοτίβα που διακρίνει στα δεδομένα. [![No One Like You by PSquare](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "No One Like You by PSquare") -> 🎥 Κάντε κλικ στην εικόνα παραπάνω για ένα βίντεο. Ενώ μελετάτε τη μηχανική μάθηση με την ομαδοποίηση, απολαύστε μερικά κομμάτια Nigerian Dance Hall - αυτό είναι ένα πολύ δημοφιλές τραγούδι από το 2014 από τους PSquare. +> 🎥 Κάντε κλικ στην εικόνα παραπάνω για ένα βίντεο. Ενώ μελετάτε μηχανική μάθηση με ομαδοποίηση, απολαύστε μερικά τραγούδια από Nigerian Dance Hall - αυτό είναι ένα ιδιαίτερα αξιολογημένο τραγούδι του 2014 από τους PSquare. -## [Κουίζ πριν το μάθημα](https://ff-quizzes.netlify.app/en/ml/) +## [Κουίζ πριν την διάλεξη](https://ff-quizzes.netlify.app/en/ml/) ### Εισαγωγή -Η [ομαδοποίηση](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) είναι πολύ χρήσιμη για την εξερεύνηση δεδομένων. Ας δούμε αν μπορεί να βοηθήσει στην ανακάλυψη τάσεων και μοτίβων στον τρόπο που το κοινό της Νιγηρίας καταναλώνει μουσική. +Η [ομαδοποίηση](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) είναι πολύ χρήσιμη για την εξερεύνηση δεδομένων. Ας δούμε αν μπορεί να βοηθήσει στην ανάδειξη τάσεων και μοτίβων στον τρόπο που τα νιγηριανά ακροατήρια καταναλώνουν μουσική. -✅ Σκεφτείτε για ένα λεπτό τις χρήσεις της ομαδοποίησης. Στην καθημερινή ζωή, η ομαδοποίηση συμβαίνει κάθε φορά που έχετε έναν σωρό από ρούχα και πρέπει να ταξινομήσετε τα ρούχα των μελών της οικογένειάς σας 🧦👕👖🩲. Στην επιστήμη δεδομένων, η ομαδοποίηση συμβαίνει όταν προσπαθείτε να αναλύσετε τις προτιμήσεις ενός χρήστη ή να προσδιορίσετε τα χαρακτηριστικά οποιουδήποτε μη επισημασμένου συνόλου δεδομένων. Η ομαδοποίηση, με έναν τρόπο, βοηθά να βάλουμε τάξη στο χάος, όπως ένα συρτάρι με κάλτσες. +✅ Σκεφτείτε για ένα λεπτό τις χρήσεις της ομαδοποίησης. Στην πραγματική ζωή, η ομαδοποίηση συμβαίνει κάθε φορά που έχετε ένα σωρό άπλυτα και πρέπει να διαχωρίσετε τα ρούχα των μελών της οικογένειάς σας 🧦👕👖🩲. Στη επιστήμη δεδομένων, η ομαδοποίηση συμβαίνει όταν προσπαθείτε να αναλύσετε τις προτιμήσεις ενός χρήστη ή να προσδιορίσετε τα χαρακτηριστικά οποιουδήποτε μη επισημασμένου συνόλου δεδομένων. Η ομαδοποίηση, με κάποιο τρόπο, βοηθά να φέρει τάξη στο χάος, όπως ένα συρτάρι με κάλτσες. [![Introduction to ML](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "Introduction to Clustering") -> 🎥 Κάντε κλικ στην εικόνα παραπάνω για ένα βίντεο: Ο John Guttag από το MIT παρουσιάζει την ομαδοποίηση. +> 🎥 Κάντε κλικ στην εικόνα παραπάνω για ένα βίντεο: Ο John Guttag του MIT παρουσιάζει την ομαδοποίηση -Σε επαγγελματικό περιβάλλον, η ομαδοποίηση μπορεί να χρησιμοποιηθεί για τον καθορισμό πραγμάτων όπως η τμηματοποίηση της αγοράς, για παράδειγμα, για να προσδιοριστεί ποιες ηλικιακές ομάδες αγοράζουν ποια προϊόντα. Μια άλλη χρήση θα μπορούσε να είναι η ανίχνευση ανωμαλιών, ίσως για την ανίχνευση απάτης από ένα σύνολο δεδομένων συναλλαγών πιστωτικών καρτών. Ή μπορεί να χρησιμοποιήσετε την ομαδοποίηση για να προσδιορίσετε όγκους σε μια παρτίδα ιατρικών σαρώσεων. +Σε ένα επαγγελματικό περιβάλλον, η ομαδοποίηση μπορεί να χρησιμοποιηθεί για να καθορίσει πράγματα όπως το τμηματοποίηση της αγοράς, προσδιορίζοντας ποιες ηλικιακές ομάδες αγοράζουν ποια είδη, για παράδειγμα. Μια άλλη χρήση είναι ο εντοπισμός ανωμαλιών, πιθανόν για ανίχνευση απάτης από ένα σύνολο δεδομένων συναλλαγών με πιστωτικές κάρτες. Ή μπορεί να χρησιμοποιήσετε την ομαδοποίηση για να προσδιορίσετε όγκους σε μια παρτίδα ιατρικών σαρώσεων. -✅ Σκεφτείτε για ένα λεπτό πώς μπορεί να έχετε συναντήσει την ομαδοποίηση 'στην πράξη', σε τραπεζικό, ηλεκτρονικό εμπόριο ή επιχειρηματικό περιβάλλον. +✅ Σκεφτείτε για ένα λεπτό πώς μπορεί να έχετε συναντήσει την ομαδοποίηση «στη φύση», σε τραπεζικό, ηλεκτρονικό εμπόριο ή επιχειρηματικό περιβάλλον. -> 🎓 Ενδιαφέρον είναι ότι η ανάλυση ομαδοποίησης ξεκίνησε στους τομείς της Ανθρωπολογίας και της Ψυχολογίας τη δεκαετία του 1930. Μπορείτε να φανταστείτε πώς μπορεί να έχει χρησιμοποιηθεί; +> 🎓 Ενδιαφέρον, η ανάλυση ομαδοποίησης προήλθε από τους τομείς της Ανθρωπολογίας και της Ψυχολογίας τη δεκαετία του 1930. Μπορείτε να φανταστείτε πώς μπορεί να είχε χρησιμοποιηθεί; -Εναλλακτικά, θα μπορούσατε να τη χρησιμοποιήσετε για την ομαδοποίηση αποτελεσμάτων αναζήτησης - για παράδειγμα, ανάμεσα σε συνδέσμους αγορών, εικόνες ή κριτικές. Η ομαδοποίηση είναι χρήσιμη όταν έχετε ένα μεγάλο σύνολο δεδομένων που θέλετε να μειώσετε και στο οποίο θέλετε να πραγματοποιήσετε πιο λεπτομερή ανάλυση, ώστε η τεχνική να μπορεί να χρησιμοποιηθεί για να μάθετε περισσότερα για τα δεδομένα πριν κατασκευαστούν άλλα μοντέλα. +Εναλλακτικά, θα μπορούσατε να τη χρησιμοποιήσετε για ομαδοποίηση αποτελεσμάτων αναζήτησης - για συνδέσμους αγορών, εικόνες ή κριτικές, για παράδειγμα. Η ομαδοποίηση είναι χρήσιμη όταν έχετε ένα μεγάλο σύνολο δεδομένων που θέλετε να μειώσετε και στο οποίο θέλετε να εκτελέσετε πιο λεπτομερή ανάλυση, επομένως η τεχνική μπορεί να χρησιμοποιηθεί για να μάθετε για τα δεδομένα πριν κατασκευαστούν άλλα μοντέλα. -✅ Μόλις τα δεδομένα σας οργανωθούν σε ομάδες, τους αναθέτετε ένα Id ομάδας, και αυτή η τεχνική μπορεί να είναι χρήσιμη για τη διατήρηση της ιδιωτικότητας ενός συνόλου δεδομένων. Μπορείτε να αναφέρεστε σε ένα σημείο δεδομένων με το Id της ομάδας του, αντί για πιο αποκαλυπτικά αναγνωρίσιμα δεδομένα. Μπορείτε να σκεφτείτε άλλους λόγους για τους οποίους θα αναφερόσασταν σε ένα Id ομάδας αντί για άλλα στοιχεία της ομάδας για να το αναγνωρίσετε; +✅ Μόλις τα δεδομένα σας οργανωθούν σε ομάδες, τους αναθέτετε ένα αναγνωριστικό ομάδας (cluster Id), και αυτή η τεχνική μπορεί να είναι χρήσιμη για τη διατήρηση της ιδιωτικότητας ενός συνόλου δεδομένων· μπορείτε αντί να αναφέρεστε σε ένα σημείο δεδομένων με βάση το αναγνωριστικό του, αντί για πιο αποκαλυπτικά αναγνωρίσιμα στοιχεία. Μπορείτε να σκεφτείτε άλλους λόγους για τους οποίους θα αναφερόσασταν σε ένα αναγνωριστικό ομάδας παρά σε άλλα στοιχεία της ομάδας για να την ταυτοποιήσετε; -Εμβαθύνετε την κατανόησή σας για τις τεχνικές ομαδοποίησης σε αυτήν την [ενότητα εκμάθησης](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott). +Εμβαθύνετε την κατανόηση των τεχνικών ομαδοποίησης σε αυτή τη [Μονάδα Μάθησης](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) ## Ξεκινώντας με την ομαδοποίηση -[Το Scikit-learn προσφέρει μια μεγάλη ποικιλία](https://scikit-learn.org/stable/modules/clustering.html) μεθόδων για την εκτέλεση ομαδοποίησης. Ο τύπος που θα επιλέξετε θα εξαρτηθεί από την περίπτωση χρήσης σας. Σύμφωνα με την τεκμηρίωση, κάθε μέθοδος έχει διάφορα πλεονεκτήματα. Ακολουθεί ένας απλοποιημένος πίνακας των μεθόδων που υποστηρίζονται από το Scikit-learn και οι κατάλληλες περιπτώσεις χρήσης τους: - -| Όνομα μεθόδου | Περίπτωση χρήσης | -| :--------------------------- | :------------------------------------------------------------------ | -| K-Means | γενική χρήση, επαγωγική | -| Affinity propagation | πολλές, άνισες ομάδες, επαγωγική | -| Mean-shift | πολλές, άνισες ομάδες, επαγωγική | -| Spectral clustering | λίγες, ίσες ομάδες, μεταγωγική | -| Ward hierarchical clustering | πολλές, περιορισμένες ομάδες, μεταγωγική | -| Agglomerative clustering | πολλές, περιορισμένες, μη Ευκλείδειες αποστάσεις, μεταγωγική | -| DBSCAN | μη επίπεδη γεωμετρία, άνισες ομάδες, μεταγωγική | -| OPTICS | μη επίπεδη γεωμετρία, άνισες ομάδες με μεταβλητή πυκνότητα, μεταγωγική | -| Gaussian mixtures | επίπεδη γεωμετρία, επαγωγική | -| BIRCH | μεγάλο σύνολο δεδομένων με εξαιρέσεις, επαγωγική | - -> 🎓 Ο τρόπος με τον οποίο δημιουργούμε ομάδες έχει να κάνει πολύ με το πώς συγκεντρώνουμε τα σημεία δεδομένων σε ομάδες. Ας αναλύσουμε μερικές έννοιες: -> -> 🎓 ['Μεταγωγική' vs. 'Επαγωγική'](https://wikipedia.org/wiki/Transduction_(machine_learning)) +[Το Scikit-learn προσφέρει ένα μεγάλο φάσμα](https://scikit-learn.org/stable/modules/clustering.html) μεθόδων για την εκτέλεση ομαδοποίησης. Ο τύπος που θα επιλέξετε εξαρτάται από τη χρήση σας. Σύμφωνα με την τεκμηρίωση, κάθε μέθοδος έχει διάφορα πλεονεκτήματα. Εδώ είναι ένας απλοποιημένος πίνακας των μεθόδων που υποστηρίζονται από το Scikit-learn και των κατάλληλων περιπτώσεων χρήσης τους: + +| Όνομα μεθόδου | Περίπτωση χρήσης | +| :------------------------- | :----------------------------------------------------------------- | +| K-Means | γενικής χρήσης, επαγωγική | +| Affinity propagation | πολλές, ανισομερείς ομάδες, επαγωγική | +| Mean-shift | πολλές, ανισομερείς ομάδες, επαγωγική | +| Spectral clustering | λίγες, ομοιόμορφες ομάδες, μεταγωγική | +| Ward hierarchical clustering | πολλές, περιορισμένες ομάδες, μεταγωγική | +| Agglomerative clustering | πολλές, περιορισμένες, μη Ευκλείδειες αποστάσεις, μεταγωγική | +| DBSCAN | μη επίπεδη γεωμετρία, ανισομερείς ομάδες, μεταγωγική | +| OPTICS | μη επίπεδη γεωμετρία, ανισομερείς ομάδες με μεταβλητή πυκνότητα, μεταγωγική | +| Gaussian mixtures | επίπεδη γεωμετρία, επαγωγική | +| BIRCH | μεγάλο σύνολο δεδομένων με εκτός ορίων, επαγωγική | + +> 🎓 Ο τρόπος που δημιουργούμε ομάδες έχει πολύ να κάνει με το πώς συγκεντρώνουμε τα σημεία δεδομένων σε ομάδες. Ας αναλύσουμε μερικό λεξιλόγιο: > -> Η μεταγωγική συμπερασματολογία προκύπτει από παρατηρούμενες περιπτώσεις εκπαίδευσης που αντιστοιχούν σε συγκεκριμένες περιπτώσεις δοκιμής. Η επαγωγική συμπερασματολογία προκύπτει από περιπτώσεις εκπαίδευσης που αντιστοιχούν σε γενικούς κανόνες, οι οποίοι στη συνέχεια εφαρμόζονται σε περιπτώσεις δοκιμής. +> 🎓 ['Μεταγωγική' έναντι 'επαγωγικής'](https://wikipedia.org/wiki/Transduction_(machine_learning)) > -> Ένα παράδειγμα: Φανταστείτε ότι έχετε ένα σύνολο δεδομένων που είναι μόνο εν μέρει επισημασμένο. Κάποια πράγματα είναι 'δίσκοι', κάποια 'cds', και κάποια είναι κενά. Η δουλειά σας είναι να παρέχετε ετικέτες για τα κενά. Αν επιλέξετε μια επαγωγική προσέγγιση, θα εκπαιδεύσετε ένα μοντέλο που αναζητά 'δίσκους' και 'cds', και θα εφαρμόσετε αυτές τις ετικέτες στα μη επισημασμένα δεδομένα σας. Αυτή η προσέγγιση θα δυσκολευτεί να ταξινομήσει πράγματα που είναι στην πραγματικότητα 'κασέτες'. Μια μεταγωγική προσέγγιση, από την άλλη πλευρά, χειρίζεται αυτά τα άγνωστα δεδομένα πιο αποτελεσματικά καθώς εργάζεται για να ομαδοποιήσει παρόμοια αντικείμενα μαζί και στη συνέχεια εφαρμόζει μια ετικέτα σε μια ομάδα. Σε αυτήν την περίπτωση, οι ομάδες μπορεί να αντικατοπτρίζουν 'στρογγυλά μουσικά αντικείμενα' και 'τετράγωνα μουσικά αντικείμενα'. +> Η μεταγωγική συμπερασματολογία προέρχεται από παρατηρούμενες περιπτώσεις εκπαίδευσης που αντιστοιχούν σε συγκεκριμένες περιπτώσεις δοκιμής. Η επαγωγική συμπερασματολογία προέρχεται από περιπτώσεις εκπαίδευσης που οδηγούν σε γενικούς κανόνες που εφαρμόζονται μόνο μετά σε περιπτώσεις δοκιμής. > -> 🎓 ['Μη επίπεδη' vs. 'Επίπεδη' γεωμετρία](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering) +> Ένα παράδειγμα: Φανταστείτε ότι έχετε ένα σύνολο δεδομένων που είναι μόνο εν μέρει επισημασμένο. Κάποια είναι 'δίσκοι', κάποια 'cds', και κάποια είναι κενά. Η δουλειά σας είναι να παρέχετε ετικέτες για τα κενά. Αν επιλέξετε επαγωγική προσέγγιση, θα εκπαιδεύσετε ένα μοντέλο που αναζητά 'δίσκους' και 'cds', και θα εφαρμόσετε αυτές τις ετικέτες στα μη επισημασμένα δεδομένα σας. Αυτή η προσέγγιση θα δυσκολευτεί να ταξινομήσει πράγματα που είναι στην πραγματικότητα 'κασέτες'. Αντίθετα, μια μεταγωγική προσέγγιση χειρίζεται αυτά τα άγνωστα δεδομένα πιο αποτελεσματικά καθώς προσπαθεί να ομαδοποιήσει παρόμοια αντικείμενα μαζί και μετά να εφαρμόσει μια ετικέτα σε μια ομάδα. Σε αυτή την περίπτωση, οι ομάδες μπορεί να αντικατοπτρίζουν 'στρογγυλά μουσικά πράγματα' και 'τετράγωνα μουσικά πράγματα'. > -> Προερχόμενη από τη μαθηματική ορολογία, η μη επίπεδη vs. επίπεδη γεωμετρία αναφέρεται στη μέτρηση των αποστάσεων μεταξύ σημείων είτε με 'επίπεδη' ([Ευκλείδεια](https://wikipedia.org/wiki/Euclidean_geometry)) είτε με 'μη επίπεδη' (μη Ευκλείδεια) γεωμετρικές μεθόδους. -> ->'Επίπεδη' σε αυτό το πλαίσιο αναφέρεται στην Ευκλείδεια γεωμετρία (μέρη της οποίας διδάσκονται ως 'επίπεδη' γεωμετρία), και μη επίπεδη αναφέρεται στη μη Ευκλείδεια γεωμετρία. Τι σχέση έχει η γεωμετρία με τη μηχανική μάθηση; Λοιπόν, ως δύο πεδία που βασίζονται στα μαθηματικά, πρέπει να υπάρχει ένας κοινός τρόπος μέτρησης των αποστάσεων μεταξύ σημείων σε ομάδες, και αυτό μπορεί να γίνει με 'επίπεδο' ή 'μη επίπεδο' τρόπο, ανάλογα με τη φύση των δεδομένων. [Ευκλείδειες αποστάσεις](https://wikipedia.org/wiki/Euclidean_distance) μετρώνται ως το μήκος ενός τμήματος γραμμής μεταξύ δύο σημείων. [Μη Ευκλείδειες αποστάσεις](https://wikipedia.org/wiki/Non-Euclidean_geometry) μετρώνται κατά μήκος μιας καμπύλης. Αν τα δεδομένα σας, οπτικοποιημένα, φαίνεται να μην υπάρχουν σε ένα επίπεδο, μπορεί να χρειαστεί να χρησιμοποιήσετε έναν εξειδικευμένο αλγόριθμο για να τα χειριστείτε. -> -![Flat vs Nonflat Geometry Infographic](../../../../5-Clustering/1-Visualize/images/flat-nonflat.png) -> Infographic από [Dasani Madipalli](https://twitter.com/dasani_decoded) +> 🎓 ['Μη-επίπεδη' έναντι 'επίπεδη' γεωμετρία](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering) +> +> Προερχόμενη από μαθηματική ορολογία, η μη-επίπεδη έναντι επίπεδη γεωμετρία αναφέρεται στη μέτρηση των αποστάσεων μεταξύ σημείων είτε με 'επίπεδες' ([Ευκλείδειες](https://wikipedia.org/wiki/Euclidean_geometry)) είτε με 'μη-επίπεδες' (μη-Ευκλείδειες) γεωμετρικές μεθόδους. +> +> 'Επίπεδη' σε αυτό το πλαίσιο αναφέρεται στην Ευκλείδεια γεωμετρία (μέρος της οποίας διδάσκεται ως 'επίπεδη' γεωμετρία), και μη-επίπεδη αναφέρεται στη μη-Ευκλείδεια γεωμετρία. Τι σχέση έχει η γεωμετρία με τη μηχανική μάθηση; Ως δύο τομείς που έχουν ως βασικό υπόβαθρο τα μαθηματικά, πρέπει να υπάρχει ένας κοινός τρόπος μέτρησης των αποστάσεων ανάμεσα σε σημεία σε ομάδες, και αυτό μπορεί να γίνει είτε με 'επίπεδη' είτε μη-επίπεδη μέθοδο, ανάλογα με τη φύση των δεδομένων. Οι [Ευκλείδειες αποστάσεις](https://wikipedia.org/wiki/Euclidean_distance) μετρώνται ως το μήκος ενός ευθύγραμμου τμήματος ανάμεσα σε δύο σημεία. Οι [Μη-Ευκλείδειες αποστάσεις](https://wikipedia.org/wiki/Non-Euclidean_geometry) μετρώνται κατά μήκος μιας καμπύλης. Αν τα δεδομένα σας, οπτικοποιημένα, φαίνεται να μην υπάρχουν σε ένα επίπεδο, ίσως χρειαστεί να χρησιμοποιήσετε έναν εξειδικευμένο αλγόριθμο για να τα χειριστείτε. +> +> ![Flat vs Nonflat Geometry Infographic](../../../../translated_images/el/flat-nonflat.d1c8c6e2a96110c1.webp) +> > Γραφικό από τον [Dasani Madipalli](https://twitter.com/dasani_decoded) > > 🎓 ['Αποστάσεις'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf) > -> Οι ομάδες ορίζονται από τη μήτρα αποστάσεων τους, π.χ. τις αποστάσεις μεταξύ σημείων. Αυτή η απόσταση μπορεί να μετρηθεί με διάφορους τρόπους. Οι Ευκλείδειες ομάδες ορίζονται από τον μέσο όρο των τιμών των σημείων και περιέχουν ένα 'κέντρο' ή κεντρικό σημείο. Οι αποστάσεις μετρώνται έτσι από την απόσταση από αυτό το κέντρο. Οι μη Ευκλείδειες αποστάσεις αναφέρονται σε 'clustroids', το σημείο που είναι πιο κοντά σε άλλα σημεία. Τα clustroids με τη σειρά τους μπορούν να οριστούν με διάφορους τρόπους. +> Οι ομάδες ορίζονται από τον πίνακα αποστάσεων τους, π.χ. τις αποστάσεις μεταξύ των σημείων. Αυτή η απόσταση μπορεί να μετρηθεί με διάφορους τρόπους. Οι Ευκλείδειες ομάδες ορίζονται από τον μέσο όρο των τιμών των σημείων και περιέχουν ένα 'κέντρο' ή κεντρικό σημείο. Οι αποστάσεις μετρώνται ως η απόσταση προς αυτό το κέντρο. Οι μη Ευκλείδειες αποστάσεις αναφέρονται σε 'κλαστρόειδες', το σημείο που είναι πιο κοντά στα άλλα σημεία. Οι κλαστρόειδες με τη σειρά τους μπορούν να οριστούν με διάφορους τρόπους. > > 🎓 ['Περιορισμένες'](https://wikipedia.org/wiki/Constrained_clustering) > -> [Η Περιορισμένη Ομαδοποίηση](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) εισάγει 'ημι-εποπτευόμενη' μάθηση σε αυτήν τη μη εποπτευόμενη μέθοδο. Οι σχέσεις μεταξύ σημείων επισημαίνονται ως 'δεν μπορούν να συνδεθούν' ή 'πρέπει να συνδεθούν', ώστε να επιβληθούν κάποιοι κανόνες στο σύνολο δεδομένων. -> ->Ένα παράδειγμα: Αν ένας αλγόριθμος αφεθεί ελεύθερος σε μια παρτίδα μη επισημασμένων ή ημι-επισημασμένων δεδομένων, οι ομάδες που παράγει μπορεί να είναι χαμηλής ποιότητας. Στο παραπάνω παράδειγμα, οι ομάδες μπορεί να ομαδοποιούν 'στρογγυλά μουσικά αντικείμενα' και 'τετράγωνα μουσικά αντικείμενα' και 'τριγωνικά αντικείμενα' και 'μπισκότα'. Αν δοθούν κάποιοι περιορισμοί ή κανόνες για να ακολουθήσει ("το αντικείμενο πρέπει να είναι φτιαγμένο από πλαστικό", "το αντικείμενο πρέπει να μπορεί να παράγει μουσική") αυτό μπορεί να βοηθήσει να 'περιορίσει' τον αλγόριθμο να κάνει καλύτερες επιλογές. +> [Περιορισμένη Ομαδοποίηση](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) εισάγει την 'ημιεπιβλεπόμενη' μάθηση σε αυτή την ανεπίβλεπτη μέθοδο. Οι σχέσεις μεταξύ σημείων σημαίνονται ως 'δεν μπορούν να συνδεθούν' ή 'πρέπει να συνδεθούν', έτσι επιβάλλονται ορισμένοι κανόνες στο σύνολο δεδομένων. +> +> Ένα παράδειγμα: Αν ένας αλγόριθμος απελευθερωθεί σε ένα σύνολο μη επισημασμένων ή ημι-επισημασμένων δεδομένων, οι ομάδες που παράγει μπορεί να είναι κακής ποιότητας. Στο παραπάνω παράδειγμα, οι ομάδες μπορεί να ομαδοποιούν 'στρογγυλά μουσικά πράγματα' και 'τετράγωνα μουσικά πράγματα' και 'τριγωνικά πράγματα' και 'μπισκότα'. Αν δοθούν κάποιοι περιορισμοί ή κανόνες προς τήρηση ("το αντικείμενο πρέπει να είναι από πλαστικό", "το αντικείμενο πρέπει να μπορεί να παράγει μουσική"), αυτό μπορεί να βοηθήσει να 'περιοριστεί' ο αλγόριθμος για να κάνει καλύτερες επιλογές. > > 🎓 'Πυκνότητα' > -> Δεδομένα που είναι 'θορυβώδη' θεωρούνται 'πυκνά'. Οι αποστάσεις μεταξύ σημείων σε κάθε μία από τις ομάδες τους μπορεί να αποδειχθούν, κατά την εξέταση, περισσότερο ή λιγότερο πυκνές, ή 'συγκεντρωμένες', και έτσι αυτά τα δεδομένα πρέπει να αναλυθούν με την κατάλληλη μέθοδο ομαδοποίησης. [Αυτό το άρθρο](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) δείχνει τη διαφορά μεταξύ της χρήσης των αλγορίθμων K-Means clustering και HDBSCAN για την εξερεύνηση ενός θορυβώδους συνόλου δεδομένων με άνιση πυκνότητα ομάδων. +> Δεδομένα που είναι 'θορυβώδη' θεωρούνται 'πυκνά'. Οι αποστάσεις μεταξύ των σημείων σε κάθε ομάδα μπορεί να αποδειχθούν, κατά την εξέταση, πιο ή λιγότερο πυκνές ή 'συνωστισμένες' και κατά συνέπεια αυτά τα δεδομένα πρέπει να αναλυθούν με την κατάλληλη μέθοδο ομαδοποίησης. [Αυτό το άρθρο](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) δείχνει τη διαφορά μεταξύ χρήσης K-Means clustering έναντι HDBSCAN αλγορίθμων για να εξερευνήσετε ένα θορυβώδες σύνολο δεδομένων με ανισομερή πυκνότητα ομάδων. ## Αλγόριθμοι ομαδοποίησης -Υπάρχουν πάνω από 100 αλγόριθμοι ομαδοποίησης, και η χρήση τους εξαρτάται από τη φύση των δεδομένων που έχουμε. Ας συζητήσουμε μερικούς από τους κύριους: +Υπάρχουν πάνω από 100 αλγόριθμοι ομαδοποίησης και η χρήση τους εξαρτάται από τη φύση των δεδομένων που έχετε. Ας συζητήσουμε μερικούς από τους σημαντικούς: -- **Ιεραρχική ομαδοποίηση**. Αν ένα αντικείμενο ταξινομηθεί με βάση την εγγύτητά του σε ένα κοντινό αντικείμενο, αντί για ένα πιο μακρινό, οι ομάδες σχηματίζονται με βάση την απόσταση των μελών τους από και προς άλλα αντικείμενα. Η ιεραρχική ομαδοποίηση του Scikit-learn είναι ιεραρχική. +- **Ιεραρχική ομαδοποίηση**. Αν ένα αντικείμενο ταξινομείται με βάση την εγγύτητά του με ένα κοντινό αντικείμενο, παρά με ένα πιο μακρινό, σχηματίζονται ομάδες βάσει της απόστασης των μελών τους προς και από άλλα αντικείμενα. Η συγκεντρωτική ομαδοποίηση του Scikit-learn είναι ιεραρχική. - ![Hierarchical clustering Infographic](../../../../5-Clustering/1-Visualize/images/hierarchical.png) - > Infographic από [Dasani Madipalli](https://twitter.com/dasani_decoded) + ![Hierarchical clustering Infographic](../../../../translated_images/el/hierarchical.bf59403aa43c8c47.webp) + > Γραφικό από τον [Dasani Madipalli](https://twitter.com/dasani_decoded) -- **Ομαδοποίηση με κέντρο**. Αυτός ο δημοφιλής αλγόριθμος απαιτεί την επιλογή του 'k', ή του αριθμού των ομάδων που θα σχηματιστούν, μετά την οποία ο αλγόριθμος καθορίζει το κεντρικό σημείο μιας ομάδας και συγκεντρώνει δεδομένα γύρω από αυτό το σημείο. Η [ομαδοποίηση K-means](https://wikipedia.org/wiki/K-means_clustering) είναι μια δημοφιλής έκδοση της ομαδοποίησης με κέντρο. Το κέντρο καθορίζεται από τον πλησιέστερο μέσο όρο, εξ ου και το όνομα. Η τετραγωνική απόσταση από την ομάδα ελαχιστοποιείται. +- **Ομαδοποίηση με κέντρο (Centroid clustering)**. Αυτός ο δημοφιλής αλγόριθμος απαιτεί την επιλογή του 'k', δηλαδή του αριθμού των ομάδων που θα σχηματιστούν, μετά απο τον οποίο ο αλγόριθμος προσδιορίζει το κεντρικό σημείο μιας ομάδας και συγκεντρώνει δεδομένα γύρω από αυτό το σημείο. Το [K-means clustering](https://wikipedia.org/wiki/K-means_clustering) είναι μια δημοφιλής εκδοχή της ομαδοποίησης με κέντρο. Το κέντρο προσδιορίζεται από τον πλησιέστερο μέσο όρο, εξ ου και το όνομα. Η τετραγωνική απόσταση από την ομάδα ελαχιστοποιείται. - ![Centroid clustering Infographic](../../../../5-Clustering/1-Visualize/images/centroid.png) - > Infographic από [Dasani Madipalli](https://twitter.com/dasani_decoded) + ![Centroid clustering Infographic](../../../../translated_images/el/centroid.097fde836cf6c918.webp) + > Γραφικό από τον [Dasani Madipalli](https://twitter.com/dasani_decoded) -- **Ομαδοποίηση βάσει κατανομής**. Βασισμένη στη στατιστική μοντελοποίηση, η ομαδοποίηση βάσει κατανομής επικεντρώνεται στον καθορισμό της πιθανότητας ότι ένα σημείο δεδομένων ανήκει σε μια ομάδα και το αναθέτει ανάλογα. Οι μέθοδοι Gaussian mixture ανήκουν σε αυτόν τον τύπο. +- **Ομαδοποίηση βάσει κατανομής**. Βασισμένη στο στατιστικό μοντέλο, η ομαδοποίηση βάσει κατανομής επικεντρώνεται στον προσδιορισμό της πιθανότητας ότι ένα σημείο δεδομένων ανήκει σε μια ομάδα, και στην ανάθεση με αυτόν τον τρόπο. Οι μέθοδοι Gaussian mixtures ανήκουν σε αυτό τον τύπο. -- **Ομαδοποίηση βάσει πυκνότητας**. Τα σημεία δεδομένων ανατίθενται σε ομάδες με βάση την πυκνότητά τους, ή τη συγκέντρωσή τους γύρω από το ένα το άλλο. Τα σημεία δεδομένων μακριά από την ομάδα θεωρούνται εξαιρέσεις ή θόρυβος. Οι DBSCAN, Mean-shift και OPTICS ανήκουν σε αυτόν τον τύπο ομαδοποίησης. +- **Ομαδοποίηση βάσει πυκνότητας**. Τα σημεία δεδομένων ανατίθενται σε ομάδες βάσει της πυκνότητάς τους, ή της συγκέντρωσής τους γύρω το ένα από το άλλο. Τα σημεία που είναι μακριά από την ομάδα θεωρούνται εκτός ορίων ή θόρυβος. Οι DBSCAN, Mean-shift και OPTICS ανήκουν σε αυτόν τον τύπο ομαδοποίησης. -- **Ομαδοποίηση βάσει πλέγματος**. Για πολυδιάστατα σύνολα δεδομένων, δημιουργείται ένα πλέγμα και τα δεδομένα διαιρούνται μεταξύ των κελιών του πλέγματος, δημιουργώντας έτσι ομάδες. +- **Ομαδοποίηση βάσει πλέγματος**. Για πολυδιάστατα σύνολα δεδομένων, δημιουργείται ένα πλέγμα και τα δεδομένα διαιρούνται ανάμεσα στα κελιά του πλέγματος, δημιουργώντας έτσι ομάδες. ## Άσκηση - ομαδοποιήστε τα δεδομένα σας -Η ομαδοποίηση ως τεχνική βοηθάται πολύ από την κατάλληλη οπτικοποίηση, οπότε ας ξεκινήσουμε οπτικοποιώντας τα μουσικά μας δεδομένα. Αυτή η άσκηση θα μας βοηθήσει να αποφασίσουμε ποια από τις μεθόδους ομαδοποίησης θα πρέπει να χρησιμοποιήσουμε πιο αποτελεσματικά -| 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | -| 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | -| 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | +Η ομαδοποίηση ως τεχνική διευκολύνεται πολύ με την σωστή οπτικοποίηση, οπότε ας ξεκινήσουμε οπτικοποιώντας τα μουσικά μας δεδομένα. Αυτή η άσκηση θα μας βοηθήσει να αποφασίσουμε ποια από τις μεθόδους ομαδοποίησης πρέπει να χρησιμοποιήσουμε πιο αποτελεσματικά για τη φύση αυτών των δεδομένων. + +1. Ανοίξτε το αρχείο [_notebook.ipynb_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/notebook.ipynb) σε αυτόν τον φάκελο. + +1. Εισάγετε το πακέτο `Seaborn` για καλή οπτικοποίηση δεδομένων. + + ```python + !pip install seaborn + ``` + +1. Προσθέστε τα δεδομένα τραγουδιών από το [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv). Φορτώστε ένα dataframe με κάποια δεδομένα για τα τραγούδια. Ετοιμαστείτε να εξερευνήσετε αυτά τα δεδομένα εισάγοντας τις βιβλιοθήκες και εμφανίζοντας τα δεδομένα: + + ```python + import matplotlib.pyplot as plt + import pandas as pd + + df = pd.read_csv("../data/nigerian-songs.csv") + df.head() + ``` + + Ελέγξτε τις πρώτες γραμμές των δεδομένων: + + | | name | album | artist | artist_top_genre | release_date | length | popularity | danceability | acousticness | energy | instrumentalness | liveness | loudness | speechiness | tempo | time_signature | + | --- | ------------------------ | ---------------------------- | ------------------- | ---------------- | ------------ | ------ | ---------- | ------------ | ------------ | ------ | ---------------- | -------- | -------- | ----------- | ------- | -------------- | + | 0 | Sparky | Mandy & The Jungle | Cruel Santino | alternative r&b | 2019 | 144000 | 48 | 0.666 | 0.851 | 0.42 | 0.534 | 0.11 | -6.699 | 0.0829 | 133.015 | 5 | + | 1 | shuga rush | EVERYTHING YOU HEARD IS TRUE | Odunsi (The Engine) | afropop | 2020 | 89488 | 30 | 0.71 | 0.0822 | 0.683 | 0.000169 | 0.101 | -5.64 | 0.36 | 129.993 | 3 | + | 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | + | 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | + | 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | -1. Λάβετε κάποιες πληροφορίες για το dataframe, καλώντας `info()`: +1. Πάρε λίγες πληροφορίες για το dataframe, καλώντας `info()`: ```python df.info() ``` - Η έξοδος μοιάζει κάπως έτσι: + Η έξοδος φαίνεται ως εξής: ```output @@ -139,13 +164,13 @@ memory usage: 66.4+ KB ``` -1. Ελέγξτε ξανά για κενές τιμές, καλώντας `isnull()` και επαληθεύοντας ότι το άθροισμα είναι 0: +1. Διπλός έλεγχος για τιμές null, καλώντας `isnull()` και επιβεβαιώνοντας ότι το άθροισμα είναι 0: ```python df.isnull().sum() ``` - Όλα φαίνονται καλά: + Φαίνεται καλά: ```output name 0 @@ -184,11 +209,11 @@ | 75% | 2017 | 242098.5 | 31 | 0.8295 | 0.403 | 0.87575 | 0.000234 | 0.164 | -3.331 | 0.177 | 125.03925 | 4 | | max | 2020 | 511738 | 73 | 0.966 | 0.954 | 0.995 | 0.91 | 0.811 | 0.582 | 0.514 | 206.007 | 5 | -> 🤔 Εάν δουλεύουμε με clustering, μια μη επιβλεπόμενη μέθοδο που δεν απαιτεί δεδομένα με ετικέτες, γιατί δείχνουμε αυτά τα δεδομένα με ετικέτες; Στη φάση εξερεύνησης δεδομένων, είναι χρήσιμες, αλλά δεν είναι απαραίτητες για να λειτουργήσουν οι αλγόριθμοι clustering. Θα μπορούσατε εξίσου να αφαιρέσετε τις επικεφαλίδες των στηλών και να αναφέρεστε στα δεδομένα με αριθμούς στηλών. +> 🤔 Εάν δουλεύουμε με ομαδοποίηση, μια μη εποπτευόμενη μέθοδο που δεν απαιτεί επισημασμένα δεδομένα, γιατί δείχνουμε αυτά τα δεδομένα με ετικέτες; Στη φάση εξερεύνησης των δεδομένων, αυτές είναι χρήσιμες, αλλά δεν είναι απαραίτητες για να λειτουργήσουν οι αλγόριθμοι ομαδοποίησης. Μπορείτε εξίσου καλά να αφαιρέσετε τους τίτλους στηλών και να αναφερθείτε στα δεδομένα με αριθμό στήλης. -Δείτε τις γενικές τιμές των δεδομένων. Σημειώστε ότι η δημοτικότητα μπορεί να είναι '0', κάτι που δείχνει τραγούδια που δεν έχουν κατάταξη. Ας αφαιρέσουμε αυτά σύντομα. +Κοιτάξτε τις γενικές τιμές των δεδομένων. Σημειώστε ότι η δημοφιλία μπορεί να είναι '0', που δείχνει τραγούδια χωρίς κατάταξη. Ας τα αφαιρέσουμε αυτά σύντομα. -1. Χρησιμοποιήστε ένα barplot για να βρείτε τα πιο δημοφιλή είδη: +1. Χρησιμοποιήστε ένα ραβδογράφημα για να βρείτε τα πιο δημοφιλή είδη: ```python import seaborn as sns @@ -200,13 +225,13 @@ plt.title('Top genres',color = 'blue') ``` - ![most popular](../../../../5-Clustering/1-Visualize/images/popular.png) + ![most popular](../../../../translated_images/el/popular.9c48d84b3386705f.webp) -✅ Εάν θέλετε να δείτε περισσότερες κορυφαίες τιμές, αλλάξτε το top `[:5]` σε μεγαλύτερη τιμή ή αφαιρέστε το για να δείτε όλα. +✅ Αν θέλετε να δείτε περισσότερες κορυφαίες τιμές, αλλάξτε τον αριθμό `[:5]` σε μεγαλύτερο, ή αφαιρέστε τον για να δείτε όλα. -Σημειώστε ότι όταν το κορυφαίο είδος περιγράφεται ως 'Missing', αυτό σημαίνει ότι το Spotify δεν το ταξινόμησε, οπότε ας το αφαιρέσουμε. +Σημείωση, όταν το κορυφαίο είδος περιγράφεται ως 'Missing', αυτό σημαίνει ότι το Spotify δεν το κατέταξε, οπότε ας το αφαιρέσουμε. -1. Αφαιρέστε τα δεδομένα που λείπουν φιλτράροντάς τα: +1. Απαλλαγείτε από τα ελλιπή δεδομένα φιλτράροντάς τα ```python df = df[df['artist_top_genre'] != 'Missing'] @@ -217,11 +242,11 @@ plt.title('Top genres',color = 'blue') ``` - Τώρα ελέγξτε ξανά τα είδη: + Τώρα επανελέγξτε τα είδη: - ![most popular](../../../../5-Clustering/1-Visualize/images/all-genres.png) + ![most popular](../../../../translated_images/el/all-genres.1d56ef06cefbfcd6.webp) -1. Τα τρία κορυφαία είδη κυριαρχούν σαφώς σε αυτό το dataset. Ας επικεντρωθούμε στα `afro dancehall`, `afropop`, και `nigerian pop`, και επιπλέον φιλτράρουμε το dataset για να αφαιρέσουμε οτιδήποτε έχει τιμή δημοτικότητας 0 (που σημαίνει ότι δεν ταξινομήθηκε με δημοτικότητα στο dataset και μπορεί να θεωρηθεί θόρυβος για τους σκοπούς μας): +1. Με διαφορά, τα τρία κορυφαία είδη κυριαρχούν σε αυτό το σύνολο δεδομένων. Ας εστιάσουμε στο `afro dancehall`, `afropop` και `nigerian pop`, επιπλέον φιλτράρουμε το dataset για να αφαιρέσουμε οτιδήποτε με τιμή δημοφιλίας 0 (που σημαίνει ότι δεν κατέταξαν την δημοφιλία στο dataset και μπορεί να θεωρηθεί θόρυβος για τις ανάγκες μας): ```python df = df[(df['artist_top_genre'] == 'afro dancehall') | (df['artist_top_genre'] == 'afropop') | (df['artist_top_genre'] == 'nigerian pop')] @@ -233,7 +258,7 @@ plt.title('Top genres',color = 'blue') ``` -1. Κάντε μια γρήγορη δοκιμή για να δείτε αν τα δεδομένα συσχετίζονται με κάποιο ιδιαίτερα ισχυρό τρόπο: +1. Κάντε ένα γρήγορο τεστ για να δείτε αν τα δεδομένα συσχετίζονται με κάποιον ιδιαίτερα ισχυρό τρόπο: ```python corrmat = df.corr(numeric_only=True) @@ -241,21 +266,21 @@ sns.heatmap(corrmat, vmax=.8, square=True) ``` - ![correlations](../../../../5-Clustering/1-Visualize/images/correlation.png) + ![correlations](../../../../translated_images/el/correlation.a9356bb798f5eea5.webp) - Η μόνη ισχυρή συσχέτιση είναι μεταξύ `energy` και `loudness`, κάτι που δεν είναι πολύ εκπληκτικό, δεδομένου ότι η δυνατή μουσική είναι συνήθως αρκετά ενεργητική. Κατά τα άλλα, οι συσχετίσεις είναι σχετικά αδύναμες. Θα είναι ενδιαφέρον να δούμε τι μπορεί να κάνει ένας αλγόριθμος clustering με αυτά τα δεδομένα. + Η μόνη ισχυρή συσχέτιση είναι μεταξύ `energy` και `loudness`, κάτι όχι πολύ παράξενο, δεδομένου ότι η δυνατή μουσική είναι συνήθως αρκετά ενεργητική. Αλλιώς, οι συσχετίσεις είναι σχετικά αδύναμες. Θα είναι ενδιαφέρον να δούμε τι θα αποκομίσει ένας αλγόριθμος ομαδοποίησης από αυτά τα δεδομένα. - > 🎓 Σημειώστε ότι η συσχέτιση δεν υποδηλώνει αιτιότητα! Έχουμε απόδειξη συσχέτισης αλλά όχι απόδειξη αιτιότητας. Ένας [διασκεδαστικός ιστότοπος](https://tylervigen.com/spurious-correlations) έχει οπτικοποιήσεις που τονίζουν αυτό το σημείο. + > 🎓 Σημειώστε ότι η συσχέτιση δεν υποδηλώνει αιτιότητα! Έχουμε απόδειξη συσχέτισης αλλά όχι απόδειξη αιτιότητας. Ένας [αστείος ιστότοπος](https://tylervigen.com/spurious-correlations) έχει οπτικοποιήσεις που τονίζουν αυτό το σημείο. -Υπάρχει κάποια σύγκλιση σε αυτό το dataset γύρω από την αντιληπτή δημοτικότητα και την χορευτικότητα ενός τραγουδιού; Ένα FacetGrid δείχνει ότι υπάρχουν ομόκεντροι κύκλοι που ευθυγραμμίζονται, ανεξαρτήτως είδους. Θα μπορούσε να είναι ότι οι νιγηριανές προτιμήσεις συγκλίνουν σε ένα συγκεκριμένο επίπεδο χορευτικότητας για αυτό το είδος; +Υπάρχει σύγκλιση σε αυτό το σύνολο δεδομένων γύρω από την αντιληπτή δημοφιλία και τη χορευτικότητα ενός τραγουδιού; Μια FacetGrid δείχνει ότι υπάρχουν συγκεντρικοί κύκλοι που ευθυγραμμίζονται, ανεξαρτήτως είδους. Μπορεί να είναι ότι οι νιγηριανές προτιμήσεις συγκλίνουν σε ένα συγκεκριμένο επίπεδο χορευτικότητας για αυτό το είδος; -✅ Δοκιμάστε διαφορετικά σημεία δεδομένων (energy, loudness, speechiness) και περισσότερα ή διαφορετικά μουσικά είδη. Τι μπορείτε να ανακαλύψετε; Ρίξτε μια ματιά στον πίνακα `df.describe()` για να δείτε τη γενική κατανομή των σημείων δεδομένων. +✅ Δοκιμάστε διαφορετικά σημεία δεδομένων (ενέργεια, ένταση, ομιλητικότητα) και περισσότερα ή διαφορετικά μουσικά είδη. Τι μπορείτε να ανακαλύψετε; Ρίξτε μια ματιά στον πίνακα `df.describe()` για να δείτε τη γενική κατανομή των δεδομένων. ### Άσκηση - κατανομή δεδομένων -Είναι αυτά τα τρία είδη σημαντικά διαφορετικά στην αντίληψη της χορευτικότητάς τους, με βάση τη δημοτικότητά τους; +Είναι αυτά τα τρία είδη σημαντικά διαφορετικά στην αντίληψή τους για τη χορευτικότητα, βάσει της δημοφιλίας τους; -1. Εξετάστε την κατανομή δεδομένων των τριών κορυφαίων ειδών μας για τη δημοτικότητα και τη χορευτικότητα κατά μήκος ενός δεδομένου x και y άξονα. +1. Εξετάστε τη κατανομή δεδομένων των τριών κορυφαίων ειδών όσον αφορά τη δημοφιλία και τη χορευτικότητα με δοσμένους άξονες x και y. ```python sns.set_theme(style="ticks") @@ -267,15 +292,15 @@ ) ``` - Μπορείτε να ανακαλύψετε ομόκεντρους κύκλους γύρω από ένα γενικό σημείο σύγκλισης, που δείχνουν την κατανομή των σημείων. + Μπορείτε να ανακαλύψετε συγκεντρικούς κύκλους γύρω από ένα γενικό σημείο σύγκλισης, που δείχνουν την κατανομή των σημείων. - > 🎓 Σημειώστε ότι αυτό το παράδειγμα χρησιμοποιεί ένα γράφημα KDE (Kernel Density Estimate) που αναπαριστά τα δεδομένα χρησιμοποιώντας μια συνεχή καμπύλη πυκνότητας πιθανότητας. Αυτό μας επιτρέπει να ερμηνεύσουμε δεδομένα όταν δουλεύουμε με πολλαπλές κατανομές. + > 🎓 Σημειώστε ότι αυτό το παράδειγμα χρησιμοποιεί γράφημα KDE (Kernel Density Estimate) που αναπαριστά τα δεδομένα με μια συνεχή καμπύλη πιθανότητας πυκνότητας. Αυτό μας επιτρέπει να ερμηνεύουμε τα δεδομένα όταν δουλεύουμε με πολλαπλές κατανομές. - Γενικά, τα τρία είδη ευθυγραμμίζονται χαλαρά όσον αφορά τη δημοτικότητα και τη χορευτικότητα. Ο προσδιορισμός clusters σε αυτά τα χαλαρά ευθυγραμμισμένα δεδομένα θα είναι μια πρόκληση: + Γενικά, τα τρία είδη ευθυγραμμίζονται χαλαρά όσον αφορά τη δημοφιλία και τη χορευτικότητα. Ο καθορισμός clusters σε αυτό το χαλαρά ευθυγραμμισμένο σύνολο δεδομένων θα είναι πρόκληση: - ![distribution](../../../../5-Clustering/1-Visualize/images/distribution.png) + ![distribution](../../../../translated_images/el/distribution.9be11df42356ca95.webp) -1. Δημιουργήστε ένα scatter plot: +1. Δημιουργήστε ένα διάγραμμα σκέδασης: ```python sns.FacetGrid(df, hue="artist_top_genre", height=5) \ @@ -283,31 +308,33 @@ .add_legend() ``` - Ένα scatterplot των ίδιων αξόνων δείχνει ένα παρόμοιο μοτίβο σύγκλισης + Ένα διάγραμμα σκέδασης των ίδιων αξόνων δείχνει ένα παρόμοιο μοτίβο σύγκλισης - ![Facetgrid](../../../../5-Clustering/1-Visualize/images/facetgrid.png) + ![Facetgrid](../../../../translated_images/el/facetgrid.9b2e65ce707eba1f.webp) -Γενικά, για το clustering, μπορείτε να χρησιμοποιήσετε scatterplots για να δείξετε clusters δεδομένων, οπότε η εξοικείωση με αυτόν τον τύπο οπτικοποίησης είναι πολύ χρήσιμη. Στο επόμενο μάθημα, θα πάρουμε αυτά τα φιλτραρισμένα δεδομένα και θα χρησιμοποιήσουμε το k-means clustering για να ανακαλύψουμε ομάδες σε αυτά τα δεδομένα που φαίνεται να επικαλύπτονται με ενδιαφέροντες τρόπους. +Γενικά, για ομαδοποίηση, μπορείτε να χρησιμοποιήσετε διαγράμματα σκέδασης για να δείξετε συστάδες δεδομένων, οπότε η κατάκτηση αυτού του τύπου οπτικοποίησης είναι πολύ χρήσιμη. Στο επόμενο μάθημα, θα πάρουμε αυτά τα φιλτραρισμένα δεδομένα και θα χρησιμοποιήσουμε την ομαδοποίηση k-means για να ανακαλύψουμε ομάδες σε αυτά τα δεδομένα που φαίνεται να επικαλύπτονται με ενδιαφέροντες τρόπους. --- ## 🚀Πρόκληση -Στο πλαίσιο της προετοιμασίας για το επόμενο μάθημα, δημιουργήστε ένα διάγραμμα σχετικά με τους διάφορους αλγόριθμους clustering που μπορεί να ανακαλύψετε και να χρησιμοποιήσετε σε ένα παραγωγικό περιβάλλον. Τι είδους προβλήματα προσπαθεί να αντιμετωπίσει το clustering; +Σε προετοιμασία για το επόμενο μάθημα, φτιάξτε ένα γράφημα για τους διάφορους αλγόριθμους ομαδοποίησης που μπορεί να ανακαλύψετε και να χρησιμοποιήσετε σε περιβάλλον παραγωγής. Τι είδους προβλήματα προσπαθεί να αντιμετωπίσει η ομαδοποίηση; -## [Κουίζ μετά το μάθημα](https://ff-quizzes.netlify.app/en/ml/) +## [Quiz μετά το μάθημα](https://ff-quizzes.netlify.app/en/ml/) -## Ανασκόπηση & Αυτομελέτη +## Ανασκόπηση & Αυτομάθηση -Πριν εφαρμόσετε αλγόριθμους clustering, όπως έχουμε μάθει, είναι καλή ιδέα να κατανοήσετε τη φύση του dataset σας. Διαβάστε περισσότερα για αυτό το θέμα [εδώ](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) +Πριν εφαρμόσετε αλγόριθμους ομαδοποίησης, όπως μάθαμε, είναι καλή ιδέα να κατανοήσετε τη φύση του συνόλου δεδομένων σας. Διαβάστε περισσότερα για αυτό το θέμα [εδώ](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) -[Αυτό το χρήσιμο άρθρο](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) σας καθοδηγεί στους διαφορετικούς τρόπους με τους οποίους διάφοροι αλγόριθμοι clustering συμπεριφέρονται, δεδομένων διαφορετικών σχημάτων δεδομένων. +[Αυτό το χρήσιμο άρθρο](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) σας ξεναγεί στους διαφορετικούς τρόπους που συμπεριφέρονται διάφοροι αλγόριθμοι ομαδοποίησης, δεδομένων διαφορετικών μορφών. ## Εργασία -[Ερευνήστε άλλες οπτικοποιήσεις για το clustering](assignment.md) +[Ερευνήστε άλλες οπτικοποιήσεις για ομαδοποίηση](assignment.md) --- -**Αποποίηση ευθύνης**: -Αυτό το έγγραφο έχει μεταφραστεί χρησιμοποιώντας την υπηρεσία αυτόματης μετάφρασης [Co-op Translator](https://github.com/Azure/co-op-translator). Παρόλο που καταβάλλουμε προσπάθειες για ακρίβεια, παρακαλούμε να έχετε υπόψη ότι οι αυτοματοποιημένες μεταφράσεις ενδέχεται να περιέχουν λάθη ή ανακρίβειες. Το πρωτότυπο έγγραφο στη μητρική του γλώσσα θα πρέπει να θεωρείται η αυθεντική πηγή. Για κρίσιμες πληροφορίες, συνιστάται επαγγελματική ανθρώπινη μετάφραση. Δεν φέρουμε ευθύνη για τυχόν παρεξηγήσεις ή εσφαλμένες ερμηνείες που προκύπτουν από τη χρήση αυτής της μετάφρασης. \ No newline at end of file + +**Αποποίηση ευθυνών**: +Αυτό το έγγραφο έχει μεταφραστεί χρησιμοποιώντας την υπηρεσία μετάφρασης με τεχνητή νοημοσύνη [Co-op Translator](https://github.com/Azure/co-op-translator). Ενώ επιδιώκουμε την ακρίβεια, παρακαλούμε να έχετε υπόψη ότι οι αυτοματοποιημένες μεταφράσεις ενδέχεται να περιέχουν λάθη ή ανακρίβειες. Το πρωτότυπο έγγραφο στη μητρική του γλώσσα πρέπει να θεωρείται η αυθεντική πηγή. Για κρίσιμες πληροφορίες, συνιστάται επαγγελματική ανθρώπινη μετάφραση. Δεν φέρουμε ευθύνη για τυχόν παρεξηγήσεις ή λανθασμένες ερμηνείες που προκύπτουν από τη χρήση αυτής της μετάφρασης. + \ No newline at end of file diff --git a/translations/sv/.co-op-translator.json b/translations/sv/.co-op-translator.json index d10ca7bd7..3ceac20c6 100644 --- a/translations/sv/.co-op-translator.json +++ b/translations/sv/.co-op-translator.json @@ -1,7 +1,7 @@ { "1-Introduction/1-intro-to-ML/README.md": { - "original_hash": "69389392fa6346e0dfa30f664b7b6fec", - "translation_date": "2025-09-05T21:42:42+00:00", + "original_hash": "3a6394c6f5ce3f8aee8211e92eaf9ef0", + "translation_date": "2026-05-26T23:26:21+00:00", "source_file": "1-Introduction/1-intro-to-ML/README.md", "language_code": "sv" }, @@ -240,8 +240,8 @@ "language_code": "sv" }, "5-Clustering/1-Visualize/README.md": { - "original_hash": "730225ea274c9174fe688b21d421539d", - "translation_date": "2025-09-05T21:26:29+00:00", + "original_hash": "08b00d9fbffc667a7fe7fc19ac00dfbd", + "translation_date": "2026-05-26T23:25:53+00:00", "source_file": "5-Clustering/1-Visualize/README.md", "language_code": "sv" }, diff --git a/translations/sv/1-Introduction/1-intro-to-ML/README.md b/translations/sv/1-Introduction/1-intro-to-ML/README.md index bcef9d793..095d0f7d9 100644 --- a/translations/sv/1-Introduction/1-intro-to-ML/README.md +++ b/translations/sv/1-Introduction/1-intro-to-ML/README.md @@ -1,85 +1,85 @@ # Introduktion till maskininlärning -## [Quiz före föreläsning](https://ff-quizzes.netlify.app/en/ml/) +## [Quiz före lektionen](https://ff-quizzes.netlify.app/en/ml/) --- -[![ML för nybörjare - Introduktion till maskininlärning för nybörjare](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "ML för nybörjare - Introduktion till maskininlärning för nybörjare") +[![ML for beginners - Introduction to Machine Learning for Beginners](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "ML for beginners - Introduction to Machine Learning for Beginners") > 🎥 Klicka på bilden ovan för en kort video som går igenom denna lektion. -Välkommen till denna kurs om klassisk maskininlärning för nybörjare! Oavsett om du är helt ny inom detta ämne eller en erfaren ML-praktiker som vill fräscha upp dina kunskaper, är vi glada att ha dig med! Vi vill skapa en vänlig startpunkt för dina studier i maskininlärning och välkomnar gärna din [feedback](https://github.com/microsoft/ML-For-Beginners/discussions). +Välkommen till denna kurs om klassisk maskininlärning för nybörjare! Oavsett om du är helt ny inom detta ämne, eller en erfaren ML-utövare som vill fräscha upp ett område, är vi glada att ha dig med oss! Vi vill skapa en vänlig startpunkt för dina ML-studier och är glada att utvärdera, svara på och införliva din [feedback](https://github.com/microsoft/ML-For-Beginners/discussions). -[![Introduktion till ML](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "Introduktion till ML") +[![Introduction to ML](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "Introduction to ML") > 🎥 Klicka på bilden ovan för en video: MIT:s John Guttag introducerar maskininlärning --- -## Komma igång med maskininlärning +## Kom igång med maskininlärning -Innan du börjar med detta kursmaterial behöver du ha din dator konfigurerad och redo att köra notebooks lokalt. +Innan du börjar med detta utbildningsprogram behöver du ha din dator uppsatt och klar för att köra notebooks lokalt. -- **Konfigurera din dator med dessa videor**. Använd följande länkar för att lära dig [hur du installerar Python](https://youtu.be/CXZYvNRIAKM) på ditt system och [ställer in en textredigerare](https://youtu.be/EU8eayHWoZg) för utveckling. -- **Lär dig Python**. Det rekommenderas också att ha en grundläggande förståelse för [Python](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott), ett programmeringsspråk som är användbart för dataforskare och som vi använder i denna kurs. -- **Lär dig Node.js och JavaScript**. Vi använder också JavaScript några gånger i denna kurs när vi bygger webbappar, så du behöver ha [node](https://nodejs.org) och [npm](https://www.npmjs.com/) installerade, samt [Visual Studio Code](https://code.visualstudio.com/) tillgängligt för både Python- och JavaScript-utveckling. -- **Skapa ett GitHub-konto**. Eftersom du hittade oss här på [GitHub](https://github.com), har du kanske redan ett konto, men om inte, skapa ett och fork:a sedan detta kursmaterial för att använda det själv. (Ge oss gärna en stjärna också 😊) +- **Konfigurera din maskin med dessa videor**. Använd följande länkar för att lära dig [hur man installerar Python](https://youtu.be/CXZYvNRIAKM) i ditt system och [sätter upp en textredigerare](https://youtu.be/EU8eayHWoZg) för utveckling. +- **Lär dig Python**. Det rekommenderas också att ha en grundläggande förståelse för [Python](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott), ett programmeringsspråk användbart för dataforskare som vi använder i denna kurs. +- **Lär dig Node.js och JavaScript**. Vi använder också JavaScript ett par gånger i denna kurs när vi bygger webbappar, så du behöver ha [node](https://nodejs.org) och [npm](https://www.npmjs.com/) installerade, samt [Visual Studio Code](https://code.visualstudio.com/) tillgängligt för både Python- och JavaScript-utveckling. +- **Skapa ett GitHub-konto**. Eftersom du hittade oss här på [GitHub](https://github.com) kanske du redan har ett konto, men annars, skapa ett och gör en fork av detta läroprogram för att använda själv. (Känn dig fri att ge oss en stjärna också 😊) - **Utforska Scikit-learn**. Bekanta dig med [Scikit-learn](https://scikit-learn.org/stable/user_guide.html), en uppsättning ML-bibliotek som vi refererar till i dessa lektioner. --- ## Vad är maskininlärning? -Begreppet 'maskininlärning' är ett av de mest populära och frekvent använda termerna idag. Det är inte osannolikt att du har hört detta begrepp åtminstone en gång om du har någon form av bekantskap med teknik, oavsett vilket område du arbetar inom. Mekaniken bakom maskininlärning är dock ett mysterium för de flesta. För en nybörjare inom maskininlärning kan ämnet ibland kännas överväldigande. Därför är det viktigt att förstå vad maskininlärning faktiskt är och att lära sig om det steg för steg, genom praktiska exempel. +Termen 'maskininlärning' är en av de mest populära och frekvent använda termerna idag. Det är en icke-trivial möjlighet att du har hört detta ord minst en gång om du har någon form av bekantskap med teknik, oavsett vilket område du arbetar inom. Mekaniken bakom maskininlärning är dock en gåta för de flesta. För en nybörjare inom maskininlärning kan ämnet ibland kännas överväldigande. Därför är det viktigt att förstå vad maskininlärning egentligen är och att lära sig om det steg för steg, genom praktiska exempel. --- ## Hypekurvan -![ml hype curve](../../../../1-Introduction/1-intro-to-ML/images/hype.png) +![ml hype curve](../../../../translated_images/sv/hype.07183d711a17aafe.webp) > Google Trends visar den senaste 'hypekurvan' för termen 'maskininlärning' --- ## Ett mystiskt universum -Vi lever i ett universum fullt av fascinerande mysterier. Stora vetenskapsmän som Stephen Hawking, Albert Einstein och många fler har ägnat sina liv åt att söka meningsfull information som avslöjar mysterierna i världen omkring oss. Detta är människans lärandevillkor: ett barn lär sig nya saker och upptäcker strukturen i sin värld år för år när det växer upp. +Vi lever i ett universum fullt av fascinerande mysterier. Stora vetenskapsmän såsom Stephen Hawking, Albert Einstein och många fler har ägnat sina liv åt att söka meningsfull information som avslöjar mysterierna i världen omkring oss. Detta är människans villkor för lärande: ett barn lär sig nya saker och upptäcker strukturen i sin värld år efter år när hen växer upp till vuxen. --- ## Barnets hjärna -Ett barns hjärna och sinnen uppfattar fakta från sin omgivning och lär sig gradvis de dolda mönstren i livet, vilket hjälper barnet att skapa logiska regler för att identifiera inlärda mönster. Den mänskliga hjärnans inlärningsprocess gör människor till världens mest sofistikerade levande varelse. Att kontinuerligt lära sig genom att upptäcka dolda mönster och sedan innovera på dessa mönster gör att vi kan bli bättre och bättre under hela vår livstid. Denna inlärningsförmåga och utvecklingskapacitet är relaterad till ett koncept som kallas [hjärnplasticitet](https://www.simplypsychology.org/brain-plasticity.html). Ytligt sett kan vi dra vissa motiverande likheter mellan den mänskliga hjärnans inlärningsprocess och koncepten inom maskininlärning. +Ett barns hjärna och sinnen uppfattar fakta om sin omgivning och lär sig gradvis livets dolda mönster som hjälper barnet att skapa logiska regler för att identifiera inlärda mönster. Mänskliga hjärnans inlärningsprocess gör människor till den mest sofistikerade levande varelsen på denna värld. Att ständigt lära genom att upptäcka dolda mönster och sedan förnya dessa mönster gör att vi kan göra oss själva bättre och bättre under hela vår livstid. Denna inlärningskapacitet och utvecklande förmåga är kopplad till ett begrepp som kallas [hjärnplasticitet](https://www.simplypsychology.org/brain-plasticity.html). Ytligt kan vi dra vissa motiverande likheter mellan den mänskliga hjärnans inlärningsprocess och koncepten bakom maskininlärning. --- ## Den mänskliga hjärnan -Den [mänskliga hjärnan](https://www.livescience.com/29365-human-brain.html) uppfattar saker från den verkliga världen, bearbetar den uppfattade informationen, fattar rationella beslut och utför vissa handlingar baserat på omständigheterna. Detta är vad vi kallar att bete sig intelligent. När vi programmerar en kopia av den intelligenta beteendeprocessen till en maskin kallas det artificiell intelligens (AI). +Den [mänskliga hjärnan](https://www.livescience.com/29365-human-brain.html) uppfattar saker från den verkliga världen, bearbetar den uppfattade informationen, fattar rationella beslut och utför vissa handlingar baserade på omständigheter. Detta är vad vi kallar att bete sig intelligent. När vi programmerar en avbild av denna intelligenta beteendeprocess till en maskin kallas det artificiell intelligens (AI). --- -## Några termer +## Vissa termer -Även om termerna kan förväxlas är maskininlärning (ML) en viktig delmängd av artificiell intelligens. **ML handlar om att använda specialiserade algoritmer för att upptäcka meningsfull information och hitta dolda mönster från uppfattad data för att stödja den rationella beslutsprocessen**. +Även om termerna kan blandas ihop är maskininlärning (ML) en viktig delmängd av artificiell intelligens. **ML handlar om att använda specialiserade algoritmer för att avslöja meningsfull information och hitta dolda mönster från uppfattade data för att styrka den rationella beslutsprocessen**. --- ## AI, ML, djupinlärning -![AI, ML, deep learning, data science](../../../../1-Introduction/1-intro-to-ML/images/ai-ml-ds.png) +![AI, ML, deep learning, data science](../../../../translated_images/sv/ai-ml-ds.537ea441b124ebf6.webp) -> En diagram som visar relationerna mellan AI, ML, djupinlärning och data science. Infografik av [Jen Looper](https://twitter.com/jenlooper) inspirerad av [denna grafik](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) +> En diagram som visar relationerna mellan AI, ML, djupinlärning och data science. Infografik av [Jen Looper](https://twitter.com/jenlooper) inspirerad av [den här grafiken](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) --- -## Koncept att täcka +## Begrepp att täcka -I detta kursmaterial kommer vi att täcka endast kärnkoncepten inom maskininlärning som en nybörjare måste känna till. Vi täcker det vi kallar 'klassisk maskininlärning' främst med hjälp av Scikit-learn, ett utmärkt bibliotek som många studenter använder för att lära sig grunderna. För att förstå bredare koncept inom artificiell intelligens eller djupinlärning är en stark grundläggande kunskap om maskininlärning oumbärlig, och därför vill vi erbjuda det här. +I detta utbildningsprogram kommer vi endast att täcka de grundläggande begreppen i maskininlärning som en nybörjare måste känna till. Vi täcker vad vi kallar 'klassisk maskininlärning' främst med hjälp av Scikit-learn, ett utmärkt bibliotek som många studenter använder för att lära sig grunderna. För att förstå bredare begrepp som artificiell intelligens eller djupinlärning är en stark grundkunskap i maskininlärning oumbärlig, och därför vill vi erbjuda den här. --- ## I denna kurs kommer du att lära dig: -- kärnkoncept inom maskininlärning -- maskininlärningens historia +- grundläggande begrepp inom maskininlärning +- historien om ML - ML och rättvisa -- regressionstekniker inom ML -- klassificeringstekniker inom ML -- klustringstekniker inom ML -- tekniker för naturlig språkbehandling inom ML -- tekniker för tidsserieprognoser inom ML +- regressionsbaserade ML-tekniker +- klassificeringsbaserade ML-tekniker +- klustringsbaserade ML-tekniker +- ML-tekniker för naturlig språkbehandling +- ML-tekniker för tidsserieprognoser - förstärkningsinlärning - verkliga tillämpningar av ML @@ -90,54 +90,59 @@ I detta kursmaterial kommer vi att täcka endast kärnkoncepten inom maskininlä - neurala nätverk - AI -För att skapa en bättre inlärningsupplevelse kommer vi att undvika komplexiteten i neurala nätverk, 'djupinlärning' - flerskiktad modellbyggnad med neurala nätverk - och AI, som vi kommer att diskutera i ett annat kursmaterial. Vi kommer också att erbjuda ett kommande kursmaterial om data science för att fokusera på den aspekten av detta större område. +För att skapa en bättre lärandeupplevelse kommer vi att undvika komplexiteten i neurala nätverk, 'djupinlärning' – flerskiktsmodelluppbyggnad med neurala nätverk – och AI, vilket vi kommer att diskutera i ett annat utbildningsprogram. Vi kommer också att erbjuda ett kommande data science-utbildningsprogram som fokuserar på den aspekten av detta större område. --- ## Varför studera maskininlärning? -Maskininlärning, ur ett systemperspektiv, definieras som skapandet av automatiserade system som kan lära sig dolda mönster från data för att hjälpa till att fatta intelligenta beslut. +Maskininlärning definieras, ur ett systemperspektiv, som skapandet av automatiserade system som kan lära sig dolda mönster från data för att hjälpa till att fatta intelligenta beslut. Denna motivation är löst inspirerad av hur den mänskliga hjärnan lär sig vissa saker baserat på data den uppfattar från omvärlden. -✅ Fundera en stund på varför ett företag skulle vilja använda strategier för maskininlärning istället för att skapa en hårdkodad regelbaserad motor. +✅ Tänk en stund på varför ett företag skulle vilja försöka använda maskininlärningsstrategier istället för att skapa en hårdkodad regelbaserad motor. + +--- +## Varför datakvalitet är viktig + +Högkvalitativ data förbättrar modellens prestanda. Dålig eller brusig data kan leda till felaktiga förutsägelser, även när avancerade maskininlärningsalgoritmer används. --- ## Tillämpningar av maskininlärning -Tillämpningar av maskininlärning finns nu nästan överallt och är lika allestädes närvarande som den data som flödar runt i våra samhällen, genererad av våra smartphones, uppkopplade enheter och andra system. Med tanke på den enorma potentialen hos moderna maskininlärningsalgoritmer har forskare utforskat deras förmåga att lösa multidimensionella och tvärvetenskapliga verkliga problem med stora positiva resultat. +Tillämpningar av maskininlärning är nu nästan överallt och lika allmänt förekommande som den data som flödar runt i våra samhällen, genererad av våra smarta telefoner, uppkopplade enheter och andra system. Med tanke på den enorma potentialen i toppmoderna maskininlärningsalgoritmer har forskare utforskat deras förmåga att lösa multidimensionella och multidisciplinära verkliga problem med stora positiva resultat. --- ## Exempel på tillämpad ML **Du kan använda maskininlärning på många sätt**: -- För att förutsäga sannolikheten för sjukdom utifrån en patients medicinska historia eller rapporter. -- För att använda väderdata för att förutsäga väderhändelser. +- För att förutsäga sannolikheten för sjukdom utifrån en patients sjukdomshistoria eller rapporter. +- För att utnyttja väderdata för att förutsäga väderhändelser. - För att förstå känslan i en text. -- För att upptäcka falska nyheter och stoppa spridningen av propaganda. +- För att upptäcka fejkade nyheter för att stoppa spridningen av propaganda. -Finans, ekonomi, geovetenskap, rymdforskning, biomedicinsk teknik, kognitiv vetenskap och till och med humaniora har anpassat maskininlärning för att lösa de arbetskrävande, databehandlingsintensiva problemen inom sina områden. +Finans, ekonomi, jordvetenskap, rymdforskning, biomedicinsk teknik, kognitiv vetenskap och till och med humaniora har anpassat maskininlärning för att lösa de tunga, dataintensiva problem som finns inom deras områden. --- ## Slutsats -Maskininlärning automatiserar processen att upptäcka mönster genom att hitta meningsfulla insikter från verklig eller genererad data. Det har visat sig vara mycket värdefullt inom affärs-, hälso- och finansiella tillämpningar, bland andra. +Maskininlärning automatiserar processen att upptäcka mönster genom att hitta meningsfulla insikter från verkliga eller genererade data. Det har visat sig vara mycket värdefullt inom affärer, hälsa och finans, bland annat. -I en nära framtid kommer förståelsen av grunderna i maskininlärning att bli ett måste för människor inom alla områden på grund av dess utbredda användning. +Framöver kommer det att vara ett måste för personer i alla domäner att förstå grunderna i maskininlärning på grund av dess utbredda användning. --- # 🚀 Utmaning -Skissa, på papper eller med hjälp av en onlineapp som [Excalidraw](https://excalidraw.com/), din förståelse av skillnaderna mellan AI, ML, djupinlärning och data science. Lägg till några idéer om problem som var och en av dessa tekniker är bra på att lösa. +Skissa, på papper eller med en online-app som [Excalidraw](https://excalidraw.com/), din förståelse av skillnaderna mellan AI, ML, djupinlärning och data science. Lägg till några idéer om problem som varje teknik är bra på att lösa. -# [Quiz efter föreläsning](https://ff-quizzes.netlify.app/en/ml/) +# [Quiz efter lektionen](https://ff-quizzes.netlify.app/en/ml/) --- -# Granskning & Självstudier +# Repetition & Självstudier -För att lära dig mer om hur du kan arbeta med ML-algoritmer i molnet, följ denna [Lärväg](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott). +För att lära dig mer om hur du kan arbeta med ML-algoritmer i molnet, följ denna [Learning Path](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott). -Ta en [Lärväg](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) om grunderna i ML. +Gå en [Learning Path](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) om grunderna i ML. --- # Uppgift @@ -146,5 +151,7 @@ Ta en [Lärväg](https://docs.microsoft.com/learn/modules/introduction-to-machin --- -**Ansvarsfriskrivning**: -Detta dokument har översatts med hjälp av AI-översättningstjänsten [Co-op Translator](https://github.com/Azure/co-op-translator). Även om vi strävar efter noggrannhet, vänligen notera att automatiska översättningar kan innehålla fel eller felaktigheter. Det ursprungliga dokumentet på sitt ursprungliga språk bör betraktas som den auktoritativa källan. För kritisk information rekommenderas professionell mänsklig översättning. Vi ansvarar inte för eventuella missförstånd eller feltolkningar som uppstår vid användning av denna översättning. \ No newline at end of file + +**Ansvarsfriskrivning**: +Detta dokument har översatts med hjälp av AI-översättningstjänsten [Co-op Translator](https://github.com/Azure/co-op-translator). Även om vi strävar efter noggrannhet, var vänlig notera att automatiska översättningar kan innehålla fel eller brister. Det ursprungliga dokumentet på dess modersmål bör betraktas som den auktoritativa källan. För kritisk information rekommenderas professionell mänsklig översättning. Vi ansvarar inte för några missförstånd eller feltolkningar som uppstår till följd av användningen av denna översättning. + \ No newline at end of file diff --git a/translations/sv/5-Clustering/1-Visualize/README.md b/translations/sv/5-Clustering/1-Visualize/README.md index 907f44bf0..1af0aae6d 100644 --- a/translations/sv/5-Clustering/1-Visualize/README.md +++ b/translations/sv/5-Clustering/1-Visualize/README.md @@ -1,116 +1,115 @@ # Introduktion till klustring -Klustring är en typ av [Oövervakad inlärning](https://wikipedia.org/wiki/Unsupervised_learning) som förutsätter att en dataset är oetiketterad eller att dess indata inte är kopplade till fördefinierade utdata. Den använder olika algoritmer för att sortera igenom oetiketterad data och skapa grupper baserat på mönster som den identifierar i datan. +Klustring är en typ av [Oövervakad inlärning](https://wikipedia.org/wiki/Unsupervised_learning) som förutsätter att en dataset är oetiketterad eller att dess indata inte är kopplade till fördefinierade utdata. Den använder olika algoritmer för att sortera igenom oetiketterad data och skapa grupper baserat på mönster den upptäcker i datan. -[![No One Like You av PSquare](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "No One Like You av PSquare") +[![No One Like You by PSquare](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "No One Like You by PSquare") -> 🎥 Klicka på bilden ovan för en video. Medan du studerar maskininlärning med klustring, njut av några nigerianska Dance Hall-låtar - detta är en högt rankad låt från 2014 av PSquare. +> 🎥 Klicka på bilden ovan för en video. Medan du studerar maskininlärning med klustring, njut av några nigerianska Dance Hall-spår – detta är en mycket uppskattad låt från 2014 av PSquare. -## [Quiz före föreläsningen](https://ff-quizzes.netlify.app/en/ml/) +## [Förföreläsningsquiz](https://ff-quizzes.netlify.app/en/ml/) ### Introduktion [Klustring](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) är mycket användbart för datautforskning. Låt oss se om det kan hjälpa till att upptäcka trender och mönster i hur nigerianska publikgrupper konsumerar musik. -✅ Ta en minut och fundera på användningsområden för klustring. I verkliga livet sker klustring när du har en hög med tvätt och behöver sortera ut familjemedlemmarnas kläder 🧦👕👖🩲. Inom datavetenskap sker klustring när man försöker analysera en användares preferenser eller bestämma egenskaperna hos en oetiketterad dataset. Klustring hjälper på sätt och vis att skapa ordning i kaos, som en strumplåda. +✅ Ta en minut och tänk på användningarna av klustring. I verkliga livet sker klustring när du har en hög med tvätt och behöver sortera ut familjemedlemmarnas kläder 🧦👕👖🩲. Inom datavetenskap sker klustring när man försöker analysera en användares preferenser eller bestämma egenskaper för någon oetiketterad dataset. Klustring hjälper på sätt och vis till att skapa ordning i kaos, som en strumplåda. -[![Introduktion till ML](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "Introduktion till klustring") +[![Introduction to ML](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "Introduction to Clustering") > 🎥 Klicka på bilden ovan för en video: MIT:s John Guttag introducerar klustring -I en professionell miljö kan klustring användas för att bestämma saker som marknadssegmentering, till exempel vilka åldersgrupper som köper vilka produkter. Ett annat användningsområde kan vara att upptäcka avvikelser, kanske för att identifiera bedrägerier i en dataset med kreditkortstransaktioner. Eller så kan du använda klustring för att identifiera tumörer i en samling medicinska skanningar. +I en professionell miljö kan klustring användas för att avgöra saker som marknadssegmentering, till exempel för att bestämma vilka åldersgrupper som köper vilka varor. En annan användning kan vara anomalidetektion, kanske för att upptäcka bedrägeri i en dataset med kreditkortstransaktioner. Eller så kan du använda klustring för att identifiera tumörer i en samling medicinska skanningar. -✅ Fundera en minut på hur du kan ha stött på klustring 'i det vilda', inom bank, e-handel eller affärssammanhang. +✅ Tänk en minut på hur du kan ha stött på klustring 'i det vilda', i bank-, e-handels- eller affärssammanhang. -> 🎓 Intressant nog har klusteranalys sitt ursprung inom antropologi och psykologi på 1930-talet. Kan du föreställa dig hur det kan ha använts? +> 🎓 Intressant nog härstammar klusteranalys från antropologi och psykologi på 1930-talet. Kan du föreställa dig hur det kunde ha använts? -Alternativt kan du använda det för att gruppera sökresultat - till exempel shoppinglänkar, bilder eller recensioner. Klustring är användbart när du har en stor dataset som du vill reducera och analysera mer detaljerat, så tekniken kan användas för att lära sig om data innan andra modeller konstrueras. +Alternativt kan du använda det för att gruppera sökresultat – till exempel efter shoppinglänkar, bilder eller recensioner. Klustring är användbart när du har en stor dataset som du vill reducera och på vilken du vill utföra mer granulär analys, så tekniken kan användas för att lära sig om data innan andra modeller konstrueras. -✅ När din data är organiserad i kluster tilldelar du den ett kluster-ID, och denna teknik kan vara användbar för att bevara en datasets integritet; du kan istället referera till en datapunkt med dess kluster-ID, snarare än med mer avslöjande identifierbar data. Kan du tänka dig andra anledningar till varför du skulle referera till ett kluster-ID istället för andra element i klustret för att identifiera det? +✅ När din data är organiserad i kluster tilldelar du den ett kluster-ID, och denna teknik kan vara användbar för att bevara datas integritet; du kan istället referera till en datapunkt med dess kluster-ID snarare än med mer avslöjande identifierbar data. Kan du komma på andra skäl till varför du skulle använda ett kluster-ID snarare än andra element i klustret för att identifiera det? -Fördjupa din förståelse av klustringstekniker i denna [Learn-modul](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) +Fördjupa din förståelse om klustringstekniker i denna [Learn-modul](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) +## Komma igång med klustring -## Kom igång med klustring +[Scikit-learn erbjuder ett stort urval](https://scikit-learn.org/stable/modules/clustering.html) av metoder för att utföra klustring. Vilken typ du väljer beror på ditt användningsfall. Enligt dokumentationen har varje metod olika fördelar. Här är en förenklad tabell över metoderna som stöds av Scikit-learn och deras lämpliga användningsområden: -[Scikit-learn erbjuder ett stort utbud](https://scikit-learn.org/stable/modules/clustering.html) av metoder för att utföra klustring. Vilken typ du väljer beror på ditt användningsområde. Enligt dokumentationen har varje metod olika fördelar. Här är en förenklad tabell över metoderna som stöds av Scikit-learn och deras lämpliga användningsområden: +| Metodnamn | Användningsfall | +| :-------------------------- | :------------------------------------------------------------------ | +| K-Means | allmänt ändamål, induktiv | +| Affinity propagation | många, ojämna kluster, induktiv | +| Mean-shift | många, ojämna kluster, induktiv | +| Spektral klustring | få, jämna kluster, transduktiv | +| Ward hierarkisk klustring | många, begränsade kluster, transduktiv | +| Agglomerativ klustring | många, begränsade, icke-Euklidiska avstånd, transduktiv | +| DBSCAN | icke-plan geometri, ojämna kluster, transduktiv | +| OPTICS | icke-plan geometri, ojämna kluster med variabel densitet, transduktiv | +| Gaussiska blandningar | plan geometri, induktiv | +| BIRCH | stor dataset med uteliggare, induktiv | -| Metodnamn | Användningsområde | -| :---------------------------- | :------------------------------------------------------------------- | -| K-Means | allmänt syfte, induktiv | -| Affinity propagation | många, ojämna kluster, induktiv | -| Mean-shift | många, ojämna kluster, induktiv | -| Spectral clustering | få, jämna kluster, transduktiv | -| Ward hierarchical clustering | många, begränsade kluster, transduktiv | -| Agglomerative clustering | många, begränsade, icke-Euklidiska avstånd, transduktiv | -| DBSCAN | icke-platt geometri, ojämna kluster, transduktiv | -| OPTICS | icke-platt geometri, ojämna kluster med variabel densitet, transduktiv | -| Gaussian mixtures | platt geometri, induktiv | -| BIRCH | stor dataset med avvikelser, induktiv | - -> 🎓 Hur vi skapar kluster har mycket att göra med hur vi samlar datapunkter i grupper. Låt oss packa upp lite terminologi: +> 🎓 Hur vi skapar kluster har mycket att göra med hur vi samlar datapunkterna till grupper. Låt oss gå igenom lite terminologi: > > 🎓 ['Transduktiv' vs. 'induktiv'](https://wikipedia.org/wiki/Transduction_(machine_learning)) > -> Transduktiv inferens härleds från observerade träningsfall som kartläggs till specifika testfall. Induktiv inferens härleds från träningsfall som kartläggs till generella regler som sedan tillämpas på testfall. +> Transduktiv inferens härleds från observerade träningsfall som kartläggs till specifika testfall. Induktiv inferens härleds från träningsfall som kartläggs till generella regler som först därefter appliceras på testfall. > -> Ett exempel: Föreställ dig att du har en dataset som bara delvis är etiketterad. Vissa saker är 'skivor', vissa 'cd-skivor', och vissa är tomma. Din uppgift är att tilldela etiketter till de tomma. Om du väljer en induktiv metod skulle du träna en modell som letar efter 'skivor' och 'cd-skivor' och tillämpa dessa etiketter på din oetiketterade data. Denna metod kommer ha svårt att klassificera saker som faktiskt är 'kassetter'. En transduktiv metod, å andra sidan, hanterar denna okända data mer effektivt eftersom den arbetar för att gruppera liknande objekt och sedan tilldelar en etikett till en grupp. I detta fall kan kluster reflektera 'runda musikaliska saker' och 'fyrkantiga musikaliska saker'. +> Exempel: Föreställ dig att du har en dataset som bara delvis är etiketterad. Några saker är 'skivor', några 'cd-skivor' och några är tomma. Din uppgift är att tilldela etiketter till de tomma. Om du väljer en induktiv metod skulle du träna en modell för att känna igen 'skivor' och 'cd-skivor' och applicera dessa etiketter på din oetiketterade data. Denna metod kommer att ha svårt att klassificera saker som faktiskt är 'kassetter'. En transduktiv metod hanterar däremot denna okända data mer effektivt då den arbetar för att gruppera liknande objekt tillsammans och därefter tilldela en etikett till gruppen. I detta fall kan kluster reflektera 'runda musiksaker' och 'fyrkantiga musiksaker'. > -> 🎓 ['Icke-platt' vs. 'platt' geometri](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering) +> 🎓 ['Icke-plan' vs. 'plan' geometri](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering) > -> Härstammar från matematisk terminologi, icke-platt vs. platt geometri hänvisar till mätningen av avstånd mellan punkter antingen med 'platt' ([Euklidisk](https://wikipedia.org/wiki/Euclidean_geometry)) eller 'icke-platt' (icke-Euklidisk) geometriska metoder. +> Härledd från matematisk terminologi, refererar icke-plan vs. plan geometri till mätning av avstånd mellan punkter med antingen 'plan' ([Euklidisk](https://wikipedia.org/wiki/Euclidean_geometry)) eller 'icke-plan' (icke-Euklidisk) geometriska metoder. > ->'Platt' i detta sammanhang hänvisar till Euklidisk geometri (delar av vilken lärs ut som 'plan' geometri), och icke-platt hänvisar till icke-Euklidisk geometri. Vad har geometri med maskininlärning att göra? Som två fält som är rotade i matematik måste det finnas ett gemensamt sätt att mäta avstånd mellan punkter i kluster, och det kan göras på ett 'platt' eller 'icke-platt' sätt, beroende på datans natur. [Euklidiska avstånd](https://wikipedia.org/wiki/Euclidean_distance) mäts som längden på en linjesegment mellan två punkter. [Icke-Euklidiska avstånd](https://wikipedia.org/wiki/Non-Euclidean_geometry) mäts längs en kurva. Om din data, visualiserad, verkar inte existera på en plan, kan du behöva använda en specialiserad algoritm för att hantera den. +> 'Plan' i detta sammanhang avser Euklidisk geometri (delar av vilken lärs ut som 'plan' geometri), och icke-plan avser icke-Euklidisk geometri. Vad har geometri med maskininlärning att göra? Jo, som två områden som är rotade i matematik måste det finnas ett gemensamt sätt att mäta avstånd mellan punkter i kluster, och det kan göras på ett 'plant' eller 'icke-plant' sätt beroende på datans natur. [Euklidiska avstånd](https://wikipedia.org/wiki/Euclidean_distance) mäts som längden på en linjesegment mellan två punkter. [Icke-Euklidiska avstånd](https://wikipedia.org/wiki/Non-Euclidean_geometry) mäts längs en kurva. Om din data, när den visualiseras, verkar inte existera på en plan yta kan du behöva använda en specialiserad algoritm för att hantera detta. > -![Platt vs Icke-platt Geometri Infografik](../../../../5-Clustering/1-Visualize/images/flat-nonflat.png) +![Flat vs Nonflat Geometry Infographic](../../../../translated_images/sv/flat-nonflat.d1c8c6e2a96110c1.webp) > Infografik av [Dasani Madipalli](https://twitter.com/dasani_decoded) > > 🎓 ['Avstånd'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf) > -> Kluster definieras av deras avståndsmatris, t.ex. avstånden mellan punkter. Detta avstånd kan mätas på några sätt. Euklidiska kluster definieras av genomsnittet av punktvärdena och innehåller en 'centroid' eller mittpunkt. Avstånd mäts således genom avståndet till den centroiden. Icke-Euklidiska avstånd hänvisar till 'clustroids', punkten närmast andra punkter. Clustroids kan i sin tur definieras på olika sätt. +> Kluster definieras av deras avståndsmatris, t.ex. avstånden mellan punkterna. Detta avstånd kan mätas på några olika sätt. Euklidiska kluster definieras av medelvärdet av punktvärdena, och innehåller en 'centroid' eller central punkt. Avstånd mäts då som avståndet till den centroiden. Icke-Euklidiska avstånd refererar till 'klustroids', punkten närmast andra punkter. Klustroids kan i sin tur definieras på olika sätt. > > 🎓 ['Begränsad'](https://wikipedia.org/wiki/Constrained_clustering) > -> [Begränsad klustring](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) introducerar 'semi-övervakad' inlärning i denna oövervakade metod. Relationerna mellan punkter flaggas som 'kan inte länka' eller 'måste länka' så vissa regler tvingas på datasetet. +> [Begränsad klustring](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) introducerar 'semi-övervakad' inlärning i denna oövervakade metod. Relationerna mellan punkterna markeras som 'får inte länkas' eller 'måste länkas' så vissa regler tvingas på datasetet. > ->Ett exempel: Om en algoritm släpps fri på en samling oetiketterad eller semi-etiketterad data kan klustren den producerar vara av dålig kvalitet. I exemplet ovan kan klustren gruppera 'runda musikaliska saker' och 'fyrkantiga musikaliska saker' och 'triangulära saker' och 'kakor'. Om algoritmen ges vissa begränsningar, eller regler att följa ("objektet måste vara gjort av plast", "objektet måste kunna producera musik") kan detta hjälpa till att 'begränsa' algoritmen att göra bättre val. +>Exempel: Om en algoritm släpps lös på en samling oetiketterad eller semi-etiketterad data, kan de kluster den producerar vara av låg kvalitet. I exemplet ovan kan klustren gruppera 'runda musiksaker', 'fyrkantiga musiksaker', 'triangulära saker' och 'kakor'. Om man ger vissa begränsningar eller regler att följa ("föremålet måste vara av plast", "föremålet måste kunna producera musik") kan detta hjälpa algoritmen att göra bättre val. > > 🎓 'Densitet' > -> Data som är 'brusig' anses vara 'tät'. Avstånden mellan punkter i varje av dess kluster kan vid undersökning visa sig vara mer eller mindre täta, eller 'trånga', och denna data behöver analyseras med lämplig klustringsmetod. [Denna artikel](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) demonstrerar skillnaden mellan att använda K-Means klustring vs. HDBSCAN-algoritmer för att utforska en brusig dataset med ojämn klusterdensitet. +> Data som är 'brusig' anses vara 'tät'. Avstånden mellan punkterna i varje kluster kan efter undersökning visa sig vara mer eller mindre täta, eller 'trånga' och därför behöver denna data analyseras med passande klustringsmetod. [Denna artikel](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) visar skillnaden mellan att använda K-Means klustring vs. HDBSCAN-algoritmer för att utforska en brusig dataset med ojämn klusterdensitet. ## Klustringsalgoritmer -Det finns över 100 klustringsalgoritmer, och deras användning beror på datans natur. Låt oss diskutera några av de viktigaste: +Det finns över 100 klustringsalgoritmer, och deras användning beror på datans natur. Låt oss diskutera några av de största: -- **Hierarkisk klustring**. Om ett objekt klassificeras baserat på dess närhet till ett närliggande objekt, snarare än till ett längre bort, bildas kluster baserat på medlemmarnas avstånd till och från andra objekt. Scikit-learns agglomerativa klustring är hierarkisk. +- **Hierarkisk klustring**. Om ett objekt klassificeras efter dess närhet till ett närliggande objekt, snarare än ett längre bort, bildas kluster baserat på medlemmarnas avstånd till och från andra objekt. Scikit-learns agglomerativa klustring är hierarkisk. - ![Hierarkisk klustring Infografik](../../../../5-Clustering/1-Visualize/images/hierarchical.png) + ![Hierarchical clustering Infographic](../../../../translated_images/sv/hierarchical.bf59403aa43c8c47.webp) > Infografik av [Dasani Madipalli](https://twitter.com/dasani_decoded) -- **Centroid-klustring**. Denna populära algoritm kräver valet av 'k', eller antalet kluster som ska bildas, varefter algoritmen bestämmer mittpunkten för ett kluster och samlar data runt den punkten. [K-means klustring](https://wikipedia.org/wiki/K-means_clustering) är en populär version av centroid-klustring. Centroiden bestäms av det närmaste medelvärdet, därav namnet. Det kvadrerade avståndet från klustret minimeras. +- **Centroidklustring**. Denna populära algoritm kräver val av 'k', alltså antalet kluster som ska bildas, varefter algoritmen bestämmer en klusters mittpunkt och samlar data runt denna punkt. [K-means klustring](https://wikipedia.org/wiki/K-means_clustering) är en populär variant av centroidklustring. Mittpunkten bestäms av närmsta medelvärde, därav namnet. Det kvadrerade avståndet från klustret minimeras. - ![Centroid-klustring Infografik](../../../../5-Clustering/1-Visualize/images/centroid.png) + ![Centroid clustering Infographic](../../../../translated_images/sv/centroid.097fde836cf6c918.webp) > Infografik av [Dasani Madipalli](https://twitter.com/dasani_decoded) -- **Fördelningsbaserad klustring**. Baserad på statistisk modellering fokuserar fördelningsbaserad klustring på att bestämma sannolikheten att en datapunkt tillhör ett kluster och tilldelar den därefter. Gaussian mixture-metoder tillhör denna typ. +- **Distributionsbaserad klustring**. Baserad på statistisk modellering fokuserar distributionsbaserad klustring på att avgöra sannolikheten för att en datapunkt tillhör ett kluster och tilldela den därefter. Gaussiska blandningsmetoder tillhör denna typ. -- **Densitetsbaserad klustring**. Datapunkter tilldelas kluster baserat på deras densitet, eller deras gruppering runt varandra. Datapunkter långt från gruppen anses vara avvikelser eller brus. DBSCAN, Mean-shift och OPTICS tillhör denna typ av klustring. +- **Densitetsbaserad klustring**. Datapunkter tilldelas kluster baserat på deras densitet, eller deras gruppering runt varandra. Datapunkter långt från gruppen betraktas som uteliggare eller brus. DBSCAN, Mean-shift och OPTICS tillhör denna typ av klustring. -- **Rutbaserad klustring**. För multidimensionella datasets skapas ett rutnät och datan delas upp mellan rutnätets celler, vilket skapar kluster. +- **Rutbaserad klustring**. För flerdimensionella dataset skapas ett rutnät och datan delas upp mellan rutnätets celler, vilket skapar kluster. -## Övning - klustra din data +## Övning – klustra din data -Klustring som teknik underlättas mycket av korrekt visualisering, så låt oss börja med att visualisera vår musikdata. Denna övning kommer att hjälpa oss att avgöra vilken av klustringsmetoderna vi mest effektivt bör använda för datans natur. +Klustring som teknik underlättas mycket av bra visualisering, så låt oss börja med att visualisera vår musikdata. Denna övning hjälper oss att avgöra vilken av klustringsmetoderna vi bör använda mest effektivt för denna datas natur. 1. Öppna filen [_notebook.ipynb_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/notebook.ipynb) i denna mapp. -1. Importera paketet `Seaborn` för bra datavisualisering. +1. Importera `Seaborn`-paketet för bra datavisualisering. ```python !pip install seaborn ``` -1. Lägg till musikdatan från [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv). Ladda upp en dataframe med lite data om låtarna. Förbered dig på att utforska denna data genom att importera biblioteken och dumpa ut datan: +1. Lägg till låtdata från [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv). Ladda en dataframe med några data om låtarna. Gör dig redo att utforska denna data genom att importera biblioteken och skriva ut datan: ```python import matplotlib.pyplot as plt @@ -120,17 +119,17 @@ Klustring som teknik underlättas mycket av korrekt visualisering, så låt oss df.head() ``` - Kontrollera de första raderna av data: + Kolla på de första raderna av data: - | | namn | album | artist | artist_top_genre | release_date | längd | popularitet | dansbarhet | akustiskhet | energi | instrumentellhet | livlighet | ljudstyrka | talighet | tempo | taktart | - | --- | ------------------------ | ---------------------------- | ------------------- | ---------------- | ------------ | ------ | ---------- | ---------- | ------------ | ------ | ---------------- | -------- | -------- | ----------- | ------- | -------------- | - | 0 | Sparky | Mandy & The Jungle | Cruel Santino | alternativ r&b | 2019 | 144000 | 48 | 0.666 | 0.851 | 0.42 | 0.534 | 0.11 | -6.699 | 0.0829 | 133.015 | 5 | - | 1 | shuga rush | EVERYTHING YOU HEARD IS TRUE | Odunsi (The Engine) | afropop | 2020 | 89488 | 30 | 0.71 | 0.0822 | 0.683 | 0.000169 | 0.101 | -5.64 | 0.36 | 129.993 | 3 | -| 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | -| 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | -| 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | + | | name | album | artist | artist_top_genre | release_date | length | popularity | danceability | acousticness | energy | instrumentalness | liveness | loudness | speechiness | tempo | time_signature | + | --- | ------------------------ | ---------------------------- | ------------------- | ---------------- | ------------ | ------ | ---------- | ------------ | ------------ | ------ | ---------------- | -------- | -------- | ----------- | ------- | -------------- | + | 0 | Sparky | Mandy & The Jungle | Cruel Santino | alternative r&b | 2019 | 144000 | 48 | 0.666 | 0.851 | 0.42 | 0.534 | 0.11 | -6.699 | 0.0829 | 133.015 | 5 | + | 1 | shuga rush | EVERYTHING YOU HEARD IS TRUE | Odunsi (The Engine) | afropop | 2020 | 89488 | 30 | 0.71 | 0.0822 | 0.683 | 0.000169 | 0.101 | -5.64 | 0.36 | 129.993 | 3 | + | 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | + | 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | + | 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | -1. Få information om dataframe genom att kalla på `info()`: +1. Få lite information om dataframe, genom att anropa `info()`: ```python df.info() @@ -164,7 +163,7 @@ Klustring som teknik underlättas mycket av korrekt visualisering, så låt oss memory usage: 66.4+ KB ``` -1. Kontrollera om det finns några null-värden genom att kalla på `isnull()` och verifiera att summan är 0: +1. Dubbelkolla för null-värden genom att anropa `isnull()` och verifiera att summan är 0: ```python df.isnull().sum() @@ -209,9 +208,9 @@ Klustring som teknik underlättas mycket av korrekt visualisering, så låt oss | 75% | 2017 | 242098.5 | 31 | 0.8295 | 0.403 | 0.87575 | 0.000234 | 0.164 | -3.331 | 0.177 | 125.03925 | 4 | | max | 2020 | 511738 | 73 | 0.966 | 0.954 | 0.995 | 0.91 | 0.811 | 0.582 | 0.514 | 206.007 | 5 | -> 🤔 Om vi arbetar med klustring, en osuperviserad metod som inte kräver etiketterad data, varför visar vi denna data med etiketter? Under datautforskningsfasen är de användbara, men de är inte nödvändiga för att klustringsalgoritmer ska fungera. Du kan lika gärna ta bort kolumnrubrikerna och hänvisa till datan med kolumnnummer. +> 🤔 Om vi arbetar med klustring, en osuperviserad metod som inte kräver märkta data, varför visar vi då denna data med etiketter? I datautforskningsfasen är de användbara, men de är inte nödvändiga för att klustringsalgoritmer ska fungera. Du kan precis lika gärna ta bort kolumnrubrikerna och referera till datan via kolumnnummer. -Titta på de generella värdena i datan. Notera att popularitet kan vara '0', vilket visar låtar som inte har någon ranking. Låt oss ta bort dessa snart. +Titta på de allmänna värdena i datan. Notera att popularitet kan vara '0', vilket visar låtar som inte har någon ranking. Låt oss ta bort dessa strax. 1. Använd ett stapeldiagram för att ta reda på de mest populära genrerna: @@ -225,13 +224,13 @@ Titta på de generella värdena i datan. Notera att popularitet kan vara '0', vi plt.title('Top genres',color = 'blue') ``` - ![mest populära](../../../../5-Clustering/1-Visualize/images/popular.png) + ![most popular](../../../../translated_images/sv/popular.9c48d84b3386705f.webp) -✅ Om du vill se fler toppvärden, ändra topp `[:5]` till ett större värde, eller ta bort det för att se allt. +✅ Om du vill se fler toppvärden, ändra top-`[:5]` till ett större värde, eller ta bort det för att se alla. -Notera, när toppgenren beskrivs som 'Missing', betyder det att Spotify inte klassificerade den, så låt oss ta bort den. +Observera, när toppgenren beskrivs som 'Missing', betyder det att Spotify inte klassificerade den, så låt oss ta bort den. -1. Ta bort saknade data genom att filtrera bort dem +1. Ta bort borttappade data genom att filtrera bort den ```python df = df[df['artist_top_genre'] != 'Missing'] @@ -244,9 +243,9 @@ Notera, när toppgenren beskrivs som 'Missing', betyder det att Spotify inte kla Kontrollera nu genrerna igen: - ![mest populära](../../../../5-Clustering/1-Visualize/images/all-genres.png) + ![most popular](../../../../translated_images/sv/all-genres.1d56ef06cefbfcd6.webp) -1. De tre toppgenrerna dominerar datasetet. Låt oss koncentrera oss på `afro dancehall`, `afropop` och `nigerian pop`, och dessutom filtrera datasetet för att ta bort allt med ett popularitetsvärde på 0 (vilket betyder att det inte klassificerades med en popularitet i datasetet och kan betraktas som brus för våra syften): +1. De tre överlägset största genrerna dominerar denna dataset. Låt oss koncentrera oss på `afro dancehall`, `afropop`, och `nigerian pop`, samt filtrera datasetet för att ta bort något med en popularitet på 0 (vilket betyder att det inte klassificerades med en popularitet i datasetet och kan betraktas som brus för våra syften): ```python df = df[(df['artist_top_genre'] == 'afro dancehall') | (df['artist_top_genre'] == 'afropop') | (df['artist_top_genre'] == 'nigerian pop')] @@ -266,21 +265,21 @@ Notera, när toppgenren beskrivs som 'Missing', betyder det att Spotify inte kla sns.heatmap(corrmat, vmax=.8, square=True) ``` - ![korrelationer](../../../../5-Clustering/1-Visualize/images/correlation.png) + ![correlations](../../../../translated_images/sv/correlation.a9356bb798f5eea5.webp) - Den enda starka korrelationen är mellan `energy` och `loudness`, vilket inte är särskilt förvånande, eftersom hög musik vanligtvis är ganska energisk. Annars är korrelationerna relativt svaga. Det kommer att bli intressant att se vad en klustringsalgoritm kan göra med denna data. + Den enda starka korrelationen är mellan `energy` och `loudness`, vilket inte är så förvånande, eftersom hög volym oftast är ganska energiskt. Annars är korrelationerna relativt svaga. Det blir intressant att se vad en klustringsalgoritm kan göra med denna data. - > 🎓 Notera att korrelation inte innebär kausalitet! Vi har bevis på korrelation men inget bevis på kausalitet. En [underhållande webbplats](https://tylervigen.com/spurious-correlations) har några visuella exempel som betonar denna punkt. + > 🎓 Notera att korrelation innebär inte orsakssamband! Vi har bevis på korrelation men inget bevis på orsakssamband. En [rolig webbplats](https://tylervigen.com/spurious-correlations) har några visualiseringar som betonar denna poäng. -Finns det någon konvergens i detta dataset kring en låts upplevda popularitet och dansbarhet? En FacetGrid visar att det finns koncentriska cirklar som stämmer överens, oavsett genre. Kan det vara så att nigerianska smaker konvergerar vid en viss nivå av dansbarhet för denna genre? +Finns det någon konvergens i detta dataset kring en låts upplevda popularitet och dansbarhet? Ett FacetGrid visar att det finns koncentriska cirklar som ligger i linje, oavsett genre. Kan det vara så att Nigerianska smaker konvergerar vid en viss nivå av dansbarhet för denna genre? -✅ Prova olika datapunkter (energy, loudness, speechiness) och fler eller olika musikgenrer. Vad kan du upptäcka? Titta på `df.describe()`-tabellen för att se den generella spridningen av datapunkterna. +✅ Prova olika datapunkter (energy, loudness, speechiness) och fler eller andra musikgenrer. Vad kan du upptäcka? Ta en titt på tabellen `df.describe()` för att se den allmänna spridningen av datapunkterna. -### Övning - dataspridning +### Övning - datadistribution Är dessa tre genrer signifikant olika i uppfattningen av deras dansbarhet, baserat på deras popularitet? -1. Undersök dataspridningen för våra tre toppgenrer för popularitet och dansbarhet längs en given x- och y-axel. +1. Undersök våra tre toppgenrer med datadistribution för popularitet och dansbarhet längs givna x- och y-axlar. ```python sns.set_theme(style="ticks") @@ -292,15 +291,15 @@ Finns det någon konvergens i detta dataset kring en låts upplevda popularitet ) ``` - Du kan upptäcka koncentriska cirklar runt en generell konvergenspunkt, som visar spridningen av punkter. + Du kan upptäcka koncentriska cirklar runt en allmän konvergenspunkt som visar punkternas fördelning. - > 🎓 Notera att detta exempel använder ett KDE (Kernel Density Estimate)-diagram som representerar datan med en kontinuerlig sannolikhetstäthetskurva. Detta gör det möjligt att tolka data när man arbetar med flera distributioner. + > 🎓 Notera att detta exempel använder en KDE-graf (Kernel Density Estimate) som representerar datan med en kontinuerlig sannolikhetstäthetkurva. Detta gör det möjligt för oss att tolka data när vi arbetar med flera fördelningar. - Generellt sett är de tre genrerna löst anpassade när det gäller deras popularitet och dansbarhet. Att bestämma kluster i denna löst anpassade data kommer att vara en utmaning: + Generellt ligger de tre genrerna löst i linje med varandra vad gäller popularitet och dansbarhet. Att avgöra kluster i denna löst sammanfogade data blir en utmaning: - ![spridning](../../../../5-Clustering/1-Visualize/images/distribution.png) + ![distribution](../../../../translated_images/sv/distribution.9be11df42356ca95.webp) -1. Skapa ett spridningsdiagram: +1. Skapa ett scatterplot: ```python sns.FacetGrid(df, hue="artist_top_genre", height=5) \ @@ -308,31 +307,33 @@ Finns det någon konvergens i detta dataset kring en låts upplevda popularitet .add_legend() ``` - Ett spridningsdiagram av samma axlar visar ett liknande mönster av konvergens + Ett scatterplot med samma axlar visar ett liknande mönster av konvergens - ![Facetgrid](../../../../5-Clustering/1-Visualize/images/facetgrid.png) + ![Facetgrid](../../../../translated_images/sv/facetgrid.9b2e65ce707eba1f.webp) -Generellt sett kan du använda spridningsdiagram för att visa kluster av data, så att bemästra denna typ av visualisering är mycket användbart. I nästa lektion kommer vi att ta denna filtrerade data och använda k-means-klustring för att upptäcka grupper i denna data som verkar överlappa på intressanta sätt. +Generellt kan du för klustring använda scatterplots för att visa datakluster, så att behärska denna typ av visualisering är mycket användbart. I nästa lektion kommer vi ta denna filtrerade data och använda k-means klustring för att upptäcka grupper i denna data som verkar överlappa på intressanta sätt. --- ## 🚀Utmaning -Som förberedelse inför nästa lektion, skapa ett diagram över de olika klustringsalgoritmer du kan upptäcka och använda i en produktionsmiljö. Vilka typer av problem försöker klustringen lösa? +Som förberedelse för nästa lektion, gör ett diagram över de olika klustringsalgoritmer du kan upptäcka och använda i en produktionsmiljö. Vilka slags problem försöker klustringen lösa? -## [Quiz efter föreläsningen](https://ff-quizzes.netlify.app/en/ml/) +## [Post-lecture quiz](https://ff-quizzes.netlify.app/en/ml/) ## Granskning & Självstudier -Innan du tillämpar klustringsalgoritmer, som vi har lärt oss, är det en bra idé att förstå naturen av ditt dataset. Läs mer om detta ämne [här](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) +Innan du tillämpar klustringsalgoritmer, som vi har lärt oss, är det en bra idé att förstå naturen hos ditt dataset. Läs mer om detta ämne [här](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) -[Denna hjälpsamma artikel](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) går igenom de olika sätt som olika klustringsalgoritmer beter sig, givet olika datamönster. +[Denna hjälpsamma artikel](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) går igenom de olika sätt som olika klustringsalgoritmer beter sig, givet olika datatyper. ## Uppgift -[Undersök andra visualiseringar för klustring](assignment.md) +[Forska andra visualiseringar för klustring](assignment.md) --- -**Ansvarsfriskrivning**: -Detta dokument har översatts med hjälp av AI-översättningstjänsten [Co-op Translator](https://github.com/Azure/co-op-translator). Även om vi strävar efter noggrannhet, vänligen notera att automatiska översättningar kan innehålla fel eller felaktigheter. Det ursprungliga dokumentet på dess originalspråk bör betraktas som den auktoritativa källan. För kritisk information rekommenderas professionell mänsklig översättning. Vi ansvarar inte för eventuella missförstånd eller feltolkningar som uppstår vid användning av denna översättning. \ No newline at end of file + +**Ansvarsfriskrivning**: +Detta dokument har översatts med hjälp av AI-översättningstjänsten [Co-op Translator](https://github.com/Azure/co-op-translator). Även om vi strävar efter noggrannhet, var vänlig notera att automatiska översättningar kan innehålla fel eller brister. Det ursprungliga dokumentet på dess modersmål bör betraktas som den auktoritativa källan. För kritisk information rekommenderas professionell mänsklig översättning. Vi ansvarar inte för några missförstånd eller feltolkningar som uppstår till följd av användningen av denna översättning. + \ No newline at end of file diff --git a/translations/th/.co-op-translator.json b/translations/th/.co-op-translator.json index ede99afa4..c3077d206 100644 --- a/translations/th/.co-op-translator.json +++ b/translations/th/.co-op-translator.json @@ -1,7 +1,7 @@ { "1-Introduction/1-intro-to-ML/README.md": { - "original_hash": "69389392fa6346e0dfa30f664b7b6fec", - "translation_date": "2025-09-05T21:42:12+00:00", + "original_hash": "3a6394c6f5ce3f8aee8211e92eaf9ef0", + "translation_date": "2026-05-26T23:24:50+00:00", "source_file": "1-Introduction/1-intro-to-ML/README.md", "language_code": "th" }, @@ -240,8 +240,8 @@ "language_code": "th" }, "5-Clustering/1-Visualize/README.md": { - "original_hash": "730225ea274c9174fe688b21d421539d", - "translation_date": "2025-09-05T21:25:30+00:00", + "original_hash": "08b00d9fbffc667a7fe7fc19ac00dfbd", + "translation_date": "2026-05-26T23:24:22+00:00", "source_file": "5-Clustering/1-Visualize/README.md", "language_code": "th" }, diff --git a/translations/th/1-Introduction/1-intro-to-ML/README.md b/translations/th/1-Introduction/1-intro-to-ML/README.md index 63f98dafc..dfbe38011 100644 --- a/translations/th/1-Introduction/1-intro-to-ML/README.md +++ b/translations/th/1-Introduction/1-intro-to-ML/README.md @@ -1,150 +1,157 @@ # บทนำสู่การเรียนรู้ของเครื่อง -## [แบบทดสอบก่อนเริ่มบทเรียน](https://ff-quizzes.netlify.app/en/ml/) +## [แบบทดสอบก่อนบรรยาย](https://ff-quizzes.netlify.app/en/ml/) --- [![ML for beginners - Introduction to Machine Learning for Beginners](https://img.youtube.com/vi/6mSx_KJxcHI/0.jpg)](https://youtu.be/6mSx_KJxcHI "ML for beginners - Introduction to Machine Learning for Beginners") -> 🎥 คลิกที่ภาพด้านบนเพื่อดูวิดีโอสั้น ๆ เกี่ยวกับบทเรียนนี้ +> 🎥 คลิกที่ภาพด้านบนเพื่อดูวิดีโอสั้นๆ ที่อธิบายบทเรียนนี้ -ยินดีต้อนรับสู่คอร์สเรียนรู้ของเครื่องแบบคลาสสิกสำหรับผู้เริ่มต้น! ไม่ว่าคุณจะเป็นมือใหม่ในหัวข้อนี้ หรือเป็นผู้เชี่ยวชาญด้าน ML ที่ต้องการทบทวนความรู้ เราดีใจที่คุณมาร่วมกับเรา! เราต้องการสร้างจุดเริ่มต้นที่เป็นมิตรสำหรับการศึกษาด้าน ML ของคุณ และยินดีที่จะประเมิน ตอบสนอง และนำ [ความคิดเห็น](https://github.com/microsoft/ML-For-Beginners/discussions) ของคุณมาปรับปรุง +ยินดีต้อนรับสู่หลักสูตรการเรียนรู้ของเครื่องแบบคลาสสิกสำหรับผู้เริ่มต้น! ไม่ว่าคุณจะเป็นมือใหม่กับหัวข้อนี้โดยสิ้นเชิง หรือเป็นผู้ที่มีประสบการณ์ในการใช้งาน ML ที่ต้องการทบทวนในบางด้าน เรายินดีที่คุณเข้าร่วมกับเรา! เราต้องการสร้างจุดเริ่มต้นที่เป็นมิตรสำหรับการศึกษาด้าน ML ของคุณและยินดีรับฟัง ตอบกลับ และนำ [ความคิดเห็น](https://github.com/microsoft/ML-For-Beginners/discussions) ของคุณมาปรับใช้ [![Introduction to ML](https://img.youtube.com/vi/h0e2HAPTGF4/0.jpg)](https://youtu.be/h0e2HAPTGF4 "Introduction to ML") -> 🎥 คลิกที่ภาพด้านบนเพื่อดูวิดีโอ: John Guttag จาก MIT แนะนำการเรียนรู้ของเครื่อง +> 🎥 คลิกที่ภาพด้านบนเพื่อดูวิดีโอ: John Guttag จาก MIT แนะนำเกี่ยวกับการเรียนรู้ของเครื่อง --- ## เริ่มต้นกับการเรียนรู้ของเครื่อง -ก่อนเริ่มต้นกับหลักสูตรนี้ คุณจำเป็นต้องตั้งค่าคอมพิวเตอร์ของคุณให้พร้อมสำหรับการใช้งานโน้ตบุ๊กในเครื่อง +ก่อนเริ่มต้นกับหลักสูตรนี้ คุณต้องเตรียมคอมพิวเตอร์ของคุณให้พร้อมสำหรับการรันโน้ตบุ๊กในเครื่อง -- **ตั้งค่าคอมพิวเตอร์ของคุณด้วยวิดีโอเหล่านี้** ใช้ลิงก์ต่อไปนี้เพื่อเรียนรู้ [วิธีติดตั้ง Python](https://youtu.be/CXZYvNRIAKM) ในระบบของคุณ และ [ตั้งค่าตัวแก้ไขข้อความ](https://youtu.be/EU8eayHWoZg) สำหรับการพัฒนา -- **เรียนรู้ Python** ขอแนะนำให้มีความเข้าใจพื้นฐานเกี่ยวกับ [Python](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott) ซึ่งเป็นภาษาการเขียนโปรแกรมที่มีประโยชน์สำหรับนักวิทยาศาสตร์ข้อมูลที่เราใช้ในคอร์สนี้ -- **เรียนรู้ Node.js และ JavaScript** เราใช้ JavaScript ในบางครั้งในคอร์สนี้เมื่อสร้างเว็บแอป ดังนั้นคุณจะต้องมี [node](https://nodejs.org) และ [npm](https://www.npmjs.com/) ติดตั้ง รวมถึง [Visual Studio Code](https://code.visualstudio.com/) สำหรับการพัฒนา Python และ JavaScript -- **สร้างบัญชี GitHub** เนื่องจากคุณพบเราใน [GitHub](https://github.com) คุณอาจมีบัญชีอยู่แล้ว แต่ถ้ายังไม่มี ให้สร้างบัญชีและ fork หลักสูตรนี้เพื่อใช้งานเอง (อย่าลืมให้ดาวเราด้วย 😊) -- **สำรวจ Scikit-learn** ทำความคุ้นเคยกับ [Scikit-learn](https://scikit-learn.org/stable/user_guide.html) ซึ่งเป็นชุดไลบรารี ML ที่เราอ้างอิงในบทเรียนเหล่านี้ +- **ตั้งค่าเครื่องของคุณด้วยวิดีโอเหล่านี้** ใช้ลิงก์ต่อไปนี้เพื่อเรียนรู้ [วิธีการติดตั้ง Python](https://youtu.be/CXZYvNRIAKM) ในระบบของคุณ และ [การตั้งค่าโปรแกรมแก้ไขข้อความ](https://youtu.be/EU8eayHWoZg) สำหรับการพัฒนา +- **เรียนรู้ Python** แนะนำให้เข้าใจพื้นฐานของ [Python](https://docs.microsoft.com/learn/paths/python-language/?WT.mc_id=academic-77952-leestott) ภาษาโปรแกรมที่มีประโยชน์สำหรับนักวิทยาศาสตร์ข้อมูลที่เราใช้ในหลักสูตรนี้ +- **เรียนรู้ Node.js และ JavaScript** เราใช้ JavaScript บางครั้งในการสร้างเว็บแอป ดังนั้นคุณจำเป็นต้องติดตั้ง [node](https://nodejs.org) และ [npm](https://www.npmjs.com/) รวมถึงมี [Visual Studio Code](https://code.visualstudio.com/) สำหรับการพัฒนา Python และ JavaScript +- **สร้างบัญชี GitHub** เนื่องจากคุณเจอเราใน [GitHub](https://github.com) แล้ว อาจจะมีบัญชีอยู่แล้ว แต่ถ้าไม่มีก็สร้างขึ้นมาและ Fork หลักสูตรนี้ไปใช้เอง (อย่าลืมกดดาวให้เราด้วยนะ 😊) +- **สำรวจ Scikit-learn** ทำความคุ้นเคยกับ [Scikit-learn](https://scikit-learn.org/stable/user_guide.html) ชุดไลบรารี ML ที่เราใช้อ้างอิงในบทเรียนเหล่านี้ --- ## การเรียนรู้ของเครื่องคืออะไร? -คำว่า 'การเรียนรู้ของเครื่อง' เป็นหนึ่งในคำที่ได้รับความนิยมและถูกใช้งานบ่อยที่สุดในปัจจุบัน มีความเป็นไปได้สูงที่คุณจะเคยได้ยินคำนี้อย่างน้อยหนึ่งครั้ง หากคุณมีความคุ้นเคยกับเทคโนโลยี ไม่ว่าคุณจะทำงานในสาขาใดก็ตาม อย่างไรก็ตาม กลไกของการเรียนรู้ของเครื่องยังคงเป็นปริศนาสำหรับคนส่วนใหญ่ สำหรับผู้เริ่มต้น การเรียนรู้ของเครื่องอาจดูเหมือนเป็นเรื่องที่ซับซ้อน ดังนั้นจึงเป็นสิ่งสำคัญที่จะต้องเข้าใจว่าการเรียนรู้ของเครื่องคืออะไร และเรียนรู้เกี่ยวกับมันทีละขั้นตอนผ่านตัวอย่างที่เป็นรูปธรรม +คำว่า 'machine learning' เป็นคำยอดนิยมและใช้บ่อยมากในปัจจุบัน มีโอกาสสูงมากที่คุณจะได้ยินคำนี้อย่างน้อยครั้งหนึ่งถ้าคุณคุ้นเคยกับเทคโนโลยีในสาขาใดสาขาหนึ่ง แต่กลไกการทำงานของการเรียนรู้ของเครื่องนั้นเป็นเรื่องลึกลับสำหรับคนส่วนใหญ่ สำหรับผู้เริ่มต้นเรียนรู้ของเครื่อง หัวข้อนี้อาจดูท่วมท้น ดังนั้นจึงสำคัญที่จะต้องเข้าใจว่าการเรียนรู้ของเครื่องคืออะไรจริงๆ และเรียนรู้ทีละขั้นตอนผ่านตัวอย่างที่เป็นรูปธรรม --- ## เส้นโค้งความนิยม -![ml hype curve](../../../../1-Introduction/1-intro-to-ML/images/hype.png) +![ml hype curve](../../../../translated_images/th/hype.07183d711a17aafe.webp) -> Google Trends แสดง 'เส้นโค้งความนิยม' ล่าสุดของคำว่า 'การเรียนรู้ของเครื่อง' +> Google Trends แสดง 'เส้นโค้งความนิยม' ล่าสุดของคำว่า 'machine learning' --- ## จักรวาลที่ลึกลับ -เราอาศัยอยู่ในจักรวาลที่เต็มไปด้วยความลึกลับที่น่าหลงใหล นักวิทยาศาสตร์ผู้ยิ่งใหญ่ เช่น Stephen Hawking, Albert Einstein และอีกมากมาย ได้อุทิศชีวิตของพวกเขาเพื่อค้นหาข้อมูลที่มีความหมายซึ่งเปิดเผยความลึกลับของโลกที่อยู่รอบตัวเรา นี่คือสภาพของมนุษย์ในการเรียนรู้: เด็กมนุษย์เรียนรู้สิ่งใหม่ ๆ และค้นพบโครงสร้างของโลกของพวกเขาปีต่อปีเมื่อพวกเขาเติบโตเป็นผู้ใหญ่ +เรากำลังอยู่ในจักรวาลที่เต็มไปด้วยความลี้ลับที่น่าหลงใหล นักวิทยาศาสตร์ผู้ยิ่งใหญ่เช่น Stephen Hawking, Albert Einstein และคนอื่นๆ อีกมากมายได้อุทิศชีวิตเพื่อค้นหาข้อมูลที่มีความหมายซึ่งช่วยเปิดเผยความลับของโลกที่อยู่รอบตัวเรา นี่คือเงื่อนไขของมนุษย์ในการเรียนรู้: เด็กมนุษย์เรียนรู้สิ่งใหม่ๆ และเปิดเผยโครงสร้างของโลกของตนทีละปีเมื่อเติบโตขึ้นเป็นผู้ใหญ่ --- ## สมองของเด็ก -สมองและประสาทสัมผัสของเด็กรับรู้ข้อเท็จจริงของสิ่งแวดล้อม และค่อย ๆ เรียนรู้รูปแบบที่ซ่อนอยู่ของชีวิต ซึ่งช่วยให้เด็กสร้างกฎเกณฑ์เชิงตรรกะเพื่อระบุรูปแบบที่เรียนรู้ได้ กระบวนการเรียนรู้ของสมองมนุษย์ทำให้มนุษย์เป็นสิ่งมีชีวิตที่ซับซ้อนที่สุดในโลกนี้ การเรียนรู้อย่างต่อเนื่องโดยการค้นพบรูปแบบที่ซ่อนอยู่และนวัตกรรมบนรูปแบบเหล่านั้นช่วยให้เราพัฒนาตนเองให้ดีขึ้นเรื่อย ๆ ตลอดชีวิต ความสามารถในการเรียนรู้และพัฒนานี้เกี่ยวข้องกับแนวคิดที่เรียกว่า [brain plasticity](https://www.simplypsychology.org/brain-plasticity.html) ในเชิงพื้นฐาน เราสามารถดึงแรงบันดาลใจบางอย่างจากกระบวนการเรียนรู้ของสมองมนุษย์และแนวคิดของการเรียนรู้ของเครื่อง +สมองและประสาทสัมผัสของเด็กรับรู้ข้อเท็จจริงในสิ่งแวดล้อมและค่อยๆ เรียนรู้รูปแบบที่ซ่อนอยู่ในชีวิตซึ่งช่วยให้เด็กสร้างกฎเกณฑ์ที่มีเหตุผลเพื่อจดจำรูปแบบที่เรียนรู้ได้ กระบวนการเรียนรู้ของสมองมนุษย์ทำให้มนุษย์เป็นสิ่งมีชีวิตที่ซับซ้อนที่สุดในโลก การเรียนรู้อย่างต่อเนื่องโดยค้นหารูปแบบที่ซ่อนอยู่และสร้างนวัตกรรมบนรูปแบบเหล่านั้นช่วยให้เราพัฒนาตัวเองอย่างต่อเนื่องตลอดชีวิต ความสามารถในการเรียนรู้นี้และความสามารถในการพัฒนานั้นเกี่ยวข้องกับแนวคิดที่เรียกว่า [brain plasticity](https://www.simplypsychology.org/brain-plasticity.html) โดยผิวเผิน เราสามารถเชื่อมโยงแรงบันดาลใจบางประการระหว่างกระบวนการเรียนรู้ของสมองมนุษย์กับแนวคิดของการเรียนรู้ของเครื่อง --- ## สมองมนุษย์ -[สมองมนุษย์](https://www.livescience.com/29365-human-brain.html) รับรู้สิ่งต่าง ๆ จากโลกจริง ประมวลผลข้อมูลที่รับรู้ ทำการตัดสินใจอย่างมีเหตุผล และดำเนินการบางอย่างตามสถานการณ์ นี่คือสิ่งที่เราเรียกว่าการประพฤติอย่างชาญฉลาด เมื่อเราสร้างโปรแกรมที่เลียนแบบกระบวนการพฤติกรรมที่ชาญฉลาดให้กับเครื่องจักร เราเรียกมันว่า ปัญญาประดิษฐ์ (AI) +[สมองมนุษย์](https://www.livescience.com/29365-human-brain.html) รับรู้สิ่งต่างๆ จากโลกจริง ประมวลผลข้อมูลที่รับรู้ ตัดสินใจอย่างมีเหตุผล และดำเนินการบางอย่างตามสถานการณ์ นี่คือสิ่งที่เราเรียกว่าการมีพฤติกรรมอย่างชาญฉลาด เมื่อนำกระบวนการพฤติกรรมอัจฉริยะแบบจำลองนี้ไปเขียนโปรแกรมลงในเครื่องจักร เรียกว่า ปัญญาประดิษฐ์ (AI) --- ## คำศัพท์บางคำ -แม้ว่าคำศัพท์เหล่านี้อาจสร้างความสับสน แต่การเรียนรู้ของเครื่อง (ML) เป็นส่วนสำคัญของปัญญาประดิษฐ์ **ML เกี่ยวข้องกับการใช้อัลกอริทึมเฉพาะทางเพื่อค้นหาข้อมูลที่มีความหมายและค้นหารูปแบบที่ซ่อนอยู่จากข้อมูลที่รับรู้เพื่อสนับสนุนกระบวนการตัดสินใจอย่างมีเหตุผล** +ถึงแม้คำศัพท์เหล่านี้อาจสับสนกัน แต่การเรียนรู้ของเครื่อง (ML) เป็นส่วนย่อยที่สำคัญของปัญญาประดิษฐ์ **ML เกี่ยวข้องกับการใช้อัลกอริทึมเฉพาะทางในการค้นหาข้อมูลที่มีความหมายและรูปแบบที่ซ่อนอยู่จากข้อมูลที่รับรู้ เพื่อสนับสนุนกระบวนการตัดสินใจอย่างมีเหตุผล** --- ## AI, ML, Deep Learning -![AI, ML, deep learning, data science](../../../../1-Introduction/1-intro-to-ML/images/ai-ml-ds.png) +![AI, ML, deep learning, data science](../../../../translated_images/th/ai-ml-ds.537ea441b124ebf6.webp) > แผนภาพแสดงความสัมพันธ์ระหว่าง AI, ML, deep learning และ data science อินโฟกราฟิกโดย [Jen Looper](https://twitter.com/jenlooper) ได้แรงบันดาลใจจาก [กราฟิกนี้](https://softwareengineering.stackexchange.com/questions/366996/distinction-between-ai-ml-neural-networks-deep-learning-and-data-mining) --- -## แนวคิดที่ครอบคลุม +## แนวคิดที่ต้องครอบคลุม -ในหลักสูตรนี้ เราจะครอบคลุมเฉพาะแนวคิดหลักของการเรียนรู้ของเครื่องที่ผู้เริ่มต้นต้องรู้ เราจะเน้นที่ 'การเรียนรู้ของเครื่องแบบคลาสสิก' โดยใช้ Scikit-learn ซึ่งเป็นไลบรารีที่ยอดเยี่ยมที่นักเรียนหลายคนใช้เพื่อเรียนรู้พื้นฐาน เพื่อให้เข้าใจแนวคิดที่กว้างขึ้นของปัญญาประดิษฐ์หรือ deep learning ความรู้พื้นฐานที่แข็งแกร่งเกี่ยวกับการเรียนรู้ของเครื่องเป็นสิ่งสำคัญ และเราต้องการนำเสนอสิ่งนี้ที่นี่ +ในหลักสูตรนี้ เราจะครอบคลุมเฉพาะแนวคิดหลักของการเรียนรู้ของเครื่องที่ผู้เริ่มต้นต้องรู้ เราจะเน้นที่สิ่งที่เรียกว่า 'การเรียนรู้ของเครื่องแบบคลาสสิก'เป็นหลักโดยใช้ Scikit-learn ซึ่งเป็นไลบรารีที่ยอดเยี่ยมที่นักเรียนจำนวนมากใช้เรียนรู้พื้นฐาน เพื่อที่จะเข้าใจแนวคิดที่กว้างขึ้นของปัญญาประดิษฐ์หรือการเรียนรู้เชิงลึก ความรู้พื้นฐานที่แข็งแกร่งของการเรียนรู้ของเครื่องเป็นสิ่งจำเป็น และเราต้องการนำเสนอสิ่งนี้ที่นี่ --- -## ในคอร์สนี้คุณจะได้เรียนรู้: +## ในหลักสูตรนี้คุณจะได้เรียนรู้: - แนวคิดหลักของการเรียนรู้ของเครื่อง -- ประวัติศาสตร์ของ ML -- ML และความเป็นธรรม -- เทคนิคการถดถอยใน ML -- เทคนิคการจำแนกประเภทใน ML -- เทคนิคการจัดกลุ่มใน ML +- ประวัติของ ML +- ML และความยุติธรรม +- เทคนิคการถดถอย (regression) ใน ML +- เทคนิคการจัดประเภท (classification) ใน ML +- เทคนิคการจัดกลุ่ม (clustering) ใน ML - เทคนิคการประมวลผลภาษาธรรมชาติใน ML - เทคนิคการพยากรณ์อนุกรมเวลาใน ML -- การเรียนรู้แบบเสริมกำลัง -- การประยุกต์ใช้ ML ในโลกจริง +- การเรียนรู้แบบเสริมกำลัง (reinforcement learning) +- การประยุกต์ใช้งานจริงของ ML --- -## สิ่งที่เราจะไม่ครอบคลุม +## สิ่งที่เราไม่ครอบคลุม - deep learning -- neural networks +- เครือข่ายประสาทเทียม (neural networks) - AI -เพื่อให้การเรียนรู้มีประสิทธิภาพมากขึ้น เราจะหลีกเลี่ยงความซับซ้อนของ neural networks, 'deep learning' - การสร้างโมเดลหลายชั้นโดยใช้ neural networks - และ AI ซึ่งเราจะพูดถึงในหลักสูตรอื่น นอกจากนี้เรายังจะนำเสนอหลักสูตรวิทยาศาสตร์ข้อมูลในอนาคตเพื่อมุ่งเน้นด้านนี้ของสาขาที่กว้างขึ้น +เพื่อให้ได้ประสบการณ์การเรียนรู้ที่ดีขึ้น เราจะหลีกเลี่ยงความซับซ้อนของเครือข่ายประสาทเทียม, 'deep learning' ซึ่งเป็นการสร้างโมเดลหลายชั้นโดยใช้เครือข่ายประสาท และ AI ซึ่งเราจะพูดถึงในหลักสูตรแยกต่างหาก นอกจากนี้ เรายังจะมีหลักสูตร data science ที่จะเน้นในด้านนี้ของสาขาที่กว้างขึ้นในอนาคต --- -## ทำไมต้องศึกษาการเรียนรู้ของเครื่อง? +## ทำไมต้องศึกษา machine learning? -การเรียนรู้ของเครื่องในมุมมองของระบบ ถูกกำหนดให้เป็นการสร้างระบบอัตโนมัติที่สามารถเรียนรู้รูปแบบที่ซ่อนอยู่จากข้อมูลเพื่อช่วยในการตัดสินใจอย่างชาญฉลาด +การเรียนรู้ของเครื่อง หากดูจากมุมมองของระบบ ถูกกำหนดให้เป็นการสร้างระบบอัตโนมัติที่สามารถเรียนรู้รูปแบบที่ซ่อนอยู่จากข้อมูลเพื่อช่วยในการตัดสินใจอย่างชาญฉลาด -แรงบันดาลใจนี้ได้รับแรงบันดาลใจอย่างหลวม ๆ จากวิธีที่สมองมนุษย์เรียนรู้สิ่งต่าง ๆ ตามข้อมูลที่รับรู้จากโลกภายนอก +แรงจูงใจนี้ได้รับแรงบันดาลใจคร่าวๆ จากวิธีที่สมองมนุษย์เรียนรู้บางสิ่งบางอย่างจากข้อมูลที่รับรู้จากโลกภายนอก -✅ ลองคิดสักครู่ว่าทำไมธุรกิจถึงต้องการใช้กลยุทธ์การเรียนรู้ของเครื่องแทนการสร้างระบบที่ใช้กฎที่เขียนโค้ดไว้ล่วงหน้า +✅ คิดสักนิดว่าทำไมธุรกิจจึงอยากใช้กลยุทธ์การเรียนรู้ของเครื่อง แทนที่จะสร้างเครื่องมือที่ใช้กฎเกณฑ์แบบเขียนโปรแกรมตายตัว --- -## การประยุกต์ใช้การเรียนรู้ของเครื่อง +## ทำไมคุณภาพข้อมูลจึงสำคัญ -การประยุกต์ใช้การเรียนรู้ของเครื่องมีอยู่แทบทุกที่ และแพร่หลายเหมือนกับข้อมูลที่ไหลเวียนอยู่ในสังคมของเรา ซึ่งเกิดจากสมาร์ทโฟน อุปกรณ์ที่เชื่อมต่อ และระบบอื่น ๆ เมื่อพิจารณาถึงศักยภาพอันมหาศาลของอัลกอริทึมการเรียนรู้ของเครื่องที่ล้ำสมัย นักวิจัยได้สำรวจความสามารถของมันในการแก้ปัญหาชีวิตจริงที่มีหลายมิติและหลายสาขาด้วยผลลัพธ์ที่ดีเยี่ยม +ข้อมูลที่มีคุณภาพสูงช่วยให้โมเดลทำงานได้ดีขึ้น ข้อมูลที่ไม่ดีหรือมีเสียงรบกวนอาจทำให้การทำนายผิดพลาด แม้จะใช้เทคนิคการเรียนรู้ของเครื่องที่ก้าวหน้า --- -## ตัวอย่างการใช้ ML +## การประยุกต์ของการเรียนรู้ของเครื่อง -**คุณสามารถใช้การเรียนรู้ของเครื่องในหลายวิธี**: +การประยุกต์ของการเรียนรู้ของเครื่องมีอยู่ทั่วไปแทบทุกที่ และแพร่หลายเหมือนกับข้อมูลที่ไหลเวียนในสังคมของเรา ซึ่งสร้างขึ้นโดยสมาร์ทโฟน, อุปกรณ์ที่เชื่อมต่อ และระบบอื่นๆ เมื่อพิจารณาศักยภาพอันมหาศาลของอัลกอริทึมการเรียนรู้ของเครื่องสมัยใหม่ นักวิจัยได้สำรวจศักยภาพของพวกเขาในการแก้ปัญหาจริงที่ซับซ้อนและหลายด้านด้วยผลลัพธ์ที่ดีมาก -- เพื่อทำนายความเป็นไปได้ของโรคจากประวัติทางการแพทย์หรือรายงานของผู้ป่วย -- เพื่อใช้ข้อมูลสภาพอากาศในการทำนายเหตุการณ์ทางสภาพอากาศ -- เพื่อทำความเข้าใจความรู้สึกของข้อความ -- เพื่อตรวจจับข่าวปลอมเพื่อหยุดการแพร่กระจายของโฆษณาชวนเชื่อ +--- +## ตัวอย่างการประยุกต์ใช้ ML + +**คุณสามารถใช้การเรียนรู้ของเครื่องได้หลากหลายวิธี**: + +- ทำนายความน่าจะเป็นของโรคจากประวัติหรือรายงานทางการแพทย์ของผู้ป่วย +- ใช้ข้อมูลสภาพอากาศในการทำนายเหตุการณ์ทางสภาพอากาศ +- เข้าใจความรู้สึกหรือเจตนาของข้อความ +- ตรวจสอบข่าวปลอมเพื่อลดการแพร่กระจายของโฆษณาชวนเชื่อ -การเงิน เศรษฐศาสตร์ วิทยาศาสตร์โลก การสำรวจอวกาศ วิศวกรรมชีวการแพทย์ วิทยาศาสตร์การรับรู้ และแม้แต่สาขามนุษยศาสตร์ได้ปรับใช้การเรียนรู้ของเครื่องเพื่อแก้ปัญหาที่หนักหน่วงและต้องการการประมวลผลข้อมูลในสาขาของพวกเขา +สาขาการเงิน เศรษฐศาสตร์ วิทยาศาสตร์โลก การสำรวจอวกาศ วิศวกรรมชีวการแพทย์ วิทยาศาสตร์ความรู้ความเข้าใจ และแม้แต่ศาสตร์มนุษยศาสตร์ต่างได้นำการเรียนรู้ของเครื่องมาใช้แก้ปัญหาที่ซับซ้อนและต้องประมวลผลข้อมูลจำนวนมากในสาขาของตน --- -## สรุป +## บทสรุป -การเรียนรู้ของเครื่องทำให้กระบวนการค้นหารูปแบบเป็นไปโดยอัตโนมัติ โดยการค้นหาข้อมูลเชิงลึกที่มีความหมายจากข้อมูลจริงหรือข้อมูลที่สร้างขึ้น มันได้พิสูจน์ตัวเองว่าเป็นสิ่งที่มีคุณค่ามากในธุรกิจ สุขภาพ และการเงิน รวมถึงการประยุกต์ใช้ในด้านอื่น ๆ +การเรียนรู้ของเครื่องช่วยทำให้กระบวนการค้นหารูปแบบเป็นอัตโนมัติด้วยการค้นหาข้อมูลที่มีความหมายจากข้อมูลโลกจริงหรือตัวข้อมูลที่สร้างขึ้น มันได้พิสูจน์แล้วว่ามีคุณค่าอย่างมากในธุรกิจ สุขภาพ และการเงิน รวมถึงด้านอื่นๆ -ในอนาคตอันใกล้ การเข้าใจพื้นฐานของการเรียนรู้ของเครื่องจะกลายเป็นสิ่งจำเป็นสำหรับผู้คนในทุกสาขา เนื่องจากการนำไปใช้ที่แพร่หลาย +ในอนาคตอันใกล้ การเข้าใจพื้นฐานของการเรียนรู้ของเครื่องจะเป็นสิ่งจำเป็นสำหรับทุกคนในทุกสาขาเนื่องจากการนำไปใช้อย่างกว้างขวาง --- -# 🚀 ความท้าทาย +# 🚀 ท้าทาย -วาดภาพบนกระดาษหรือใช้แอปออนไลน์ เช่น [Excalidraw](https://excalidraw.com/) เพื่อแสดงความเข้าใจของคุณเกี่ยวกับความแตกต่างระหว่าง AI, ML, deep learning และ data science เพิ่มแนวคิดเกี่ยวกับปัญหาที่แต่ละเทคนิคเหล่านี้เหมาะสมในการแก้ไข +ร่างแผนผังบนกระดาษหรือใช้แอปออนไลน์เช่น [Excalidraw](https://excalidraw.com/) เพื่อแสดงความเข้าใจของคุณเกี่ยวกับความแตกต่างระหว่าง AI, ML, deep learning, และ data science โดยเพิ่มไอเดียของปัญหาที่แต่ละเทคนิคนี้ถนัดในการแก้ไข -# [แบบทดสอบหลังบทเรียน](https://ff-quizzes.netlify.app/en/ml/) +# [แบบทดสอบหลังบรรยาย](https://ff-quizzes.netlify.app/en/ml/) --- -# ทบทวนและศึกษาด้วยตนเอง +# ทบทวน & ศึกษาด้วยตนเอง -เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับวิธีที่คุณสามารถทำงานกับอัลกอริทึม ML ในคลาวด์ ให้ติดตาม [Learning Path](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott) นี้ +เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับวิธีทำงานกับอัลกอริทึม ML บนคลาวด์ ให้ทำตาม [Learning Path นี้](https://docs.microsoft.com/learn/paths/create-no-code-predictive-models-azure-machine-learning/?WT.mc_id=academic-77952-leestott) -เข้าร่วม [Learning Path](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) เกี่ยวกับพื้นฐานของ ML +ทำ [Learning Path](https://docs.microsoft.com/learn/modules/introduction-to-machine-learning/?WT.mc_id=academic-77952-leestott) เกี่ยวกับพื้นฐานของ ML --- -# งานที่ได้รับมอบหมาย +# การบ้าน -[เริ่มต้นใช้งาน](assignment.md) +[เริ่มต้นและใช้งาน](assignment.md) --- -**ข้อจำกัดความรับผิดชอบ**: -เอกสารนี้ได้รับการแปลโดยใช้บริการแปลภาษา AI [Co-op Translator](https://github.com/Azure/co-op-translator) แม้ว่าเราจะพยายามให้การแปลมีความถูกต้องมากที่สุด แต่โปรดทราบว่าการแปลอัตโนมัติอาจมีข้อผิดพลาดหรือความไม่ถูกต้อง เอกสารต้นฉบับในภาษาดั้งเดิมควรถือเป็นแหล่งข้อมูลที่เชื่อถือได้ สำหรับข้อมูลที่สำคัญ ขอแนะนำให้ใช้บริการแปลภาษามนุษย์ที่มีความเชี่ยวชาญ เราไม่รับผิดชอบต่อความเข้าใจผิดหรือการตีความที่ผิดพลาดซึ่งเกิดจากการใช้การแปลนี้ \ No newline at end of file + +**ปฏิเสธความรับผิดชอบ**: +เอกสารนี้ได้รับการแปลโดยใช้บริการแปลภาษา AI [Co-op Translator](https://github.com/Azure/co-op-translator) ขณะที่เราพยายามให้ความถูกต้อง โปรดทราบว่าการแปลโดยอัตโนมัติอาจมีข้อผิดพลาดหรือความไม่ถูกต้อง เอกสารต้นฉบับในภาษาต้นทางควรถูกพิจารณาเป็นแหล่งข้อมูลที่เชื่อถือได้ สำหรับข้อมูลที่สำคัญ แนะนำให้ใช้การแปลโดยมนุษย์มืออาชีพ เราไม่รับผิดชอบต่อความเข้าใจผิดหรือการตีความที่ผิดพลาดที่เกิดขึ้นจากการใช้การแปลนี้ + \ No newline at end of file diff --git a/translations/th/5-Clustering/1-Visualize/README.md b/translations/th/5-Clustering/1-Visualize/README.md index b3fdbc1de..648ebca27 100644 --- a/translations/th/5-Clustering/1-Visualize/README.md +++ b/translations/th/5-Clustering/1-Visualize/README.md @@ -1,116 +1,116 @@ -# บทนำเกี่ยวกับการจัดกลุ่มข้อมูล +# บทนำสู่การทำคลัสเตอร์ -การจัดกลุ่มข้อมูล (Clustering) เป็นรูปแบบหนึ่งของ [การเรียนรู้แบบไม่มีผู้สอน](https://wikipedia.org/wiki/Unsupervised_learning) ซึ่งสมมติว่าชุดข้อมูลไม่มีการติดป้ายกำกับ หรือข้อมูลนำเข้าไม่ได้จับคู่กับผลลัพธ์ที่กำหนดไว้ล่วงหน้า โดยใช้หลากหลายอัลกอริทึมเพื่อจัดเรียงข้อมูลที่ไม่มีการติดป้ายกำกับ และสร้างกลุ่มตามรูปแบบที่พบในข้อมูล +การทำคลัสเตอร์เป็นประเภทหนึ่งของ [การเรียนรู้แบบไม่ต้องมีผู้สอน](https://wikipedia.org/wiki/Unsupervised_learning) ที่สมมุติว่าชุดข้อมูลไม่มีป้ายกำกับ หรืออินพุตไม่มีการจับคู่กับผลลัพธ์ที่กำหนดไว้ล่วงหน้า ใช้อัลกอริธึมต่าง ๆ เพื่อจัดเรียงข้อมูลที่ไม่มีป้ายกำกับและจัดกลุ่มตามรูปแบบที่มันวิเคราะห์พบในข้อมูล [![No One Like You by PSquare](https://img.youtube.com/vi/ty2advRiWJM/0.jpg)](https://youtu.be/ty2advRiWJM "No One Like You by PSquare") -> 🎥 คลิกที่ภาพด้านบนเพื่อดูวิดีโอ ขณะคุณกำลังศึกษาเรื่องการเรียนรู้ของเครื่องด้วยการจัดกลุ่มข้อมูล ลองฟังเพลงแนว Dance Hall ของไนจีเรีย - นี่คือเพลงที่ได้รับความนิยมสูงในปี 2014 โดย PSquare +> 🎥 คลิกที่รูปภาพด้านบนเพื่อดูวิดีโอ ขณะที่คุณกำลังเรียนรู้แมชชีนเลิร์นนิงด้วยการทำคลัสเตอร์ ขอให้สนุกกับเพลงแนวนิการ์เจียนแดนซ์ฮอลล์ - นี่เป็นเพลงอันดับสูงจากปี 2014 โดย PSquare -## [แบบทดสอบก่อนการบรรยาย](https://ff-quizzes.netlify.app/en/ml/) +## [แบบทดสอบก่อนบรรยาย](https://ff-quizzes.netlify.app/en/ml/) ### บทนำ -[การจัดกลุ่มข้อมูล](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) มีประโยชน์มากสำหรับการสำรวจข้อมูล ลองมาดูกันว่ามันสามารถช่วยค้นพบแนวโน้มและรูปแบบในวิธีที่ผู้ชมชาวไนจีเรียบริโภคเพลงได้หรือไม่ +[การทำคลัสเตอร์](https://link.springer.com/referenceworkentry/10.1007%2F978-0-387-30164-8_124) มีประโยชน์มากสำหรับการสำรวจข้อมูล ลองดูว่ามันช่วยค้นหาแนวโน้มหรือรูปแบบในการบริโภคเพลงของผู้ฟังชาวไนจีเรียได้หรือไม่ -✅ ลองใช้เวลาสักครู่คิดถึงการใช้งานของการจัดกลุ่มข้อมูล ในชีวิตจริง การจัดกลุ่มเกิดขึ้นเมื่อคุณมีกองผ้าซักและต้องแยกเสื้อผ้าของสมาชิกในครอบครัว 🧦👕👖🩲 ในวิทยาศาสตร์ข้อมูล การจัดกลุ่มเกิดขึ้นเมื่อพยายามวิเคราะห์ความชอบของผู้ใช้ หรือกำหนดลักษณะของชุดข้อมูลที่ไม่มีการติดป้ายกำกับ การจัดกลุ่มช่วยทำให้ความยุ่งเหยิงมีความหมาย เช่น ลิ้นชักถุงเท้า +✅ ใช้เวลาสักครู่คิดเกี่ยวกับการใช้การทำคลัสเตอร์ ในชีวิตจริงการทำคลัสเตอร์เกิดขึ้นเมื่อคุณมีกองผ้าสกปรกและต้องจัดแยกเสื้อผ้าของสมาชิกในครอบครัว 🧦👕👖🩲 ในวิทยาศาสตร์ข้อมูล การทำคลัสเตอร์เกิดขึ้นเมื่อพยายามวิเคราะห์ความชอบของผู้ใช้ หรือกำหนดลักษณะของชุดข้อมูลที่ไม่มีป้ายกำกับการทำคลัสเตอร์ในทางหนึ่งช่วยให้เข้าใจความยุ่งเหยิง เหมือนลิ้นชักใส่ถุงเท้า [![Introduction to ML](https://img.youtube.com/vi/esmzYhuFnds/0.jpg)](https://youtu.be/esmzYhuFnds "Introduction to Clustering") -> 🎥 คลิกที่ภาพด้านบนเพื่อดูวิดีโอ: John Guttag จาก MIT แนะนำเรื่องการจัดกลุ่มข้อมูล +> 🎥 คลิกที่รูปภาพด้านบนเพื่อดูวิดีโอ: John Guttag จาก MIT แนะนำการทำคลัสเตอร์ -ในสภาพแวดล้อมการทำงาน การจัดกลุ่มสามารถใช้เพื่อกำหนดสิ่งต่าง ๆ เช่น การแบ่งส่วนตลาด หรือการระบุว่ากลุ่มอายุใดซื้อสินค้าอะไร ตัวอย่างอื่น ๆ คือการตรวจจับความผิดปกติ เช่น การตรวจจับการฉ้อโกงจากชุดข้อมูลธุรกรรมบัตรเครดิต หรือการใช้การจัดกลุ่มเพื่อระบุเนื้องอกจากชุดภาพสแกนทางการแพทย์ +ในสถานการณ์ทางวิชาชีพ การทำคลัสเตอร์สามารถใช้กำหนดสิ่งต่าง ๆ เช่น การแบ่งส่วนตลาด การกำหนดกลุ่มอายุที่ซื้อสินค้ารายการใด อย่างเช่น อีกการใช้งานคือการตรวจจับความผิดปกติ อาจใช้ตรวจจับการฉ้อโกงจากชุดข้อมูลธุรกรรมบัตรเครดิต หรือคุณอาจใช้การทำคลัสเตอร์เพื่อตรวจหาก้อนเนื้อในชุดการสแกนทางการแพทย์ -✅ ลองคิดสักครู่เกี่ยวกับวิธีที่คุณอาจเคยพบการจัดกลุ่มข้อมูลในชีวิตจริง เช่น ในธนาคาร อีคอมเมิร์ซ หรือธุรกิจ +✅ ใช้เวลาคิดสักนาทีว่าคุณอาจเคยพบการทำคลัสเตอร์ใน 'สถานการณ์จริง' ในการธนาคาร อีคอมเมิร์ซ หรือธุรกิจอย่างไร -> 🎓 น่าสนใจที่การวิเคราะห์การจัดกลุ่มมีต้นกำเนิดในสาขามานุษยวิทยาและจิตวิทยาในช่วงปี 1930 คุณจินตนาการได้ไหมว่ามันถูกใช้อย่างไรในตอนนั้น? +> 🎓 น่าสนใจว่าการวิเคราะห์คลัสเตอร์เริ่มขึ้นในสาขามนุษยวิทยาและจิตวิทยาในทศวรรษ 1930 คุณนึกภาพได้ไหมว่ามันถูกใช้ในรูปแบบใดบ้าง? -อีกทางหนึ่ง คุณสามารถใช้มันเพื่อจัดกลุ่มผลการค้นหา - เช่น ลิงก์การช็อปปิ้ง รูปภาพ หรือรีวิว การจัดกลุ่มมีประโยชน์เมื่อคุณมีชุดข้อมูลขนาดใหญ่ที่ต้องการลดขนาดลง และต้องการวิเคราะห์ในเชิงลึกมากขึ้น ดังนั้นเทคนิคนี้สามารถใช้เพื่อเรียนรู้เกี่ยวกับข้อมูลก่อนที่จะสร้างโมเดลอื่น ๆ +อีกทางเลือกหนึ่งคือใช้เพื่อจัดกลุ่มผลการค้นหา เช่น แยกลิงก์ช็อปปิ้ง รูปภาพ หรือรีวิว การทำคลัสเตอร์มีประโยชน์เมื่อต้องการลดขนาดชุดข้อมูลขนาดใหญ่และต้องการทำการวิเคราะห์เชิงลึกต่อไป ดังนั้นเทคนิคนี้จึงใช้สำหรับเรียนรู้เกี่ยวกับข้อมูลก่อนสร้างโมเดลอื่นๆ -✅ เมื่อข้อมูลของคุณถูกจัดกลุ่มแล้ว คุณสามารถกำหนดรหัสกลุ่มให้กับมัน เทคนิคนี้มีประโยชน์เมื่อคุณต้องการรักษาความเป็นส่วนตัวของชุดข้อมูล คุณสามารถอ้างถึงจุดข้อมูลโดยใช้รหัสกลุ่มแทนที่จะใช้ข้อมูลที่สามารถระบุตัวตนได้ คุณคิดเหตุผลอื่น ๆ ได้ไหมว่าทำไมคุณถึงเลือกใช้รหัสกลุ่มแทนที่จะใช้ข้อมูลอื่น ๆ ในกลุ่มเพื่อระบุข้อมูล? +✅ เมื่อข้อมูลถูกจัดเรียงในคลัสเตอร์แล้ว คุณจะกำหนดไอดีคลัสเตอร์ให้ และเทคนิคนี้ช่วยรักษาความเป็นส่วนตัวของชุดข้อมูลคุณสามารถแทนการอ้างถึงจุดข้อมูลด้วยไอดีคลัสเตอร์แทนข้อมูลที่เปิดเผยได้ คุณนึกถึงเหตุผลอื่นที่ใช้ไอดีคลัสเตอร์แทนส่วนอื่น ๆ ของคลัสเตอร์เพื่อระบุตัวตนได้ไหม? -เพิ่มพูนความเข้าใจของคุณเกี่ยวกับเทคนิคการจัดกลุ่มใน [โมดูลการเรียนรู้](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) +เพิ่มพูนความเข้าใจเกี่ยวกับเทคนิคการทำคลัสเตอร์ใน [โมดูลการเรียนรู้](https://docs.microsoft.com/learn/modules/train-evaluate-cluster-models?WT.mc_id=academic-77952-leestott) -## เริ่มต้นกับการจัดกลุ่มข้อมูล +## การเริ่มต้นกับการทำคลัสเตอร์ -[Scikit-learn มีวิธีการมากมาย](https://scikit-learn.org/stable/modules/clustering.html) สำหรับการจัดกลุ่มข้อมูล ประเภทที่คุณเลือกจะขึ้นอยู่กับกรณีการใช้งานของคุณ ตามเอกสารประกอบ แต่ละวิธีมีประโยชน์ที่แตกต่างกัน นี่คือตารางที่เรียบง่ายของวิธีการที่ Scikit-learn รองรับและกรณีการใช้งานที่เหมาะสม: +[Scikit-learn มีวิธีมากมาย](https://scikit-learn.org/stable/modules/clustering.html) สำหรับทำคลัสเตอร์ ชนิดที่เลือกใช้ขึ้นอยู่กับกรณีการใช้งานของคุณ ตามเอกสารแต่ละวิธีมีข้อดีต่างกัน นี่คือตารางสรุปวิธียอดนิยมใน Scikit-learn และการใช้งานที่เหมาะสม: -| ชื่อวิธีการ | กรณีการใช้งาน | +| ชื่อวิธี | กรณีใช้งาน | | :--------------------------- | :--------------------------------------------------------------------- | -| K-Means | ใช้งานทั่วไป, แบบ inductive | -| Affinity propagation | กลุ่มจำนวนมาก, ไม่เท่ากัน, แบบ inductive | -| Mean-shift | กลุ่มจำนวนมาก, ไม่เท่ากัน, แบบ inductive | -| Spectral clustering | กลุ่มจำนวนน้อย, เท่ากัน, แบบ transductive | -| Ward hierarchical clustering | กลุ่มจำนวนมาก, ถูกจำกัด, แบบ transductive | -| Agglomerative clustering | กลุ่มจำนวนมาก, ถูกจำกัด, ระยะทางแบบ non-Euclidean, แบบ transductive | -| DBSCAN | รูปทรงเรขาคณิตแบบ non-flat, กลุ่มไม่เท่ากัน, แบบ transductive | -| OPTICS | รูปทรงเรขาคณิตแบบ non-flat, กลุ่มไม่เท่ากันที่มีความหนาแน่นแปรผัน, แบบ transductive | -| Gaussian mixtures | รูปทรงเรขาคณิตแบบ flat, แบบ inductive | -| BIRCH | ชุดข้อมูลขนาดใหญ่ที่มีค่าผิดปกติ, แบบ inductive | - -> 🎓 วิธีที่เราสร้างกลุ่มข้อมูลมีความเกี่ยวข้องกับวิธีที่เรารวบรวมจุดข้อมูลเข้าด้วยกัน ลองมาทำความเข้าใจคำศัพท์บางคำ: +| K-Means | วัตถุประสงค์ทั่วไป, inductive | +| Affinity propagation | คลัสเตอร์จำนวนมากและไม่เท่ากัน, inductive | +| Mean-shift | คลัสเตอร์จำนวนมากและไม่เท่ากัน, inductive | +| Spectral clustering | คลัสเตอร์จำนวนน้อยและเท่าเทียม, transductive | +| Ward hierarchical clustering | คลัสเตอร์จำนวนมากและมีข้อจำกัด, transductive | +| Agglomerative clustering | คลัสเตอร์จำนวนมาก, มีข้อจำกัด, ระยะทางไม่เป็นแบบยูคลิด, transductive | +| DBSCAN | รูปทรงไม่เรียบ, คลัสเตอร์ไม่เท่ากัน, transductive | +| OPTICS | รูปทรงไม่เรียบ, คลัสเตอร์ไม่เท่ากันซึ่งมีความหนาแน่นไม่เท่ากัน, transductive | +| Gaussian mixtures | รูปทรงเรียบ, inductive | +| BIRCH | ชุดข้อมูลใหญ่ที่มีค่าผิดปกติ, inductive | + +> 🎓 วิธีที่เราสร้างคลัสเตอร์เกี่ยวข้องกับวิธีการรวบรวมจุดข้อมูลเข้ากลุ่มกัน ลองทำความเข้าใจคำศัพท์ต่าง ๆ: > -> 🎓 ['Transductive' vs. 'inductive'](https://wikipedia.org/wiki/Transduction_(machine_learning)) +> 🎓 ['Transductive' กับ 'inductive'](https://wikipedia.org/wiki/Transduction_(machine_learning)) > -> การอนุมานแบบ transductive มาจากกรณีการฝึกอบรมที่สังเกตได้ซึ่งจับคู่กับกรณีทดสอบเฉพาะ การอนุมานแบบ inductive มาจากกรณีการฝึกอบรมที่จับคู่กับกฎทั่วไปซึ่งจะถูกนำไปใช้กับกรณีทดสอบในภายหลัง +> การอนุมานแบบ transductive มาจากกรณีฝึกที่สังเกตเห็นซึ่งจับคู่กับกรณีทดสอบเฉพาะเจาะจง ในขณะที่การอนุมานแบบ inductive มาจากกรณีฝึกที่จับคู่กับกฎทั่วไปซึ่งนำไปใช้กับกรณีทดสอบ > -> ตัวอย่าง: สมมติว่าคุณมีชุดข้อมูลที่มีการติดป้ายกำกับบางส่วน บางรายการเป็น 'records', บางรายการเป็น 'cds', และบางรายการไม่มีป้ายกำกับ งานของคุณคือการให้ป้ายกำกับกับข้อมูลที่ไม่มีป้ายกำกับ หากคุณเลือกวิธี inductive คุณจะฝึกโมเดลเพื่อค้นหา 'records' และ 'cds' และนำป้ายกำกับเหล่านั้นไปใช้กับข้อมูลที่ไม่มีป้ายกำกับ วิธีนี้อาจมีปัญหาในการจัดประเภทสิ่งที่เป็น 'cassettes' ในทางกลับกัน วิธี transductive จะจัดการกับข้อมูลที่ไม่รู้จักได้อย่างมีประสิทธิภาพมากกว่า โดยทำงานเพื่อจัดกลุ่มสิ่งที่คล้ายกันเข้าด้วยกันแล้วนำป้ายกำกับไปใช้กับกลุ่ม ในกรณีนี้ กลุ่มอาจสะท้อนถึง 'สิ่งดนตรีทรงกลม' และ 'สิ่งดนตรีทรงสี่เหลี่ยม' +> ตัวอย่าง: สมมติว่าคุณมีชุดข้อมูลที่มีป้ายกำกับบางส่วน บางอย่างเป็น 'แผ่นเสียง' บางอย่างเป็น 'ซีดี' และบางอย่างไม่มีป้าย คุณมีหน้าที่กำหนดป้ายสำหรับข้อมูลที่ไม่มีป้าย หากใช้วิธี inductive คุณจะฝึกโมเดลให้มองหา 'แผ่นเสียง' และ 'ซีดี' แล้วนำป้ายเหล่านั้นไปใช้กับข้อมูลที่ไม่มีป้าย วิธีนี้จะมีปัญหาเมื่อต้องจัดประเภทสิ่งที่เป็น 'เทปคาสเซ็ท' ขณะที่วิธีแบบ transductive จะจัดการข้อมูลที่ไม่รู้จักนี้ได้ดีขึ้นโดยการรวบรวมวัตถุที่คล้ายกันเข้าด้วยกันและระบุป้ายในกลุ่มนั้น เช่น คลัสเตอร์อาจแยกออกเป็น 'สิ่งดนตรีทรงกลม' และ 'สิ่งดนตรีทรงสี่เหลี่ยม' > -> 🎓 ['Non-flat' vs. 'flat' geometry](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering) +> 🎓 ['รูปร่างไม่เรียบ' กับ 'รูปร่างเรียบ'](https://datascience.stackexchange.com/questions/52260/terminology-flat-geometry-in-the-context-of-clustering) > -> มาจากคำศัพท์ทางคณิตศาสตร์ 'non-flat' vs. 'flat' geometry หมายถึงการวัดระยะทางระหว่างจุดโดยใช้วิธีการเรขาคณิตแบบ 'flat' ([Euclidean](https://wikipedia.org/wiki/Euclidean_geometry)) หรือ 'non-flat' (non-Euclidean) +> มาจากคำศัพท์ทางคณิตศาสตร์ รูปร่างไม่เรียบกับรูปร่างเรียบหมายถึงการวัดระยะห่างระหว่างจุดโดยวิธีรูปร่าง 'เรียบ' ([Euclidean](https://wikipedia.org/wiki/Euclidean_geometry)) หรือ 'ไม่เรียบ' (non-Euclidean) > ->'Flat' ในบริบทนี้หมายถึงเรขาคณิตแบบ Euclidean (บางส่วนของมันถูกสอนเป็นเรขาคณิต 'plane') และ non-flat หมายถึงเรขาคณิตแบบ non-Euclidean เรขาคณิตเกี่ยวข้องกับการเรียนรู้ของเครื่องอย่างไร? เนื่องจากทั้งสองสาขามีรากฐานมาจากคณิตศาสตร์ จึงต้องมีวิธีการทั่วไปในการวัดระยะทางระหว่างจุดในกลุ่ม ซึ่งสามารถทำได้ในแบบ 'flat' หรือ 'non-flat' ขึ้นอยู่กับลักษณะของข้อมูล [ระยะทางแบบ Euclidean](https://wikipedia.org/wiki/Euclidean_distance) ถูกวัดเป็นความยาวของเส้นตรงระหว่างสองจุด [ระยะทางแบบ non-Euclidean](https://wikipedia.org/wiki/Non-Euclidean_geometry) ถูกวัดตามเส้นโค้ง หากข้อมูลของคุณเมื่อแสดงภาพดูเหมือนจะไม่อยู่บนระนาบ คุณอาจต้องใช้อัลกอริทึมเฉพาะเพื่อจัดการกับมัน +> 'รูปร่างเรียบ' ในที่นี้หมายถึงเรขาคณิตยูคลิด (ซึ่งส่วนหนึ่งสอนเป็น 'เรขาคณิตระนาบ') และ 'รูปร่างไม่เรียบ' หมายถึงเรขาคณิตแบบไม่ใช่ยูคลิด แล้วเรขาคณิตเกี่ยวข้องกับแมชชีนเลิร์นนิงอย่างไร? เนื่องจากทั้งสองศาสตร์นี้มีรากฐานจากคณิตศาสตร์ จึงต้องมีวิธีวัดระยะห่างระหว่างจุดในคลัสเตอร์ที่เหมาะสม โดยวิธี 'เรียบ' หรือ 'ไม่เรียบ' ขึ้นอยู่กับลักษณะของข้อมูล [ระยะห่างแบบยูคลิด](https://wikipedia.org/wiki/Euclidean_distance) วัดโดยความยาวเส้นตรงระหว่างจุดสองจุด ขณะที่ [ระยะห่างแบบไม่ใช่ยูคลิด](https://wikipedia.org/wiki/Non-Euclidean_geometry) วัดบนเส้นโค้ง หากข้อมูลของคุณเมื่อแสดงภาพแล้วดูเหมือนไม่อยู่บนระนาบ อาจต้องใช้อัลกอริธึมเฉพาะมาแก้ไข > -![Flat vs Nonflat Geometry Infographic](../../../../5-Clustering/1-Visualize/images/flat-nonflat.png) -> Infographic โดย [Dasani Madipalli](https://twitter.com/dasani_decoded) +![Flat vs Nonflat Geometry Infographic](../../../../translated_images/th/flat-nonflat.d1c8c6e2a96110c1.webp) +> แผนภูมิภาพโดย [Dasani Madipalli](https://twitter.com/dasani_decoded) > -> 🎓 ['Distances'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf) +> 🎓 ['ระยะห่าง'](https://web.stanford.edu/class/cs345a/slides/12-clustering.pdf) > -> กลุ่มข้อมูลถูกกำหนดโดยเมทริกซ์ระยะทาง เช่น ระยะทางระหว่างจุดต่าง ๆ ระยะทางนี้สามารถวัดได้หลายวิธี กลุ่มแบบ Euclidean ถูกกำหนดโดยค่าเฉลี่ยของค่าจุด และมี 'centroid' หรือจุดศูนย์กลาง ระยะทางจึงถูกวัดโดยระยะทางไปยังจุดศูนย์กลางนั้น ระยะทางแบบ non-Euclidean หมายถึง 'clustroids' ซึ่งเป็นจุดที่ใกล้ที่สุดกับจุดอื่น ๆ Clustroids สามารถกำหนดได้หลายวิธี +> คลัสเตอร์ถูกกำหนดโดยเมทริกซ์ระยะห่าง เช่น ระยะห่างระหว่างจุด ซึ่งสามารถวัดได้หลากหลายวิธี คลัสเตอร์แบบยูคลิดกำหนดโดยค่าเฉลี่ยของค่าจุด และมี 'จุดศูนย์กลาง' หรือเซ็นทรอยด์ ระยะห่างจึงวัดจากจุดศูนย์กลางนี้ ส่วนระยะห่างแบบไม่ใช่ยูคลิดอ้างถึง 'คลัสโตรยด์' ซึ่งเป็นจุดที่ใกล้กับจุดอื่นมากที่สุด คลัสโตรยด์สามารถกำหนดได้หลายวิธี > -> 🎓 ['Constrained'](https://wikipedia.org/wiki/Constrained_clustering) +> 🎓 ['มีข้อจำกัด'](https://wikipedia.org/wiki/Constrained_clustering) > -> [การจัดกลุ่มแบบมีข้อจำกัด](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) แนะนำการเรียนรู้แบบ 'semi-supervised' ในวิธีการแบบไม่มีผู้สอน ความสัมพันธ์ระหว่างจุดถูกกำหนดเป็น 'cannot link' หรือ 'must-link' ดังนั้นจึงมีการบังคับใช้กฎบางอย่างในชุดข้อมูล +> [การทำคลัสเตอร์ที่มีข้อจำกัด](https://web.cs.ucdavis.edu/~davidson/Publications/ICDMTutorial.pdf) คือการนำการเรียนรู้กึ่งมีผู้สอนมาใช้ในวิธีแบบไม่มีผู้สอน ความสัมพันธ์ระหว่างจุดถูกกำหนดว่า 'ไม่สามารถเชื่อมโยง' หรือ 'ต้องเชื่อมโยง' เพื่อบังคับกฎบางอย่างกับชุดข้อมูล > ->ตัวอย่าง: หากอัลกอริทึมถูกปล่อยให้ทำงานกับชุดข้อมูลที่ไม่มีการติดป้ายกำกับหรือมีการติดป้ายกำกับบางส่วน กลุ่มที่มันสร้างขึ้นอาจมีคุณภาพต่ำ ในตัวอย่างข้างต้น กลุ่มอาจจัดกลุ่ม 'สิ่งดนตรีทรงกลม' และ 'สิ่งดนตรีทรงสี่เหลี่ยม' และ 'สิ่งทรงสามเหลี่ยม' และ 'คุกกี้' หากมีการให้ข้อจำกัด หรือกฎบางอย่าง ("สิ่งนั้นต้องทำจากพลาสติก", "สิ่งนั้นต้องสามารถผลิตเสียงดนตรีได้") สิ่งนี้สามารถช่วย 'จำกัด' อัลกอริทึมให้เลือกได้ดีขึ้น +> ตัวอย่าง: หากปล่อยให้อัลกอริธึมทำงานอย่างอิสระบนชุดข้อมูลที่ไม่มีป้ายหรือกึ่งมีป้าย คุณภาพคลัสเตอร์ที่ได้อาจต่ำ ได้คลัสเตอร์กลุ่ม 'สิ่งดนตรีทรงกลม' 'สิ่งดนตรีทรงสี่เหลี่ยม' 'สิ่งทรงสามเหลี่ยม' และ 'คุกกี้' หากมีข้อจำกัดหรือกฎ ("วัตถุต้องทำจากพลาสติก", "วัตถุต้องสามารถทำดนตรีได้") จะช่วยให้อัลกอริธึมเลือกทำงานได้ดีขึ้น > -> 🎓 'Density' +> 🎓 'ความหนาแน่น' > -> ข้อมูลที่ 'มีเสียงรบกวน' ถือว่าเป็นข้อมูลที่ 'หนาแน่น' ระยะทางระหว่างจุดในแต่ละกลุ่มของมันอาจพิสูจน์ได้ว่ามีความหนาแน่นมากหรือน้อย และข้อมูลนี้จำเป็นต้องได้รับการวิเคราะห์ด้วยวิธีการจัดกลุ่มที่เหมาะสม [บทความนี้](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) แสดงให้เห็นถึงความแตกต่างระหว่างการใช้ K-Means clustering กับ HDBSCAN เพื่อสำรวจชุดข้อมูลที่มีเสียงรบกวนและความหนาแน่นของกลุ่มที่ไม่เท่ากัน +> ข้อมูลที่ 'มีเสียงรบกวน' ถือว่ามีความหนาแน่น ระยะห่างระหว่างจุดในคลัสเตอร์อาจแตกต่างกันและต้องวิเคราะห์ด้วยวิธีการทำคลัสเตอร์ที่เหมาะสม [บทความนี้](https://www.kdnuggets.com/2020/02/understanding-density-based-clustering.html) ชี้ให้เห็นความแตกต่างระหว่างการใช้ K-Means กับ HDBSCAN ในการสำรวจชุดข้อมูลที่มีเสียงรบกวนและความหนาแน่นในคลัสเตอร์ไม่เท่ากัน -## อัลกอริทึมการจัดกลุ่มข้อมูล +## อัลกอริธึมการทำคลัสเตอร์ -มีอัลกอริทึมการจัดกลุ่มข้อมูลมากกว่า 100 แบบ และการใช้งานขึ้นอยู่กับลักษณะของข้อมูลที่มีอยู่ ลองมาพูดถึงบางอันที่สำคัญ: +มีอัลกอริธึมการทำคลัสเตอร์มากกว่า 100 แบบ และการใช้งานขึ้นอยู่กับลักษณะของข้อมูล ลองพูดถึงอัลกอริธึมหลักๆ บางตัว: -- **การจัดกลุ่มแบบลำดับชั้น** หากวัตถุถูกจัดประเภทโดยความใกล้ชิดกับวัตถุใกล้เคียงมากกว่ากับวัตถุที่อยู่ไกลออกไป กลุ่มจะถูกสร้างขึ้นตามระยะทางของสมาชิกไปยังวัตถุอื่น ๆ การจัดกลุ่มแบบ agglomerative ของ Scikit-learn เป็นแบบลำดับชั้น +- **การทำคลัสเตอร์แบบลำดับชั้น (Hierarchical clustering)** หากวัตถุถูกจัดกลุ่มโดยพิจารณาระยะห่างกับวัตถุใกล้เคียงแทนที่จะกับวัตถุที่อยู่ไกลกว่าสร้างคลัสเตอร์ขึ้นตามระยะห่างระหว่างสมาชิก Scikit-learn ใช้การทำคลัสเตอร์แบบ agglomerative ซึ่งเป็นแบบลำดับชั้น - ![Hierarchical clustering Infographic](../../../../5-Clustering/1-Visualize/images/hierarchical.png) - > Infographic โดย [Dasani Madipalli](https://twitter.com/dasani_decoded) + ![Hierarchical clustering Infographic](../../../../translated_images/th/hierarchical.bf59403aa43c8c47.webp) + > แผนภูมิภาพโดย [Dasani Madipalli](https://twitter.com/dasani_decoded) -- **การจัดกลุ่มแบบจุดศูนย์กลาง** อัลกอริทึมยอดนิยมนี้ต้องการการเลือก 'k' หรือจำนวนกลุ่มที่จะสร้าง หลังจากนั้นอัลกอริทึมจะกำหนดจุดศูนย์กลางของกลุ่มและรวบรวมข้อมูลรอบจุดนั้น [K-means clustering](https://wikipedia.org/wiki/K-means_clustering) เป็นรูปแบบยอดนิยมของการจัดกลุ่มแบบจุดศูนย์กลาง จุดศูนย์กลางถูกกำหนดโดยค่าเฉลี่ยที่ใกล้ที่สุด จึงเป็นที่มาของชื่อ ระยะทางที่กำลังวัดจากกลุ่มจะถูกลดลง +- **การทำคลัสเตอร์แบบเซ็นทรอยด์ (Centroid clustering)** อัลกอริธึมยอดนิยมที่ต้องเลือก 'k' หรือจำนวนคลัสเตอร์ที่จะสร้าง หลังจากนั้นอัลกอริธึมจะกำหนดจุดศูนย์กลางของคลัสเตอร์และรวบรวมข้อมูลรอบๆ จุดนั้น [K-means clustering](https://wikipedia.org/wiki/K-means_clustering) เป็นเวอร์ชันยอดนิยมของการทำคลัสเตอร์แบบเซ็นทรอยด์ เซ็นทรอยด์ถูกกำหนดโดยค่าเฉลี่ยที่ใกล้ที่สุด ชื่อก็จึงมาจากตรงนี้ ระยะห่างกำหนดโดยระยะห่างยกกำลังสองจากคลัสเตอร์จะถูกลดให้น้อยที่สุด - ![Centroid clustering Infographic](../../../../5-Clustering/1-Visualize/images/centroid.png) - > Infographic โดย [Dasani Madipalli](https://twitter.com/dasani_decoded) + ![Centroid clustering Infographic](../../../../translated_images/th/centroid.097fde836cf6c918.webp) + > แผนภูมิภาพโดย [Dasani Madipalli](https://twitter.com/dasani_decoded) -- **การจัดกลุ่มแบบอิงการกระจาย** อิงจากการสร้างแบบจำลองทางสถิติ การจัดกลุ่มแบบอิงการกระจายมุ่งเน้นไปที่การกำหนดความน่าจะเป็นที่จุดข้อมูลจะอยู่ในกลุ่ม และกำหนดให้ตามนั้น วิธี Gaussian mixture เป็นส่วนหนึ่งของประเภทนี้ +- **การทำคลัสเตอร์แบบฐานะการกระจายตัว (Distribution-based clustering)** โดยอิงจากการจำลองทางสถิติ มุ่งเน้นการกำหนดความน่าจะเป็นที่จุดข้อมูลจะอยู่ในคลัสเตอร์ และกำหนดสมาชิกตามนั้น วิธี Gaussian mixture อยู่ในประเภทนี้ -- **การจัดกลุ่มแบบอิงความหนาแน่น** จุดข้อมูลจะถูกกำหนดให้กับกลุ่มตามความหนาแน่น หรือการรวมตัวกันรอบ ๆ กัน จุดข้อมูลที่อยู่ไกลจากกลุ่มจะถือว่าเป็นค่าผิดปกติหรือเสียงรบกวน DBSCAN, Mean-shift และ OPTICS เป็นส่วนหนึ่งของประเภทนี้ +- **การทำคลัสเตอร์แบบฐานะความหนาแน่น (Density-based clustering)** จุดข้อมูลถูกจัดกลุ่มตามความหนาแน่นหรือการรวมตัวกันของพวกมัน จุดที่อยู่ห่างจากกลุ่มถือเป็นค่าผิดปกติหรือเสียงรบกวน DBSCAN, Mean-shift และ OPTICS อยู่ในประเภทนี้ -- **การจัดกลุ่มแบบอิงกริด** สำหรับชุดข้อมูลหลายมิติ จะมีการสร้างกริดและข้อมูลจะถูกแบ่งออกเป็นเซลล์ของกริดนั้น ซึ่งจะสร้างกลุ่มขึ้นมา +- **การทำคลัสเตอร์แบบตาราง (Grid-based clustering)** สำหรับชุดข้อมูลหลายมิติ จะสร้างตาราง และแบ่งข้อมูลลงในเซลล์ของตารางเพื่อสร้างคลัสเตอร์ -## แบบฝึกหัด - จัดกลุ่มข้อมูลของคุณ +## แบบฝึกหัด - ทำคลัสเตอร์ข้อมูลของคุณ -การจัดกลุ่มข้อมูลเป็นเทคนิคที่ได้รับการสนับสนุนอย่างมากจากการแสดงภาพที่เหมาะสม ดังนั้นเรามาเริ่มต้นด้วยการแสดงภาพข้อมูลเพลงของเรา แบบฝึกหัดนี้จะช่วยให้เราตัดสินใจได้ว่าวิธีการจัดกลุ่มข้อมูลแบบใดที่ควรใช้ให้เหมาะสมที่สุดกับลักษณะของข้อมูลนี้ +การทำคลัสเตอร์ในฐานะเทคนิคได้รับการช่วยเหลืออย่างมากจากการแสดงผลภาพ ดังนั้นเรามาเริ่มต้นด้วยการแสดงผลข้อมูลเพลงของเรา แบบฝึกหัดนี้จะช่วยเราเลือกวิธีการทำคลัสเตอร์ที่เหมาะสมกับลักษณะข้อมูลนี้มากที่สุด 1. เปิดไฟล์ [_notebook.ipynb_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/1-Visualize/notebook.ipynb) ในโฟลเดอร์นี้ -1. นำเข้าแพ็กเกจ `Seaborn` เพื่อการแสดงภาพข้อมูลที่ดี +1. นำเข้าแพ็กเกจ `Seaborn` เพื่อการแสดงผลข้อมูลที่ดี ```python !pip install seaborn ``` -1. เพิ่มข้อมูลเพลงจาก [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv) โหลด dataframe พร้อมข้อมูลเกี่ยวกับเพลง เตรียมพร้อมสำรวจข้อมูลนี้โดยการนำเข้าห้องสมุดและแสดงข้อมูลออกมา: +1. เพิ่มข้อมูลเพลงจาก [_nigerian-songs.csv_](https://github.com/microsoft/ML-For-Beginners/blob/main/5-Clustering/data/nigerian-songs.csv) โหลด dataframe ที่มีข้อมูลเพลง เตรียมพร้อมสำรวจข้อมูลนี้โดยนำเข้าไลบรารีและแสดงข้อมูลออกมา: ```python import matplotlib.pyplot as plt @@ -120,23 +120,23 @@ df.head() ``` - ตรวจสอบบรรทัดแรกของข้อมูล: + ตรวจสอบข้อมูลแถวแรกๆ: | | name | album | artist | artist_top_genre | release_date | length | popularity | danceability | acousticness | energy | instrumentalness | liveness | loudness | speechiness | tempo | time_signature | | --- | ------------------------ | ---------------------------- | ------------------- | ---------------- | ------------ | ------ | ---------- | ------------ | ------------ | ------ | ---------------- | -------- | -------- | ----------- | ------- | -------------- | | 0 | Sparky | Mandy & The Jungle | Cruel Santino | alternative r&b | 2019 | 144000 | 48 | 0.666 | 0.851 | 0.42 | 0.534 | 0.11 | -6.699 | 0.0829 | 133.015 | 5 | | 1 | shuga rush | EVERYTHING YOU HEARD IS TRUE | Odunsi (The Engine) | afropop | 2020 | 89488 | 30 | 0.71 | 0.0822 | 0.683 | 0.000169 | 0.101 | -5.64 | 0.36 | 129.993 | 3 | -| 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | -| 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | -| 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | + | 2 | LITT! | LITT! | AYLØ | indie r&b | 2018 | 207758 | 40 | 0.836 | 0.272 | 0.564 | 0.000537 | 0.11 | -7.127 | 0.0424 | 130.005 | 4 | + | 3 | Confident / Feeling Cool | Enjoy Your Life | Lady Donli | nigerian pop | 2019 | 175135 | 14 | 0.894 | 0.798 | 0.611 | 0.000187 | 0.0964 | -4.961 | 0.113 | 111.087 | 4 | + | 4 | wanted you | rare. | Odunsi (The Engine) | afropop | 2018 | 152049 | 25 | 0.702 | 0.116 | 0.833 | 0.91 | 0.348 | -6.044 | 0.0447 | 105.115 | 4 | -1. เรียก `info()` เพื่อดูข้อมูลเกี่ยวกับ dataframe: +1. รับข้อมูลบางอย่างเกี่ยวกับ dataframe โดยเรียกใช้ `info()`: ```python df.info() ``` - ผลลัพธ์จะมีลักษณะดังนี้: + ผลลัพธ์จะดูเหมือนนี้: ```output @@ -164,13 +164,13 @@ memory usage: 66.4+ KB ``` -1. ตรวจสอบค่า null โดยเรียก `isnull()` และตรวจสอบผลรวมว่ามีค่าเป็น 0: +1. ตรวจสอบค่าที่หายไปอีกครั้งด้วยการเรียกใช้ `isnull()` และตรวจสอบผลรวมว่าคือ 0: ```python df.isnull().sum() ``` - ดูดี: + ดูดีมาก: ```output name 0 @@ -209,11 +209,11 @@ | 75% | 2017 | 242098.5 | 31 | 0.8295 | 0.403 | 0.87575 | 0.000234 | 0.164 | -3.331 | 0.177 | 125.03925 | 4 | | max | 2020 | 511738 | 73 | 0.966 | 0.954 | 0.995 | 0.91 | 0.811 | 0.582 | 0.514 | 206.007 | 5 | -> 🤔 หากเรากำลังทำงานกับการจัดกลุ่ม ซึ่งเป็นวิธีการแบบไม่มีการกำกับดูแลที่ไม่ต้องใช้ข้อมูลที่มีการติดป้ายกำกับ ทำไมเราถึงแสดงข้อมูลนี้พร้อมป้ายกำกับ? ในขั้นตอนการสำรวจข้อมูล ป้ายกำกับมีประโยชน์ แต่ไม่ได้จำเป็นสำหรับการทำงานของอัลกอริทึมการจัดกลุ่ม คุณสามารถลบหัวคอลัมน์ออกและอ้างอิงข้อมูลโดยหมายเลขคอลัมน์แทนได้ +> 🤔 ถ้าเรากำลังทำงานกับการจัดกลุ่ม (clustering) ซึ่งเป็นวิธีการแบบไม่มีผู้สอน (unsupervised) ที่ไม่จำเป็นต้องใช้ข้อมูลที่มีป้ายกำกับ (labeled data) ทำไมเราถึงแสดงข้อมูลนี้พร้อมกับป้ายกำกับ? ในขั้นตอนการสำรวจข้อมูล ป้ายกำกับเหล่านี้มีประโยชน์ แต่ไม่ได้จำเป็นสำหรับอัลกอริทึมการจัดกลุ่มที่จะทำงาน คุณอาจแค่ลบหัวคอลัมน์แล้วอ้างอิงข้อมูลด้วยหมายเลขคอลัมน์แทนก็ได้ -ดูค่าทั่วไปของข้อมูล สังเกตว่าความนิยมสามารถมีค่าเป็น '0' ซึ่งแสดงเพลงที่ไม่มีการจัดอันดับ เราจะลบข้อมูลเหล่านั้นในไม่ช้า +ดูค่าทั่วไปของข้อมูล โปรดสังเกตว่า popularity อาจเป็น '0' ซึ่งแสดงถึงเพลงที่ยังไม่มีการจัดอันดับ เราจะลบข้อมูลเหล่านี้ในไม่ช้า -1. ใช้ barplot เพื่อค้นหาแนวเพลงที่ได้รับความนิยมมากที่สุด: +1. ใช้กราฟแท่ง (barplot) เพื่อค้นหาแนวเพลงที่ได้รับความนิยมมากที่สุด: ```python import seaborn as sns @@ -225,11 +225,11 @@ plt.title('Top genres',color = 'blue') ``` - ![most popular](../../../../5-Clustering/1-Visualize/images/popular.png) + ![most popular](../../../../translated_images/th/popular.9c48d84b3386705f.webp) -✅ หากคุณต้องการดูค่าที่สูงกว่า ให้เปลี่ยน `[:5]` เป็นค่าที่ใหญ่ขึ้น หรือเอาออกเพื่อดูทั้งหมด +✅ หากคุณต้องการดูค่าท็อปมากกว่านี้ ให้เปลี่ยน `[:5]` เป็นค่ามากขึ้น หรือจะลบออกเพื่อดูทั้งหมด -สังเกตว่าเมื่อแนวเพลงที่ได้รับความนิยมสูงสุดถูกอธิบายว่า 'Missing' หมายความว่า Spotify ไม่ได้จัดประเภทแนวเพลงนั้น ดังนั้นเรามาลบข้อมูลเหล่านั้นออก +โปรดทราบว่าเมื่อแนวเพลงท็อปถูกระบุว่าเป็น 'Missing' หมายความว่า Spotify ไม่ได้จัดประเภทให้ ดังนั้นเราจะลบออก 1. ลบข้อมูลที่หายไปโดยการกรองออก @@ -244,9 +244,9 @@ ตอนนี้ตรวจสอบแนวเพลงอีกครั้ง: - ![most popular](../../../../5-Clustering/1-Visualize/images/all-genres.png) + ![most popular](../../../../translated_images/th/all-genres.1d56ef06cefbfcd6.webp) -1. แนวเพลงสามอันดับแรกมีอิทธิพลต่อชุดข้อมูลนี้อย่างมาก เรามาเน้นที่ `afro dancehall`, `afropop`, และ `nigerian pop` และกรองชุดข้อมูลเพิ่มเติมเพื่อลบข้อมูลที่มีค่า popularity เป็น 0 (หมายความว่าไม่ได้ถูกจัดประเภทด้วยความนิยมในชุดข้อมูลและสามารถถือว่าเป็นเสียงรบกวนสำหรับวัตถุประสงค์ของเรา): +1. โดยรวมแล้ว สามแนวเพลงที่ครองชุดข้อมูลนี้ ได้แก่ `afro dancehall`, `afropop`, และ `nigerian pop` ให้โฟกัสที่แนวเพลงเหล่านี้ และกรองชุดข้อมูลเพื่อเอาข้อมูลที่มีค่า popularity เป็น 0 ออก (ซึ่งหมายถึงไม่ได้ถูกจัดประเภทด้วยค่า popularity ในชุดข้อมูลนี้ และสามารถถือเป็นสัญญาณรบกวนสำหรับวัตถุประสงค์ของเรา): ```python df = df[(df['artist_top_genre'] == 'afro dancehall') | (df['artist_top_genre'] == 'afropop') | (df['artist_top_genre'] == 'nigerian pop')] @@ -258,7 +258,7 @@ plt.title('Top genres',color = 'blue') ``` -1. ทดสอบอย่างรวดเร็วเพื่อดูว่าข้อมูลมีความสัมพันธ์กันในลักษณะที่แข็งแกร่งหรือไม่: +1. ทดสอบอย่างรวดเร็วเพื่อตรวจสอบว่าข้อมูลมีความสัมพันธ์ในรูปแบบที่แข็งแรงเป็นพิเศษหรือไม่: ```python corrmat = df.corr(numeric_only=True) @@ -266,21 +266,21 @@ sns.heatmap(corrmat, vmax=.8, square=True) ``` - ![correlations](../../../../5-Clustering/1-Visualize/images/correlation.png) + ![correlations](../../../../translated_images/th/correlation.a9356bb798f5eea5.webp) - ความสัมพันธ์ที่แข็งแกร่งเพียงอย่างเดียวคือระหว่าง `energy` และ `loudness` ซึ่งไม่น่าแปลกใจนัก เนื่องจากเพลงที่ดังมักจะมีพลังงานสูง อย่างไรก็ตาม ความสัมพันธ์อื่นๆ ค่อนข้างอ่อน จะน่าสนใจที่จะดูว่าอัลกอริทึมการจัดกลุ่มสามารถทำอะไรกับข้อมูลนี้ได้บ้าง + ความสัมพันธ์ที่แข็งแรงเพียงอย่างเดียวคือระหว่าง `energy` และ `loudness` ซึ่งไม่แปลกใจนัก เพราะเพลงที่เสียงดังมักจะมีพลังงานสูง นอกเหนือจากนี้ ความสัมพันธ์ค่อนข้างอ่อน มันจะน่าสนใจที่จะดูว่าสิ่งที่อัลกอริทึมการจัดกลุ่มสามารถทำได้กับข้อมูลนี้ - > 🎓 โปรดทราบว่าความสัมพันธ์ไม่ได้หมายถึงสาเหตุ! เรามีหลักฐานของความสัมพันธ์ แต่ไม่มีหลักฐานของสาเหตุ เว็บไซต์ [ที่น่าสนใจ](https://tylervigen.com/spurious-correlations) มีภาพที่เน้นประเด็นนี้ + > 🎓 โปรดทราบว่าความสัมพันธ์ไม่ได้บ่งชี้ถึงสาเหตุ! เรามีหลักฐานความสัมพันธ์แต่ไม่มีหลักฐานว่าสาเหตุเป็นไปตามนั้น เว็บไซต์ [ผลงานขำขัน](https://tylervigen.com/spurious-correlations) แสดงภาพที่เน้นจุดนี้ -มีการรวมตัวกันในชุดข้อมูลนี้เกี่ยวกับความนิยมและความสามารถในการเต้นของเพลงหรือไม่? FacetGrid แสดงให้เห็นว่ามีวงกลมที่รวมตัวกันโดยไม่คำนึงถึงแนวเพลง อาจเป็นไปได้ว่ารสนิยมของชาวไนจีเรียรวมตัวกันในระดับความสามารถในการเต้นที่แนวเพลงนี้หรือไม่? +ในชุดข้อมูลนี้ มีการบรรจบกันในเรื่องความนิยมและความสามารถในการเต้นของเพลงหรือไม่? FacetGrid แสดงให้เห็นว่ามีวงกลมรอบศูนย์กลางที่ตรงกันโดยไม่ขึ้นกับแนวเพลง อาจเป็นไปได้ว่าความชอบของชาวไนจีเรียบรรจบกันที่ระดับความสามารถในการเต้นระดับหนึ่งสำหรับแนวเพลงนี้หรือเปล่า? -✅ ลองใช้จุดข้อมูลอื่นๆ (energy, loudness, speechiness) และแนวเพลงที่หลากหลายหรือเพิ่มเติม คุณสามารถค้นพบอะไรได้บ้าง? ดูตาราง `df.describe()` เพื่อดูการกระจายทั่วไปของจุดข้อมูล +✅ ทดลองจุดข้อมูลต่าง ๆ (energy, loudness, speechiness) และแนวเพลงที่มากกว่าหรือแตกต่างกัน คุณจะค้นพบอะไร? ดูตาราง `df.describe()` เพื่อดูการกระจายทั่วไปของจุดข้อมูล -### แบบฝึกหัด - การกระจายข้อมูล +### แบบฝึกหัด - การกระจายของข้อมูล -แนวเพลงทั้งสามนี้แตกต่างกันอย่างมีนัยสำคัญในเรื่องการรับรู้ความสามารถในการเต้นของเพลงตามความนิยมของพวกเขาหรือไม่? +แนวเพลงทั้งสามนี้แตกต่างกันอย่างมีนัยสำคัญในความรู้สึกเรื่องความสามารถในการเต้นหรือไม่ ขึ้นอยู่กับความนิยมของพวกเขา? -1. ตรวจสอบการกระจายข้อมูลของแนวเพลงสามอันดับแรกในเรื่องความนิยมและความสามารถในการเต้นตามแกน x และ y ที่กำหนด +1. ตรวจสอบการกระจายข้อมูลของสามแนวเพลงท็อปในเรื่องของความนิยมและความสามารถในการเต้นตลอดแกนนอนและแกนตั้งที่กำหนด ```python sns.set_theme(style="ticks") @@ -292,15 +292,15 @@ ) ``` - คุณสามารถค้นพบวงกลมที่รวมตัวกันรอบจุดรวมทั่วไป ซึ่งแสดงการกระจายของจุดข้อมูล + คุณจะค้นพบวงกลมรอบศูนย์กลางที่แนวร่วมแสดงการกระจายของจุดข้อมูล - > 🎓 โปรดทราบว่าตัวอย่างนี้ใช้กราฟ KDE (Kernel Density Estimate) ซึ่งแสดงข้อมูลโดยใช้เส้นโค้งความหนาแน่นความน่าจะเป็นแบบต่อเนื่อง สิ่งนี้ช่วยให้เราตีความข้อมูลเมื่อทำงานกับการกระจายหลายแบบ + > 🎓 โปรดทราบว่านี่คือตัวอย่างที่ใช้กราฟ KDE (Kernel Density Estimate) ซึ่งเป็นกราฟความหนาแน่นของความน่าจะเป็นแบบต่อเนื่อง ซึ่งช่วยให้เราแปรผลข้อมูลเมื่อทำงานกับหลายการกระจาย - โดยทั่วไป แนวเพลงทั้งสามมีการจัดเรียงที่หลวมๆ ในเรื่องความนิยมและความสามารถในการเต้น การกำหนดกลุ่มในข้อมูลที่จัดเรียงหลวมๆ นี้จะเป็นความท้าทาย: + โดยทั่วไปทั้งสามแนวเพลงจัดกลุ่มได้อย่างไม่เข้มงวดในแง่ของความนิยมและความสามารถในการเต้น การกำหนดกลุ่มในข้อมูลที่จัดวางไม่เข้มงวดนี้จะเป็นความท้าทาย: - ![distribution](../../../../5-Clustering/1-Visualize/images/distribution.png) + ![distribution](../../../../translated_images/th/distribution.9be11df42356ca95.webp) -1. สร้าง scatter plot: +1. สร้างกราฟกระจาย: ```python sns.FacetGrid(df, hue="artist_top_genre", height=5) \ @@ -308,31 +308,33 @@ .add_legend() ``` - scatterplot ของแกนเดียวกันแสดงรูปแบบการรวมตัวที่คล้ายกัน + กราฟกระจายของแกนเดียวกันแสดงรูปแบบการบรรจบกันในลักษณะคล้ายกัน - ![Facetgrid](../../../../5-Clustering/1-Visualize/images/facetgrid.png) + ![Facetgrid](../../../../translated_images/th/facetgrid.9b2e65ce707eba1f.webp) -โดยทั่วไป สำหรับการจัดกลุ่ม คุณสามารถใช้ scatterplot เพื่อแสดงกลุ่มของข้อมูล ดังนั้นการเชี่ยวชาญการแสดงภาพประเภทนี้จึงมีประโยชน์มาก ในบทเรียนถัดไป เราจะนำข้อมูลที่กรองแล้วนี้ไปใช้กับการจัดกลุ่มแบบ k-means เพื่อค้นหากลุ่มในข้อมูลนี้ที่ดูเหมือนจะทับซ้อนกันในลักษณะที่น่าสนใจ +โดยทั่วไป สำหรับการจัดกลุ่ม คุณสามารถใช้กราฟกระจายเพื่อแสดงกลุ่มข้อมูลได้ ดังนั้นการควบคุมการสร้างภาพประเภทนี้จึงมีประโยชน์มาก บทเรียนถัดไปเราจะใช้ข้อมูลที่กรองนี้และใช้การจัดกลุ่มแบบ k-means เพื่อค้นหากลุ่มในข้อมูลนี้ที่ดูเหมือนจะทับซ้อนกันในรูปแบบที่น่าสนใจ --- ## 🚀ความท้าทาย -เพื่อเตรียมพร้อมสำหรับบทเรียนถัดไป สร้างแผนภูมิเกี่ยวกับอัลกอริทึมการจัดกลุ่มต่างๆ ที่คุณอาจค้นพบและใช้ในสภาพแวดล้อมการผลิต อัลกอริทึมการจัดกลุ่มพยายามแก้ปัญหาแบบใด? +เพื่อเตรียมพร้อมสำหรับบทเรียนถัดไป สร้างแผนภูมิอธิบายอัลกอริทึมการจัดกลุ่มต่าง ๆ ที่คุณอาจค้นพบและใช้ในสภาพแวดล้อมการผลิต อัลกอริทึมการจัดกลุ่มเหล่านี้พยายามแก้ปัญหาอะไร? -## [แบบทดสอบหลังการบรรยาย](https://ff-quizzes.netlify.app/en/ml/) +## [แบบทดสอบหลังบทเรียน](https://ff-quizzes.netlify.app/en/ml/) -## ทบทวนและศึกษาด้วยตนเอง +## ทบทวน & ศึกษาด้วยตนเอง -ก่อนที่คุณจะใช้อัลกอริทึมการจัดกลุ่ม ตามที่เราได้เรียนรู้ เป็นความคิดที่ดีที่จะเข้าใจลักษณะของชุดข้อมูลของคุณ อ่านเพิ่มเติมเกี่ยวกับหัวข้อนี้ [ที่นี่](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) +ก่อนที่คุณจะประยุกต์ใช้อัลกอริทึมการจัดกลุ่ม อย่างที่เราได้เรียนรู้ เป็นความคิดที่ดีที่จะเข้าใจลักษณะของชุดข้อมูลของคุณ อ่านเพิ่มเติมในหัวข้อนี้ [ที่นี่](https://www.kdnuggets.com/2019/10/right-clustering-algorithm.html) -[บทความที่มีประโยชน์นี้](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) จะพาคุณผ่านวิธีการต่างๆ ที่อัลกอริทึมการจัดกลุ่มต่างๆ ทำงาน โดยพิจารณาจากรูปร่างของข้อมูลที่แตกต่างกัน +[บทความที่เป็นประโยชน์นี้](https://www.freecodecamp.org/news/8-clustering-algorithms-in-machine-learning-that-all-data-scientists-should-know/) จะอธิบายวิธีการต่าง ๆ ที่อัลกอริทึมการจัดกลุ่มมีพฤติกรรมแตกต่างกัน ตามรูปร่างข้อมูลที่แตกต่างกัน -## งานที่ได้รับมอบหมาย +## การบ้าน -[ค้นคว้าการแสดงภาพอื่นๆ สำหรับการจัดกลุ่ม](assignment.md) +[ค้นคว้าการแสดงผลภาพเพิ่มเติมสำหรับการจัดกลุ่ม](assignment.md) --- -**ข้อจำกัดความรับผิดชอบ**: -เอกสารนี้ได้รับการแปลโดยใช้บริการแปลภาษา AI [Co-op Translator](https://github.com/Azure/co-op-translator) แม้ว่าเราจะพยายามให้การแปลมีความถูกต้อง แต่โปรดทราบว่าการแปลอัตโนมัติอาจมีข้อผิดพลาดหรือความไม่แม่นยำ เอกสารต้นฉบับในภาษาต้นทางควรถือเป็นแหล่งข้อมูลที่เชื่อถือได้ สำหรับข้อมูลที่สำคัญ ขอแนะนำให้ใช้บริการแปลภาษาจากผู้เชี่ยวชาญ เราไม่รับผิดชอบต่อความเข้าใจผิดหรือการตีความที่ผิดพลาดซึ่งเกิดจากการใช้การแปลนี้ \ No newline at end of file + +**ปฏิเสธความรับผิดชอบ**: +เอกสารนี้ได้รับการแปลโดยใช้บริการแปลภาษา AI [Co-op Translator](https://github.com/Azure/co-op-translator) ขณะที่เราพยายามให้ความถูกต้อง โปรดทราบว่าการแปลโดยอัตโนมัติอาจมีข้อผิดพลาดหรือความไม่ถูกต้อง เอกสารต้นฉบับในภาษาต้นทางควรถูกพิจารณาเป็นแหล่งข้อมูลที่เชื่อถือได้ สำหรับข้อมูลที่สำคัญ แนะนำให้ใช้การแปลโดยมนุษย์มืออาชีพ เราไม่รับผิดชอบต่อความเข้าใจผิดหรือการตีความที่ผิดพลาดที่เกิดขึ้นจากการใช้การแปลนี้ + \ No newline at end of file