26 KiB
Επιστήμη Δεδομένων στον Πραγματικό Κόσμο
![]() |
---|
Επιστήμη Δεδομένων στον Πραγματικό Κόσμο - Σκίτσο από @nitya |
Φτάνουμε σχεδόν στο τέλος αυτού του ταξιδιού μάθησης!
Ξεκινήσαμε με ορισμούς της επιστήμης δεδομένων και της ηθικής, εξερευνήσαμε διάφορα εργαλεία και τεχνικές για ανάλυση και οπτικοποίηση δεδομένων, ανασκοπήσαμε τον κύκλο ζωής της επιστήμης δεδομένων και εξετάσαμε πώς να κλιμακώσουμε και να αυτοματοποιήσουμε τις ροές εργασίας της επιστήμης δεδομένων με υπηρεσίες υπολογιστικού νέφους. Οπότε, ίσως αναρωτιέστε: "Πώς ακριβώς μπορώ να συνδέσω όλες αυτές τις γνώσεις με πραγματικά περιβάλλοντα;"
Σε αυτό το μάθημα, θα εξερευνήσουμε εφαρμογές της επιστήμης δεδομένων στον πραγματικό κόσμο σε διάφορους κλάδους και θα εμβαθύνουμε σε συγκεκριμένα παραδείγματα στους τομείς της έρευνας, των ψηφιακών ανθρωπιστικών επιστημών και της βιωσιμότητας. Θα δούμε ευκαιρίες για φοιτητικά έργα και θα ολοκληρώσουμε με χρήσιμους πόρους για να συνεχίσετε το ταξίδι μάθησής σας!
Ερωτηματολόγιο Πριν το Μάθημα
Επιστήμη Δεδομένων + Βιομηχανία
Χάρη στη δημοκρατικοποίηση της Τεχνητής Νοημοσύνης, οι προγραμματιστές βρίσκουν πλέον πιο εύκολο να σχεδιάζουν και να ενσωματώνουν αποφάσεις που βασίζονται στην ΤΝ και πληροφορίες που βασίζονται σε δεδομένα στις εμπειρίες χρηστών και στις ροές εργασίας ανάπτυξης. Ακολουθούν μερικά παραδείγματα για το πώς η επιστήμη δεδομένων "εφαρμόζεται" σε πραγματικές εφαρμογές στη βιομηχανία:
-
Google Flu Trends - χρησιμοποίησε την επιστήμη δεδομένων για να συσχετίσει όρους αναζήτησης με τάσεις γρίπης. Παρόλο που η προσέγγιση είχε αδυναμίες, ανέδειξε τις δυνατότητες (και τις προκλήσεις) των προβλέψεων υγειονομικής περίθαλψης που βασίζονται σε δεδομένα.
-
Προβλέψεις Διαδρομών UPS - εξηγεί πώς η UPS χρησιμοποιεί την επιστήμη δεδομένων και τη μηχανική μάθηση για να προβλέψει βέλτιστες διαδρομές παράδοσης, λαμβάνοντας υπόψη τις καιρικές συνθήκες, τα μοτίβα κυκλοφορίας, τις προθεσμίες παράδοσης και άλλα.
-
Οπτικοποίηση Διαδρομών Ταξί στη Νέα Υόρκη - δεδομένα που συλλέχθηκαν μέσω Νόμων Ελευθερίας Πληροφοριών βοήθησαν στην οπτικοποίηση μιας ημέρας στη ζωή των ταξί της Νέας Υόρκης, βοηθώντας μας να κατανοήσουμε πώς κινούνται στην πολυσύχναστη πόλη, τα έσοδά τους και τη διάρκεια των διαδρομών σε κάθε 24ωρη περίοδο.
-
Uber Data Science Workbench - χρησιμοποιεί δεδομένα (για τοποθεσίες παραλαβής & αποβίβασης, διάρκεια διαδρομής, προτιμώμενες διαδρομές κ.λπ.) που συλλέγονται από εκατομμύρια διαδρομές Uber καθημερινά για να δημιουργήσει ένα εργαλείο ανάλυσης δεδομένων που βοηθά στη διαμόρφωση τιμών, την ασφάλεια, την ανίχνευση απάτης και τις αποφάσεις πλοήγησης.
-
Αναλυτική στον Αθλητισμό - εστιάζει στην προβλεπτική ανάλυση (ανάλυση ομάδων και παικτών - σκεφτείτε το Moneyball - και διαχείριση φιλάθλων) και στην οπτικοποίηση δεδομένων (πίνακες ελέγχου ομάδων & φιλάθλων, παιχνίδια κ.λπ.) με εφαρμογές όπως η ανίχνευση ταλέντων, ο στοιχηματισμός στον αθλητισμό και η διαχείριση αποθεμάτων/χώρων.
-
Επιστήμη Δεδομένων στις Τράπεζες - αναδεικνύει την αξία της επιστήμης δεδομένων στον χρηματοοικονομικό τομέα με εφαρμογές που κυμαίνονται από τη μοντελοποίηση κινδύνου και την ανίχνευση απάτης, έως την τμηματοποίηση πελατών, την πρόβλεψη σε πραγματικό χρόνο και τα συστήματα συστάσεων. Η προβλεπτική ανάλυση οδηγεί επίσης σε κρίσιμα μέτρα όπως οι πιστωτικές βαθμολογίες.
-
Επιστήμη Δεδομένων στην Υγειονομική Περίθαλψη - αναδεικνύει εφαρμογές όπως η ιατρική απεικόνιση (π.χ., MRI, ακτινογραφίες, αξονικές τομογραφίες), η γονιδιωματική (αλληλούχιση DNA), η ανάπτυξη φαρμάκων (αξιολόγηση κινδύνου, πρόβλεψη επιτυχίας), η προβλεπτική ανάλυση (φροντίδα ασθενών & εφοδιαστική), η παρακολούθηση & πρόληψη ασθενειών κ.λπ.
Πηγή Εικόνας: Data Flair: 6 Amazing Data Science Applications
Η εικόνα δείχνει άλλους τομείς και παραδείγματα εφαρμογής τεχνικών επιστήμης δεδομένων. Θέλετε να εξερευνήσετε άλλες εφαρμογές; Δείτε την ενότητα Ανασκόπηση & Αυτομελέτη παρακάτω.
Επιστήμη Δεδομένων + Έρευνα
![]() |
---|
Επιστήμη Δεδομένων & Έρευνα - Σκίτσο από @nitya |
Ενώ οι εφαρμογές στον πραγματικό κόσμο συχνά εστιάζουν σε περιπτώσεις χρήσης στη βιομηχανία σε μεγάλη κλίμακα, οι εφαρμογές και τα έργα έρευνας μπορούν να είναι χρήσιμα από δύο οπτικές:
- ευκαιρίες καινοτομίας - εξερεύνηση ταχείας δημιουργίας πρωτοτύπων προηγμένων εννοιών και δοκιμή εμπειριών χρήστη για εφαρμογές επόμενης γενιάς.
- προκλήσεις υλοποίησης - διερεύνηση πιθανών βλαβών ή ακούσιων συνεπειών των τεχνολογιών επιστήμης δεδομένων σε πραγματικά περιβάλλοντα.
Για φοιτητές, αυτά τα ερευνητικά έργα μπορούν να προσφέρουν τόσο ευκαιρίες μάθησης όσο και συνεργασίας, βελτιώνοντας την κατανόησή σας για το θέμα και διευρύνοντας την επίγνωσή σας και τη συμμετοχή σας με σχετικούς ανθρώπους ή ομάδες που εργάζονται σε τομείς ενδιαφέροντος. Πώς μοιάζουν λοιπόν τα ερευνητικά έργα και πώς μπορούν να έχουν αντίκτυπο;
Ας δούμε ένα παράδειγμα - τη Μελέτη Gender Shades του MIT από την Joy Buolamwini (MIT Media Labs) με μια υποδειγματική ερευνητική εργασία που συνυπογράφεται με την Timnit Gebru (τότε στη Microsoft Research) και εστιάζει σε:
- Τι: Ο στόχος του ερευνητικού έργου ήταν να αξιολογήσει την προκατάληψη που υπάρχει στους αλγορίθμους και τα σύνολα δεδομένων ανάλυσης προσώπου με βάση το φύλο και τον τύπο δέρματος.
- Γιατί: Η ανάλυση προσώπου χρησιμοποιείται σε τομείς όπως η επιβολή του νόμου, η ασφάλεια αεροδρομίων, τα συστήματα πρόσληψης και άλλα - περιβάλλοντα όπου οι ανακριβείς ταξινομήσεις (π.χ., λόγω προκατάληψης) μπορούν να προκαλέσουν οικονομικές και κοινωνικές βλάβες στα επηρεαζόμενα άτομα ή ομάδες. Η κατανόηση (και η εξάλειψη ή μετριασμός) των προκαταλήψεων είναι το κλειδί για τη δικαιοσύνη στη χρήση.
- Πώς: Οι ερευνητές αναγνώρισαν ότι τα υπάρχοντα σημεία αναφοράς χρησιμοποιούσαν κυρίως άτομα με ανοιχτόχρωμο δέρμα και δημιούργησαν ένα νέο σύνολο δεδομένων (1000+ εικόνες) που ήταν πιο ισορροπημένο ως προς το φύλο και τον τύπο δέρματος. Το σύνολο δεδομένων χρησιμοποιήθηκε για την αξιολόγηση της ακρίβειας τριών προϊόντων ταξινόμησης φύλου (από Microsoft, IBM & Face++).
Τα αποτελέσματα έδειξαν ότι, αν και η συνολική ακρίβεια ταξινόμησης ήταν καλή, υπήρχε αξιοσημείωτη διαφορά στα ποσοστά σφάλματος μεταξύ διαφόρων υποομάδων - με λανθασμένη αναγνώριση φύλου να είναι υψηλότερη για γυναίκες ή άτομα με πιο σκούρους τύπους δέρματος, κάτι που υποδηλώνει προκατάληψη.
Κύρια Αποτελέσματα: Αυξήθηκε η επίγνωση ότι η επιστήμη δεδομένων χρειάζεται πιο αντιπροσωπευτικά σύνολα δεδομένων (ισορροπημένες υποομάδες) και πιο συμπεριληπτικές ομάδες (ποικίλα υπόβαθρα) για να αναγνωρίσει και να εξαλείψει ή να μετριάσει τέτοιες προκαταλήψεις νωρίτερα στις λύσεις ΤΝ. Τέτοιες ερευνητικές προσπάθειες είναι επίσης καθοριστικές για τον καθορισμό αρχών και πρακτικών για υπεύθυνη ΤΝ από πολλές οργανώσεις, ώστε να βελτιωθεί η δικαιοσύνη στα προϊόντα και τις διαδικασίες ΤΝ τους.
Θέλετε να μάθετε για σχετικές ερευνητικές προσπάθειες στη Microsoft;
- Δείτε τα Ερευνητικά Έργα της Microsoft στην Τεχνητή Νοημοσύνη.
- Εξερευνήστε φοιτητικά έργα από το Microsoft Research Data Science Summer School.
- Δείτε το έργο Fairlearn και τις πρωτοβουλίες Υπεύθυνης ΤΝ.
Επιστήμη Δεδομένων + Ανθρωπιστικές Επιστήμες
![]() |
---|
Επιστήμη Δεδομένων & Ψηφιακές Ανθρωπιστικές Επιστήμες - Σκίτσο από @nitya |
Οι Ψηφιακές Ανθρωπιστικές Επιστήμες έχουν οριστεί ως "μια συλλογή πρακτικών και προσεγγίσεων που συνδυάζουν υπολογιστικές μεθόδους με ανθρωπιστική έρευνα". Έργα του Stanford όπως το "rebooting history" και το "poetic thinking" δείχνουν τη σύνδεση μεταξύ Ψηφιακών Ανθρωπιστικών Επιστημών και Επιστήμης Δεδομένων - τονίζοντας τεχνικές όπως η ανάλυση δικτύων, η οπτικοποίηση πληροφοριών, η χωρική και κειμενική ανάλυση που μπορούν να μας βοηθήσουν να επανεξετάσουμε ιστορικά και λογοτεχνικά σύνολα δεδομένων για να αντλήσουμε νέες γνώσεις και προοπτικές.
Θέλετε να εξερευνήσετε και να επεκτείνετε ένα έργο σε αυτόν τον τομέα;
Δείτε το "Emily Dickinson and the Meter of Mood" - ένα εξαιρετικό παράδειγμα από την Jen Looper που ρωτά πώς μπορούμε να χρησιμοποιήσουμε την επιστήμη δεδομένων για να επανεξετάσουμε γνωστή ποίηση και να επαναξιολογήσουμε τη σημασία της και τη συμβολή της συγγραφέως σε νέα πλαίσια. Για παράδειγμα, μπορούμε να προβλέψουμε την εποχή κατά την οποία γράφτηκε ένα ποίημα αναλύοντας τον τόνο ή το συναίσθημά του - και τι μας λέει αυτό για την ψυχική κατάσταση της συγγραφέως κατά τη σχετική περίοδο;
Για να απαντήσουμε σε αυτή την ερώτηση, ακολουθούμε τα βήματα του κύκλου ζωής της επιστήμης δεδομένων:
-
Απόκτηση Δεδομένων
- για τη συλλογή ενός σχετικού συνόλου δεδομένων για ανάλυση. Οι επιλογές περιλαμβάνουν τη χρήση ενός API (π.χ., Poetry DB API) ή την εξαγωγή δεδομένων από ιστοσελίδες (π.χ., Project Gutenberg) χρησιμοποιώντας εργαλεία όπως το Scrapy. -
Καθαρισμός Δεδομένων
- εξηγεί πώς μπορεί να μορφοποιηθεί, να καθαριστεί και να απλοποιηθεί το κείμενο χρησιμοποιώντας βασικά εργαλεία όπως το Visual Studio Code και το Microsoft Excel. -
Ανάλυση Δεδομένων
- εξηγεί πώς μπορούμε τώρα να εισάγουμε το σύνολο δεδομένων σε "Notebooks" για ανάλυση χρησιμοποιώντας πακέτα Python (όπως pandas, numpy και matplotlib) για την οργάνωση και την οπτικοποίηση των δεδομένων. -
Ανάλυση Συναισθημάτων
- εξηγεί πώς μπορούμε να ενσωμα Το έργο Planetary Computer βρίσκεται επί του παρόντος σε προεπισκόπηση (από τον Σεπτέμβριο του 2021) - δείτε πώς μπορείτε να ξεκινήσετε να συμβάλλετε σε λύσεις βιωσιμότητας χρησιμοποιώντας την επιστήμη δεδομένων. -
Ζητήστε πρόσβαση για να ξεκινήσετε την εξερεύνηση και να συνδεθείτε με άλλους.
-
Εξερευνήστε την τεκμηρίωση για να κατανοήσετε τα υποστηριζόμενα σύνολα δεδομένων και APIs.
-
Εξερευνήστε εφαρμογές όπως το Ecosystem Monitoring για έμπνευση σχετικά με ιδέες εφαρμογών.
Σκεφτείτε πώς μπορείτε να χρησιμοποιήσετε την οπτικοποίηση δεδομένων για να αποκαλύψετε ή να ενισχύσετε σχετικές πληροφορίες σε τομείς όπως η κλιματική αλλαγή και η αποψίλωση των δασών. Ή σκεφτείτε πώς οι πληροφορίες μπορούν να χρησιμοποιηθούν για τη δημιουργία νέων εμπειριών χρήστη που παρακινούν αλλαγές συμπεριφοράς για μια πιο βιώσιμη ζωή.
Επιστήμη Δεδομένων + Φοιτητές
Έχουμε μιλήσει για εφαρμογές στον πραγματικό κόσμο στη βιομηχανία και την έρευνα και έχουμε εξερευνήσει παραδείγματα εφαρμογών επιστήμης δεδομένων στις ψηφιακές ανθρωπιστικές επιστήμες και τη βιωσιμότητα. Πώς λοιπόν μπορείτε να αναπτύξετε τις δεξιότητές σας και να μοιραστείτε την τεχνογνωσία σας ως αρχάριοι στην επιστήμη δεδομένων;
Ακολουθούν μερικά παραδείγματα φοιτητικών έργων επιστήμης δεδομένων για να σας εμπνεύσουν.
- MSR Data Science Summer School με έργα στο GitHub που εξερευνούν θέματα όπως:
- Ψηφιοποίηση Υλικού Πολιτισμού: Εξερεύνηση κοινωνικοοικονομικών κατανομών στο Sirkap - από την Ornella Altunyan και την ομάδα της στο Claremont, χρησιμοποιώντας ArcGIS StoryMaps.
🚀 Πρόκληση
Αναζητήστε άρθρα που προτείνουν έργα επιστήμης δεδομένων φιλικά προς αρχάριους - όπως αυτές οι 50 θεματικές περιοχές ή αυτές οι 21 ιδέες έργων ή αυτά τα 16 έργα με πηγαίο κώδικα που μπορείτε να αναλύσετε και να ανασυνθέσετε. Και μην ξεχάσετε να γράψετε στο blog για τα ταξίδια μάθησής σας και να μοιραστείτε τις γνώσεις σας μαζί μας.
Κουίζ Μετά τη Διάλεξη
Ανασκόπηση & Αυτομελέτη
Θέλετε να εξερευνήσετε περισσότερες περιπτώσεις χρήσης; Ακολουθούν μερικά σχετικά άρθρα:
- 17 Εφαρμογές και Παραδείγματα Επιστήμης Δεδομένων - Ιούλιος 2021
- 11 Εκπληκτικές Εφαρμογές Επιστήμης Δεδομένων στον Πραγματικό Κόσμο - Μάιος 2021
- Η Επιστήμη Δεδομένων στον Πραγματικό Κόσμο - Συλλογή Άρθρων
- Επιστήμη Δεδομένων σε: Εκπαίδευση, Γεωργία, Χρηματοοικονομικά, Ταινίες & άλλα.
Εργασία
Εξερευνήστε Ένα Σύνολο Δεδομένων του Planetary Computer
Αποποίηση ευθύνης:
Αυτό το έγγραφο έχει μεταφραστεί χρησιμοποιώντας την υπηρεσία αυτόματης μετάφρασης Co-op Translator. Παρόλο που καταβάλλουμε προσπάθειες για ακρίβεια, παρακαλούμε να έχετε υπόψη ότι οι αυτοματοποιημένες μεταφράσεις ενδέχεται να περιέχουν λάθη ή ανακρίβειες. Το πρωτότυπο έγγραφο στη μητρική του γλώσσα θα πρέπει να θεωρείται η αυθεντική πηγή. Για κρίσιμες πληροφορίες, συνιστάται επαγγελματική ανθρώπινη μετάφραση. Δεν φέρουμε ευθύνη για τυχόν παρεξηγήσεις ή εσφαλμένες ερμηνείες που προκύπτουν από τη χρήση αυτής της μετάφρασης.