|
2 weeks ago | |
---|---|---|
.. | ||
README.md | 2 weeks ago | |
assignment.ipynb | 3 weeks ago | |
assignment.md | 4 weeks ago | |
notebook.ipynb | 3 weeks ago |
README.md
Ο Κύκλος Ζωής της Επιστήμης Δεδομένων: Ανάλυση
![]() |
---|
Κύκλος Ζωής της Επιστήμης Δεδομένων: Ανάλυση - Σκίτσο από @nitya |
Προ-μάθημα Quiz
Η ανάλυση στον κύκλο ζωής των δεδομένων επιβεβαιώνει ότι τα δεδομένα μπορούν να απαντήσουν στις ερωτήσεις που έχουν τεθεί ή να λύσουν ένα συγκεκριμένο πρόβλημα. Αυτό το βήμα μπορεί επίσης να επικεντρωθεί στην επιβεβαίωση ότι ένα μοντέλο αντιμετωπίζει σωστά αυτές τις ερωτήσεις και προβλήματα. Το μάθημα αυτό επικεντρώνεται στην Εξερευνητική Ανάλυση Δεδομένων (Exploratory Data Analysis ή EDA), η οποία περιλαμβάνει τεχνικές για τον καθορισμό χαρακτηριστικών και σχέσεων μέσα στα δεδομένα και μπορεί να χρησιμοποιηθεί για την προετοιμασία των δεδομένων για μοντελοποίηση.
Θα χρησιμοποιήσουμε ένα παράδειγμα συνόλου δεδομένων από το Kaggle για να δείξουμε πώς αυτό μπορεί να εφαρμοστεί με τη χρήση της Python και της βιβλιοθήκης Pandas. Αυτό το σύνολο δεδομένων περιέχει έναν αριθμό κοινών λέξεων που βρίσκονται σε email, ενώ οι πηγές αυτών των email είναι ανώνυμες. Χρησιμοποιήστε το notebook σε αυτόν τον φάκελο για να ακολουθήσετε το μάθημα.
Εξερευνητική Ανάλυση Δεδομένων
Η φάση συλλογής του κύκλου ζωής είναι εκεί όπου αποκτώνται τα δεδομένα, καθώς και τα προβλήματα και οι ερωτήσεις που τίθενται. Αλλά πώς ξέρουμε ότι τα δεδομένα μπορούν να υποστηρίξουν το τελικό αποτέλεσμα; Θυμηθείτε ότι ένας επιστήμονας δεδομένων μπορεί να θέσει τις εξής ερωτήσεις όταν αποκτά τα δεδομένα:
- Έχω αρκετά δεδομένα για να λύσω αυτό το πρόβλημα;
- Είναι τα δεδομένα αποδεκτής ποιότητας για αυτό το πρόβλημα;
- Αν ανακαλύψω πρόσθετες πληροφορίες μέσω αυτών των δεδομένων, πρέπει να εξετάσουμε το ενδεχόμενο αλλαγής ή επαναπροσδιορισμού των στόχων;
Η Εξερευνητική Ανάλυση Δεδομένων είναι η διαδικασία εξοικείωσης με τα δεδομένα και μπορεί να χρησιμοποιηθεί για να απαντήσει σε αυτές τις ερωτήσεις, καθώς και να εντοπίσει τις προκλήσεις που προκύπτουν από τη χρήση του συνόλου δεδομένων. Ας επικεντρωθούμε σε μερικές από τις τεχνικές που χρησιμοποιούνται για την επίτευξη αυτού.
Προφίλ Δεδομένων, Περιγραφική Στατιστική και Pandas
Πώς αξιολογούμε αν έχουμε αρκετά δεδομένα για να λύσουμε αυτό το πρόβλημα; Το προφίλ δεδομένων μπορεί να συνοψίσει και να συγκεντρώσει κάποιες γενικές πληροφορίες για το σύνολο δεδομένων μας μέσω τεχνικών περιγραφικής στατιστικής. Το προφίλ δεδομένων μας βοηθά να κατανοήσουμε τι είναι διαθέσιμο σε εμάς, ενώ η περιγραφική στατιστική μας βοηθά να κατανοήσουμε πόσα πράγματα είναι διαθέσιμα.
Σε μερικά από τα προηγούμενα μαθήματα, χρησιμοποιήσαμε τη βιβλιοθήκη Pandas για να παρέχουμε περιγραφική στατιστική με τη χρήση της describe()
function. Αυτή παρέχει τον αριθμό, τις μέγιστες και ελάχιστες τιμές, τον μέσο όρο, την τυπική απόκλιση και τα ποσοστιαία σημεία για τα αριθμητικά δεδομένα. Χρησιμοποιώντας περιγραφική στατιστική, όπως η describe()
function, μπορείτε να αξιολογήσετε πόσα δεδομένα έχετε και αν χρειάζεστε περισσότερα.
Δειγματοληψία και Ερωτήματα
Η εξερεύνηση όλων των δεδομένων σε ένα μεγάλο σύνολο μπορεί να είναι πολύ χρονοβόρα και συνήθως είναι μια εργασία που ανατίθεται σε έναν υπολογιστή. Ωστόσο, η δειγματοληψία είναι ένα χρήσιμο εργαλείο για την κατανόηση των δεδομένων και μας επιτρέπει να έχουμε μια καλύτερη εικόνα για το τι περιέχει το σύνολο δεδομένων και τι αντιπροσωπεύει. Με ένα δείγμα, μπορείτε να εφαρμόσετε πιθανότητες και στατιστική για να καταλήξετε σε γενικά συμπεράσματα για τα δεδομένα σας. Παρόλο που δεν υπάρχει καθορισμένος κανόνας για το πόσα δεδομένα πρέπει να δειγματοληπτήσετε, είναι σημαντικό να σημειωθεί ότι όσο περισσότερα δεδομένα δειγματοληπτείτε, τόσο πιο ακριβής θα είναι η γενίκευση που μπορείτε να κάνετε.
Η βιβλιοθήκη Pandas διαθέτει τη sample()
function, όπου μπορείτε να περάσετε ένα όρισμα για το πόσα τυχαία δείγματα θέλετε να λάβετε και να χρησιμοποιήσετε.
Η γενική υποβολή ερωτημάτων στα δεδομένα μπορεί να σας βοηθήσει να απαντήσετε σε γενικές ερωτήσεις και θεωρίες που μπορεί να έχετε. Σε αντίθεση με τη δειγματοληψία, τα ερωτήματα σας επιτρέπουν να έχετε έλεγχο και να εστιάζετε σε συγκεκριμένα μέρη των δεδομένων για τα οποία έχετε ερωτήσεις. Η query()
function στη βιβλιοθήκη Pandas σας επιτρέπει να επιλέξετε στήλες και να λάβετε απλές απαντήσεις για τα δεδομένα μέσω των γραμμών που ανακτώνται.
Εξερεύνηση με Οπτικοποιήσεις
Δεν χρειάζεται να περιμένετε μέχρι τα δεδομένα να καθαριστούν και να αναλυθούν πλήρως για να ξεκινήσετε να δημιουργείτε οπτικοποιήσεις. Στην πραγματικότητα, η ύπαρξη μιας οπτικής αναπαράστασης κατά την εξερεύνηση μπορεί να βοηθήσει στον εντοπισμό προτύπων, σχέσεων και προβλημάτων στα δεδομένα. Επιπλέον, οι οπτικοποιήσεις παρέχουν ένα μέσο επικοινωνίας με εκείνους που δεν εμπλέκονται στη διαχείριση των δεδομένων και μπορούν να αποτελέσουν μια ευκαιρία για να μοιραστείτε και να διευκρινίσετε πρόσθετες ερωτήσεις που δεν αντιμετωπίστηκαν στη φάση συλλογής. Ανατρέξτε στην ενότητα για τις Οπτικοποιήσεις για να μάθετε περισσότερα σχετικά με δημοφιλείς τρόπους εξερεύνησης μέσω οπτικοποιήσεων.
Εξερεύνηση για τον εντοπισμό ασυνεπειών
Όλα τα θέματα αυτού του μαθήματος μπορούν να βοηθήσουν στον εντοπισμό ελλιπών ή ασυνεπών τιμών, αλλά η βιβλιοθήκη Pandas παρέχει συναρτήσεις για να ελέγξετε για μερικές από αυτές. Οι isna() ή isnull() μπορούν να ελέγξουν για ελλιπείς τιμές. Ένα σημαντικό κομμάτι της εξερεύνησης αυτών των τιμών στα δεδομένα σας είναι να εξετάσετε γιατί κατέληξαν έτσι εξαρχής. Αυτό μπορεί να σας βοηθήσει να αποφασίσετε ποιες ενέργειες να λάβετε για να τις επιλύσετε.
Μετά το μάθημα Quiz
Εργασία
Αποποίηση ευθύνης:
Αυτό το έγγραφο έχει μεταφραστεί χρησιμοποιώντας την υπηρεσία αυτόματης μετάφρασης Co-op Translator. Παρόλο που καταβάλλουμε προσπάθειες για ακρίβεια, παρακαλούμε να έχετε υπόψη ότι οι αυτόματες μεταφράσεις ενδέχεται να περιέχουν σφάλματα ή ανακρίβειες. Το πρωτότυπο έγγραφο στη μητρική του γλώσσα θα πρέπει να θεωρείται η αυθεντική πηγή. Για κρίσιμες πληροφορίες, συνιστάται επαγγελματική ανθρώπινη μετάφραση. Δεν φέρουμε ευθύνη για τυχόν παρεξηγήσεις ή εσφαλμένες ερμηνείες που προκύπτουν από τη χρήση αυτής της μετάφρασης.