You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/el/4-Data-Science-Lifecycle/15-analyzing/README.md

12 KiB

Ο Κύκλος Ζωής της Επιστήμης Δεδομένων: Ανάλυση

 Σκίτσο από (@sketchthedocs)
Κύκλος Ζωής της Επιστήμης Δεδομένων: Ανάλυση - Σκίτσο από @nitya

Ερωτηματολόγιο Πριν το Μάθημα

Ερωτηματολόγιο Πριν το Μάθημα

Η ανάλυση στον κύκλο ζωής των δεδομένων επιβεβαιώνει ότι τα δεδομένα μπορούν να απαντήσουν στις ερωτήσεις που έχουν τεθεί ή να λύσουν ένα συγκεκριμένο πρόβλημα. Αυτό το βήμα μπορεί επίσης να επικεντρωθεί στην επιβεβαίωση ότι ένα μοντέλο αντιμετωπίζει σωστά αυτές τις ερωτήσεις και προβλήματα. Το μάθημα αυτό επικεντρώνεται στην Εξερευνητική Ανάλυση Δεδομένων (Exploratory Data Analysis ή EDA), η οποία περιλαμβάνει τεχνικές για τον καθορισμό χαρακτηριστικών και σχέσεων μέσα στα δεδομένα και μπορεί να χρησιμοποιηθεί για την προετοιμασία των δεδομένων για μοντελοποίηση.

Θα χρησιμοποιήσουμε ένα παράδειγμα συνόλου δεδομένων από το Kaggle για να δείξουμε πώς μπορεί να εφαρμοστεί αυτό με τη χρήση της Python και της βιβλιοθήκης Pandas. Αυτό το σύνολο δεδομένων περιέχει έναν αριθμό κοινών λέξεων που βρίσκονται σε email, ενώ οι πηγές αυτών των email είναι ανώνυμες. Χρησιμοποιήστε το notebook σε αυτόν τον φάκελο για να ακολουθήσετε.

Εξερευνητική Ανάλυση Δεδομένων

Η φάση συλλογής του κύκλου ζωής είναι εκεί όπου αποκτώνται τα δεδομένα καθώς και τα προβλήματα και οι ερωτήσεις που τίθενται, αλλά πώς μπορούμε να ξέρουμε ότι τα δεδομένα μπορούν να υποστηρίξουν το τελικό αποτέλεσμα; Θυμηθείτε ότι ένας επιστήμονας δεδομένων μπορεί να θέσει τις εξής ερωτήσεις όταν αποκτά τα δεδομένα:

  • Έχω αρκετά δεδομένα για να λύσω αυτό το πρόβλημα;
  • Είναι τα δεδομένα αποδεκτής ποιότητας για αυτό το πρόβλημα;
  • Αν ανακαλύψω επιπλέον πληροφορίες μέσω αυτών των δεδομένων, πρέπει να εξετάσουμε το ενδεχόμενο να αλλάξουμε ή να επαναπροσδιορίσουμε τους στόχους; Η Εξερευνητική Ανάλυση Δεδομένων είναι η διαδικασία εξοικείωσης με τα δεδομένα και μπορεί να χρησιμοποιηθεί για να απαντήσει σε αυτές τις ερωτήσεις, καθώς και να εντοπίσει τις προκλήσεις που προκύπτουν από τη χρήση του συνόλου δεδομένων. Ας επικεντρωθούμε σε μερικές από τις τεχνικές που χρησιμοποιούνται για την επίτευξη αυτού.

Προφίλ Δεδομένων, Περιγραφική Στατιστική και Pandas

Πώς αξιολογούμε αν έχουμε αρκετά δεδομένα για να λύσουμε αυτό το πρόβλημα; Το προφίλ δεδομένων μπορεί να συνοψίσει και να συγκεντρώσει κάποιες γενικές πληροφορίες για το σύνολο δεδομένων μας μέσω τεχνικών περιγραφικής στατιστικής. Το προφίλ δεδομένων μας βοηθά να κατανοήσουμε τι είναι διαθέσιμο σε εμάς, ενώ η περιγραφική στατιστική μας βοηθά να κατανοήσουμε πόσα πράγματα είναι διαθέσιμα σε εμάς.

Σε μερικά από τα προηγούμενα μαθήματα, έχουμε χρησιμοποιήσει το Pandas για να παρέχουμε περιγραφική στατιστική με τη λειτουργία describe(). Παρέχει τον αριθμό, τις μέγιστες και ελάχιστες τιμές, τον μέσο όρο, την τυπική απόκλιση και τα ποσοστιαία σημεία στα αριθμητικά δεδομένα. Χρησιμοποιώντας περιγραφική στατιστική όπως η λειτουργία describe() μπορεί να σας βοηθήσει να αξιολογήσετε πόσα δεδομένα έχετε και αν χρειάζεστε περισσότερα.

Δειγματοληψία και Ερωτήματα

Η εξερεύνηση όλων των δεδομένων σε ένα μεγάλο σύνολο μπορεί να είναι πολύ χρονοβόρα και συνήθως είναι μια εργασία που αφήνεται στους υπολογιστές. Ωστόσο, η δειγματοληψία είναι ένα χρήσιμο εργαλείο για την κατανόηση των δεδομένων και μας επιτρέπει να έχουμε μια καλύτερη εικόνα του τι περιέχει το σύνολο δεδομένων και τι αντιπροσωπεύει. Με ένα δείγμα, μπορείτε να εφαρμόσετε πιθανότητες και στατιστική για να καταλήξετε σε γενικά συμπεράσματα για τα δεδομένα σας. Παρόλο που δεν υπάρχει καθορισμένος κανόνας για το πόσα δεδομένα πρέπει να δειγματοληπτήσετε, είναι σημαντικό να σημειωθεί ότι όσο περισσότερα δεδομένα δειγματοληπτήσετε, τόσο πιο ακριβής θα είναι η γενίκευση που μπορείτε να κάνετε για τα δεδομένα. Το Pandas διαθέτει τη λειτουργία sample() στη βιβλιοθήκη του, όπου μπορείτε να περάσετε ένα όρισμα για το πόσα τυχαία δείγματα θέλετε να λάβετε και να χρησιμοποιήσετε.

Η γενική υποβολή ερωτημάτων στα δεδομένα μπορεί να σας βοηθήσει να απαντήσετε σε γενικές ερωτήσεις και θεωρίες που μπορεί να έχετε. Σε αντίθεση με τη δειγματοληψία, τα ερωτήματα σας επιτρέπουν να έχετε έλεγχο και να επικεντρώνεστε σε συγκεκριμένα μέρη των δεδομένων για τα οποία έχετε ερωτήσεις. Η λειτουργία query() στη βιβλιοθήκη Pandas σας επιτρέπει να επιλέξετε στήλες και να λάβετε απλές απαντήσεις για τα δεδομένα μέσω των γραμμών που ανακτώνται.

Εξερεύνηση με Οπτικοποιήσεις

Δεν χρειάζεται να περιμένετε μέχρι τα δεδομένα να καθαριστούν και να αναλυθούν πλήρως για να αρχίσετε να δημιουργείτε οπτικοποιήσεις. Στην πραγματικότητα, η ύπαρξη μιας οπτικής αναπαράστασης κατά την εξερεύνηση μπορεί να βοηθήσει στον εντοπισμό μοτίβων, σχέσεων και προβλημάτων στα δεδομένα. Επιπλέον, οι οπτικοποιήσεις παρέχουν ένα μέσο επικοινωνίας με όσους δεν ασχολούνται με τη διαχείριση των δεδομένων και μπορούν να αποτελέσουν μια ευκαιρία για να μοιραστείτε και να διευκρινίσετε επιπλέον ερωτήσεις που δεν αντιμετωπίστηκαν στη φάση συλλογής. Ανατρέξτε στην ενότητα για τις Οπτικοποιήσεις για να μάθετε περισσότερα σχετικά με δημοφιλείς τρόπους εξερεύνησης μέσω οπτικοποιήσεων.

Εξερεύνηση για τον Εντοπισμό Ασυνεπειών

Όλα τα θέματα αυτού του μαθήματος μπορούν να βοηθήσουν στον εντοπισμό ελλιπών ή ασυνεπών τιμών, αλλά το Pandas παρέχει λειτουργίες για να ελέγξετε μερικές από αυτές. Οι λειτουργίες isna() ή isnull() μπορούν να ελέγξουν για ελλιπείς τιμές. Ένα σημαντικό κομμάτι της εξερεύνησης αυτών των τιμών μέσα στα δεδομένα σας είναι να εξερευνήσετε γιατί κατέληξαν έτσι εξαρχής. Αυτό μπορεί να σας βοηθήσει να αποφασίσετε ποιες ενέργειες να λάβετε για να τις επιλύσετε.

Ερωτηματολόγιο Πριν το Μάθημα

Εργασία

Εξερεύνηση για Απαντήσεις


Αποποίηση Ευθύνης:
Αυτό το έγγραφο έχει μεταφραστεί χρησιμοποιώντας την υπηρεσία αυτόματης μετάφρασης Co-op Translator. Παρόλο που καταβάλλουμε προσπάθειες για ακρίβεια, παρακαλούμε να έχετε υπόψη ότι οι αυτόματες μεταφράσεις ενδέχεται να περιέχουν λάθη ή ανακρίβειες. Το πρωτότυπο έγγραφο στη μητρική του γλώσσα θα πρέπει να θεωρείται η αυθεντική πηγή. Για κρίσιμες πληροφορίες, συνιστάται επαγγελματική ανθρώπινη μετάφραση. Δεν φέρουμε ευθύνη για τυχόν παρεξηγήσεις ή εσφαλμένες ερμηνείες που προκύπτουν από τη χρήση αυτής της μετάφρασης.