You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/el/1-Introduction/03-defining-data/README.md

17 KiB

Ορισμός Δεδομένων

 Σκίτσο από (@sketchthedocs)
Ορισμός Δεδομένων - Σκίτσο από @nitya

Τα δεδομένα είναι γεγονότα, πληροφορίες, παρατηρήσεις και μετρήσεις που χρησιμοποιούνται για την ανακάλυψη και τη λήψη τεκμηριωμένων αποφάσεων. Ένα σημείο δεδομένων είναι μια μεμονωμένη μονάδα δεδομένων μέσα σε ένα σύνολο δεδομένων, το οποίο είναι μια συλλογή σημείων δεδομένων. Τα σύνολα δεδομένων μπορεί να έχουν διαφορετικές μορφές και δομές και συνήθως βασίζονται στην πηγή τους ή στο από πού προέρχονται τα δεδομένα. Για παράδειγμα, τα μηνιαία έσοδα μιας εταιρείας μπορεί να βρίσκονται σε ένα υπολογιστικό φύλλο, ενώ τα δεδομένα καρδιακού ρυθμού ανά ώρα από ένα smartwatch μπορεί να είναι σε μορφή JSON. Είναι συνηθισμένο για τους επιστήμονες δεδομένων να εργάζονται με διαφορετικούς τύπους δεδομένων μέσα σε ένα σύνολο δεδομένων.

Αυτό το μάθημα επικεντρώνεται στον εντοπισμό και την ταξινόμηση των δεδομένων με βάση τα χαρακτηριστικά και τις πηγές τους.

Προ-Διάλεξης Κουίζ

Πώς Περιγράφονται τα Δεδομένα

Ακατέργαστα Δεδομένα

Τα ακατέργαστα δεδομένα είναι δεδομένα που προέρχονται από την πηγή τους στην αρχική τους κατάσταση και δεν έχουν αναλυθεί ή οργανωθεί. Για να κατανοήσουμε τι συμβαίνει με ένα σύνολο δεδομένων, πρέπει να οργανωθεί σε μια μορφή που να είναι κατανοητή από τους ανθρώπους καθώς και από την τεχνολογία που μπορεί να χρησιμοποιηθεί για περαιτέρω ανάλυση. Η δομή ενός συνόλου δεδομένων περιγράφει πώς είναι οργανωμένο και μπορεί να ταξινομηθεί ως δομημένο, μη δομημένο και ημι-δομημένο. Αυτοί οι τύποι δομής θα διαφέρουν ανάλογα με την πηγή, αλλά τελικά θα εμπίπτουν σε αυτές τις τρεις κατηγορίες.

Ποσοτικά Δεδομένα

Τα ποσοτικά δεδομένα είναι αριθμητικές παρατηρήσεις μέσα σε ένα σύνολο δεδομένων και συνήθως μπορούν να αναλυθούν, να μετρηθούν και να χρησιμοποιηθούν μαθηματικά. Μερικά παραδείγματα ποσοτικών δεδομένων είναι: ο πληθυσμός μιας χώρας, το ύψος ενός ατόμου ή τα τριμηνιαία έσοδα μιας εταιρείας. Με κάποια επιπλέον ανάλυση, τα ποσοτικά δεδομένα θα μπορούσαν να χρησιμοποιηθούν για να ανακαλύψουν εποχιακές τάσεις του Δείκτη Ποιότητας Αέρα (AQI) ή να εκτιμήσουν την πιθανότητα κυκλοφοριακής αιχμής σε μια τυπική εργάσιμη ημέρα.

Ποιοτικά Δεδομένα

Τα ποιοτικά δεδομένα, γνωστά και ως κατηγορικά δεδομένα, είναι δεδομένα που δεν μπορούν να μετρηθούν αντικειμενικά όπως οι παρατηρήσεις ποσοτικών δεδομένων. Γενικά είναι διάφορες μορφές υποκειμενικών δεδομένων που καταγράφουν την ποιότητα κάτι, όπως ένα προϊόν ή μια διαδικασία. Μερικές φορές, τα ποιοτικά δεδομένα είναι αριθμητικά αλλά δεν χρησιμοποιούνται συνήθως μαθηματικά, όπως οι αριθμοί τηλεφώνου ή οι χρονικές σημάνσεις. Μερικά παραδείγματα ποιοτικών δεδομένων είναι: σχόλια σε βίντεο, η μάρκα και το μοντέλο ενός αυτοκινήτου ή το αγαπημένο χρώμα των πιο κοντινών σας φίλων. Τα ποιοτικά δεδομένα θα μπορούσαν να χρησιμοποιηθούν για να κατανοήσουν ποια προϊόντα προτιμούν οι καταναλωτές ή για τον εντοπισμό δημοφιλών λέξεων-κλειδιών σε βιογραφικά αιτήσεων εργασίας.

Δομημένα Δεδομένα

Τα δομημένα δεδομένα είναι δεδομένα που είναι οργανωμένα σε σειρές και στήλες, όπου κάθε σειρά έχει το ίδιο σύνολο στηλών. Οι στήλες αντιπροσωπεύουν μια τιμή ενός συγκεκριμένου τύπου και θα προσδιορίζονται με ένα όνομα που περιγράφει τι αντιπροσωπεύει η τιμή, ενώ οι σειρές περιέχουν τις πραγματικές τιμές. Οι στήλες συχνά έχουν ένα συγκεκριμένο σύνολο κανόνων ή περιορισμών στις τιμές, για να διασφαλιστεί ότι οι τιμές αντιπροσωπεύουν με ακρίβεια τη στήλη. Για παράδειγμα, φανταστείτε ένα υπολογιστικό φύλλο πελατών όπου κάθε σειρά πρέπει να έχει έναν αριθμό τηλεφώνου και οι αριθμοί τηλεφώνου δεν περιέχουν αλφαβητικούς χαρακτήρες. Μπορεί να υπάρχουν κανόνες που εφαρμόζονται στη στήλη αριθμού τηλεφώνου για να διασφαλιστεί ότι δεν είναι ποτέ κενή και περιέχει μόνο αριθμούς.

Ένα πλεονέκτημα των δομημένων δεδομένων είναι ότι μπορούν να οργανωθούν με τέτοιο τρόπο ώστε να σχετίζονται με άλλα δομημένα δεδομένα. Ωστόσο, επειδή τα δεδομένα έχουν σχεδιαστεί για να είναι οργανωμένα με συγκεκριμένο τρόπο, η αλλαγή της συνολικής δομής τους μπορεί να απαιτήσει μεγάλη προσπάθεια. Για παράδειγμα, η προσθήκη μιας στήλης email στο υπολογιστικό φύλλο πελατών που δεν μπορεί να είναι κενή σημαίνει ότι θα πρέπει να βρείτε πώς θα προσθέσετε αυτές τις τιμές στις υπάρχουσες σειρές πελατών στο σύνολο δεδομένων.

Παραδείγματα δομημένων δεδομένων: υπολογιστικά φύλλα, σχεσιακές βάσεις δεδομένων, αριθμοί τηλεφώνου, τραπεζικές καταστάσεις

Μη Δομημένα Δεδομένα

Τα μη δομημένα δεδομένα συνήθως δεν μπορούν να κατηγοριοποιηθούν σε σειρές ή στήλες και δεν περιέχουν μορφή ή σύνολο κανόνων που πρέπει να ακολουθούν. Επειδή τα μη δομημένα δεδομένα έχουν λιγότερους περιορισμούς στη δομή τους, είναι πιο εύκολο να προστεθούν νέες πληροφορίες σε σύγκριση με ένα δομημένο σύνολο δεδομένων. Αν ένας αισθητήρας που καταγράφει δεδομένα για την ατμοσφαιρική πίεση κάθε 2 λεπτά λάβει μια ενημέρωση που του επιτρέπει να μετρά και να καταγράφει τη θερμοκρασία, δεν απαιτείται τροποποίηση των υπαρχόντων δεδομένων αν είναι μη δομημένα. Ωστόσο, αυτό μπορεί να κάνει την ανάλυση ή τη διερεύνηση αυτού του τύπου δεδομένων να διαρκεί περισσότερο. Για παράδειγμα, ένας επιστήμονας που θέλει να βρει τη μέση θερμοκρασία του προηγούμενου μήνα από τα δεδομένα του αισθητήρα, αλλά ανακαλύπτει ότι ο αισθητήρας κατέγραψε ένα "e" σε ορισμένα από τα δεδομένα του για να σημειώσει ότι ήταν χαλασμένος αντί για έναν τυπικό αριθμό, κάτι που σημαίνει ότι τα δεδομένα είναι ελλιπή.

Παραδείγματα μη δομημένων δεδομένων: αρχεία κειμένου, μηνύματα κειμένου, αρχεία βίντεο

Ημι-δομημένα Δεδομένα

Τα ημι-δομημένα δεδομένα έχουν χαρακτηριστικά που τα καθιστούν συνδυασμό δομημένων και μη δομημένων δεδομένων. Συνήθως δεν συμμορφώνονται με μια μορφή σειρών και στηλών, αλλά είναι οργανωμένα με τρόπο που θεωρείται δομημένος και μπορεί να ακολουθεί μια σταθερή μορφή ή ένα σύνολο κανόνων. Η δομή θα διαφέρει μεταξύ πηγών, όπως μια καλά καθορισμένη ιεραρχία ή κάτι πιο ευέλικτο που επιτρέπει την εύκολη ενσωμάτωση νέων πληροφοριών. Τα μεταδεδομένα είναι δείκτες που βοηθούν στον καθορισμό του τρόπου οργάνωσης και αποθήκευσης των δεδομένων και θα έχουν διάφορα ονόματα, ανάλογα με τον τύπο των δεδομένων. Μερικά κοινά ονόματα για τα μεταδεδομένα είναι ετικέτες, στοιχεία, οντότητες και χαρακτηριστικά. Για παράδειγμα, ένα τυπικό μήνυμα ηλεκτρονικού ταχυδρομείου θα έχει θέμα, σώμα και ένα σύνολο παραληπτών και μπορεί να οργανωθεί ανάλογα με το ποιος ή πότε στάλθηκε.

Παραδείγματα ημι-δομημένων δεδομένων: HTML, αρχεία CSV, JavaScript Object Notation (JSON)

Πηγές Δεδομένων

Μια πηγή δεδομένων είναι η αρχική τοποθεσία από την οποία δημιουργήθηκαν τα δεδομένα ή όπου "ζουν" και θα διαφέρει ανάλογα με το πώς και πότε συλλέχθηκαν. Τα δεδομένα που δημιουργούνται από τους χρήστες τους είναι γνωστά ως πρωτογενή δεδομένα, ενώ τα δευτερογενή δεδομένα προέρχονται από μια πηγή που έχει συλλέξει δεδομένα για γενική χρήση. Για παράδειγμα, μια ομάδα επιστημόνων που συλλέγει παρατηρήσεις σε ένα τροπικό δάσος θα θεωρούνταν πρωτογενής πηγή, και αν αποφασίσουν να τα μοιραστούν με άλλους επιστήμονες, θα θεωρούνταν δευτερογενής για αυτούς που τα χρησιμοποιούν.

Οι βάσεις δεδομένων είναι μια κοινή πηγή και βασίζονται σε ένα σύστημα διαχείρισης βάσεων δεδομένων για τη φιλοξενία και τη συντήρηση των δεδομένων, όπου οι χρήστες χρησιμοποιούν εντολές που ονομάζονται ερωτήματα για να εξερευνήσουν τα δεδομένα. Τα αρχεία ως πηγές δεδομένων μπορεί να είναι αρχεία ήχου, εικόνας και βίντεο, καθώς και υπολογιστικά φύλλα όπως το Excel. Οι πηγές στο διαδίκτυο είναι μια κοινή τοποθεσία για τη φιλοξενία δεδομένων, όπου μπορούν να βρεθούν βάσεις δεδομένων καθώς και αρχεία. Οι διεπαφές προγραμματισμού εφαρμογών, γνωστές και ως APIs, επιτρέπουν στους προγραμματιστές να δημιουργούν τρόπους για να μοιράζονται δεδομένα με εξωτερικούς χρήστες μέσω του διαδικτύου, ενώ η διαδικασία εξαγωγής δεδομένων από μια ιστοσελίδα ονομάζεται web scraping. Τα μαθήματα στην Εργασία με Δεδομένα επικεντρώνονται στο πώς να χρησιμοποιείτε διάφορες πηγές δεδομένων.

Συμπέρασμα

Σε αυτό το μάθημα μάθαμε:

  • Τι είναι τα δεδομένα
  • Πώς περιγράφονται τα δεδομένα
  • Πώς ταξινομούνται και κατηγοριοποιούνται τα δεδομένα
  • Πού μπορούν να βρεθούν τα δεδομένα

🚀 Πρόκληση

Το Kaggle είναι μια εξαιρετική πηγή ανοιχτών συνόλων δεδομένων. Χρησιμοποιήστε το εργαλείο αναζήτησης συνόλων δεδομένων για να βρείτε μερικά ενδιαφέροντα σύνολα δεδομένων και να ταξινομήσετε 3-5 σύνολα δεδομένων με αυτά τα κριτήρια:

  • Είναι τα δεδομένα ποσοτικά ή ποιοτικά;
  • Είναι τα δεδομένα δομημένα, μη δομημένα ή ημι-δομημένα;

Μετά-Διάλεξης Κουίζ

Ανασκόπηση & Αυτομελέτη

  • Αυτή η ενότητα του Microsoft Learn, με τίτλο Classify your Data, περιέχει μια λεπτομερή ανάλυση των δομημένων, ημι-δομημένων και μη δομημένων δεδομένων.

Ανάθεση

Ταξινόμηση Συνόλων Δεδομένων


Αποποίηση ευθύνης:
Αυτό το έγγραφο έχει μεταφραστεί χρησιμοποιώντας την υπηρεσία αυτόματης μετάφρασης Co-op Translator. Παρόλο που καταβάλλουμε προσπάθειες για ακρίβεια, παρακαλούμε να έχετε υπόψη ότι οι αυτοματοποιημένες μεταφράσεις ενδέχεται να περιέχουν λάθη ή ανακρίβειες. Το πρωτότυπο έγγραφο στη μητρική του γλώσσα θα πρέπει να θεωρείται η αυθεντική πηγή. Για κρίσιμες πληροφορίες, συνιστάται επαγγελματική ανθρώπινη μετάφραση. Δεν φέρουμε ευθύνη για τυχόν παρεξηγήσεις ή εσφαλμένες ερμηνείες που προκύπτουν από τη χρήση αυτής της μετάφρασης.