|
2 weeks ago | |
---|---|---|
.. | ||
README.md | 2 weeks ago | |
assignment.md | 4 weeks ago |
README.md
Ορισμός Δεδομένων
![]() |
---|
Ορισμός Δεδομένων - Σκίτσο από @nitya |
Τα δεδομένα είναι γεγονότα, πληροφορίες, παρατηρήσεις και μετρήσεις που χρησιμοποιούνται για να γίνουν ανακαλύψεις και να υποστηριχθούν τεκμηριωμένες αποφάσεις. Ένα σημείο δεδομένων είναι μια μονάδα δεδομένων μέσα σε ένα σύνολο δεδομένων, το οποίο είναι μια συλλογή σημείων δεδομένων. Τα σύνολα δεδομένων μπορεί να έχουν διαφορετικές μορφές και δομές και συνήθως βασίζονται στην πηγή τους ή στο πού προέρχονται τα δεδομένα. Για παράδειγμα, τα μηνιαία κέρδη μιας εταιρείας μπορεί να βρίσκονται σε ένα υπολογιστικό φύλλο, ενώ τα δεδομένα καρδιακού ρυθμού ανά ώρα από ένα smartwatch μπορεί να είναι σε μορφή JSON. Είναι συνηθισμένο για τους επιστήμονες δεδομένων να εργάζονται με διαφορετικούς τύπους δεδομένων μέσα σε ένα σύνολο δεδομένων.
Αυτό το μάθημα επικεντρώνεται στον εντοπισμό και την ταξινόμηση των δεδομένων βάσει των χαρακτηριστικών και των πηγών τους.
Προ-Διάλεξης Κουίζ
Πώς Περιγράφονται τα Δεδομένα
Ακατέργαστα Δεδομένα
Τα ακατέργαστα δεδομένα είναι δεδομένα που προέρχονται από την πηγή τους στην αρχική τους κατάσταση και δεν έχουν αναλυθεί ή οργανωθεί. Για να κατανοήσουμε τι συμβαίνει με ένα σύνολο δεδομένων, πρέπει να οργανωθεί σε μια μορφή που να είναι κατανοητή από τους ανθρώπους καθώς και από την τεχνολογία που μπορεί να χρησιμοποιηθεί για περαιτέρω ανάλυση. Η δομή ενός συνόλου δεδομένων περιγράφει πώς είναι οργανωμένο και μπορεί να ταξινομηθεί ως δομημένο, μη δομημένο και ημι-δομημένο. Αυτοί οι τύποι δομής θα διαφέρουν ανάλογα με την πηγή, αλλά τελικά θα ενταχθούν σε αυτές τις τρεις κατηγορίες.
Ποσοτικά Δεδομένα
Τα ποσοτικά δεδομένα είναι αριθμητικές παρατηρήσεις μέσα σε ένα σύνολο δεδομένων και μπορούν συνήθως να αναλυθούν, να μετρηθούν και να χρησιμοποιηθούν μαθηματικά. Μερικά παραδείγματα ποσοτικών δεδομένων είναι: ο πληθυσμός μιας χώρας, το ύψος ενός ατόμου ή τα τριμηνιαία κέρδη μιας εταιρείας. Με κάποια επιπλέον ανάλυση, τα ποσοτικά δεδομένα θα μπορούσαν να χρησιμοποιηθούν για να ανακαλυφθούν εποχιακές τάσεις του Δείκτη Ποιότητας Αέρα (AQI) ή να εκτιμηθεί η πιθανότητα κυκλοφοριακής αιχμής σε μια τυπική εργάσιμη ημέρα.
Ποιοτικά Δεδομένα
Τα ποιοτικά δεδομένα, γνωστά και ως κατηγοριοποιημένα δεδομένα, είναι δεδομένα που δεν μπορούν να μετρηθούν αντικειμενικά όπως οι παρατηρήσεις ποσοτικών δεδομένων. Γενικά είναι διάφορες μορφές υποκειμενικών δεδομένων που καταγράφουν την ποιότητα κάτι, όπως ενός προϊόντος ή μιας διαδικασίας. Μερικές φορές, τα ποιοτικά δεδομένα είναι αριθμητικά αλλά δεν χρησιμοποιούνται συνήθως μαθηματικά, όπως οι αριθμοί τηλεφώνου ή οι χρονικές σημάνσεις. Μερικά παραδείγματα ποιοτικών δεδομένων είναι: σχόλια βίντεο, η μάρκα και το μοντέλο ενός αυτοκινήτου ή το αγαπημένο χρώμα των πιο κοντινών σας φίλων. Τα ποιοτικά δεδομένα θα μπορούσαν να χρησιμοποιηθούν για να κατανοηθεί ποια προϊόντα προτιμούν περισσότερο οι καταναλωτές ή για την αναγνώριση δημοφιλών λέξεων-κλειδιών σε βιογραφικά αιτήσεων εργασίας.
Δομημένα Δεδομένα
Τα δομημένα δεδομένα είναι δεδομένα που είναι οργανωμένα σε σειρές και στήλες, όπου κάθε σειρά θα έχει το ίδιο σύνολο στηλών. Οι στήλες αντιπροσωπεύουν μια τιμή ενός συγκεκριμένου τύπου και θα προσδιορίζονται με ένα όνομα που περιγράφει τι αντιπροσωπεύει η τιμή, ενώ οι σειρές περιέχουν τις πραγματικές τιμές. Οι στήλες συχνά έχουν ένα συγκεκριμένο σύνολο κανόνων ή περιορισμών στις τιμές, για να διασφαλιστεί ότι οι τιμές αντιπροσωπεύουν με ακρίβεια τη στήλη. Για παράδειγμα, φανταστείτε ένα υπολογιστικό φύλλο πελατών όπου κάθε σειρά πρέπει να έχει έναν αριθμό τηλεφώνου και οι αριθμοί τηλεφώνου δεν περιέχουν αλφαβητικούς χαρακτήρες. Μπορεί να υπάρχουν κανόνες που εφαρμόζονται στη στήλη αριθμού τηλεφώνου για να διασφαλιστεί ότι δεν είναι ποτέ κενή και περιέχει μόνο αριθμούς.
Ένα πλεονέκτημα των δομημένων δεδομένων είναι ότι μπορούν να οργανωθούν με τέτοιο τρόπο ώστε να σχετίζονται με άλλα δομημένα δεδομένα. Ωστόσο, επειδή τα δεδομένα έχουν σχεδιαστεί για να είναι οργανωμένα με συγκεκριμένο τρόπο, η αλλαγή της συνολικής δομής τους μπορεί να απαιτήσει μεγάλη προσπάθεια. Για παράδειγμα, η προσθήκη μιας στήλης email στο υπολογιστικό φύλλο πελατών που δεν μπορεί να είναι κενή σημαίνει ότι θα πρέπει να βρείτε πώς θα προσθέσετε αυτές τις τιμές στις υπάρχουσες σειρές πελατών στο σύνολο δεδομένων.
Παραδείγματα δομημένων δεδομένων: υπολογιστικά φύλλα, σχεσιακές βάσεις δεδομένων, αριθμοί τηλεφώνου, τραπεζικές καταστάσεις
Μη Δομημένα Δεδομένα
Τα μη δομημένα δεδομένα συνήθως δεν μπορούν να κατηγοριοποιηθούν σε σειρές ή στήλες και δεν περιέχουν μορφή ή σύνολο κανόνων για να ακολουθήσουν. Επειδή τα μη δομημένα δεδομένα έχουν λιγότερους περιορισμούς στη δομή τους, είναι ευκολότερο να προστεθούν νέες πληροφορίες σε σύγκριση με ένα δομημένο σύνολο δεδομένων. Εάν ένας αισθητήρας που καταγράφει δεδομένα για την βαρομετρική πίεση κάθε 2 λεπτά έχει λάβει μια ενημέρωση που του επιτρέπει τώρα να μετρά και να καταγράφει τη θερμοκρασία, δεν απαιτείται τροποποίηση των υπαρχόντων δεδομένων εάν είναι μη δομημένα. Ωστόσο, αυτό μπορεί να κάνει την ανάλυση ή τη διερεύνηση αυτού του τύπου δεδομένων να διαρκεί περισσότερο. Για παράδειγμα, ένας επιστήμονας που θέλει να βρει τη μέση θερμοκρασία του προηγούμενου μήνα από τα δεδομένα του αισθητήρα, αλλά ανακαλύπτει ότι ο αισθητήρας κατέγραψε ένα "e" σε ορισμένα από τα δεδομένα του για να σημειώσει ότι ήταν χαλασμένος αντί για έναν τυπικό αριθμό, πράγμα που σημαίνει ότι τα δεδομένα είναι ελλιπή.
Παραδείγματα μη δομημένων δεδομένων: αρχεία κειμένου, μηνύματα κειμένου, αρχεία βίντεο
Ημι-Δομημένα Δεδομένα
Τα ημι-δομημένα δεδομένα έχουν χαρακτηριστικά που τα καθιστούν συνδυασμό δομημένων και μη δομημένων δεδομένων. Συνήθως δεν συμμορφώνονται με μια μορφή σειρών και στηλών αλλά είναι οργανωμένα με τρόπο που θεωρείται δομημένος και μπορεί να ακολουθεί μια σταθερή μορφή ή ένα σύνολο κανόνων. Η δομή θα διαφέρει μεταξύ των πηγών, όπως μια καλά καθορισμένη ιεραρχία ή κάτι πιο ευέλικτο που επιτρέπει την εύκολη ενσωμάτωση νέων πληροφοριών. Τα μεταδεδομένα είναι δείκτες που βοηθούν να αποφασιστεί πώς οργανώνονται και αποθηκεύονται τα δεδομένα και θα έχουν διάφορα ονόματα, ανάλογα με τον τύπο των δεδομένων. Μερικά κοινά ονόματα για μεταδεδομένα είναι ετικέτες, στοιχεία, οντότητες και χαρακτηριστικά. Για παράδειγμα, ένα τυπικό μήνυμα ηλεκτρονικού ταχυδρομείου θα έχει θέμα, σώμα και ένα σύνολο παραληπτών και μπορεί να οργανωθεί ανάλογα με το ποιος ή πότε στάλθηκε.
Παραδείγματα ημι-δομημένων δεδομένων: HTML, αρχεία CSV, JavaScript Object Notation (JSON)
Πηγές Δεδομένων
Μια πηγή δεδομένων είναι η αρχική τοποθεσία από την οποία δημιουργήθηκαν τα δεδομένα ή όπου "ζουν" και θα διαφέρει ανάλογα με το πώς και πότε συλλέχθηκαν. Τα δεδομένα που δημιουργούνται από τους χρήστες τους είναι γνωστά ως πρωτογενή δεδομένα, ενώ τα δευτερογενή δεδομένα προέρχονται από μια πηγή που έχει συλλέξει δεδομένα για γενική χρήση. Για παράδειγμα, μια ομάδα επιστημόνων που συλλέγει παρατηρήσεις σε ένα τροπικό δάσος θα θεωρούνταν πρωτογενής πηγή και αν αποφασίσουν να τα μοιραστούν με άλλους επιστήμονες, θα θεωρούνταν δευτερογενή για αυτούς που τα χρησιμοποιούν.
Οι βάσεις δεδομένων είναι μια κοινή πηγή και βασίζονται σε ένα σύστημα διαχείρισης βάσεων δεδομένων για τη φιλοξενία και τη συντήρηση των δεδομένων, όπου οι χρήστες χρησιμοποιούν εντολές που ονομάζονται ερωτήματα για να εξερευνήσουν τα δεδομένα. Τα αρχεία ως πηγές δεδομένων μπορεί να είναι αρχεία ήχου, εικόνας και βίντεο καθώς και υπολογιστικά φύλλα όπως το Excel. Οι πηγές του διαδικτύου είναι μια κοινή τοποθεσία για τη φιλοξενία δεδομένων, όπου μπορούν να βρεθούν βάσεις δεδομένων καθώς και αρχεία. Οι διεπαφές προγραμματισμού εφαρμογών, γνωστές και ως APIs, επιτρέπουν στους προγραμματιστές να δημιουργούν τρόπους για να μοιράζονται δεδομένα με εξωτερικούς χρήστες μέσω του διαδικτύου, ενώ η διαδικασία εξαγωγής δεδομένων από μια ιστοσελίδα ονομάζεται web scraping. Τα μαθήματα στην Εργασία με Δεδομένα επικεντρώνονται στο πώς να χρησιμοποιείτε διάφορες πηγές δεδομένων.
Συμπέρασμα
Σε αυτό το μάθημα μάθαμε:
- Τι είναι τα δεδομένα
- Πώς περιγράφονται τα δεδομένα
- Πώς ταξινομούνται και κατηγοριοποιούνται τα δεδομένα
- Πού μπορούν να βρεθούν τα δεδομένα
🚀 Πρόκληση
Το Kaggle είναι μια εξαιρετική πηγή ανοιχτών συνόλων δεδομένων. Χρησιμοποιήστε το εργαλείο αναζήτησης συνόλων δεδομένων για να βρείτε μερικά ενδιαφέροντα σύνολα δεδομένων και να ταξινομήσετε 3-5 σύνολα δεδομένων με αυτά τα κριτήρια:
- Είναι τα δεδομένα ποσοτικά ή ποιοτικά;
- Είναι τα δεδομένα δομημένα, μη δομημένα ή ημι-δομημένα;
Κουίζ μετά τη διάλεξη
Ανασκόπηση & Αυτομελέτη
- Αυτή η ενότητα του Microsoft Learn, με τίτλο Ταξινόμηση των Δεδομένων σας έχει μια λεπτομερή ανάλυση των δομημένων, ημι-δομημένων και μη δομημένων δεδομένων.
Εργασία
Αποποίηση Ευθύνης:
Αυτό το έγγραφο έχει μεταφραστεί χρησιμοποιώντας την υπηρεσία αυτόματης μετάφρασης Co-op Translator. Παρόλο που καταβάλλουμε προσπάθειες για ακρίβεια, παρακαλούμε να έχετε υπόψη ότι οι αυτόματες μεταφράσεις ενδέχεται να περιέχουν σφάλματα ή ανακρίβειες. Το πρωτότυπο έγγραφο στη μητρική του γλώσσα θα πρέπει να θεωρείται η αυθεντική πηγή. Για κρίσιμες πληροφορίες, συνιστάται επαγγελματική ανθρώπινη μετάφραση. Δεν φέρουμε ευθύνη για τυχόν παρεξηγήσεις ή εσφαλμένες ερμηνείες που προκύπτουν από τη χρήση αυτής της μετάφρασης.