## Ορισμός της Επιστήμης Δεδομένων | ![ Σκίτσο από [(@sketchthedocs)](https://sketchthedocs.dev) ](../../sketchnotes/01-Definitions.png) | | :------------------------------------------------------------------------------------------------: | | Ορισμός της Επιστήμης Δεδομένων - _Σκίτσο από [@nitya](https://twitter.com/nitya)_ | --- [![Βίντεο Ορισμός της Επιστήμης Δεδομένων](../../../../translated_images/video-def-ds.6623ee2392ef1abf6d7faf3fad10a4163642811749da75f44e35a5bb121de15c.el.png)](https://youtu.be/beZ7Mb_oz9I) ## [Κουίζ πριν το μάθημα](https://ff-quizzes.netlify.app/en/ds/quiz/0) ## Τι είναι τα Δεδομένα; Στην καθημερινότητά μας, είμαστε συνεχώς περιτριγυρισμένοι από δεδομένα. Το κείμενο που διαβάζετε τώρα είναι δεδομένα. Η λίστα με τους αριθμούς τηλεφώνου των φίλων σας στο smartphone σας είναι δεδομένα, όπως και η τρέχουσα ώρα που εμφανίζεται στο ρολόι σας. Ως άνθρωποι, λειτουργούμε φυσικά με δεδομένα, μετρώντας τα χρήματά μας ή γράφοντας γράμματα στους φίλους μας. Ωστόσο, τα δεδομένα έγιναν πολύ πιο σημαντικά με τη δημιουργία των υπολογιστών. Ο κύριος ρόλος των υπολογιστών είναι να εκτελούν υπολογισμούς, αλλά χρειάζονται δεδομένα για να λειτουργήσουν. Επομένως, πρέπει να κατανοήσουμε πώς οι υπολογιστές αποθηκεύουν και επεξεργάζονται δεδομένα. Με την εμφάνιση του Διαδικτύου, ο ρόλος των υπολογιστών ως συσκευές διαχείρισης δεδομένων αυξήθηκε. Αν το σκεφτείτε, χρησιμοποιούμε πλέον τους υπολογιστές όλο και περισσότερο για επεξεργασία και επικοινωνία δεδομένων, παρά για πραγματικούς υπολογισμούς. Όταν γράφουμε ένα e-mail σε έναν φίλο ή αναζητούμε πληροφορίες στο Διαδίκτυο, ουσιαστικά δημιουργούμε, αποθηκεύουμε, μεταδίδουμε και χειριζόμαστε δεδομένα. > Μπορείτε να θυμηθείτε την τελευταία φορά που χρησιμοποιήσατε υπολογιστή για να κάνετε πραγματικά έναν υπολογισμό; ## Τι είναι η Επιστήμη Δεδομένων; Σύμφωνα με τη [Wikipedia](https://en.wikipedia.org/wiki/Data_science), η **Επιστήμη Δεδομένων** ορίζεται ως *ένα επιστημονικό πεδίο που χρησιμοποιεί επιστημονικές μεθόδους για να εξάγει γνώση και πληροφορίες από δομημένα και μη δομημένα δεδομένα, και να εφαρμόζει τη γνώση και τις εφαρμόσιμες πληροφορίες σε ένα ευρύ φάσμα τομέων εφαρμογής*. Αυτός ο ορισμός υπογραμμίζει τα εξής σημαντικά σημεία της επιστήμης δεδομένων: * Ο κύριος στόχος της επιστήμης δεδομένων είναι να **εξάγει γνώση** από τα δεδομένα, δηλαδή να **κατανοήσει** τα δεδομένα, να βρει κρυφές σχέσεις και να δημιουργήσει ένα **μοντέλο**. * Η επιστήμη δεδομένων χρησιμοποιεί **επιστημονικές μεθόδους**, όπως η πιθανότητα και η στατιστική. Στην πραγματικότητα, όταν ο όρος *επιστήμη δεδομένων* εισήχθη για πρώτη φορά, κάποιοι υποστήριξαν ότι ήταν απλώς ένα νέο, μοντέρνο όνομα για τη στατιστική. Σήμερα είναι προφανές ότι το πεδίο είναι πολύ ευρύτερο. * Η γνώση που αποκτάται πρέπει να εφαρμόζεται για την παραγωγή **εφαρμόσιμων πληροφοριών**, δηλαδή πρακτικών πληροφοριών που μπορούν να εφαρμοστούν σε πραγματικές επιχειρηματικές καταστάσεις. * Πρέπει να μπορούμε να λειτουργούμε τόσο με **δομημένα** όσο και με **μη δομημένα** δεδομένα. Θα επιστρέψουμε για να συζητήσουμε τους διαφορετικούς τύπους δεδομένων αργότερα στο μάθημα. * Ο **τομέας εφαρμογής** είναι μια σημαντική έννοια, και οι επιστήμονες δεδομένων συχνά χρειάζονται τουλάχιστον κάποιο βαθμό εξειδίκευσης στον τομέα του προβλήματος, για παράδειγμα: χρηματοοικονομικά, ιατρική, μάρκετινγκ κ.λπ. > Ένα άλλο σημαντικό στοιχείο της Επιστήμης Δεδομένων είναι ότι μελετά πώς τα δεδομένα μπορούν να συλλεχθούν, να αποθηκευτούν και να επεξεργαστούν χρησιμοποιώντας υπολογιστές. Ενώ η στατιστική μας δίνει τα μαθηματικά θεμέλια, η επιστήμη δεδομένων εφαρμόζει μαθηματικές έννοιες για να αντλήσει πραγματικά πληροφορίες από τα δεδομένα. Ένας από τους τρόπους (που αποδίδεται στον [Jim Gray](https://en.wikipedia.org/wiki/Jim_Gray_(computer_scientist))) να δούμε την επιστήμη δεδομένων είναι να τη θεωρήσουμε ως ένα ξεχωριστό παράδειγμα επιστήμης: * **Εμπειρική**, όπου βασιζόμαστε κυρίως σε παρατηρήσεις και αποτελέσματα πειραμάτων * **Θεωρητική**, όπου νέες έννοιες προκύπτουν από την υπάρχουσα επιστημονική γνώση * **Υπολογιστική**, όπου ανακαλύπτουμε νέες αρχές βασισμένες σε υπολογιστικά πειράματα * **Καθοδηγούμενη από Δεδομένα**, βασισμένη στην ανακάλυψη σχέσεων και προτύπων στα δεδομένα ## Συναφή Πεδία Δεδομένου ότι τα δεδομένα είναι πανταχού παρόντα, η επιστήμη δεδομένων είναι επίσης ένα ευρύ πεδίο που αγγίζει πολλές άλλες επιστήμες. ## Τύποι Δεδομένων Όπως έχουμε ήδη αναφέρει, τα δεδομένα είναι παντού. Αρκεί να τα καταγράψουμε με τον σωστό τρόπο! Είναι χρήσιμο να διακρίνουμε μεταξύ **δομημένων** και **μη δομημένων** δεδομένων. Τα πρώτα συνήθως αναπαρίστανται σε κάποια καλά δομημένη μορφή, συχνά ως πίνακας ή αριθμός πινάκων, ενώ τα δεύτερα είναι απλώς μια συλλογή αρχείων. Μερικές φορές μπορούμε επίσης να μιλήσουμε για **ημιδομημένα** δεδομένα, που έχουν κάποια μορφή δομής που μπορεί να διαφέρει σημαντικά. | Δομημένα | Ημιδομημένα | Μη δομημένα | | -------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------- | -------------------------------------- | | Λίστα ανθρώπων με τους αριθμούς τηλεφώνου τους | Σελίδες Wikipedia με συνδέσμους | Κείμενο της Εγκυκλοπαίδειας Britannica | | Θερμοκρασία σε όλα τα δωμάτια ενός κτιρίου κάθε λεπτό για τα τελευταία 20 χρόνια | Συλλογή επιστημονικών άρθρων σε μορφή JSON με συγγραφείς, ημερομηνία δημοσίευσης και περίληψη | Κοινόχρηστο αρχείο με εταιρικά έγγραφα | | Δεδομένα για την ηλικία και το φύλο όλων των ανθρώπων που εισέρχονται στο κτίριο | Σελίδες στο Διαδίκτυο | Ακατέργαστο βίντεο από κάμερα ασφαλείας | ## Από πού να πάρετε Δεδομένα Υπάρχουν πολλές πιθανές πηγές δεδομένων, και θα ήταν αδύνατο να τις απαριθμήσουμε όλες! Ωστόσο, ας αναφέρουμε μερικές από τις τυπικές πηγές δεδομένων: * **Δομημένα** - Το **Διαδίκτυο των Πραγμάτων** (IoT), που περιλαμβάνει δεδομένα από διάφορους αισθητήρες, όπως αισθητήρες θερμοκρασίας ή πίεσης, παρέχει πολλά χρήσιμα δεδομένα. Για παράδειγμα, αν ένα κτίριο γραφείων είναι εξοπλισμένο με αισθητήρες IoT, μπορούμε να ελέγχουμε αυτόματα τη θέρμανση και τον φωτισμό για να ελαχιστοποιήσουμε τα κόστη. - **Έρευνες** που ζητάμε από τους χρήστες να συμπληρώσουν μετά από μια αγορά ή μετά από επίσκεψη σε έναν ιστότοπο. - **Ανάλυση συμπεριφοράς** μπορεί, για παράδειγμα, να μας βοηθήσει να κατανοήσουμε πόσο βαθιά εξετάζει ένας χρήστης έναν ιστότοπο και ποιος είναι ο τυπικός λόγος αποχώρησης. * **Μη δομημένα** - **Κείμενα** μπορούν να αποτελέσουν πλούσια πηγή πληροφοριών, όπως μια συνολική **βαθμολογία συναισθήματος** ή εξαγωγή λέξεων-κλειδιών και σημασιολογικού νοήματος. - **Εικόνες** ή **Βίντεο**. Ένα βίντεο από μια κάμερα ασφαλείας μπορεί να χρησιμοποιηθεί για να εκτιμήσει την κυκλοφορία στον δρόμο και να ενημερώσει τους ανθρώπους για πιθανά μποτιλιαρίσματα. - **Αρχεία καταγραφής** διακομιστών ιστού μπορούν να χρησιμοποιηθούν για να κατανοήσουμε ποιες σελίδες του ιστότοπού μας επισκέπτονται πιο συχνά και για πόσο χρόνο. * **Ημιδομημένα** - **Γραφήματα κοινωνικών δικτύων** μπορούν να αποτελέσουν εξαιρετικές πηγές δεδομένων για τις προσωπικότητες των χρηστών και την πιθανή αποτελεσματικότητα στη διάδοση πληροφοριών. - Όταν έχουμε μια συλλογή φωτογραφιών από ένα πάρτι, μπορούμε να προσπαθήσουμε να εξαγάγουμε δεδομένα **ομαδικής δυναμικής** δημιουργώντας ένα γράφημα ανθρώπων που φωτογραφίζονται μαζί. Γνωρίζοντας τις διαφορετικές πιθανές πηγές δεδομένων, μπορείτε να σκεφτείτε διάφορα σενάρια όπου οι τεχνικές επιστήμης δεδομένων μπορούν να εφαρμοστούν για να κατανοήσετε καλύτερα την κατάσταση και να βελτιώσετε τις επιχειρηματικές διαδικασίες. ## Τι μπορείτε να κάνετε με τα Δεδομένα Στην Επιστήμη Δεδομένων, εστιάζουμε στα εξής βήματα της πορείας των δεδομένων: Φυσικά, ανάλογα με τα δεδομένα, κάποια βήματα μπορεί να λείπουν (π.χ., όταν έχουμε ήδη τα δεδομένα στη βάση δεδομένων ή όταν δεν χρειάζεται εκπαίδευση μοντέλου), ή κάποια βήματα μπορεί να επαναληφθούν πολλές φορές (όπως η επεξεργασία δεδομένων). ## Ψηφιοποίηση και Ψηφιακός Μετασχηματισμός Την τελευταία δεκαετία, πολλές επιχειρήσεις άρχισαν να κατανοούν τη σημασία των δεδομένων στη λήψη επιχειρηματικών αποφάσεων. Για να εφαρμοστούν οι αρχές της επιστήμης δεδομένων στη λειτουργία μιας επιχείρησης, πρέπει πρώτα να συλλεχθούν δεδομένα, δηλαδή να μεταφραστούν οι επιχειρηματικές διαδικασίες σε ψηφιακή μορφή. Αυτό είναι γνωστό ως **ψηφιοποίηση**. Η εφαρμογή τεχνικών επιστήμης δεδομένων σε αυτά τα δεδομένα για την καθοδήγηση αποφάσεων μπορεί να οδηγήσει σε σημαντικές αυξήσεις παραγωγικότητας (ή ακόμα και σε αλλαγή κατεύθυνσης της επιχείρησης), που ονομάζεται **ψηφιακός μετασχηματισμός**. Ας εξετάσουμε ένα παράδειγμα. Υποθέστε ότι έχουμε ένα μάθημα επιστήμης δεδομένων (όπως αυτό) που παραδίδουμε διαδικτυακά στους μαθητές και θέλουμε να χρησιμοποιήσουμε την επιστήμη δεδομένων για να το βελτιώσουμε. Πώς μπορούμε να το κάνουμε; Μπορούμε να ξεκινήσουμε ρωτώντας "Τι μπορεί να ψηφιοποιηθεί;" Ο πιο απλός τρόπος θα ήταν να μετρήσουμε τον χρόνο που χρειάζεται κάθε μαθητής για να ολοκληρώσει κάθε ενότητα και να μετρήσουμε τις γνώσεις που αποκτήθηκαν δίνοντας ένα τεστ πολλαπλής επιλογής στο τέλος κάθε ενότητας. Υπολογίζοντας τον μέσο χρόνο ολοκλήρωσης για όλους τους μαθητές, μπορούμε να εντοπίσουμε ποιες ενότητες προκαλούν τις περισσότερες δυσκολίες και να εργαστούμε για την απλοποίησή τους. Μπορεί να υποστηρίξετε ότι αυτή η προσέγγιση δεν είναι ιδανική, επειδή τα modules μπορεί να έχουν διαφορετικά μήκη. Ίσως είναι πιο δίκαιο να διαιρέσουμε τον χρόνο με το μήκος του module (σε αριθμό χαρακτήρων) και να συγκρίνουμε αυτές τις τιμές αντ' αυτού. Όταν αρχίζουμε να αναλύουμε τα αποτελέσματα από τεστ πολλαπλής επιλογής, μπορούμε να προσπαθήσουμε να εντοπίσουμε ποιες έννοιες δυσκολεύονται να κατανοήσουν οι μαθητές και να χρησιμοποιήσουμε αυτές τις πληροφορίες για να βελτιώσουμε το περιεχόμενο. Για να το κάνουμε αυτό, πρέπει να σχεδιάσουμε τα τεστ με τέτοιο τρόπο ώστε κάθε ερώτηση να αντιστοιχεί σε μια συγκεκριμένη έννοια ή κομμάτι γνώσης. Αν θέλουμε να το κάνουμε ακόμα πιο περίπλοκο, μπορούμε να σχεδιάσουμε το χρόνο που χρειάζεται για κάθε ενότητα σε σχέση με την ηλικιακή κατηγορία των μαθητών. Μπορεί να διαπιστώσουμε ότι για ορισμένες ηλικιακές κατηγορίες χρειάζεται υπερβολικά πολύς χρόνος για να ολοκληρωθεί η ενότητα ή ότι οι μαθητές εγκαταλείπουν πριν την ολοκληρώσουν. Αυτό μπορεί να μας βοηθήσει να δώσουμε συστάσεις ηλικίας για την ενότητα και να ελαχιστοποιήσουμε τη δυσαρέσκεια των ανθρώπων από λανθασμένες προσδοκίες. ## 🚀 Πρόκληση Σε αυτή την πρόκληση, θα προσπαθήσουμε να βρούμε έννοιες σχετικές με τον τομέα της Επιστήμης Δεδομένων εξετάζοντας κείμενα. Θα πάρουμε ένα άρθρο της Wikipedia για την Επιστήμη Δεδομένων, θα κατεβάσουμε και θα επεξεργαστούμε το κείμενο, και στη συνέχεια θα δημιουργήσουμε ένα σύννεφο λέξεων όπως αυτό: ![Word Cloud for Data Science](../../../../translated_images/ds_wordcloud.664a7c07dca57de017c22bf0498cb40f898d48aa85b3c36a80620fea12fadd42.el.png) Επισκεφθείτε το [`notebook.ipynb`](../../../../1-Introduction/01-defining-data-science/notebook.ipynb ':ignore') για να διαβάσετε τον κώδικα. Μπορείτε επίσης να εκτελέσετε τον κώδικα και να δείτε πώς πραγματοποιεί όλους τους μετασχηματισμούς δεδομένων σε πραγματικό χρόνο. > Αν δεν γνωρίζετε πώς να εκτελέσετε κώδικα σε ένα Jupyter Notebook, ρίξτε μια ματιά σε [αυτό το άρθρο](https://soshnikov.com/education/how-to-execute-notebooks-from-github/). ## [Κουίζ μετά το μάθημα](https://ff-quizzes.netlify.app/en/ds/quiz/1) ## Εργασίες * **Εργασία 1**: Τροποποιήστε τον παραπάνω κώδικα για να βρείτε σχετικές έννοιες για τους τομείς του **Big Data** και της **Μηχανικής Μάθησης** * **Εργασία 2**: [Σκεφτείτε Σενάρια Επιστήμης Δεδομένων](assignment.md) ## Ευχαριστίες Αυτό το μάθημα έχει δημιουργηθεί με ♥️ από τον [Dmitry Soshnikov](http://soshnikov.com) --- **Αποποίηση Ευθύνης**: Αυτό το έγγραφο έχει μεταφραστεί χρησιμοποιώντας την υπηρεσία αυτόματης μετάφρασης [Co-op Translator](https://github.com/Azure/co-op-translator). Παρόλο που καταβάλλουμε προσπάθειες για ακρίβεια, παρακαλούμε να έχετε υπόψη ότι οι αυτόματες μεταφράσεις ενδέχεται να περιέχουν σφάλματα ή ανακρίβειες. Το πρωτότυπο έγγραφο στη μητρική του γλώσσα θα πρέπει να θεωρείται η αυθεντική πηγή. Για κρίσιμες πληροφορίες, συνιστάται επαγγελματική ανθρώπινη μετάφραση. Δεν φέρουμε ευθύνη για τυχόν παρεξηγήσεις ή εσφαλμένες ερμηνείες που προκύπτουν από τη χρήση αυτής της μετάφρασης.