You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Data-Science-For-Beginners/translations/el/1-Introduction/01-defining-data-science/README.md

21 KiB

Τι είναι τα Δεδομένα;

Στην καθημερινή μας ζωή, είμαστε συνεχώς περιτριγυρισμένοι από δεδομένα. Το κείμενο που διαβάζετε τώρα είναι δεδομένα. Η λίστα με τους αριθμούς τηλεφώνου των φίλων σας στο smartphone σας είναι δεδομένα, όπως και η τρέχουσα ώρα που εμφανίζεται στο ρολόι σας. Ως άνθρωποι, λειτουργούμε φυσικά με δεδομένα, είτε μετρώντας τα χρήματα που έχουμε είτε γράφοντας γράμματα στους φίλους μας.

Ωστόσο, τα δεδομένα έγιναν πολύ πιο σημαντικά με τη δημιουργία των υπολογιστών. Ο κύριος ρόλος των υπολογιστών είναι να εκτελούν υπολογισμούς, αλλά χρειάζονται δεδομένα για να λειτουργήσουν. Έτσι, πρέπει να κατανοήσουμε πώς οι υπολογιστές αποθηκεύουν και επεξεργάζονται δεδομένα.

Με την εμφάνιση του Διαδικτύου, ο ρόλος των υπολογιστών ως συσκευών χειρισμού δεδομένων αυξήθηκε. Αν το σκεφτείτε, χρησιμοποιούμε πλέον τους υπολογιστές όλο και περισσότερο για επεξεργασία και επικοινωνία δεδομένων, παρά για πραγματικούς υπολογισμούς. Όταν γράφουμε ένα e-mail σε έναν φίλο ή αναζητούμε πληροφορίες στο Διαδίκτυο, ουσιαστικά δημιουργούμε, αποθηκεύουμε, μεταδίδουμε και χειριζόμαστε δεδομένα.

Μπορείτε να θυμηθείτε την τελευταία φορά που χρησιμοποιήσατε υπολογιστές για να υπολογίσετε κάτι πραγματικά;

Τι είναι η Επιστήμη Δεδομένων;

Στη Wikipedia, η Επιστήμη Δεδομένων ορίζεται ως ένα επιστημονικό πεδίο που χρησιμοποιεί επιστημονικές μεθόδους για να εξάγει γνώση και πληροφορίες από δομημένα και μη δομημένα δεδομένα, και να εφαρμόζει τη γνώση και τις εφαρμόσιμες πληροφορίες από δεδομένα σε ένα ευρύ φάσμα εφαρμογών.

Αυτός ο ορισμός υπογραμμίζει τα εξής σημαντικά σημεία της επιστήμης δεδομένων:

  • Ο κύριος στόχος της επιστήμης δεδομένων είναι να εξάγει γνώση από δεδομένα, δηλαδή να κατανοήσει τα δεδομένα, να βρει κρυφές σχέσεις και να δημιουργήσει ένα μοντέλο.
  • Η επιστήμη δεδομένων χρησιμοποιεί επιστημονικές μεθόδους, όπως η πιθανότητα και η στατιστική. Στην πραγματικότητα, όταν ο όρος επιστήμη δεδομένων εισήχθη για πρώτη φορά, κάποιοι υποστήριξαν ότι ήταν απλώς ένα νέο εντυπωσιακό όνομα για τη στατιστική. Σήμερα είναι προφανές ότι το πεδίο είναι πολύ ευρύτερο.
  • Η γνώση που αποκτάται πρέπει να εφαρμόζεται για να παράγει εφαρμόσιμες πληροφορίες, δηλαδή πρακτικές πληροφορίες που μπορούν να εφαρμοστούν σε πραγματικές επιχειρηματικές καταστάσεις.
  • Πρέπει να μπορούμε να λειτουργούμε τόσο με δομημένα όσο και με μη δομημένα δεδομένα. Θα επιστρέψουμε για να συζητήσουμε τους διαφορετικούς τύπους δεδομένων αργότερα στο μάθημα.
  • Η περιοχή εφαρμογής είναι μια σημαντική έννοια, και οι επιστήμονες δεδομένων συχνά χρειάζονται τουλάχιστον κάποιο βαθμό εξειδίκευσης στον τομέα του προβλήματος, όπως χρηματοοικονομικά, ιατρική, μάρκετινγκ κ.λπ.

Ένα άλλο σημαντικό στοιχείο της Επιστήμης Δεδομένων είναι ότι μελετά πώς τα δεδομένα μπορούν να συλλέγονται, να αποθηκεύονται και να λειτουργούν μέσω υπολογιστών. Ενώ η στατιστική μας δίνει μαθηματικά θεμέλια, η επιστήμη δεδομένων εφαρμόζει μαθηματικές έννοιες για να αντλήσει πραγματικά πληροφορίες από δεδομένα.

Μία από τις προσεγγίσεις (αποδίδεται στον Jim Gray) για να δούμε την επιστήμη δεδομένων είναι να τη θεωρήσουμε ως ένα ξεχωριστό παράδειγμα επιστήμης:

  • Εμπειρική, όπου βασιζόμαστε κυρίως σε παρατηρήσεις και αποτελέσματα πειραμάτων
  • Θεωρητική, όπου νέες έννοιες προκύπτουν από την υπάρχουσα επιστημονική γνώση
  • Υπολογιστική, όπου ανακαλύπτουμε νέες αρχές βάσει υπολογιστικών πειραμάτων
  • Βασισμένη στα Δεδομένα, όπου ανακαλύπτουμε σχέσεις και μοτίβα στα δεδομένα

Άλλα Σχετικά Πεδία

Επειδή τα δεδομένα είναι πανταχού παρόντα, η επιστήμη δεδομένων είναι επίσης ένα ευρύ πεδίο που αγγίζει πολλές άλλες επιστήμες.

Τύποι Δεδομένων

Όπως έχουμε ήδη αναφέρει, τα δεδομένα είναι παντού. Αρκεί να τα καταγράψουμε με τον σωστό τρόπο! Είναι χρήσιμο να διακρίνουμε μεταξύ δομημένων και μη δομημένων δεδομένων. Τα πρώτα συνήθως παρουσιάζονται σε κάποια καλά δομημένη μορφή, συχνά ως πίνακας ή αριθμός πινάκων, ενώ τα δεύτερα είναι απλώς μια συλλογή αρχείων. Μερικές φορές μπορούμε επίσης να μιλήσουμε για ημι-δομημένα δεδομένα, που έχουν κάποιο είδος δομής που μπορεί να διαφέρει σημαντικά.

Δομημένα Ημι-δομημένα Μη δομημένα
Λίστα ανθρώπων με τους αριθμούς τηλεφώνου τους Σελίδες Wikipedia με συνδέσμους Κείμενο της Εγκυκλοπαίδειας Britannica
Θερμοκρασία σε όλα τα δωμάτια ενός κτιρίου κάθε λεπτό για τα τελευταία 20 χρόνια Συλλογή επιστημονικών άρθρων σε μορφή JSON με συγγραφείς, ημερομηνία δημοσίευσης και περίληψη Κοινόχρηστα αρχεία με εταιρικά έγγραφα
Δεδομένα για ηλικία και φύλο όλων των ανθρώπων που εισέρχονται στο κτίριο Σελίδες Διαδικτύου Ακατέργαστο βίντεο από κάμερα παρακολούθησης

Πού να βρείτε Δεδομένα

Υπάρχουν πολλές πιθανές πηγές δεδομένων, και θα ήταν αδύνατο να τις απαριθμήσουμε όλες! Ωστόσο, ας αναφέρουμε μερικά από τα τυπικά μέρη όπου μπορείτε να βρείτε δεδομένα:

  • Δομημένα
    • Internet of Things (IoT), συμπεριλαμβανομένων δεδομένων από διάφορους αισθητήρες, όπως αισθητήρες θερμοκρασίας ή πίεσης, παρέχει πολλά χρήσιμα δεδομένα. Για παράδειγμα, αν ένα κτίριο γραφείων είναι εξοπλισμένο με αισθητήρες IoT, μπορούμε να ελέγξουμε αυτόματα τη θέρμανση και τον φωτισμό για να ελαχιστοποιήσουμε το κόστος.
    • Έρευνες που ζητάμε από τους χρήστες να συμπληρώσουν μετά από μια αγορά ή μετά από επίσκεψη σε έναν ιστότοπο.
    • Ανάλυση συμπεριφοράς μπορεί, για παράδειγμα, να μας βοηθήσει να κατανοήσουμε πόσο βαθιά ένας χρήστης εξερευνά έναν ιστότοπο και ποιος είναι ο τυπικός λόγος για την αποχώρησή του.
  • Μη δομημένα
    • Κείμενα μπορούν να αποτελέσουν πλούσια πηγή πληροφοριών, όπως συνολική βαθμολογία συναισθήματος ή εξαγωγή λέξεων-κλειδιών και σημασιολογικού νοήματος.
    • Εικόνες ή Βίντεο. Ένα βίντεο από μια κάμερα παρακολούθησης μπορεί να χρησιμοποιηθεί για να εκτιμήσει την κυκλοφορία στον δρόμο και να ενημερώσει τους ανθρώπους για πιθανές κυκλοφοριακές συμφόρησεις.
    • Αρχεία καταγραφής από διακομιστές ιστού μπορούν να χρησιμοποιηθούν για να κατανοήσουμε ποιες σελίδες του ιστότοπού μας επισκέπτονται πιο συχνά και για πόσο χρόνο.
  • Ημι-δομημένα
    • Γραφήματα κοινωνικών δικτύων μπορούν να αποτελέσουν εξαιρετικές πηγές δεδομένων για τις προσωπικότητες των χρηστών και την πιθανή αποτελεσματικότητα στη διάδοση πληροφοριών.
    • Όταν έχουμε μια συλλογή φωτογραφιών από ένα πάρτι, μπορούμε να προσπαθήσουμε να εξαγάγουμε δεδομένα ομαδικής δυναμικής δημιουργώντας ένα γράφημα ανθρώπων που βγάζουν φωτογραφίες μαζί.

Γνωρίζοντας τις διάφορες πιθανές πηγές δεδομένων, μπορείτε να σκεφτείτε διαφορετικά σενάρια όπου οι τεχνικές επιστήμης δεδομένων μπορούν να εφαρμοστούν για να κατανοήσετε καλύτερα την κατάσταση και να βελτιώσετε τις επιχειρηματικές διαδικασίες.

Τι μπορείτε να κάνετε με τα Δεδομένα

Στην Επιστήμη Δεδομένων, εστιάζουμε στα εξής βήματα της πορείας των δεδομένων:

Φυσικά, ανάλογα με τα δεδομένα, κάποια βήματα μπορεί να λείπουν (π.χ., όταν έχουμε ήδη τα δεδομένα στη βάση δεδομένων ή όταν δεν χρειάζεται εκπαίδευση μοντέλου), ή κάποια βήματα μπορεί να επαναληφθούν αρκετές φορές (όπως η επεξεργασία δεδομένων).

Ψηφιοποίηση και Ψηφιακός Μετασχηματισμός

Την τελευταία δεκαετία, πολλές επιχειρήσεις άρχισαν να κατανοούν τη σημασία των δεδομένων στη λήψη επιχειρηματικών αποφάσεων. Για να εφαρμόσει κανείς τις αρχές της επιστήμης δεδομένων στη λειτουργία μιας επιχείρησης, πρέπει πρώτα να συλλέξει κάποια δεδομένα, δηλαδή να μετατρέψει τις επιχειρηματικές διαδικασίες σε ψηφιακή μορφή. Αυτό είναι γνωστό ως ψηφιοποίηση. Η εφαρμογή τεχνικών επιστήμης δεδομένων σε αυτά τα δεδομένα για τη λήψη αποφάσεων μπορεί να οδηγήσει σε σημαντικές αυξήσεις παραγωγικότητας (ή ακόμα και σε αλλαγή κατεύθυνσης της επιχείρησης), που ονομάζεται ψηφιακός μετασχηματισμός.

Ας εξετάσουμε ένα παράδειγμα. Ας υποθέσουμε ότι έχουμε ένα μάθημα επιστήμης δεδομένων (όπως αυτό) που παραδίδουμε διαδικτυακά στους φοιτητές και θέλουμε να χρησιμοποιήσουμε την επιστήμη δεδομένων για να το βελτιώσουμε. Πώς μπορούμε να το κάνουμε;

Μπορούμε να ξεκινήσουμε ρωτώντας "Τι μπορεί να ψηφιοποιηθεί;" Ο απλούστερος τρόπος θα ήταν να μετρήσουμε τον χρόνο που χρειάζεται κάθε φοιτητής για να ολοκληρώσει κάθε ενότητα και να μετρήσουμε τη γνώση που αποκτήθηκε δίνοντας ένα τεστ πολλαπλών επιλογών στο τέλος κάθε ενότητας. Με τον μέσο όρο του χρόνου ολοκλήρωσης όλων των φοιτητών, μπορούμε να εντοπίσουμε ποιες ενότητες προκαλούν τις μεγαλύτερες δυσκολίες στους φοιτητές και να εργαστούμε για την απλοποίησή τους. Μπορείτε να υποστηρίξετε ότι αυτή η προσέγγιση δεν είναι ιδανική, επειδή τα modules μπορεί να έχουν διαφορετικά μήκη. Ίσως είναι πιο δίκαιο να διαιρέσετε τον χρόνο με το μήκος του module (σε αριθμό χαρακτήρων) και να συγκρίνετε αυτές τις τιμές αντί για αυτό. Όταν ξεκινάμε να αναλύουμε τα αποτελέσματα από τεστ πολλαπλών επιλογών, μπορούμε να προσπαθήσουμε να προσδιορίσουμε ποιες έννοιες δυσκολεύονται να κατανοήσουν οι μαθητές και να χρησιμοποιήσουμε αυτές τις πληροφορίες για να βελτιώσουμε το περιεχόμενο. Για να το πετύχουμε αυτό, πρέπει να σχεδιάσουμε τα τεστ με τέτοιο τρόπο ώστε κάθε ερώτηση να αντιστοιχεί σε μια συγκεκριμένη έννοια ή κομμάτι γνώσης.

Αν θέλουμε να γίνουμε ακόμα πιο περίπλοκοι, μπορούμε να σχεδιάσουμε τον χρόνο που απαιτείται για κάθε ενότητα σε σχέση με την ηλικιακή κατηγορία των μαθητών. Ίσως ανακαλύψουμε ότι για ορισμένες ηλικιακές κατηγορίες απαιτείται υπερβολικά πολύς χρόνος για την ολοκλήρωση της ενότητας ή ότι οι μαθητές εγκαταλείπουν πριν την ολοκληρώσουν. Αυτό μπορεί να μας βοηθήσει να παρέχουμε συστάσεις ηλικίας για την ενότητα και να ελαχιστοποιήσουμε τη δυσαρέσκεια των ανθρώπων από λανθασμένες προσδοκίες.

🚀 Πρόκληση

Σε αυτή την πρόκληση, θα προσπαθήσουμε να βρούμε έννοιες που σχετίζονται με τον τομέα της Επιστήμης Δεδομένων εξετάζοντας κείμενα. Θα πάρουμε ένα άρθρο της Wikipedia για την Επιστήμη Δεδομένων, θα κατεβάσουμε και θα επεξεργαστούμε το κείμενο, και στη συνέχεια θα δημιουργήσουμε ένα σύννεφο λέξεων όπως αυτό:

Σύννεφο Λέξεων για την Επιστήμη Δεδομένων

Επισκεφθείτε το notebook.ipynb για να διαβάσετε τον κώδικα. Μπορείτε επίσης να εκτελέσετε τον κώδικα και να δείτε πώς πραγματοποιεί όλες τις μετατροπές δεδομένων σε πραγματικό χρόνο.

Αν δεν γνωρίζετε πώς να εκτελέσετε κώδικα σε ένα Jupyter Notebook, ρίξτε μια ματιά σε αυτό το άρθρο.

Κουίζ μετά το μάθημα

Εργασίες

Πιστώσεις

Αυτό το μάθημα έχει δημιουργηθεί με ♥️ από τον Dmitry Soshnikov


Αποποίηση ευθύνης:
Αυτό το έγγραφο έχει μεταφραστεί χρησιμοποιώντας την υπηρεσία αυτόματης μετάφρασης Co-op Translator. Παρόλο που καταβάλλουμε προσπάθειες για ακρίβεια, παρακαλούμε να έχετε υπόψη ότι οι αυτοματοποιημένες μεταφράσεις ενδέχεται να περιέχουν λάθη ή ανακρίβειες. Το πρωτότυπο έγγραφο στη μητρική του γλώσσα θα πρέπει να θεωρείται η αυθεντική πηγή. Για κρίσιμες πληροφορίες, συνιστάται επαγγελματική ανθρώπινη μετάφραση. Δεν φέρουμε ευθύνη για τυχόν παρεξηγήσεις ή εσφαλμένες ερμηνείες που προκύπτουν από τη χρήση αυτής της μετάφρασης.