You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/el/7-TimeSeries/1-Introduction/README.md

21 KiB

Εισαγωγή στην πρόβλεψη χρονοσειρών

Περίληψη χρονοσειρών σε σκίτσο

Σκίτσο από την Tomomi Imura

Σε αυτό το μάθημα και το επόμενο, θα μάθετε λίγα πράγματα για την πρόβλεψη χρονοσειρών, ένα ενδιαφέρον και πολύτιμο μέρος του ρεπερτορίου ενός επιστήμονα ML που είναι λιγότερο γνωστό από άλλα θέματα. Η πρόβλεψη χρονοσειρών είναι σαν μια «κρυστάλλινη σφαίρα»: βασισμένη στην προηγούμενη απόδοση μιας μεταβλητής, όπως η τιμή, μπορείτε να προβλέψετε την πιθανή μελλοντική της αξία.

Εισαγωγή στην πρόβλεψη χρονοσειρών

🎥 Κάντε κλικ στην εικόνα παραπάνω για ένα βίντεο σχετικά με την πρόβλεψη χρονοσειρών

Προ-μάθημα κουίζ

Είναι ένα χρήσιμο και ενδιαφέρον πεδίο με πραγματική αξία για τις επιχειρήσεις, δεδομένης της άμεσης εφαρμογής του σε προβλήματα τιμολόγησης, αποθεμάτων και ζητημάτων εφοδιαστικής αλυσίδας. Ενώ οι τεχνικές βαθιάς μάθησης έχουν αρχίσει να χρησιμοποιούνται για την απόκτηση περισσότερων πληροφοριών για την καλύτερη πρόβλεψη της μελλοντικής απόδοσης, η πρόβλεψη χρονοσειρών παραμένει ένα πεδίο που ενημερώνεται σε μεγάλο βαθμό από κλασικές τεχνικές ML.

Το χρήσιμο πρόγραμμα σπουδών για χρονοσειρές του Penn State μπορείτε να το βρείτε εδώ

Εισαγωγή

Ας υποθέσουμε ότι διαχειρίζεστε μια σειρά από έξυπνα παρκόμετρα που παρέχουν δεδομένα σχετικά με το πόσο συχνά χρησιμοποιούνται και για πόσο χρόνο με την πάροδο του χρόνου.

Τι θα γινόταν αν μπορούσατε να προβλέψετε, βάσει της προηγούμενης απόδοσης του μετρητή, την μελλοντική του αξία σύμφωνα με τους νόμους της προσφοράς και της ζήτησης;

Η ακριβής πρόβλεψη του πότε να δράσετε για να επιτύχετε τον στόχο σας είναι μια πρόκληση που θα μπορούσε να αντιμετωπιστεί με την πρόβλεψη χρονοσειρών. Δεν θα έκανε τους ανθρώπους χαρούμενους να χρεώνονται περισσότερο σε ώρες αιχμής όταν ψάχνουν για θέση στάθμευσης, αλλά θα ήταν ένας σίγουρος τρόπος για να δημιουργήσετε έσοδα για τον καθαρισμό των δρόμων!

Ας εξερευνήσουμε μερικούς από τους τύπους αλγορίθμων χρονοσειρών και ας ξεκινήσουμε ένα notebook για να καθαρίσουμε και να προετοιμάσουμε κάποια δεδομένα. Τα δεδομένα που θα αναλύσετε προέρχονται από τον διαγωνισμό πρόβλεψης GEFCom2014. Αποτελούνται από 3 χρόνια ωριαίων τιμών ηλεκτρικού φορτίου και θερμοκρασίας μεταξύ 2012 και 2014. Δεδομένων των ιστορικών μοτίβων του ηλεκτρικού φορτίου και της θερμοκρασίας, μπορείτε να προβλέψετε μελλοντικές τιμές του ηλεκτρικού φορτίου.

Σε αυτό το παράδειγμα, θα μάθετε πώς να προβλέπετε ένα βήμα μπροστά, χρησιμοποιώντας μόνο ιστορικά δεδομένα φορτίου. Πριν ξεκινήσετε, ωστόσο, είναι χρήσιμο να κατανοήσετε τι συμβαίνει πίσω από τις σκηνές.

Κάποιες ορισμοί

Όταν συναντάτε τον όρο «χρονοσειρές», πρέπει να κατανοήσετε τη χρήση του σε διάφορα πλαίσια.

🎓 Χρονοσειρές

Στα μαθηματικά, «μια χρονοσειρά είναι μια σειρά σημείων δεδομένων που κατατάσσονται (ή καταγράφονται ή σχεδιάζονται) με χρονολογική σειρά. Πιο συχνά, μια χρονοσειρά είναι μια ακολουθία που λαμβάνεται σε διαδοχικά, εξίσου απομακρυσμένα σημεία στον χρόνο.» Ένα παράδειγμα χρονοσειράς είναι η ημερήσια τιμή κλεισίματος του Dow Jones Industrial Average. Η χρήση γραφημάτων χρονοσειρών και στατιστικής μοντελοποίησης συναντάται συχνά στην επεξεργασία σήματος, την πρόβλεψη καιρού, την πρόβλεψη σεισμών και άλλους τομείς όπου συμβαίνουν γεγονότα και τα σημεία δεδομένων μπορούν να σχεδιαστούν με την πάροδο του χρόνου.

🎓 Ανάλυση χρονοσειρών

Η ανάλυση χρονοσειρών είναι η ανάλυση των προαναφερθέντων δεδομένων χρονοσειρών. Τα δεδομένα χρονοσειρών μπορούν να πάρουν διαφορετικές μορφές, συμπεριλαμβανομένων των «διακοπτόμενων χρονοσειρών» που ανιχνεύουν μοτίβα στην εξέλιξη μιας χρονοσειράς πριν και μετά από ένα διακοπτικό γεγονός. Ο τύπος ανάλυσης που απαιτείται για τις χρονοσειρές εξαρτάται από τη φύση των δεδομένων. Τα δεδομένα χρονοσειρών μπορούν να πάρουν τη μορφή σειρών αριθμών ή χαρακτήρων.

Η ανάλυση που θα πραγματοποιηθεί χρησιμοποιεί μια ποικιλία μεθόδων, συμπεριλαμβανομένων των μεθόδων συχνότητας και χρόνου, γραμμικών και μη γραμμικών, και άλλων. Μάθετε περισσότερα για τους πολλούς τρόπους ανάλυσης αυτού του τύπου δεδομένων.

🎓 Πρόβλεψη χρονοσειρών

Η πρόβλεψη χρονοσειρών είναι η χρήση ενός μοντέλου για την πρόβλεψη μελλοντικών τιμών βάσει μοτίβων που εμφανίζονται από δεδομένα που έχουν συλλεχθεί στο παρελθόν. Ενώ είναι δυνατό να χρησιμοποιηθούν μοντέλα παλινδρόμησης για την εξερεύνηση δεδομένων χρονοσειρών, με δείκτες χρόνου ως μεταβλητές x σε ένα γράφημα, τέτοια δεδομένα αναλύονται καλύτερα χρησιμοποιώντας ειδικούς τύπους μοντέλων.

Τα δεδομένα χρονοσειρών είναι μια λίστα διατεταγμένων παρατηρήσεων, σε αντίθεση με δεδομένα που μπορούν να αναλυθούν με γραμμική παλινδρόμηση. Το πιο κοινό μοντέλο είναι το ARIMA, ένα ακρωνύμιο που σημαίνει «Αυτοπαλινδρόμηση Ενσωματωμένη Κινούμενη Μέση».

Τα μοντέλα ARIMA «συσχετίζουν την τρέχουσα τιμή μιας σειράς με προηγούμενες τιμές και προηγούμενα σφάλματα πρόβλεψης.» Είναι πιο κατάλληλα για την ανάλυση δεδομένων χρονοσειρών, όπου τα δεδομένα είναι διατεταγμένα με την πάροδο του χρόνου.

Υπάρχουν διάφοροι τύποι μοντέλων ARIMA, για τους οποίους μπορείτε να μάθετε περισσότερα εδώ και θα τα εξετάσετε στο επόμενο μάθημα.

Στο επόμενο μάθημα, θα δημιουργήσετε ένα μοντέλο ARIMA χρησιμοποιώντας Μονομεταβλητές Χρονοσειρές, που εστιάζουν σε μία μεταβλητή που αλλάζει την τιμή της με την πάροδο του χρόνου. Ένα παράδειγμα αυτού του τύπου δεδομένων είναι αυτό το σύνολο δεδομένων που καταγράφει τη μηνιαία συγκέντρωση CO2 στο Παρατηρητήριο Mauna Loa:

CO2 YearMonth Year Month
330.62 1975.04 1975 1
331.40 1975.13 1975 2
331.87 1975.21 1975 3
333.18 1975.29 1975 4
333.92 1975.38 1975 5
333.43 1975.46 1975 6
331.85 1975.54 1975 7
330.01 1975.63 1975 8
328.51 1975.71 1975 9
328.41 1975.79 1975 10
329.25 1975.88 1975 11
330.97 1975.96 1975 12

Εντοπίστε τη μεταβλητή που αλλάζει με την πάροδο του χρόνου σε αυτό το σύνολο δεδομένων.

Χαρακτηριστικά δεδομένων χρονοσειρών που πρέπει να λάβετε υπόψη

Όταν εξετάζετε δεδομένα χρονοσειρών, μπορεί να παρατηρήσετε ότι έχουν ορισμένα χαρακτηριστικά που πρέπει να λάβετε υπόψη και να μετριάσετε για να κατανοήσετε καλύτερα τα μοτίβα τους. Εάν θεωρήσετε τα δεδομένα χρονοσειρών ως πιθανώς παρέχοντα ένα «σήμα» που θέλετε να αναλύσετε, αυτά τα χαρακτηριστικά μπορούν να θεωρηθούν ως «θόρυβος». Συχνά θα χρειαστεί να μειώσετε αυτόν τον «θόρυβο» αντισταθμίζοντας ορισμένα από αυτά τα χαρακτηριστικά χρησιμοποιώντας κάποιες στατιστικές τεχνικές.

Ακολουθούν ορισμένες έννοιες που πρέπει να γνωρίζετε για να μπορέσετε να εργαστείτε με χρονοσειρές:

🎓 Τάσεις

Οι τάσεις ορίζονται ως μετρήσιμες αυξήσεις και μειώσεις με την πάροδο του χρόνου. Διαβάστε περισσότερα. Στο πλαίσιο των χρονοσειρών, αφορά το πώς να χρησιμοποιήσετε και, αν χρειαστεί, να αφαιρέσετε τάσεις από τις χρονοσειρές σας.

🎓 Εποχικότητα

Η εποχικότητα ορίζεται ως περιοδικές διακυμάνσεις, όπως οι εορταστικές περιόδους που μπορεί να επηρεάσουν τις πωλήσεις, για παράδειγμα. Δείτε πώς διαφορετικοί τύποι γραφημάτων εμφανίζουν την εποχικότητα στα δεδομένα.

🎓 Ακραίες τιμές

Οι ακραίες τιμές είναι μακριά από τη συνήθη διακύμανση των δεδομένων.

🎓 Μακροχρόνιος κύκλος

Ανεξάρτητα από την εποχικότητα, τα δεδομένα μπορεί να εμφανίζουν έναν μακροχρόνιο κύκλο, όπως μια οικονομική ύφεση που διαρκεί περισσότερο από ένα χρόνο.

🎓 Σταθερή διακύμανση

Με την πάροδο του χρόνου, ορισμένα δεδομένα εμφανίζουν σταθερές διακυμάνσεις, όπως η χρήση ενέργειας ανά ημέρα και νύχτα.

🎓 Απότομες αλλαγές

Τα δεδομένα μπορεί να εμφανίζουν μια απότομη αλλαγή που μπορεί να χρειάζεται περαιτέρω ανάλυση. Το απότομο κλείσιμο επιχειρήσεων λόγω COVID, για παράδειγμα, προκάλεσε αλλαγές στα δεδομένα.

Εδώ είναι ένα δείγμα γραφήματος χρονοσειρών που δείχνει την ημερήσια δαπάνη εντός παιχνιδιού για μερικά χρόνια. Μπορείτε να εντοπίσετε κάποια από τα χαρακτηριστικά που αναφέρονται παραπάνω σε αυτά τα δεδομένα;

Δαπάνη εντός παιχνιδιού

Άσκηση - ξεκινώντας με δεδομένα χρήσης ενέργειας

Ας ξεκινήσουμε δημιουργώντας ένα μοντέλο χρονοσειρών για την πρόβλεψη της μελλοντικής χρήσης ενέργειας δεδομένης της προηγούμενης χρήσης.

Τα δεδομένα σε αυτό το παράδειγμα προέρχονται από τον διαγωνισμό πρόβλεψης GEFCom2014. Αποτελούνται από 3 χρόνια ωριαίων τιμών ηλεκτρικού φορτίου και θερμοκρασίας μεταξύ 2012 και 2014.

Tao Hong, Pierre Pinson, Shu Fan, Hamidreza Zareipour, Alberto Troccoli και Rob J. Hyndman, "Πιθανολογική πρόβλεψη ενέργειας: Παγκόσμιος Διαγωνισμός Πρόβλεψης Ενέργειας 2014 και πέρα", International Journal of Forecasting, vol.32, no.3, pp 896-913, Ιούλιος-Σεπτέμβριος, 2016.

  1. Στον φάκελο working αυτού του μαθήματος, ανοίξτε το αρχείο notebook.ipynb. Ξεκινήστε προσθέτοντας βιβλιοθήκες που θα σας βοηθήσουν να φορτώσετε και να οπτικοποιήσετε δεδομένα.

    import os
    import matplotlib.pyplot as plt
    from common.utils import load_data
    %matplotlib inline
    

    Σημειώστε ότι χρησιμοποιείτε τα αρχεία από τον περιλαμβανόμενο φάκελο common, ο οποίος ρυθμίζει το περιβάλλον σας και χειρίζεται τη λήψη των δεδομένων.

  2. Στη συνέχεια, εξετάστε τα δεδομένα ως dataframe καλώντας load_data() και head():

    data_dir = './data'
    energy = load_data(data_dir)[['load']]
    energy.head()
    

    Μπορείτε να δείτε ότι υπάρχουν δύο στήλες που αντιπροσωπεύουν την ημερομηνία και το φορτίο:

    load
    2012-01-01 00:00:00 2698.0
    2012-01-01 01:00:00 2558.0
    2012-01-01 02:00:00 2444.0
    2012-01-01 03:00:00 2402.0
    2012-01-01 04:00:00 2403.0
  3. Τώρα, σχεδιάστε τα δεδομένα καλώντας plot():

    energy.plot(y='load', subplots=True, figsize=(15, 8), fontsize=12)
    plt.xlabel('timestamp', fontsize=12)
    plt.ylabel('load', fontsize=12)
    plt.show()
    

    γράφημα ενέργειας

  4. Τώρα, σχεδιάστε την πρώτη εβδομάδα του Ιουλίου 2014, παρέχοντάς την ως είσοδο στο energy με το μοτίβο [από ημερομηνία]: [έως ημερομηνία]:

    energy['2014-07-01':'2014-07-07'].plot(y='load', subplots=True, figsize=(15, 8), fontsize=12)
    plt.xlabel('timestamp', fontsize=12)
    plt.ylabel('load', fontsize=12)
    plt.show()
    

    Ιούλιος

    Ένα όμορφο γράφημα! Ρίξτε μια ματιά σε αυτά τα γραφήματα και δείτε αν μπορείτε να προσδιορίσετε κάποια από τα χαρακτηριστικά που αναφέρονται παραπάνω. Τι μπορούμε να συμπεράνουμε οπτικοποιώντας τα δεδομένα;

Στο επόμενο μάθημα, θα δημιουργήσετε ένα μοντέλο ARIMA για να κάνετε κάποιες προβλέψεις.


🚀Πρόκληση

Φτιάξτε μια λίστα με όλες τις βιομηχανίες και τους τομείς έρευνας που μπορείτε να σκεφτείτε ότι θα επωφελούνταν από την πρόβλεψη χρονοσειρών. Μπορείτε να σκεφτείτε μια εφαρμογή αυτών των τεχνικών στις τέχνες; Στην Οικονομετρία; Στην Οικολογία; Στο Λιανικό Εμπόριο; Στη Βιομηχανία; Στα Οικονομικά; Πού αλλού;

Μετά το μάθημα κουίζ

Ανασκόπηση & Αυτομελέτη

Αν και δεν


Αποποίηση ευθύνης:
Αυτό το έγγραφο έχει μεταφραστεί χρησιμοποιώντας την υπηρεσία αυτόματης μετάφρασης Co-op Translator. Παρόλο που καταβάλλουμε προσπάθειες για ακρίβεια, παρακαλούμε να έχετε υπόψη ότι οι αυτοματοποιημένες μεταφράσεις ενδέχεται να περιέχουν λάθη ή ανακρίβειες. Το πρωτότυπο έγγραφο στη μητρική του γλώσσα θα πρέπει να θεωρείται η αυθεντική πηγή. Για κρίσιμες πληροφορίες, συνιστάται επαγγελματική ανθρώπινη μετάφραση. Δεν φέρουμε ευθύνη για τυχόν παρεξηγήσεις ή εσφαλμένες ερμηνείες που προκύπτουν από τη χρήση αυτής της μετάφρασης.