6.1 KiB
Εκπαίδευση Mountain Car
OpenAI Gym έχει σχεδιαστεί με τέτοιο τρόπο ώστε όλα τα περιβάλλοντα να παρέχουν το ίδιο API - δηλαδή τις ίδιες μεθόδους reset
, step
και render
, και τις ίδιες αφαιρέσεις του χώρου δράσεων και του χώρου παρατηρήσεων. Έτσι, θα πρέπει να είναι δυνατό να προσαρμοστούν οι ίδιοι αλγόριθμοι ενισχυτικής μάθησης σε διαφορετικά περιβάλλοντα με ελάχιστες αλλαγές στον κώδικα.
Περιβάλλον Mountain Car
Το περιβάλλον Mountain Car περιλαμβάνει ένα αυτοκίνητο που έχει κολλήσει σε μια κοιλάδα:
Ο στόχος είναι να βγει από την κοιλάδα και να πιάσει τη σημαία, κάνοντας σε κάθε βήμα μία από τις παρακάτω ενέργειες:
Τιμή | Σημασία |
---|---|
0 | Επιτάχυνση προς τα αριστερά |
1 | Χωρίς επιτάχυνση |
2 | Επιτάχυνση προς τα δεξιά |
Το κύριο κόλπο αυτού του προβλήματος είναι, ωστόσο, ότι η μηχανή του αυτοκινήτου δεν είναι αρκετά ισχυρή για να ανέβει το βουνό με μία μόνο προσπάθεια. Επομένως, ο μόνος τρόπος για να πετύχει είναι να κινείται μπρος-πίσω για να αποκτήσει ορμή.
Ο χώρος παρατηρήσεων αποτελείται μόνο από δύο τιμές:
Αριθμός | Παρατήρηση | Ελάχιστο | Μέγιστο |
---|---|---|---|
0 | Θέση Αυτοκινήτου | -1.2 | 0.6 |
1 | Ταχύτητα Αυτοκινήτου | -0.07 | 0.07 |
Το σύστημα ανταμοιβής για το Mountain Car είναι αρκετά περίπλοκο:
- Ανταμοιβή 0 δίνεται αν ο πράκτορας φτάσει τη σημαία (θέση = 0.5) στην κορυφή του βουνού.
- Ανταμοιβή -1 δίνεται αν η θέση του πράκτορα είναι μικρότερη από 0.5.
Το επεισόδιο τερματίζεται αν η θέση του αυτοκινήτου είναι μεγαλύτερη από 0.5 ή αν το μήκος του επεισοδίου υπερβαίνει τα 200 βήματα.
Οδηγίες
Προσαρμόστε τον αλγόριθμο ενισχυτικής μάθησης μας για να λύσετε το πρόβλημα του Mountain Car. Ξεκινήστε με τον υπάρχοντα κώδικα στο notebook.ipynb, αντικαταστήστε το νέο περιβάλλον, αλλάξτε τις συναρτήσεις διακριτοποίησης κατάστασης και προσπαθήστε να κάνετε τον υπάρχοντα αλγόριθμο να εκπαιδευτεί με ελάχιστες τροποποιήσεις στον κώδικα. Βελτιστοποιήστε το αποτέλεσμα προσαρμόζοντας τις υπερπαραμέτρους.
Σημείωση: Η προσαρμογή των υπερπαραμέτρων πιθανότατα θα χρειαστεί για να συγκλίνει ο αλγόριθμος.
Κριτήρια Αξιολόγησης
Κριτήριο | Εξαιρετικό | Επαρκές | Χρειάζεται Βελτίωση |
---|---|---|---|
Ο αλγόριθμος Q-Learning έχει προσαρμοστεί επιτυχώς από το παράδειγμα του CartPole, με ελάχιστες τροποποιήσεις στον κώδικα, και είναι σε θέση να λύσει το πρόβλημα της κατάκτησης της σημαίας σε λιγότερα από 200 βήματα. | Ένας νέος αλγόριθμος Q-Learning έχει υιοθετηθεί από το Διαδίκτυο, αλλά είναι καλά τεκμηριωμένος· ή ο υπάρχων αλγόριθμος έχει υιοθετηθεί, αλλά δεν φτάνει στα επιθυμητά αποτελέσματα. | Ο μαθητής δεν κατάφερε να υιοθετήσει επιτυχώς κανέναν αλγόριθμο, αλλά έχει κάνει σημαντικά βήματα προς τη λύση (υλοποίησε διακριτοποίηση κατάστασης, δομή δεδομένων Q-Table, κ.λπ.) |
Αποποίηση ευθύνης:
Αυτό το έγγραφο έχει μεταφραστεί χρησιμοποιώντας την υπηρεσία αυτόματης μετάφρασης Co-op Translator. Παρόλο που καταβάλλουμε προσπάθειες για ακρίβεια, παρακαλούμε να έχετε υπόψη ότι οι αυτοματοποιημένες μεταφράσεις ενδέχεται να περιέχουν σφάλματα ή ανακρίβειες. Το πρωτότυπο έγγραφο στη μητρική του γλώσσα θα πρέπει να θεωρείται η αυθεντική πηγή. Για κρίσιμες πληροφορίες, συνιστάται επαγγελματική ανθρώπινη μετάφραση. Δεν φέρουμε ευθύνη για τυχόν παρεξηγήσεις ή εσφαλμένες ερμηνείες που προκύπτουν από τη χρήση αυτής της μετάφρασης.