|
2 weeks ago | |
---|---|---|
.. | ||
1-QLearning | 2 weeks ago | |
2-Gym | 2 weeks ago | |
README.md | 3 weeks ago |
README.md
Wprowadzenie do uczenia ze wzmocnieniem
Uczenie ze wzmocnieniem (RL) jest postrzegane jako jeden z podstawowych paradygmatów uczenia maszynowego, obok uczenia nadzorowanego i nienadzorowanego. RL dotyczy podejmowania decyzji: dostarczania właściwych decyzji lub przynajmniej uczenia się na ich podstawie.
Wyobraź sobie, że masz symulowane środowisko, takie jak rynek akcji. Co się stanie, jeśli wprowadzisz określone regulacje? Czy będzie to miało pozytywny czy negatywny efekt? Jeśli wydarzy się coś negatywnego, musisz przyjąć tę negatywną informację zwrotną, nauczyć się z niej i zmienić kierunek działania. Jeśli wynik jest pozytywny, musisz budować na tej pozytywnej informacji zwrotnej.
Piotruś i jego przyjaciele muszą uciec przed głodnym wilkiem! Obraz autorstwa Jen Looper
Temat regionalny: Piotruś i wilk (Rosja)
Piotruś i wilk to muzyczna bajka napisana przez rosyjskiego kompozytora Siergieja Prokofiewa. Opowiada historię młodego pioniera Piotrusia, który odważnie wychodzi z domu na polanę w lesie, aby ścigać wilka. W tej sekcji będziemy trenować algorytmy uczenia maszynowego, które pomogą Piotrusiowi:
- Eksplorować otaczający teren i stworzyć optymalną mapę nawigacyjną.
- Nauczyć się korzystać z deskorolki i utrzymywać równowagę, aby poruszać się szybciej.
🎥 Kliknij obrazek powyżej, aby posłuchać "Piotruś i wilk" autorstwa Prokofiewa
Uczenie ze wzmocnieniem
W poprzednich sekcjach widziałeś dwa przykłady problemów uczenia maszynowego:
- Nadzorowane, gdzie mamy zbiory danych sugerujące przykładowe rozwiązania problemu, który chcemy rozwiązać. Klasyfikacja i regresja to zadania uczenia nadzorowanego.
- Nienadzorowane, w którym nie mamy oznaczonych danych treningowych. Głównym przykładem uczenia nienadzorowanego jest Grupowanie.
W tej sekcji wprowadzimy nowy typ problemu uczenia, który nie wymaga oznaczonych danych treningowych. Istnieje kilka rodzajów takich problemów:
- Uczenie półnadzorowane, gdzie mamy dużo nieoznaczonych danych, które można wykorzystać do wstępnego trenowania modelu.
- Uczenie ze wzmocnieniem, w którym agent uczy się, jak się zachowywać, wykonując eksperymenty w symulowanym środowisku.
Przykład - gra komputerowa
Załóżmy, że chcesz nauczyć komputer grać w grę, na przykład w szachy lub Super Mario. Aby komputer mógł grać w grę, musimy nauczyć go przewidywać, jaki ruch wykonać w każdym stanie gry. Choć może się to wydawać problemem klasyfikacji, tak nie jest - ponieważ nie mamy zbioru danych ze stanami i odpowiadającymi im akcjami. Chociaż możemy mieć dane, takie jak istniejące partie szachowe lub nagrania graczy grających w Super Mario, prawdopodobnie te dane nie będą wystarczająco obejmować dużej liczby możliwych stanów.
Zamiast szukać istniejących danych o grze, Uczenie ze wzmocnieniem (RL) opiera się na idei sprawienia, by komputer grał wiele razy i obserwował wynik. Aby zastosować uczenie ze wzmocnieniem, potrzebujemy dwóch rzeczy:
-
Środowiska i symulatora, które pozwolą nam grać w grę wiele razy. Ten symulator definiuje wszystkie zasady gry, a także możliwe stany i akcje.
-
Funkcji nagrody, która powie nam, jak dobrze radziliśmy sobie podczas każdego ruchu lub gry.
Główna różnica między innymi typami uczenia maszynowego a RL polega na tym, że w RL zazwyczaj nie wiemy, czy wygrywamy, czy przegrywamy, dopóki nie zakończymy gry. Dlatego nie możemy powiedzieć, czy dany ruch sam w sobie jest dobry czy nie - otrzymujemy nagrodę dopiero na końcu gry. Naszym celem jest zaprojektowanie algorytmów, które pozwolą nam trenować model w warunkach niepewności. Poznamy jeden algorytm RL zwany Q-learning.
Lekcje
Podziękowania
"Wprowadzenie do uczenia ze wzmocnieniem" zostało napisane z ♥️ przez Dmitry Soshnikov
Zastrzeżenie:
Ten dokument został przetłumaczony za pomocą usługi tłumaczeniowej AI Co-op Translator. Chociaż dokładamy wszelkich starań, aby tłumaczenie było precyzyjne, prosimy pamiętać, że automatyczne tłumaczenia mogą zawierać błędy lub nieścisłości. Oryginalny dokument w jego rodzimym języku powinien być uznawany za źródło autorytatywne. W przypadku informacji o kluczowym znaczeniu zaleca się skorzystanie z profesjonalnego tłumaczenia przez człowieka. Nie ponosimy odpowiedzialności za jakiekolwiek nieporozumienia lub błędne interpretacje wynikające z użycia tego tłumaczenia.