Spørsmål:
Hva er forskjellen mellom off-policy og on-policy læring?
cgo
2015-12-02 20:21:49 UTC
view on stackexchange narkive permalink

Nettsted for kunstig intelligens definerer læring utenfor politikk og politikk på følgende måte:

"En utenfor politisk lærer lærer verdien av optimal policy uavhengig av agentens handlinger. Q-læring er en lærer utenfor politikken. En lærer på politikken lærer verdien av policyen som agent utfører, inkludert utforskningstrinnene. "

Jeg vil spør om avklaring angående dette, fordi de ikke ser ut til å gjøre noen forskjell for meg. Begge definisjonene virker som de er identiske. Det jeg faktisk forsto er modellfri og modellbasert læring, og jeg vet ikke om de har noe med de aktuelle å gjøre.

Hvordan er det mulig at den optimale politikken læres uavhengig av agentens handlinger? Læres ikke politikken når agenten utfører handlingene?

Jeg la til en kommentar til http://stackoverflow.com/questions/6848828/reinforcement-learning-differences-between-qlearning-and-sarsatd/41420616#41420616, ** TL; NR ** -delen kan være nyttig med forståelsenogså.
her er en god forklaring https://nb4799.neu.edu/wordpress/?p=1850
Jeg vil også legge til at det er en off-policy variant av SARSA.Denne artikkelen (http://www.cs.ox.ac.uk/people/shimon.whiteson/pubs/vanseijenadprl09.pdf) vil gjennomgå av og utenfor politikken i innledningen, og deretter forklare forventet sarsa.Slå også opp forventede policygradienter (EPG) for å finne en mer generell teori som knytter de to typene sammen.
Jeg syntes denne bloggen var veldig nyttig: https://leimao.github.io/blog/RL-On-Policy-VS-Off-Policy/
Syv svar:
Neil G
2015-12-03 14:48:23 UTC
view on stackexchange narkive permalink

Først og fremst er det ingen grunn til at en agent må utføre grådige handlinger ; Agenter kan utforske eller de kan følge alternativer . Dette er ikke det som skiller on-policy fra off-policy learning.

Årsaken til at Q-learning er utenfor policy er at den oppdaterer Q-verdiene ved hjelp av Q-verdien til neste tilstand $ s '$ og grådige handling $ a' $ . Med andre ord anslår den avkastning (total rabattert fremtidig belønning) for par av statsaksjon forutsatt at en grådig politikk ble fulgt til tross for at den ikke følger en grådig politikk. Årsaken til at SARSA er på policy er at den oppdaterer Q-verdiene ved hjelp av Q-verdien til neste tilstand $ s '$ og gjeldende policy handling $ a '' $ . Det anslår avkastningen for par av statlige tiltak forutsatt at den nåværende politikken fortsatt følges.

Skillet forsvinner hvis den nåværende politikken er en grådig politikk. Imidlertid ville en slik agent ikke være bra siden den aldri utforsker.

Har du sett på boken som er tilgjengelig gratis online? Richard S. Sutton og Andrew G. Barto. Forsterkningslæring: En introduksjon. Andre utgave, MIT Press, Cambridge, MA, 2018.

fin forklaring!Eksemplet ditt på Q-læring er bedre formulert som i Sutton bok, som sier: "_Lærd handlingsverdifunksjon, Q, tilnærmer seg direkte Q *, den optimale handlingsverdifunksjonen, uavhengig av politikken som følges. Dette forenkler dramatiskanalyse av algoritmen og muliggjorde tidlige konvergens bevis. Retningslinjene har fortsatt en effekt ved at den bestemmer hvilke tilstandspar som blir besøkt og oppdatert ._ "
Generelt synes jeg ikke Sutton og Barto er veldig lesbare i det hele tatt.Jeg synes forklaringene de gir er ikke veldig forståelige.Jeg er ikke sikker på hvorfor boken deres blir anbefalt overalt
@S.N.For mange studenter med forsterkningslæring er Sutton og Barto den første boka de leser.
@NeilG Hva er den andre boka å lese?Siden Sutton & Barto er så ny og dekker ting som AlphaGo, og det meste av dagens RL er enda mer enn det.Eventuelle tips er velkomne.
@JakubArnold den opprinnelige Sutton & Barto-boka er fra 1998, og den dekker ikke dyp forsterkningslæring.2. utgave nevner bare ting som AlphaGo, men bokens fokus er i mer klassiske tilnærminger.Hvis du vil ha flere RL-ressurser, kan du ta en titt på [denne listen] (https://medium.com/@yuxili/resources-for-deep-reinforcement-learning-a5fdf2dc730f).Jeg foreslår David Silvers videoer og Putermans bok, ettersom de er mer imøtekommende.For mer teoretisk materiale anbefaler jeg Bertsekas bøker.Ta en titt på Spinning Up-nettstedet for DRL-algoritmer og lenker til originale papirer.
Flott forklaring.Men jeg er fortsatt forvirret av hvorfor Sarsa er politisk og Q-læring er utenfor politikk.Hvis du ser på Sutton & Bartos bok, er den eneste forskjellen mellom Sarsa (for å estimere optimal policy q *, S & B-bok s. 130) og Q-læring at når du oppdaterer Q, enten du velger A 'epsilon-grådig eller ikke.Hvis det er rent grådig, så er det Q-læring, hvis ikke, det er sarsa.Så i dette tilfellet avhenger det av leting eller ikke.For øvrig er Q-læring også kjent som Sarsa-max.
@AlbertChen "Så i dette tilfellet avhenger det av leting eller ikke": Nei, fordi begge algoritmer utforsker.Forskjellen er hvordan Q oppdateres.
Så alt handler om evalueringspolitikk er den samme som atferdspolitikk?
@dzieciou Avhengig av definisjonene dine, er det riktig.
Dmitry Mottl
2018-11-14 02:50:07 UTC
view on stackexchange narkive permalink

Først og fremst, hva betyr egentlig policy (betegnet med $ \ pi $ )?
Retningslinjene spesifiserer en handling $ a $ , som utføres i en tilstand $ s $ (eller mer presist, $ \ pi $ er en sannsynlighet for at en handling $ a $ blir tatt i en tilstand $ s $ ).

For det andre, hvilke typer læring har vi?
1. Evaluer $ Q (s, a) $ -funksjon: forutsi summen av fremtidige rabatterte belønninger, der $ a $ span> er en handling og $ s $ er en stat.
2. Finn $ \ pi $ (faktisk $ \ pi (a | s) $ ), det gir maksimal belønning.

Tilbake til det opprinnelige spørsmålet. On-policy og off-policy læring er bare relatert til den første oppgaven: evaluering av $ Q (s, a) $ .

Forskjellen er denne:
I on-policy-læring læres $ Q (s, a) $ -funksjonen fra handlinger som vi utførte ved hjelp av vår nåværende policy $ \ pi (a | s) $ .
I off-policy-læring læres $ Q (s, a) $ -funksjonen fra å ta forskjellige handlinger (for eksempel tilfeldige handlinger). Vi trenger ikke en policy i det hele tatt!

Dette er oppdateringsfunksjonen for on-policy SARSA-algoritmen: $ Q (s, a) \ leftarrow Q (s, a) + \ alpha (r + \ gamma Q (s ', a') - Q (s, a)) $ , der $ a '$ er handlingen, som ble tatt according til policy $ \ pi $ span >.

Sammenlign den med oppdateringsfunksjonen for off-policy Q-learning-algoritmen: $ Q (s, a) \ leftarrow Q (s, a) + \ alpha (r + \ gamma \ max_ {a '} Q (s', a ') - Q (s, a)) $ , der $ a '$ alle handlinger, som ble testet i tilstanden $ s'$ .

* "I off-policy-læring læres $ Q (s, a) $ -funksjonen fra å ta forskjellige handlinger (for eksempel tilfeldige handlinger). Vi trenger til og med ikke en policy i det hele tatt!" * - Hvordan kan du ikkehar en policy?Er ikke engang å ta tilfeldige handlinger teknisk en policy?Det ville også være nyttig hvis du kunne belyse forskjellen i Q-oppdateringen mellom SARSA og Q-Learning som viser hva som gjør enten på policy eller utenfor policy.
nbro
2018-01-24 02:19:42 UTC
view on stackexchange narkive permalink

On-policy-metoder estimerer verdien av en policy mens den brukes til kontroll.

I off-policy-metoder kan policyen som brukes til å generere atferd, kalt behavior policy, ikke være relatert til policyen som evalueres og forbedres, kalt estimering Politikk.

En fordel med denne separasjonen er at estimeringspolitikken kan være deterministisk (f.eks. grådig), mens atferdspolitikken kan fortsette å prøve alle mulige handlinger.

For ytterligere detaljer, se avsnitt 5.4 og 5.6 i boken Reinforcement Learning: An Introduction av Barto og Sutton, første utgave.

Juli
2017-08-27 09:41:45 UTC
view on stackexchange narkive permalink

Forskjellen mellom Off-policy og On-policy-metoder er at med den første trenger du ikke å følge noen spesifikk policy, kan agenten din til og med oppføre seg tilfeldig, og til tross for dette kan off-policy-metoder fremdeles finne den optimale policyen.På den annen side er policyer avhengig av policyen som brukes.Når det gjelder Q-Learning, som er utenfor politikken, vil den finne den optimale politikken uavhengig av policyen som ble brukt under utforskning, men dette gjelder bare når du besøker de forskjellige statene nok ganger.Du finner i originalpapiret av Watkins det faktiske beviset som viser denne veldig fine egenskapen til Q-Learning.Det er imidlertid en avveining, og det vil si off-policy metoder pleier å være tregere enn on-policy metoder.Her en lenke med annet interessant sammendrag av egenskapene til begge typer metoder

Off-policy metoder er ikke bare tregere, men kan være ustabile når de kombineres med bootstrapping (dvs. hvordan Q-læring bygger estimater fra hverandre) og funksjonstilnærmere (f.eks. Nevrale nettverk).
Identicon
2019-02-14 15:51:27 UTC
view on stackexchange narkive permalink

Fra Sutton-boken: "Den politiske tilnærmingen i forrige del er faktisk et kompromiss - den lærer handlingsverdier ikke for den optimale politikken, men for en nesten optimal politikk som fremdeles utforskes. En mer rettferdig tilnærming er åbruk to policyer, en som er lært om og som blir den optimale policyen, og en som er mer utforskende og brukes til å generere atferd. Policyen som blir lært om kalles målpolitikken, og policyen som brukes til å generere atferd kallesatferdspolitikk. I dette tilfellet sier vi at læring er fra data “o↵” målpolitikken, og den generelle prosessen kalles o↵-policy learning. ”

hvis du følger denne beskrivelsen, er det ikke lett å fortelle hvorfor Q-læring er utenfor politikken
João Pedro
2020-04-02 06:36:13 UTC
view on stackexchange narkive permalink

Dette er den rekursive versjonen av Q-funksjonen (i henhold til Bellman-ligning):

$$ Q_ \ pi (s_t, a_t) = \ mathbb {E} _ {\, r_t, \, s_ {t + 1} \, \ sim \, E } \ left [r (s_t, a_t) + \ gamma \, \ mathbb {E} _ {\, a_ {t + 1} \, \ sim \, \ pi} \ left [Q_ \ pi (s_ {t + 1}, a_ {t + 1}) \ right] \ right] $$

Legg merke til at den ytre forventningen eksisterer fordi den nåværende belønningen og neste tilstand blir samplet ( $ \ sim) $ fra miljøet ( $ E $ ). Den indre forventningen eksisterer fordi Q-verdien for neste tilstand avhenger av neste handling. Hvis du har retningslinjer for deterministic, er det ingen indre forventninger, vår $ a_ {t + 1} $ er en kjent verdi som bare avhenger av neste tilstand, la oss ringe det $ A (s_ {t + 1}) $ :

$$ Q_ {det} (s_t, a_t) = \ mathbb {E} _ {\, r_t, \, s_ {t + 1} \, \ sim \, E} \ left [r (s_t, a_t) + \ gamma \, Q_ {det} (s_ {t + 1}, A (s_ {t + 1}) \ right] $$

Dette betyr at Q-verdien bare avhenger av miljøet for deterministiske retningslinjer.

Den optimale politikken er alltid deterministisk (den tar alltid handlingen som fører til høyere forventet belønning) og Q-læring tilnærmer seg direkte den optimale politikken. Derfor avhenger Q-verdiene til denne grådige agenten bare av miljøet.

Vel, hvis Q-verdiene bare avhenger av miljøet, spiller det ingen rolle hvordan jeg explore miljøet, det vil si at jeg kan bruke en utforskende behaviour policy.

Sushil Thapa
2020-06-15 02:35:06 UTC
view on stackexchange narkive permalink

Læring på politikken: Den samme (ϵ-grådige) policyen som evalueres og forbedres, brukes også til å velge handlinger.For f.eks.SARSA TD læringsalgoritme

Læring utenfor politikk: Politikken (grådige) som evalueres og forbedres, er forskjellig fra (ϵ-grådig) politikken som brukes til å velge handlinger.For f.eks.Q-læringsalgoritme



Denne spørsmålet ble automatisk oversatt fra engelsk.Det opprinnelige innholdet er tilgjengelig på stackexchange, som vi takker for cc by-sa 3.0-lisensen den distribueres under.
Loading...