Nettsted for kunstig intelligens definerer læring utenfor politikk og politikk på følgende måte:
"En utenfor politisk lærer lærer verdien av optimal policy uavhengig av agentens handlinger. Q-læring er en lærer utenfor politikken. En lærer på politikken lærer verdien av policyen som agent utfører, inkludert utforskningstrinnene. "
Jeg vil spør om avklaring angående dette, fordi de ikke ser ut til å gjøre noen forskjell for meg. Begge definisjonene virker som de er identiske. Det jeg faktisk forsto er modellfri og modellbasert læring, og jeg vet ikke om de har noe med de aktuelle å gjøre.
Hvordan er det mulig at den optimale politikken læres uavhengig av agentens handlinger? Læres ikke politikken når agenten utfører handlingene?