Využití metody regularizace odměn ve hrách s neúplnou informací
Regularizace odměn se ukázala jako užitečná technika pro algoritmy posilovaného učení určené k řešení her s neúplnou informací. Jeden takový algoritmus používající tuto techniku je nedávno vyvinutý algoritmus Regularizovaná Nashova Dynamika (RNaD), který dosáhl výsledku na úrovní expertních hráčů ve hře Stratego. Studie těchto technik se zatím ale zaměřovala na dvouhráčové hry s nulovým součtem a není zřejmé, jestli tyto techniky budou užitečné i v širší skupině her jako jsou vícehráčové hry či hry bez nulového součtu. Proto je cílem práce najít obecněji použitelné rozšíření těchto technik a použít ho k upravení již existujících algorithmů pro použití v novém typu her. Efektivnost těchto úprav je ukázána na několika experimentech provedených na hrách typu pronásledování-únik.
