近便政策最佳化
近便政策最佳化(英文:Proximal Policy Optimization,PPO)係一類無模型嘅強化學習演算法。PPO演算法屬政策梯度方法,即係啲演算法係跟個政策空間當中
PPO 演算法有一啲優點係信任域政策最佳化 (TRPO) 都有嘅,但 PPO 易實現、通用過 TRPO,又有樣本複雜度好過。[1]
變體
編輯PPO 有兩種主要嘅變體,一種係 PPO-Penalty,一種係 PPO-Clip。[2]
睇埋
編輯考
編輯- ↑ Schulman, John; Wolski, Filip; Dhariwal, Prafulla; Radford, Alec; Klimov, Oleg (2017). "Proximal Policy Optimization Algorithms". arXiv:1707.06347.
- ↑ "Proximal Policy Optimization". OpenAI Spinning Up. 喺2022-06-18搵到.
{{cite web}}
: CS1 maint: url-status (link)