近便政策最佳化

近便政策最佳化（英文：Proximal Policy Optimization，PPO）係一類無模型嘅強化學習演算法。PPO演算法屬政策梯度方法，即係啲演算法係跟個政策空間當中㨆lam1 / 扲ngam4出政策，而嘸係挃值畀啲狀態-動作孖。

PPO 演算法有一啲優點係信任域政策最佳化 (TRPO) 都有嘅，但 PPO 易實現、通用過 TRPO，又有樣本複雜度好過。^[1]