近端策略優化

近端策略優化（英語：Proximal Policy Optimization，PPO）^[1]是OpenAI公司於2017年開發的一系列無模型強化學習算法。該算法採用了策略梯度算法，這意味着它們的做法是搜索策略空間而非狀態-動作對的值。

近端策略優化包含了置信域方法的一些優點，如更易於實現，更通用，並且具有更好的樣本複雜度。^[2]該算法是通過使用不同的目標函數來完成的。^[3]