四种DRL算法的异同

PPO Dr.

ML && DL

发布日期: 2025-12-04

更新日期: 2025-12-09

文章字数: 1.1k

阅读时长: 4 分

阅读次数:

MADDPG^[1]、MATD3、MAPPO^[2]与PMPO的异同

MADDPG、MATD3、MAPPO与PMPO四种算法都是“多智能体强化学习”的不同做法，可以把它们理解成为同一个目标下的四种“学习风格”。

举一个简单的例子几个小机器人在一起搬箱子，每个机器人都能看到一部分环境，却不知道别人怎么想，它们必须一起完成任务，但每个机器人都在“自私地”学自己的策略，因此整个环境总是在变，学习容易不稳定。

这四个算法都是用来解决这个核心问题：多智能体一起学习，但环境因为大家同时变化而变得很难学。

四者的共同点有：

比喻：MADDPG就像每个学生都用自己的笔记(actor)，但考试时老师(critic)会告诉每个学生“我看到了全班人的答案，你这个答案好不好”，所以其比单独学习更稳定；
技术特点：是DDPG^[3]的多智能体版本，适合连续动作问题，比如机器人控制；
优点：容易理解，容易实现，比单智能体更稳定；
缺点：DDPG本身不太稳定，训练容易受超参数影响。

按学习方式分类：

按稳定性：

MADDPG：多智能体版 DDPG，简单但不够稳。

MATD3：加强版 MADDPG，更稳定。

MAPPO：多智能体 PPO，最稳定使用最广。

PMPO：建模协作结构更强，但更复杂。

相对应的应用背景：

Lowe R, Wu Y I, Tamar A, et al. Multi-agent actor-critic for mixed cooperative-competitive environments[J]. Advances in neural information processing systems, 2017, 30.
Yu C, Velu A, Vinitsky E, et al. The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games[C]//Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track.
Lillicrap T P, Hunt J J, Pritzel A, et al. Continuous control with deep reinforcement learning[J]. arXiv preprint arXiv:1509.02971, 2015.
Fujimoto S, Hoof H, Meger D. Addressing function approximation error in actor-critic methods[C]//International conference on machine learning. PMLR, 2018: 1587-1596.
Schulman J, Wolski F, Dhariwal P, et al. Proximal policy optimization algorithms[J]. arXiv preprint arXiv:1707.06347, 2017.

pzxnys

https://pzxnys.icu/posts/20251204182715/