MADDPG[1]、MATD3、MAPPO[2]与PMPO的异同
MADDPG、MATD3、MAPPO与PMPO四种算法都是“多智能体强化学习”的不同做法,可以把它们理解成为同一个目标下的四种“学习风格”。
一、共同目标
举一个简单的例子
2025-12-04