DeepMind重磅开源强化学习框架！覆盖28款游戏，24个算法

lu01 发表于 2019-8-28 15:10

https://baijiahao.baidu.com/s?id=1643083229980086254&wfr=spider&for=pc目前，在OpenSpiel中实现的算法一共有24种，分别是：极小化极大（Alpha-beta剪枝）搜索、蒙特卡洛树搜索、序列形式线性规划、虚拟遗憾最小化（CFR）、Exploitability外部抽样蒙特卡洛CFR、结果抽样蒙特卡洛CFR、Q-learning、价值迭代、优势动作评论算法(Advantage Actor Critic，A2C)、Deep Q-networks (DQN)短期价值调整（EVA）、Deep CFR、Exploitability 下降(ED) 、（扩展形式）虚拟博弈（XFP）、神经虚拟自博弈(NFSP)、Neural Replicator Dynamics（NeuRD）遗憾策略梯度（RPG, RMPG）、策略空间回应oracle（PSRO）、基于Q的所有行动策略梯度（QPG）、回归CFR (RCFR)、PSROrN、α-Rank、复制/演化动力学。其中，只有短期价值调整（EVA）、Deep CFR和PSROrN等算法只是进行了初步测试，其他算法都经过了全面的测试。
Spiel意指桌面游戏。因此，OpenSpiel中的环境就是相关棋牌类游戏。一共有28款：双陆棋、突围棋、定约桥牌、Coin Game、屏风式四子棋、协作推箱子、国际象棋、第一价格密封拍卖、围棋、Goofspiel（一种多玩家纸牌游戏）三宝棋、六贯棋、Kuhn扑克、Leduc扑克、大话骰、Markov Soccer、配对硬币（3人游戏）、矩阵游戏、Oshi-Zumo、西非播棋、转盘五子棋、Phantom三连棋Pig游戏、三连棋、Tiny Bridge、Y（一种棋类游戏）、Catch（仅支持Python）、Cliff-Walking在悬崖边走的醉汉（仅支持Python）。在上述游戏中，只有Coin Game、协作推箱子、六贯棋、Markov Soccer和Phantom三连棋只是进行了初步测试，其余的游戏都经过了全面的测试。基于上述的游戏和算法，可用OpenSpiel研究通用强化学习和游戏中的搜索 / 规划。

阿扬发表于 2019-8-28 15:34

太牛了

yunhuo 发表于 2019-8-29 12:46

他要干什么，把alpha go权重放出来的了

keeper 发表于 2020-5-29 20:10

嗯，开源了啊

页: [1]

飞扬围棋's Archiver

DeepMind重磅开源强化学习框架！覆盖28款游戏，24个算法