lu01 发表于 2020-8-6 09:43

katago 1.5发布了

https://github.com/lightvector/KataGo/releases/tag/1.5.0
此版本中的更改:
OpenCL FP16 Tensor核心
此版本中的新功能是OpenCL中对FP16张量核心GPU的支持,性能几乎翻了一番。从理论上讲,通过FP16存储或计算获得显着改进的非张量核心GPU也可能会在此版本中受益。如果要从早期版本的KataGo进行升级,则需要重新运行OpenCL调谐器以重新调整自身。

OpenCL FP16实现仍然比FP16张量核心GPU上的CUDA实现慢一点,因此,如果您已经经历了安装CUDA并使其在这样的GPU上运行的麻烦,则没有理由切换到OpenCL,但是现在对于可以使用OpenCL但不能使用CUDA + CUDNN的用户,差距应该比以前小得多。将来可能会有进一步的优化,当然欢迎任何GPU代码专家发表评论。 :)

其他面向用户的更改
新的GTP扩展命令:set_position,它允许GTP控制器直接在板上设置任意位置,而不是通过一系列“播放”命令对其进行乱砍,这些命令可能会意外传达荒谬的移动历史记录。照常查看KataGo GTP扩展的文档。
默认情况下,如果绝对没有为KataGo指定任何限制或时间设置,并且运行它的GUI或锦标赛控制器也未指定时间控件,则KataGo将选择几秒钟的较小默认值,而不是将时间视为无限制的。
添加了处理镜像Go的少量逻辑。没有什么特别强大或特别的功能可以解决极端情况,但希望会很有趣。
为计算PDA和/或何时辞职而对检测障碍物的微小调整。
线程数量的基准自动调整效率更高
自玩
现在,将类似哈希的游戏ID写入自生成的SGF。
修复了自玩游戏派生和初始化中一个非常罕见的错误,该错误可能会导致对移动合法性的错误解决,以及在向类似日本的地区评分规则的清理阶段过渡时出现明显的神经网络哈希冲突。
内部
现在,对称是在CPU而非GPU上计算的,从而稍微简化了GPU代码。
一些内部性能优化和清理,部分归功于一些贡献者。
纯CPU实现
同样在此版本中,有一个纯CPU实现,可以通过-DUSE_BACKEND = EIGEN进行cmake编译。目前没有预编译的可执行文件,因为其实现非常基础且性能极其差-甚至比CPU预期的还要差。因此,实际上,它尚未准备就绪。但是,这只是一个开始,希望对优化有所帮助的贡献者将受到欢迎。 :)

jcjcw3 发表于 2020-8-6 15:58

谢谢分享!!

512song 发表于 2020-8-7 08:37

主要是针对OpenCL的,fp16同cuda版一样,N卡非20系,需要设置为false,而非默认的auto。使用1万visits对弈,速度感觉还是有提升。

SmileFox 发表于 2020-8-7 10:02

真是个好消息,尤其是象我这样只能用opencl版本的人来说

woyaofa 发表于 2020-8-8 12:27

:victory:

chent002 发表于 2020-8-26 12:47

谢谢分享
页: [1]
查看完整版本: katago 1.5发布了