主题技术: 以原创技术系统为根基，SenseCore东升国际官网AI大装置为主题基座，布局多领域、多方向前沿钻研，
急剧买通AI在各个垂直场景中的利用，向行业赋能。

NeurIPS 2023 Spotlight | 面向通用决策场景的MCTS基准框架：LightZero

2023-12-05

论文链接：https://arxiv.org/abs/2310.08348

代码地址：https://github.com/opendilab/LightZero

概述

本文将介绍名为LightZero的通用算法Benchmark，它集成了MCTS/MuZero算法的各个衍生分支，涵盖了9种算法和对超过20种决策环境的实际评估。LightZero深刻分析了MCTS步骤的发展汗青和RL环境的多样性，解读了开发通用决策算法面对的六大挑战性维度。

为相识决由算法与系统架构的高度耦合性引发的各类问题，LightZero设计了一个？榛难盗妨鞒，以便矫捷地定造和优化各类MCTS系列算法组件。具体地，LightZero将这类步骤的训练规划划分为四个子？椋菏萃缙鳎―ata collector）、数据整顿器（Data arranger)、智能体进建器（Agent learner) 和智能体评估器（Agent evaluator），致力于援手开发者专一于环境和算法的钻研。

另表，基于在框架设计和基准测试中发现的经验，LightZero进一步探求了将model-based RL的有关最新步骤与MCTS步骤结合的优势。例如引入基于self-consistency的自监督训练步骤能够在部门环境上能显著加快算法收敛性，但不当的使用也会显著影响另一部门环境的训练不变性。最终，详尽的基准测试和尝试批注，LightZero中整归并构建的最佳算法变体拥有极高的数据利用效能和宽泛的利用领域。

该论文的重要贡献如下：

1. 推出了LightZero，这是首个系统性评估MCTS/MuZero系列算法的通用Benchmark框架。

2. 详述了设计通用决策算法时必要面对的关键挑战，为解决这些问题，LightZero对MCTS算法和系统设计进行相识耦，设计了？榛难盗妨鞒，其优良的可扩大性有助于更便捷地设计和集成壮大的通用决策智能体。

3. 展示了LightZero中构建的MCTS算法变体可作为一种通用序列决策问题解决规划的壮大能力和潜在的将来价值。

步骤

这一部门，本文首先会概述解说LightZero，而后深刻会商设计通用MCTS算法将会晤对的环境挑战，并提出？榛难盗妨鞒躺杓乒婊透叨瓤衫┐蟮腗CTS工具链。

Benchmark 简介

图1：LightZero 概览。左侧部门描述了蒙特卡罗树搜索（MCTS）的发展过程，而右侧则展示了各类强化进建（RL）环境。LightZero 融归并拓展了 MCTS/MuZero 子领域的最新钻研成就，并将这些成就有效地利用于多种分歧的环境中。

如图1所示，LightZero是首个汇集了MCTS/MuZero领域险些全数最新算法进展的Benchmark测试平台。更正确地说，LightZero汇集了源自AlphaZero/MuZero的9项关键算法和超过20种决策环境，为其设计了尺度化的训练和部署接口，以适应多种决策环境的必要。

与原有其他各类定造化算法框架相比，LightZero提供了一种统一的视角和用户接口。这种统一性使得对比和分析各类技术组合成为可能，为MCTS有关算法和利用的钻研提供一个壮大且通用的基准平台。

若何评估一个通用 MCTS 算法：6种环境挑战

图2：MCTS+RL步骤和model-free RL步骤（例如 PPO）在六个环境挑战及数据效能维度上的定性对比了局。LightZero中将通用决策求解器的关键能力进行了分类，蕴含：多模态观察空间、复杂作为空间、环境固有随机性、对先验知识的依赖水平、仿真成本、索求难度和数据效能。图中的每条曲线暗示一个算法在这六个类别上的评分。评分为1暗示该算法在此维度上阐发欠佳，只合用于有限场景，而更高的评分则意味着更宽泛的利用领域和更优的机能。出格地，model-free RL步骤不依赖仿真，对先验知识的依赖度较幼，因而在这些领域得分较高。请把稳，LightZero在此高低文中指的是在 LightZero 框架内，将各类技术和超参数设置进行最优组合的特殊算法变体。关于定性评分规定的具体信息，请拜见原论文附录 D。

LightZero对各类RL环境进行了统一的分析，总结出设计通用高效MCTS算法的六个关键挑战（图2）。具体来说，这六种环境挑战别离是：

1）多模态观察空间（Multi-modal observation spaces），必要智能体可能提取并有效融合分歧大局的信息如低维向量、视觉图像和复杂结构化观察空间等。

2）复杂作为空间（Complex action space），必要智能体能在天生多样化决策信号上阐发杰出，蕴含离散作为选择、陆续节造和混合结构的作为空间等。

3）依赖先验知识（Reliance on prior knowledge），这是AlphaZero等步骤的一个重要弊端。这些步骤性质上必要可能接见美满的仿照器和环境的具体规定。相反，MuZero及派生步骤通过进建环境模型来代替仿照器和有关先验，解决了这一限度。

4）环境固有随机性（Inherent stochasticity）在基于树搜索的规划步骤中提出了底子性挑战；肪扯ρУ牟蝗范ㄐ院筒棵趴晒鄄獾淖刺占涠伎赡艿贾鹿婊旒５拇砦，产生大量无用或矛盾的搜索了局。

5）仿照成本（Simulation cost）是MCTS-style步骤的功夫亏损的重要起源。同时，若是算法在仿照过程中未能接见所有必要的作为，算法的机能会大幅降落。

6）索求难题（Hard exploration）是一个时时被忽视的关键挑战。固然搜索树能够通过削减索求领域来提高效能，但MCTS-style的步骤在有大量非终止轨迹（即没有有效的嘉奖信号的轨迹）的环境中容易遇到难题，如迷宫等。

若何简化一个通用 MCTS 算法：？榛盗妨鞒

图3：LightZero训练流程中的四个主题子？。高低文互换器（Context Exchanger）掌管在各个子？橹浯渑渲谩⒛Ｐ秃凸旒。

MCTS系列步骤固然阐发优良，但其实现复杂性也相当高，这大大限度了其利用场景。与DQN/PPO等model-free RL算法分歧，MCTS步骤在每次智能体-环境交互中都必要使用搜索树进行多步仿照。此表，为了提升训练数据质量，MuZero Unplugged引入了数据沉分析机造，通过使用新模型沉新推算旧数据，以获取改进的训练指标。然而，这两种技术都必要屡次挪用仿照器或神经网络，增长了散布式训练和通讯拓扑等方面的复杂性。因而，对算法进行集成以简化整个框架是必要的。

LightZero中设计的训练流程（如图3所示）蕴含四个主题子？。

首先，LightZero同时支持online RL和offline RL训练。两者的重要区别在因而选取在线交互数据网络器还是直接利用离线数据集。

其次，LightZero对有关训练流程进行了沉构，将其分化为四个主题子？，遵循高内聚、低耦合（high cohesion and low coupling）的设计准则。

数据网络器（Data collector）掌管利用战术网络和搜索树进行有效的作为选择，同时蕴含各类索求战术，以及数据预处置和打包操作。
数据整顿器（Data arranger）在MCTS中表演着关键角色，它能有效地存储和筹备用于训练的有价值数据。此？樯婕暗绞莩练治黾际，用以校对off-policy或离线数据。优先级采样的改进版确保了训练的幼批量数据拥有足够的多样性和较高的进建潜能。吞吐量限度器掌管节造增长和采样数据的比例，以在固定的通讯带宽内实现最优的数据利用成效。
智能体进建器（Agent learner）掌管多个网络的训练，能够利用自监督表征进建，基于模型的rollout，基于值散布的强化进建和价值函数归一化蹬着化技术进行加强。这些技术有助于战术的提升，进而提高智能体的整体机能。
智能体评估器（Agent evaluator）提供各类针对强化进建的评价指标以监控训练过程并评估战术行为。同时，这个？榧闪艘恍┠Ｐ屯评硎背Ｓ玫募记，如beam search，以提升测试机能。

LightZero基于上述设计提供一系列尺度接口和工具，让钻研者和工程师能更有效地开发算法或进行系统优化。其中，MCTS的索求战术和世界模型的对齐问题至关沉要，将在后续章节具体探求。对于多向量环境和搜索树的并行规划也是值得深究的话题，一个简易的对比示意图如下所示，具体的数据流和开销分析请参考原论文附录 E。

图4：各类分歧决策算法在数据网络时的并行化设计规划对比图。MCTS 系列算法必要越发深杜着化的并行战术。

尝试

Benchmark 了局

为了测试分歧算法之间的机能差距和LightZero中的算法变体作为通用决策求解器的能力，尝试部门在各类强化进建环境中进行了宽泛的对比。一共评估了下面这些算法变体，蕴含AlphaZero、MuZero、EfficientZero、Sampled MuZero、Stochastic MuZero、Gumbel MuZero和LightZero中综合改进的算法变体。下面的部门展示了其中一些Benchmark了局作为例子。有关环境和算法的具体设置，更详尽全面的 Benchmark了局和有关分析，请参阅论文的附录 B、C、G。

图5：图示为在六大代表性Atari 环境下（图像输入），LightZero集成的各类算法的机能对比。横坐标代表环境步骤（Env Steps），纵坐标暗示在20个 episode 中的均匀收益（Return）。在此高低文中，MuZero w/ SSL代表参与了自监督损失的原始 MuZero 算法。EfficientZero则指通过自监督损失及value_prefix加强的MuZero算法。Sampled EfficientZero则在EfficientZero的基础上引入了与采样有关的改进技术。

图6：图示为AlphaZero与MuZero在Connect4和Gomoku中的机能比力。AlphaZero相迸宗MuZero阐发出显著的样本效能优势，注明在环境仿照器可直接使用时，AlphaZero将有显著优势。然而，即便在无仿照器的环境下，MuZero仍可产生相当的了局，这充分体现了其宽泛的适应性。

图7：上部：图示为Sampled EfficientZero在陆续作为空间环境中，选取分歧战术建模技术的机能比力。下部：图示为该算法在MuJoCo陆续作为空间环境中，利用各类战术建模步骤的机能比力。随着作为空间尺寸的增长，前者（陆续空间离散化版本）阐发逐步降落，而后者阐发则相对不变。

图8：图示为在分歧仿照成本下，Gumbel MuZero和MuZero的机能比力。在仿照次数有限时，Gumbel MuZero相对于MuZero 阐发出显著的机能优势，突显了其在设计低时延MCTS智能体上的潜力。针对Gomoku（棋盘尺寸=6），评估了sim={20, 10}；针对LunarLander-v2，评估了sim={20, 10, 5}；针对Atari Games，评估了sim={50, 16, 2}。

图9：图示为在分歧随机性等级（num_chances=2 和 5）的2048环境中，Stochastic MuZero和MuZero的机能比力。在环境的状态转移存在显著随机性的环境中，Stochastic MuZero略超MuZero。然而，随着随机性等级的升高，Stochastic MuZero的机能也起头受限。

图10：左图：图示为在MiniGrid-KeyCorridorS3R3-v0环境中，分歧索求战术的机能比力（网络阶段的回报）。利用好奇心理造索求状态空间的IntrinsicExploration战术阐发出较高的样本效能。右图：图示为同样环境中，LightZero执行的算法的机能比力。在个性为高维向量观察及稀少嘉奖的环境中，自监督进建损失有助于模型对齐，但预测value_prefix 可能带来挑战，对进建造成故障。

图11：图示为在多智能体匹敌和合作环境GoBigger的T2P2和T2P3场景中，MuZero和EfficientZero（均在独立进建模式下进行训练）的机能比力。两种算法在与内置机械人对战时均能不变收敛，其样本效能阐发出显著优势，相对于其他非 MCTS步骤提升了约六倍。

图12：自监督一致性损失在分歧环境中的影响，涉及到各种类型的观测。从左到右，机能比力涉及到尺度图像输入、紧凑向量输入和棋盘图像输入，思考了有和没有一致性损失的情况。尝试显示，一致性损失对于尺度图像输入来说是至关沉要的。

关键结论和思虑

通过对LightZero的统一设计和Benchmark了局的钻研，得出了一些关于各类算法优弊端的关键结论，这些结论有助于全面理解这些算法的机能和潜在利用。

01：在棋盘游戏环境中，AlphaZero的样本效能显著优于MuZero。这批注若是环境仿照器可用，直接使用AlphaZero是最佳推荐规划。然而，即便在没有仿照器的情况下，在经历足够的训练步数之后MuZero也能够获得中意的了局。

02：自监督进建损失（SSL）在大无数涉及图像输入的Atari环境中显著提升了机能。如图5所示，建设SSL的MuZero在 MsPacman环境中与原始的MuZero阐发相对等，但在其他五个环境中则超过了MuZero。这一了局突显了SSL在提高世界模型对齐能力和加快图像输入环境进建过程中的沉要作用。

03：选择预测value_prefix而不是reward并不能始终保障机能的提升。例如，在图5中，EfficientZero仅在MsPacman和Breakout环境中超过了建设SSL的MuZero，而在其他环境中的阐发与其相当。更具体地说，如图12所示，在稀少嘉奖环境中，EfficientZero的机能显著低于建设SSL的MuZero。因而，在决定是否预测 value_prefix时，应充分思考环境的嘉奖函数个性。

04：在大无数Atari环境和拥有复杂结构化观察空间的环境中（如GoBigger），建设SSL的MuZero和 EfficientZero的阐发相当。这一观察了局批注，拥有复杂结构观察的环境能够从表征进建和对比进建技术中受益，从而提高样本效能和鲁棒性。

05：在离散作为空间中，Sampled EfficientZero的阐发与作为空间维度亲昵有关。例如，Sampled EfficientZero在Breakout（作为空间维度为4）中的阐发与EfficientZero相当，但在MsPacman（维度为9）中的阐发则有所降落。

06：建设高斯战术暗示的Sampled EfficientZero 在陆续作为空间中阐发出更好的可扩大性。高斯版本在传统陆续节造和MuJoCo环境中阐发优异，而离散化版本则仅合用于较低维的陆续作为空间。

07：当仿照次数有限时，Gumbel MuZero显著优于MuZero，这揭示了其在设计低功夫成本的蒙特卡洛树搜索（MCTS）智能体方面的潜力。

08：在拥有随机状态转换或部门可观察状态的环境中（如没有叠帧的Atari），Stochastic MuZero能够实现比MuZero更优良的机能。

09：有关MCTS系列算法提出的改进技术，如 EfficientZero中的自监督损失，Sampled MuZero中的采样技术，Gumbel MuZero中利用MCTS搜索信息的推算改进，以及Stochastic MuZero中的环境随机性建模，这些步骤都能够看作是相互正交的，之间的滋扰极度幼。LightZero在持续索求若何将这些技巧高效且插件化地集成在一路，以设计出通用的决策算法。

10: 如图12所示，对于尺度图像输入，一致性损失显得至关沉要。若是忽视一致性损失，模型机能会显著下滑，这揭示了进建针对高维输入的动态模型的挑战性。然而，对于LunarLander这样的向量输入环境，一致性损失只提供了轻微的优势，这暗示在紧凑的向量观测上执行dynamic model进建相对较为单一。在特定的二维输入环境，如井字游戏（TicTacToe），一致性损失依然较大，凸显出在潜在状态输出间实现一致性的难度。此表，若是在一致性损失中使用不适当的超参数，可能会导致训练无法收敛。综合来看，LightZero中的尝试批注，一致性损失的有效性高度依赖于特定的观察属性。对于棋盘游戏，将来的钻研方向应试虑索求适当的损失函数，以确保训练过程中的对齐性。

Hugging Face Model Zoo for LightZero

另表，为了进一步拓展决策智能算法和模型的利用领域，LightZero项目也已经在Hugging Face Model Zoo 中设立了专门的模型空间：Hugging Face Model Zoo for LightZero。这个专门为LightZero打造的模型库集中，旨在为钻研者和开发者提供一个共享、互换钻研成就，并进行急剧接入和尝试的模型平台，其中蕴含了最前沿MCTS系列算法模型，并针对特定利用场景进行优化。致力于让钻研者能在一个尺度化的环境下急剧复现、测试最新的基于MCTS的决策智能算法，并进行深度的比力和评估。

Hugging Face Model Zoo for LightZero空间：

https://huggingface.co/OpenDILabCommunity

特色职能和资源

预训练模型：提供一系列预训练好的LightZero模型，覆盖了从基础到高级的各类算法变体，能够直接被急剧下载和部署。
配置治理：每个模型都提供了具体的配置文件，蕴含了环境设置、网络架构和训练参数等，确保了尝试的可沉复性。
训练和评估工具：集成了便捷的训练和评估接口，钻研者能够轻松地在自己的数据集上训练模型，或在尺度测试集上评估模型的机能。
文档和教程：提供了丰硕的文档资源和教程，援手用户理解和使用这些模型，无论是新手还是有经验的钻研者都能急剧上手。
社区支持：通过与Hugging Face社区的缜密合作，用户能够获取到最新的有关资讯，参加社区会商，或直接向模型库贡献自己的模型。

Model Card 与使用示例

为了援手开发者更好地使用有关工具，图13展示了一个典型的 "环境-算法" CartPole-v0-MuZero的 Model Card 界面，其中蕴含了模型描述，模型使用，模型信息，环境，评估渲染视频等5大部门。

图13：Hugging Face Model Zoo for LightZero 中一个典型示例CartPole-v0-MuZero 的Model Card界面。蕴含了模型描述、模型使用、模型信息、环境、评估渲染视频等5大部门。

总结与将来工作

LightZero是一个？榛狭烁骼郙CTS有关强化进建步骤的统一算法基准框架。LightZero系统性地分解并应对了将MCTS作为通用且高效决策求解器部署过程中的挑战和机缘。通过？榛南低成杓啤⑾昃∪娴幕疾馐，揭示了LightZero作为一个可扩大、高效的决策问题工具对于钻研社区的巨大潜力。

只管LightZero展示了其变体算法在各类基准测试环境中的杰出机能，但某些局限性仍需被关注。首先，只管这种？榛纳杓葡灾忧苛薓CTS系列算法的通用性和扩大性，但对于某些特定的决策环境仍必要部门定造化的调整。其次，由于MCTS算法的内涵限度，在处置某些复杂（尤其是随机性强）的环境时可能遇到挑战。最后，MCTS的高技术门槛可能会给初次接触有关技术的人带来困扰。将来的改进将会关注提高 LightZero框架接口的易用性，丰硕有关的文档和例子，并构建一个的活跃用户生态社区。

只管存在上述挑战，但对于将来MCTS系列算法技术的发展，仍充斥无限可能，这里列出了一些将来的扩大方向：

扩大利用领域：进展更多的钻研者和开发者将LightZero利用于更宽泛的实际领域，蕴含但不限于天然说话处置，自动驾驶，以及复杂系统的节造和优化。

算法优化：欢迎社区贡献新的索求和优化战术，以进一步提升MCTS系列算法的运行效能以减幼墙钟功夫开销。

与其他前沿技术的整合：MCTS系列算法和其他机械进建前沿方向的依然结合极度沉要。其中最值得关注的两个领域是：MCTS与大型说话模型（LLM）的结合，若何进建更壮大的世界模型来使用MCTS进行规划。

相信通过这些致力，有望进一步推动MCTS和有关强化进建技术的发展，为现实决策问题的解决提供更壮大的工具。

LightZero有关基准尝试和训练框架已齐全开源，可接见GitHub仓库查看更多信息：

https://github.com/opendilab/LightZero

您尚未美满信息

美满信息后，即可下载资料

美满信息跳过，持续浏览

您尚未登录

您还未登录，登录方可持续

登录跳过，持续浏览

请选择您以为必要改进的处所：

导航不好用，不方便找到感兴致的内容
产品介绍信息不够全面
产品介绍信息不容易懂
页面打开速度不快，页面浏览不流畅/有卡顿
页面不够美观
售后服务不好找，履历不好

跳过下一个

您是否可能达到本次网站的接见主张？

是
否
仍在进行中

下一个

您对东升国际官网官网的中意度若何？

极度不中意极度中意

提交

已收到您对东升国际官网官网的评价和建议！

感激您的耐心反馈~

关关

产品试用

填写此单一表格，我们将尽快联系您！

把您的需要发给我们相识所有产品

商务合作

400 900 5986

周一至周五 9:00-12:00，13:00-18:00

business@sensetime.com

合作同伴招募

成为合作同伴