蒙特卡洛树搜索又称随机抽样或统计试验方法,属于计算数学的一个分支,它是在上世纪四十年代中期为了适应当时原子能事业的发展而发展起来的。传统的经验方法由于不能逼近真实的物理过程,很难得到满意的结果,而蒙特卡洛树搜索方法由于能够真实地模拟实际物理过程,故解决问题与实际非常符合,可以得到很圆满的结果。这也是以概率和统计理论方法为基础的一种计算方法,是使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。将所求解的问题同一定的概率模型相联系,用电子计算机实现统计模拟或抽样,以获得问题的近似解。
在搜索空间巨大的情况下会比较有效
从全局来看,其主要目标为给定一个游戏状态来选择最佳的下一步
经典应用:alpha go
算法过程
选择:选择能够最大化UCB值的结点,即UCB越大,越有可能选择这条路径

该节点下的平均value大小
C:常数,通常可以取2
N:总探索次数
ni:当前阶段的探索次数
扩展:创建一个或多个子节点

仿真:在某一点用随机策略进行决策,又称palyout或rollout

反向传播:使用随机搜索的结果来更新整个搜索树

蒙特卡洛树搜索是一种结合概率与统计理论的计算方法,在搜索空间巨大时尤为有效。通过选择、扩展、仿真及反向传播四个步骤,实现对游戏状态的最佳决策。在与深度神经网络结合后,如AlphaGo中的应用,显著提升了计算效率和决策准确性。

3290

被折叠的 条评论
为什么被折叠?



