蒙特卡洛树搜索(The monte carlo search tree)

蒙特卡洛树搜索是一种结合概率与统计理论的计算方法,在搜索空间巨大时尤为有效。通过选择、扩展、仿真及反向传播四个步骤,实现对游戏状态的最佳决策。在与深度神经网络结合后,如AlphaGo中的应用,显著提升了计算效率和决策准确性。

蒙特卡洛树搜索又称随机抽样或统计试验方法,属于计算数学的一个分支,它是在上世纪四十年代中期为了适应当时原子能事业的发展而发展起来的。传统的经验方法由于不能逼近真实的物理过程,很难得到满意的结果,而蒙特卡洛树搜索方法由于能够真实地模拟实际物理过程,故解决问题与实际非常符合,可以得到很圆满的结果。这也是以概率和统计理论方法为基础的一种计算方法,是使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。将所求解的问题同一定的概率模型相联系,用电子计算机实现统计模拟或抽样,以获得问题的近似解。

在搜索空间巨大的情况下会比较有效

从全局来看,其主要目标为给定一个游戏状态来选择最佳的下一步

经典应用:alpha go

算法过程

选择:选择能够最大化UCB值的结点,即UCB越大,越有可能选择这条路径
在这里插入图片描述
在这里插入图片描述该节点下的平均value大小

C:常数,通常可以取2
N:总探索次数
ni:当前阶段的探索次数

扩展:创建一个或多个子节点

在这里插入图片描述

仿真:在某一点用随机策略进行决策,又称palyout或rollout

在这里插入图片描述

反向传播:使用随机搜索的结果来更新整个搜索树

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

丰。。

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值