您现在的位置是：首页 > 热门资讯 > 正文

mcts算法加快 (mcts算法原理)

用户投稿2024-03-31热门资讯26

Monte Carlo Tree Search (MCTS)算法是一种经典的搜索算法，被广泛应用于机器学习、博弈论、优化问题等领域。该算法以模拟随机性的方法来进行搜索，通过通过模拟大量随机采样并对结果进行评估来逐步优化搜索空间，最终找到最优解。

MCTS算法的核心原理可以分为四个步骤：选择、扩展、模拟和反向传播。

在选择阶段，算法从根节点（代表当前游戏状态）出发，通过一定的策略选择一个子节点进行遍历。通常采用上界置信区间（Upper Confidence Bound，UCB）来选择节点，以平衡探索未知区域和利用已知信息的权衡。

在扩展阶段，算法根据选择的节点，生成其所有可能的子节点。这个过程模拟了在游戏中执行一次合法的移动或动作，扩展了搜索空间。

接着，在模拟阶段，算法会随机地模拟对选定节点进行剩余的探索，直到达到游戏结束状态。这一过程可以看作是在当前状态下进行一次游戏的模拟，以获取更多的信息。

最后，在反向传播阶段，算法根据模拟的结果，将得分反向传播到所有途径中经过的节点，更新它们的统计数据。这样可以逐渐提高对每个节点的估值，使得算法倾向于探索表现更好的节点。

通过不断地重复以上四个步骤，MCTS算法可以逐渐收敛到最优解。在每次搜索中，该算法都会不断地调整对节点的估值，以提高搜索效率，并最终找到最佳的决策。在许多棋类游戏、围棋等复杂决策问题中，MCTS算法已被证明是一种高效且强大的搜索方法。

MCTS算法通过模拟随机性的方法来进行搜索，并通过不断地更新节点的统计数据来优化搜索空间，最终找到最优解。其核心原理包括选择、扩展、模拟和反向传播四个步骤，通过这些步骤的循环迭代，算法能够逐步收敛到最佳解。在实际应用中，MCTS算法已被证明在复杂的决策问题中具有很高的效率和鲁棒性。

【转载】AlphaGo原理解析

这些天都在没日没夜地关注一个话题，谷歌人工智能程序AlphaGo（国内网友亲切地称为“阿尔法狗”）以5:0击败欧洲职业围棋冠军樊麾二段，并在和世界冠军的比赛中2:0领先。什么！！ 19年前计算机击败国际象棋冠军卡斯帕罗夫的情景还历历在目，现在计算机又要来攻克围棋了吗！？虚竹在天龙八部里自填一子，无意中以“自杀”破解“珍笼”棋局，逍遥子方才亲传掌门之位。难道以后“阿尔法狗”要出任逍遥派掌门了？ 1933年，东渡日本19岁的吴清源迎战当时的日本棋坛霸主、已经60岁的本因坊秀哉，开局三招即是日本人从未见过的三三、星、天元布阵，快速进击逼得对方连连暂停“打卦”和弟子商量应对之策。随后以“新布局”开创棋坛新纪元。难道阿尔法狗会再造一个“新新布局”？作为一个关心人工智能和人类命运的理科生，近些天刷了好些报道，记者们说“阿尔法狗是个‘价值神经网络’和‘策略神经网’络综合蒙特卡洛搜索树的程序”，但我觉得光知道这些概念是不够的。我想看看“阿尔法狗”的庐山真面目。

准备好棋盘和脑容量，一起来探索吧？

围棋棋盘是19x19路，所以一共是361个交叉点，每个交叉点有三种状态，可以用1表示黑子，-1表示白字，0表示无子，考虑到每个位置还可能有落子的时间、这个位置的气等其他信息，我们可以用一个361 * n维的向量来表示一个棋盘的状态。我们把一个棋盘状态向量记为s。当状态s下，我们暂时不考虑无法落子的地方，可供下一步落子的空间也是361个。我们把下一步的落子的行动也用361维的向量来表示，记为a。这样，设计一个围棋人工智能的程序，就转换成为了，任意给定一个s状态，寻找最好的应对策略a，让你的程序按照这个策略走，最后获得棋盘上最大的地盘。如果你想要设计一个特别牛逼惊世骇俗的围棋程序，你会从哪里开始呢？对于在谷歌DeepMind工作的黄士杰和他的小伙伴而言，第一招是：

蒙特卡洛搜索树（Monte-Carlo Tree Search）是一种“大智若愚”的方法。面对一个空白棋盘S0，黄士杰的老师Coulum最初对围棋一无所知，便假设所有落子方法分值都相等，设为1。然后扔了一个骰子，从361种落子方法中随机选择一个走法a0。Coulum想象自己落子之后，棋盘状态变成S1，然后继续假设对手也和自己一样二逼，对方也扔了一个筛子，随便瞎走了一步，这时棋盘状态变成S2，于是这两个二逼青年一直扔骰子下棋，一路走到Sn，最后肯定也能分出一个胜负r，赢了就r记为1，输了则为0，假设这第一次r=1。这样Coulum便算是在心中模拟了完整的一盘围棋。 Coulum心想，这样随机扔骰子也能赢？运气不错啊，那把刚才那个落子方法（S0,a0）记下来，分值提高一些：

我刚才从（S0, a0）开始模拟赢了一次，r=1，那么新分数=2，除了第一步，后面几步运气也不错，那我把这些随机出的局面所对应落子方法(Si,ai)的分数都设为2吧。然后Coulum开始做第二次模拟，这次扔骰子的时候Coulum对围棋已经不是一无所知了，但也知道的不是太多，所以这次除（S0, a0）的分值是2之外，其他落子方法的分数还是1。再次选择a0的概率要比其他方法高一点点。那位假想中的二逼对手也用同样的方法更新了自己的新分数，他会选择一个a1作为应对。如法炮制，Coulum又和想象中的对手又下了一盘稍微不那么二逼的棋，结果他又赢了，Coulum于是继续调整他的模拟路径上相应的分数，把它们都+1。随着想象中的棋局下得越来越多，那些看起来不错的落子方案的分数就会越来越高，而这些落子方案越是有前途，就会被更多的选中进行推演，于是最有“前途”的落子方法就会“涌现”出来。最后，Coulum在想象中下完10万盘棋之后，选择他推演过次数最多的那个方案落子，而这时，Coulum才真正下了第一步棋。

蒙特卡洛搜索树华丽转身为相当深刻的方法，可以看到它有两个很有意思的特点： 1）没有任何人工的feature，完全依靠规则本身，通过不断想象自对弈来提高能力。这和深蓝战胜卡斯帕罗夫完全不同，深蓝包含了很多人工设计的规则。MCTS靠的是一种类似遗传算法的自我进化，让靠谱的方法自我涌现出来。让我想起了卡尔文在《大脑如何思维》中说的思维的达尔文主义[6]。 2）MCTS可以连续运行，在对手思考对策的同时自己也可以思考对策。Coulum下完第一步之后，完全不必要停下，可以继续进行想象中的对弈，直到对手落子。Coulum随后从对手落子之后的状态开始计算，但是之前的想象中的对弈完全可以保留，因为对手的落子完全可能出现在之前想象中的对弈中，所以之前的计算是有用的。这就像人在进行对弈的时候，可以不断思考，不会因为等待对手行动而中断。这一点Coulum的程序非常像人，酷毙了。但黄士杰很快意识到他老师的程序仍然有局限：初始策略太简单。我们需要更高效地扔骰子。如何更高效的扔骰子呢？用P_human()来扔。

如果某一步被随机到很多次，就应该主要依据模拟得到的概率而非P_human。所以P_human的初始分会被打个折扣：

这样就既可以用P_human快速定位比较好的落子方案，又给了其他位置一定的概率。看起来很美，然后实际操作中却发现：“然并卵”。因为，P_human()计算太慢了。一次P_human()计算需要3ms，相对于原来随机扔骰子不到1us，慢了3000倍。如果不能快速模拟对局，就找不到妙招，棋力就不能提高。所以，黄士杰训练了一个简化版的P_human_fast()，把神经网络层数、输入特征都减少，耗时下降到了2us，基本满足了要求。先以P_human()来开局，走前面大概20多步，后面再使用P_human_fast()快速走到最后。兼顾了准确度和效率。这样便综合了深度神经网络和MCTS两种方案，此时黄士杰的围棋程序已经可以战胜所有其他电脑，虽然距离人类职业选手仍有不小的差距，但他在2015年那篇论文的最后部分信心满满的表示：“我们围棋软件所使用的神经网络和蒙特卡洛方法都可以随着训练集的增长和计算力的加强（比如增加CPU数）而同步增强，我们正前进在正确的道路上。” 看样子，下一步的突破很快就将到来。同年2月，黄士杰在Deepmind的同事在顶级学术期刊nature上发表了“用神经网络打游戏”的文章[2]。这篇神作，为进一步提高MCTS的棋力，指明了前进的新方向：

红白机很多人小时候都玩过，你能都打通吗？黄士杰的同事通过“强化学习”方法训练的程序在类似红白机的游戏机上打通了200多个游戏，大多数得分都比人类还好。

“强化学习”是一类机器学习方法，Agent通过和环境s的交互，选择下一步的动作a，这个动作会影响环境s，给Agent一个reward，Agent然后继续和环境交互。游戏结束的时候，Agent得到一个最后总分r。这时我们把之前的环境状态s、动作a匹配起来就得到了一系列<s,a>，设定目标为最后的总得分r，我们可以训练一个神经网络去拟合在状态s下，做动作a的总得分。下一次玩游戏的时候，我们就可以根据当前状态s，去选择最后总得分最大的动作a。通过不断玩游戏，我们对<s,a>下总得分的估计就会越来越准确，游戏也玩儿得越来越好。打砖块游戏有一个秘诀：把球打到墙的后面去，球就会自己反弹得分。强化学习的程序在玩了600盘以后，学到这个秘诀：球快要把墙打穿的时候评价函数v的分值就会急剧上升。

机器学习的开山鼻祖Samuel早在1967年就用自对弈的方法来学习国际跳棋[7]，而之前的蒙特卡洛搜索树也是一个自对弈的过程。但是现在黄士杰不仅有一个从人类对弈中学习出的P_human这样一个高起点，而且有一个神经网络可以从对弈样本中学习，有理由相信这次会有更好的结果。

黄士杰准备在MCTS框架之上融合局面评估函数v()。这次还是用P_human作为初始分开局，每局选择分数最高的方案落子，下到第L步之后，改用P_human_fast把剩下的棋局走完，同时调用v(SL)，评估局面的获胜概率。然后按照如下规则更新整个树的分数：

前两项和原来一样，如果待更新的节点就是叶子节点，那局面评估分就是v(SL)。如果是待更新的节点是上级节点，局面评估分是该节点所有叶子节点v()的平均值。如果v()表示大局观，“P_human_fast模拟对局”表示快速验算，那么上面的方法就是大局观和快速模拟验算并重。如果你不服，非要做一个0.5: 0.5之外的权重，黄士杰团队已经实验了目前的程序对阵其他权重有95%的胜率。以上，便是阿尔法狗的庐山真面目。

上图演示了阿尔法狗和樊麾对弈时的计算过程，阿尔法狗执黑，红圈是阿尔法狗实际落子的地方。1、2、3和后面的数字表示他想象中的之后双方下一步落子的地方。白色方框是樊麾的实际落子。在复盘时，樊麾觉得位置1的走法更好。深度学习、蒙特卡洛搜索树，自我进化三招齐出，所有其他围棋ai都毫无还手之力。99%的胜率不说，“阿尔法狗”还可以在让四子的情况下以77%的胜率击败crazystone。“阿尔法狗”利用超过170个GPU，粗略估算超过800万核并行计算，不仅有前期训练过程中模仿人类，自我对弈不断进化，还有实战时的模拟对局可以实时进化，已经把现有方法发挥到了极限，是目前人工智能领域绝对的巅峰之作。

围棋是NP-hard问题，如果用一个原子来存储围棋可能的状态，把全宇宙的原子加起来都不够储存所有的状态。于是我们把这样的问题转换为寻找一个函数P，当状态为S时，计算最优的落子方案a = P(s)。我们看到，无论是“狂拽酷炫”的深度学习，还是“大智若愚”的MCTS，都是对P(s)的越来越精确的估计，但即使引入了“左右互搏”来强化学习，黄士杰和团队仍然做了大量的细节工作。所以只有一步一个脚印，面对挑战不断拆解，用耐心与细心，还有辛勤的汗水，才能取得一点又一点的进步，而这些进步积累在一起，终于让计算机达到并超过了人类职业选手的水平。

蒙特卡洛树是什么算法

蒙特卡罗树搜索(MCTS)会逐渐的建立一颗不对称的树。可以分为四步并反复迭代：(1)选择从根节点，也就是要做决策的局面R出发向下选择一个最急迫需要被拓展的节点T；局面R是第一个被检查的节点，被检查的节点如果存在一个没有被评价过的招式m，那么被检查的节点在执行m后得到的新局面就是我们所需要展开的T；如果被检查的局面所有可行的招式已经都被评价过了，那么利用ucb公式得到一个拥有最大ucb值的可行招式，并且对这个招式产生的新局面再次进行检查；如果被检查的局面是一个游戏已经结束的游戏局面，那么直接执行步骤4；通过反复的进行检查，最终得到一个在树的最底层的最后一次被检查的局面c和它的一个没有被评价过的招式m，执行步骤2。 (2)拓展对于此时存在于内存中的局面c，添加一个它的子节点。这个子节点由局面c执行招式m而得到，也就是T。 (3)模拟从局面T出发，双方开始随机的落子。最终得到一个结果(win/lost)，以此更新T节点的胜利率。 (4)反向传播在T模拟结束之后，它的父节点c以及其所有的祖先节点依次更新胜利率。一个节点的胜利率为这个节点所有的子节点的平均胜利率。并从T开始，一直反向传播到根节点R，因此路径上所有的节点的胜利率都会被更新。

阿尔法狗核心算法是什么

阿尔法狗的核心算法主要是基于深度学习的神经网络，包括卷积神经网络（CNN）和循环神经网络（RNN）的变种。这些神经网络被训练来模拟人类棋手的策略，以在围棋游戏中进行预测和决策。

具体来说，阿尔法狗使用了一种称为“蒙特卡罗树搜索”（MCTS）的算法，该算法结合了深度学习和人工智能技术，以在复杂游戏中进行搜索和决策。MCTS通过模拟人类棋手的思考过程，逐步构建出一种近似最优解的策略。

在神经网络方面，阿尔法狗使用了多个卷积神经网络（CNN）和循环神经网络（RNN）的变种，这些网络能够从大量数据中学习并模拟人类棋手的决策过程。通过深度学习技术，阿尔法狗可以理解围棋游戏的规则和复杂度，从而更好地进行决策和预测。

在算法上，阿尔法狗使用了“策略网络”（Policy Net）和“值网络”（Value Net）两种神经网络。策略网络负责预测下一步棋子移动后的对局结果和对手的下一步行动，而值网络则负责评估当前局势下的最优棋步。这两者相互协作，共同完成了阿尔法狗的核心算法。

此外，阿尔法狗还采用了“深度残差学习”（Deep Residual Learning）的技术，通过这种方法，神经网络可以更快地学习和优化，从而提高决策速度和准确性。

总的来说，阿尔法狗通过模拟人类棋手的决策过程，利用深度学习的神经网络和蒙特卡罗树搜索算法的结合，实现了在围棋游戏中的卓越表现。

若对本页面资源感兴趣，请点击下方或右方图片，注册登录后

搜索本页相关的【资源名】【软件名】【功能词】或有关的关键词，即可找到您想要的资源

如有其他疑问，请咨询右下角【在线客服】，谢谢支持！

发表评论

评论列表

这篇文章还没有收到评论，赶紧来抢沙发吧~

【易客吧】_全网激活码总代_激活码商城

热门资讯

mcts算法加快 (mcts算法原理)

【转载】AlphaGo原理解析

蒙特卡洛树是什么算法

阿尔法狗核心算法是什么

mcts算法知乎 (mcts算法原理)

linuxrpm安装 (linux如何切换到root)

相关文章

发表评论

评论列表

热门资讯

mcts算法 加快 (mcts算法原理)

【转载】AlphaGo原理解析

蒙特卡洛树是什么算法

阿尔法狗核心算法是什么

mcts算法知乎 (mcts算法原理)

linuxrpm安装 (linux如何切换到root)

相关文章

发表评论

评论列表

mcts算法加快 (mcts算法原理)