
Alphago中的蒙特卡洛算法
AlphaGo使?蒙特卡洛樹搜索(MonteCarlotreearc工作中的自我評價 h),借助值?絡(valuenetwork)與策略?絡(policynetwork)這兩種深度神經?絡,通過值?絡來評估?量選點,并通過策略?絡選擇落點。
什么是MCTS?
全稱MonteCarloTreeSearch,是?種??智能問題中做出最優決策的?法,?般是在組合博妒忌什么意思 弈中的?動(move)規劃形式。它結合
了隨機模擬的?般性和樹搜索的準確性。
MCTS受到快速關注主要是由計算機圍棋程序的成功以及其潛在的在眾多難題上的應?所致。超金石之學 越博弈游戲本?,MCTS理論上可以被?
在以{狀態state,?動action}對定義和?模擬進?預測輸出結果的任何領域。
基本算法
基本的MCTS算法?常簡單:根據模擬的輸出結果,按照節點構造搜索樹。其過程可以分為下?的若?步:
搜索樹的構建過程
選擇Selection:從根節點R開始,遞歸選擇最優的?節點(后?會解釋)直到達到葉?節點L。
擴展Expansion:如果L不是?個終?節點(也就是,不會導致博弈游戲終?)那么就創建?個電腦快速關機 或者更多的字?節點,選擇其中?個C。
模擬Simulation:從C開始運??個模擬的輸出,直到博弈游戲結束。
反向傳播Backpropagation:?模擬的結果輸出更新當前?動序列。
參看Tutorial了解關于這個過程更多的信息。
每個節點并需包含兩個重要的信息:?個是根據模擬結果估計的值和該節點已經被訪問的次數。
按照最為簡單和最節約內存的實現,MCTS將在每個迭代過程中增加?個?節點。不過,要注意其實根據不同的應?這?也可以在每個迭
代過程中增加超過?個?節點。
節點選擇Bandits和UCB
在樹向下阿q范文網 遍歷時的節點選擇通過選擇最?化某個量來實現,這其實類似于Multiarmedbanditproblem,其中的參與者必須選擇?個slotmachine(bandit)來最?化每?輪的估計的收益。我們可以使?UpperConfidenceBounds(UCB)公式常常被?來計算這個:
其中v_i是節點估計的值,n_i是節點被訪問的次數,?N則是其?節點已經被訪問的總次數。C是可調整參數。
Exploitation和Exploration
UCB公式對已知收益的exploitation和?勵接觸那些相對未曾史迪仔簡筆畫 訪問的節點的exploration進?平衡。收益估計基于隨機模擬,所以節點必
須被訪問若?次來缺包估計變得更加可信;MCTS估計會在搜索的開始不?可靠,?最終會在給定充分的時間后收斂到更加可靠的估計
上,在?限時間下能夠達到最優估計。
MCTS和UCT
Kocsis和Szepervari在2006年?先構建了?個完備的MCTS算法,通過擴展UCB到minimax樹搜索,并將其命名為Upper
ConfidenceBoundsforTrees(UCT)?法。這其實是?在當前眾多MCTS實現中的算法版本。
UCT可以被描述為MCTS的?個特例:UCT=MCTS+UCB。
優點
MCTS提供了?傳統樹搜索更好的?法。
Aheuristic
MCTS不要求任何關于給定的領域策略或者具體實踐知識來做出合理的決策。這個算法可以在沒有任何關于博弈游戲除基本規則外的知識
的情況下進?有效?作;這意味著?個簡單的MCTS實現可以重?在很多的博弈游戲中,只需要進?微?的調整,所以這也使得M關于生命的作文 CTS是
對于?般的博弈游戲的很好的?法。
Asymmetric
MCTS執??種?對稱的樹的適應搜索空間拓撲結構的增長。這個算法會更頻繁地訪問更加有趣的節點,并聚焦其搜索時間在更加相關的
樹的部分。
?對稱的增長
這使得MCTS更加適合那些有著更?的分?因?的博弈游戲,?如說19X19促銷模板 的圍棋。這么?的組合空間會給標準的基于深度或者寬度的
搜索?法帶來問題,所以MCTS的適應性說導熱硅脂怎么涂 明它(最終)可以找到那些更加優化的?動,并將搜索的?作懟 聚焦在這些部分。
任何時間
算法可以在任何時間終?,并返回當前最有的估計。當前構造出來的搜索樹可以被丟棄或者供后續重?。
簡潔
缺點
MCTS有很少的缺點,不過這些缺點也可能是?常關鍵的影響因素。
?為能?
MCTS算法,根據其基本形式,在某些甚?不是很?的博弈游戲中在可承受的時間內也不能夠找到最好的?動?式。這基本上是由于組合
步的空間的全部??所致,關鍵節點并不能夠訪問?夠多的次數來給出合理的估計。
速度
MCTS搜索可能需要?夠多的迭代才能收斂到?個很好的解上,這也是更加?般的難以優化的應?上的問題。例如,最佳的圍棋程序可能
需要百萬次的交戰和領域最佳和強化才能得到專家級的?動?案,?最有的GGP實現對更加復雜的博弈游戲可能也就只要每秒鐘數?次
(領域?關的)交戰。對可承受的?動時間,這樣的GGP可能很少有時間訪問到每個合理的?動,所以這樣的情形也不?可能出現表現?
常好的搜索。
幸運的是,算法的性能可以通過?些技術顯著提升。
提升
很多種MCTS強化的技術已經出現了。這些基本上可以歸納為領域知識或者領域獨?兩?類。
領域知識
特定博弈游戲的領域知識可以?在樹上來過濾掉不合理的?動或者在模擬過程中產?重要的對局(更接近?類對?的表現)。這意味著交戰
結果將會更加的現實?不是隨機的模擬,所以節點只需要少量的迭代就能給出?個現實的收益值。
領域知識可以產?巨?的性能提升,但在速度和?般性上也會有?定的損失。
領域獨?
領域獨?強化能夠應?到所有的問題領域中。這些?般?在樹種(如AMAF),還有?些?在模擬(如在交戰時傾向于勝利的?動)。領
域獨?強化并不和特定的領域綁定,具有?般性,這也是當前研究的重?所在。
背景和歷史
1928:JohnvonNeumann的minimax定理給出了關于對?樹搜索的?法,這形成了計算機科學和??智能的從誕??今的決策制定基礎。
1940s:MonteCarlo?法形成,作為?種通過隨機采樣解決不太適合樹搜索解決的弱良定義問題的?法。
2006:RmiCoulomb和其他研究者組合了上?兩種想法給出了?個新的圍棋程序中?動規劃的觀點——MCTS。Kocsis和
Szepesvri將此觀點形式化進UCT算法。
研究興趣
從MCTS誕?后?年內,就有超過150篇與MCTS相關的研究論?發布,平均下來是每兩周?篇新的?章。這些?章中包含了?概50
個推薦的變體、強化和優化,這和傳統樹搜索?其1928年誕?開始的加強的數量也差不太多。
這個新的研究領域當前是AI中?常熱的研究話題,有很多的開放的研究問題有待發掘和解決。
MCTS:最新成果

本文發布于:2023-04-12 17:19:18,感謝您對本站的認可!
本文鏈接:http://m.newhan.cn/zhishi/a/168129115815101.html
版權聲明:本站內容均來自互聯網,僅供演示用,請勿用于商業和其他非法用途。如果侵犯了您的權益請與我們聯系,我們將在24小時內刪除。
本文word下載地址:mcts.doc
本文 PDF 下載地址:mcts.pdf
| 留言與評論(共有 0 條評論) |