分卷閱讀94(1 / 2)

天才棋士 o白野o 1248 字 2021-04-09

為計算機的強大之處在龐大的計算能力,但是alphago完全顛覆了他的觀念。alphago不是強算出來的,alphago真的懂棋。比如說有一局序盤,它選擇了日本棋手穩扎穩打的布局風格;有一局在對方糾纏不清的情況下選擇脫先,棄小角而爭腹地……這些在從前都是無法可想的。alphago怎么可能學會人類的棋感與全局觀呢?

看來,魏柯的人類衛冕之戰,並不好打。

果不其然,第二天,烏鎮傳來消息,第一局以魏柯慘敗告終。魏柯以非常保守的下法,與alphago進行接觸式作戰,結果被alphago在中後盤吊打。要知道,中後盤原本是魏柯的主場。他的攪功和官子功夫曾讓他無數次轉危為安,而這兩者靠的都是計算力。比照一秒可以進行上億次計算的alphago,魏柯自然沒有任何勝算。

消息傳到中國棋院的時候,所有人都像是霜打了個茄子似的。唇亡齒寒,兔死狐悲,這下連羅爽也高興不起來。只有謝榆一人默默坐在研究室里,快速翻看著幾個g的資料,時不時瀏覽群里的聊天記錄。他委托中國棋院發動了一切可以調動的資源和人脈,四處搜集alphago的信息,然後與計算機領域的大牛們討論分析。可以說,今天的結果,他完全已經預料到了。

按照傳統,計算機的長處應該在計算。而圍棋,恰恰是不可能被暴力計算的領域。圍棋的很多概念都無法被量化,厚薄、爭先、取勢……這種東西,電腦怎么去理解?!謝榆的本職是個碼農,雖然不務正業,但憑他對計算機和圍棋兩個領域的了解,他曾經嘗試過圍棋ai的編碼,所以他非常清楚這些概念是無法被量化的。此前出現的ai也一直印證著他的猜想,直到alphago。

他敢肯定,alphago的計算方式產生了相當大的變化!alphago不是以計算機的慣性在運行,它完全是人腦的思維方式!

「他們在蒙特卡洛樹搜索上加裝了什么?」謝榆一目十行地掃過屏幕上的代碼。

蒙特卡洛樹搜索,是圍棋ai的基本解決框架。圍棋ai每一步都選擇若干種落子,然後在電腦中模擬到終局,進行數子,最終選擇勝率最高的那一步棋。因為計算量太大,ai只能給出一個近似最優解,並非全枚舉,在alphago之前ai因此也只能達到業余五級的水准。

這依舊是一個計算的范疇,而職業棋士很多時候並不是單靠計算做出判斷,像之前所說的全局觀念,就是蒙特卡洛樹搜索無法解決的問題。要讓ai發揮出人腦的效果,到底靠的什么?

當天晚上,謝榆從美國的某個計算機大牛那里,獲知了他想要的答案。

alphago團隊在蒙特卡洛樹搜索上加裝了策略網絡和價值網絡兩個模塊。

這兩個模塊讓alphago不是單純地計算,而是深度學習、模仿人類!

策略網絡,顧名思義是決策下一步走子。alphago會檢索kcs圍棋服務器上所有真人在線對弈,進而判斷:如果是人類棋手處於它當前的位置,他最有可能走哪一步?它只對那些解進行計算!然後,它就自我對弈上千萬局,看看這一步是否真的是最優解!

遵循策略網絡,蒙特卡洛樹搜索的樹寬將大量減少,但深度依舊存在。上千萬局博弈,每一局都走到最後,依舊是可怕的計算量。

計算深度的減少用上了價值網絡。它以alphago產生的大量自我博弈作為樣本,檢索這種棋形在歷史上的勝率,把好壞、優劣變成了一個概率問題!那么每一回,alphago計算到一定深度就可以停下來,直接估算當前勝率!

經驗的本質是概率,從本質上來說,以概率判斷局面的alphago,就是以「經驗判斷現狀」的人類大腦運行模式!alphago的走子,也完全遵循了人類棋手的思維歷程大量背譜,吸取經驗,自我思考,判斷局勢……然後估算其後若干步的棋局導向!