欧美人成视频在线视频,办公室黑色丝袜在线观看

人機(jī)對(duì)戰(zhàn)無(wú)疑是4月10日的新聞焦點(diǎn)之一。一邊在海南澄邁，德州撲克人工智能“冷撲大師”（Libratus）經(jīng)過(guò)5日激戰(zhàn)，在33000手一對(duì)一無(wú)限注德?lián)浔荣愔型陝僦袊?guó)“龍之隊(duì)”的6名高手，斬獲200萬(wàn)人民幣獎(jiǎng)金；另一邊在北京的中國(guó)棋院，谷歌宣布被中國(guó)網(wǎng)民稱為“阿爾法狗”的圍棋人工智能AlphaGo將在5月下旬的烏鎮(zhèn)對(duì)陣柯潔領(lǐng)銜的中國(guó)頂尖棋手，上演終極一戰(zhàn)。

一南一北，一牌一棋，兩則人機(jī)對(duì)戰(zhàn)重磅消息在同一天出爐，雖然未必是有意針?shù)h相對(duì)，但也足夠令無(wú)心的觀眾相互比較。有些讀者認(rèn)為，連圍棋這樣高深的智力運(yùn)動(dòng)都早已被阿爾法狗拿下，撲克這樣門檻低、上手簡(jiǎn)單的大眾娛樂(lè)又何足掛齒呢？但反方則指出，撲克不是單純靠計(jì)算的游戲，牽扯到很多心理上的博弈，有時(shí)甚至需要“飆演技”，AI能掌握這類游戲有些匪夷所思。

那么，德?lián)浜蛧暹@兩種智力游戲，對(duì)AI來(lái)說(shuō)到底有什么區(qū)別？哪個(gè)難度更大一些？針對(duì)這些問(wèn)題，澎湃新聞（www.thepaper.cn）就冷撲大師和阿爾法狗的相關(guān)資料進(jìn)行了梳理與比較。

德?lián)銩I之父：贏不贏柯潔，阿爾法狗都缺乏實(shí)際用處

托馬斯桑德霍姆（Tuomas Sandholm）資料圖

不過(guò)，冷撲大師的開(kāi)發(fā)者、美國(guó)卡內(nèi)基梅隆大學(xué)（CMU）計(jì)算機(jī)系教授托馬斯桑德霍姆（Tuomas Sandholm）在聽(tīng)到阿爾法狗將來(lái)華挑戰(zhàn)的消息后，評(píng)價(jià)非常的簡(jiǎn)單：?jiǎn)栴}的關(guān)鍵并不在于中國(guó)頂尖棋手能不能贏，而在于生活中幾乎不存在像圍棋這樣的“完美信息游戲”，因而阿爾法狗也缺乏實(shí)用場(chǎng)景。

圍棋和德?lián)鋵?duì)于AI來(lái)說(shuō)，性質(zhì)是不是一樣的？

自1988年CMU開(kāi)發(fā)的“奧賽羅”程序擊敗世界黑白棋冠軍以來(lái)，人類就在棋類游戲上節(jié)節(jié)敗退。1997年，IBM的計(jì)算機(jī)“深藍(lán)”擊敗了國(guó)際象棋棋壇神話卡斯帕羅夫，使人機(jī)對(duì)戰(zhàn)在當(dāng)時(shí)達(dá)到了輿論高峰，其影響力絕不亞于去年阿爾法狗擊敗韓國(guó)棋手李世石。

計(jì)算機(jī)程序攻克這些棋類游戲的方法在本質(zhì)上是一樣的：搜索。下每一步棋都是一個(gè)決策點(diǎn)，在決策點(diǎn)上分化出不同的可能性，而整盤棋也就形成了一棵不停分叉的決策樹(shù)。而計(jì)算機(jī)所做的，就是在每一個(gè)決策點(diǎn)上搜索勝率最大的那條路徑。

因而難度主要取決于決策點(diǎn)的數(shù)量。決策點(diǎn)越多，搜索難度自然越大。黑白棋的搜索量只有10的十幾次方，國(guó)際象棋是10的四十幾次方，而圍棋的搜索量達(dá)到了驚人的10的170次方。

不過(guò)，也正因?yàn)閲宓乃阉髁刻?，完全精確的結(jié)果是不可能得到的。因而，阿爾法狗在蒙特卡洛樹(shù)搜索算法（Monte Carlo Tree Search）的基礎(chǔ)上，結(jié)合走棋網(wǎng)絡(luò)（Policy Network）、快速走子（Fast rollout）和價(jià)值網(wǎng)絡(luò)（Value Network）進(jìn)行預(yù)測(cè)和評(píng)估，得到盡可能接近最優(yōu)的解。雖然阿爾法狗這個(gè)過(guò)程中做出了巨大突破，但它本質(zhì)上還是在搜索。

德州撲克與棋類完全不同。圍棋是一種“完美信息游戲”，場(chǎng)面上所有的情況都黑白分明地?cái)[在棋面上，雙方掌握對(duì)等的信息。然而，德?lián)渲须[藏了很多信息，是一種“非完美信息游戲”。玩家不知道對(duì)手手中是什么牌，不知道五張公共牌會(huì)開(kāi)出怎樣的結(jié)果，也不知道對(duì)手猜測(cè)自己握有怎樣的手牌。

因此，雖然一盤德?lián)涞臎Q策點(diǎn)數(shù)量是10的160次方，要少于圍棋，但光靠搜索是打不了德?lián)涞?。德?lián)溆纱颂隽嗽谒阉髁可系妮^量，對(duì)AI提出了另一個(gè)方向上的考驗(yàn)：應(yīng)對(duì)隱藏的信息。

阿爾法狗和冷撲大師的原理有何不同？

谷歌曾在《自然》雜志上發(fā)表文章，公布阿爾法狗的幾個(gè)基本原理，分別為：走棋網(wǎng)絡(luò)（Policy Network），給定當(dāng)前局面，預(yù)測(cè)和采樣下一步的走棋；快速走子（Fast rollout），在適當(dāng)犧牲走棋質(zhì)量的條件下提高速度；價(jià)值網(wǎng)絡(luò)（Value Network），給定當(dāng)前局面，估計(jì)雙方勝率；蒙特卡羅樹(shù)搜索（Monte Carlo Tree Search，MCTS)，把以上三個(gè)部分串聯(lián)成一個(gè)完整的系統(tǒng)。

冷撲大師的算法則主要基于以下三個(gè)模塊產(chǎn)生：

首先，納什均衡是德?lián)渌惴ǖ暮诵模碅I的目標(biāo)是找到一個(gè)無(wú)論對(duì)方怎么做，自己都不會(huì)產(chǎn)生損失的策略。根據(jù)博弈論，像一對(duì)一撲克這種零和游戲永遠(yuǎn)存在這樣的最優(yōu)解，就像在經(jīng)典的博弈論模型“囚徒困境”中，招認(rèn)罪行就是一個(gè)無(wú)論對(duì)方招認(rèn)不招認(rèn)都最優(yōu)的策略。因此，冷撲大師的開(kāi)發(fā)團(tuán)隊(duì)提前在龐大的決策樹(shù)上利用虛擬遺憾最小化算法（Counterfactual Regret Minimization,CFR）推算出了均衡，即通過(guò)多次迭代計(jì)算博弈樹(shù)中每個(gè)信息集的動(dòng)作遺憾值和平均策略值,預(yù)測(cè)下一時(shí)刻的決策動(dòng)作,使其是當(dāng)前最小遺憾動(dòng)作。

此外，冷撲大師還有殘局解算器（end-game solver）和自我強(qiáng)化學(xué)習(xí)這兩個(gè)模塊來(lái)輔助第一個(gè)模塊。殘局解算器會(huì)在殘局時(shí)實(shí)時(shí)評(píng)估場(chǎng)上的情況，以判斷第一模塊中算出的納什均衡是否符合實(shí)時(shí)情況。而自我強(qiáng)化學(xué)習(xí)會(huì)反思AI在比賽中的表現(xiàn)，找出曾被人類利用過(guò)的“套路”，清除這些可循的痕跡。

總體來(lái)說(shuō)，阿爾法狗和冷撲大師的算法有三大明顯不同。

第一，阿爾法狗的訓(xùn)練過(guò)程中用到了大量數(shù)據(jù)的深度學(xué)習(xí)，即通過(guò)大量給定的輸入和輸出形成穩(wěn)定的處理。但計(jì)算機(jī)的處理過(guò)程本身是一個(gè)黑匣子。而冷撲大師沒(méi)有用到時(shí)髦的深度學(xué)習(xí)，而是通過(guò)傳統(tǒng)的線性規(guī)劃提前算出納什均衡，是一個(gè)“老式但好用的人工智能”（Good Old-Fashioned Artificial Intelligence）。

第二，阿爾法狗在深度學(xué)習(xí)過(guò)程中參考了數(shù)千萬(wàn)張人類棋譜，可以說(shuō)是靠模仿人類高手起步的。雖然阿爾法狗也運(yùn)用到了一些自我強(qiáng)化學(xué)習(xí)，但比重并不大。而冷撲大師完全是通過(guò)自我強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練的。開(kāi)發(fā)者從未教給它人類打牌的方法，只是向它描述了德?lián)涞囊?guī)則，由它“左右互搏”，摸索出德?lián)鋺?yīng)該怎么玩。因而，冷撲大師的打法完全脫離了人類經(jīng)驗(yàn)。值得注意的是，即將與柯潔在烏鎮(zhèn)對(duì)戰(zhàn)的阿爾法狗2.0將擯棄人類棋譜，完全采用一套自我摸索出來(lái)的下法。

第三，雖然阿爾法狗和冷撲大師都特別喜歡殘局階段下殺招，但它們的難度不一樣。圍棋下到殘局，可走的招數(shù)越來(lái)越少，計(jì)算量也越來(lái)越簡(jiǎn)單；而德?lián)溟_(kāi)到轉(zhuǎn)牌和河牌時(shí)，可能性更多，局面變得更為復(fù)雜。因此，冷撲大師經(jīng)常在轉(zhuǎn)牌階段做出長(zhǎng)時(shí)間的停頓。

阿爾法狗和冷撲大師哪個(gè)更有用？

在冷撲大師的開(kāi)發(fā)者、美國(guó)卡內(nèi)基梅隆大學(xué)（CMU）計(jì)算機(jī)系教授托馬斯桑德霍姆（Tuomas Sandholm）和其博士生諾姆布朗（Noam Brown）看來(lái)，這個(gè)問(wèn)題的答案十分明顯。在現(xiàn)實(shí)生活中，幾乎不存在像圍棋這樣給出所有信息的完美情境，因而像阿爾法狗這樣的算法也很難直接派上用場(chǎng)。

在現(xiàn)實(shí)生活中，我們遇到的事情會(huì)更像玩德?lián)洌荷虡I(yè)談判時(shí)對(duì)方未知的底牌、房屋拍賣時(shí)競(jìng)爭(zhēng)對(duì)手難測(cè)的舉動(dòng)、股票交易中一些隱藏的內(nèi)部消息。桑德霍姆認(rèn)為，德?lián)銩I打開(kāi)了靠人工智能解決隨機(jī)事件和隱藏信息的大門。這樣的AI，才有望離開(kāi)虛擬的棋牌世界，成為人類在現(xiàn)實(shí)生活中談判、博弈和投資的好幫手。

桑德霍姆自己就成立了一家戰(zhàn)略計(jì)算公司，希望利用人工智能解決金融上的一些戰(zhàn)略計(jì)算問(wèn)題。首先，金融交易拼的是速度，AI在量化交易上具有巨大優(yōu)勢(shì)。其次，像股票交易中經(jīng)常會(huì)存在一些隱藏的信息，AI能在交易者較少的情況下，幫助人類在隱藏的信息面前做出決策。

阿爾法狗和冷撲大師哪個(gè)更厲害？

諾姆布朗說(shuō)道，每一種游戲從計(jì)算機(jī)科學(xué)的角度來(lái)說(shuō)，都存在一些核心問(wèn)題，而掌握這個(gè)游戲的AI相當(dāng)于解決了這個(gè)核心的問(wèn)題。圍棋和德?lián)浯砹藘深愅耆煌挠螒?，阿爾法狗和冷撲大師也在朝完全不同的兩個(gè)方向探索。

只不過(guò)，圍棋在“完美信息游戲”中屬于高難度水平，因而阿爾法狗也在搜索這個(gè)核心問(wèn)題上取得了巔峰成就。而冷撲大師剛剛打開(kāi)了“非完美信息游戲”的大門，對(duì)于解決隱藏信息這個(gè)問(wèn)題來(lái)說(shuō)，德?lián)銩I只是個(gè)開(kāi)始。光就游戲而言，與德?lián)漕愃频膴W馬哈，就比德?lián)涓鼮閺?fù)雜一些。布朗說(shuō)，他們對(duì)中國(guó)的麻將略知一二，麻將也是一種充滿了隱藏信息的游戲。