阿爾法狗零反對上帝
他根本沒有學(xué)會人類象棋圖。經(jīng)過72個小時(即3天)的純自學(xué),他超越了2016年3月?lián)魯±钍瘞煹腁lphaGo Lee版本,并在100,333,600次21天的成功后,于2016年底超越了60,333,600次擊敗所有人類大師的AlphaGo Master版本,并于2017年5月3333,600次擊敗了柯杰。89:11的記錄在第40天超過了所有其他的阿爾法圍棋版本,成為了最強的圍棋玩家。最令人震驚的是,阿爾法零號僅僅依靠自學(xué),在3天內(nèi)就達到了頂級人類玩家的水平。正如之前關(guān)于人工智能和搜索引擎優(yōu)化的帖子中提到的,阿爾法戈在學(xué)習(xí)了大量人類歷史象棋游戲后,開始了大量的自我競爭。這一次阿爾法零號根本沒有學(xué)習(xí)人類象棋。它從零開始是一個自我匹配,在3天內(nèi)完成了490萬套自我匹配,達到了阿爾法戈李版的水平。
下圖顯示了AlphaGo Zero的水平增長曲線:
可以看出,該水平在3天內(nèi)實現(xiàn)了跨越式增長,然后趨于平穩(wěn),但仍在增長。
以前的AlphaGo達到了AlphaGo主版本的水平。在行走了一年多之后,它大致是按“月”來計時的,而AlphaGo Zero的進度是按“日”甚至“小時”來計時的。現(xiàn)在看來,AlphaGo花了這么長時間的原因可能是它被人類誤導(dǎo)了,被人類歷史象棋游戲誤導(dǎo)了,被人類的知識和思維限制了。阿爾法零號完全拋棄了現(xiàn)有的人類知識,不受人類知識的限制。他是一個自由戰(zhàn)士,能夠不受約束地真正找到最優(yōu)解。
既然我們已經(jīng)放棄了圍棋知識,我們一定是隨機或愚蠢地開始了我們的游戲。AlphaGo Games已經(jīng)在這個網(wǎng)站上發(fā)布了許多實際的象棋游戲。那些感興趣的人可以研究它,并且有許多有趣的地方。最初的AlphaGo Zero自我匹配的確很混亂,但很快發(fā)現(xiàn)人類也掌握了大視野、布局、關(guān)閉等知識。但有些東西后來被掌握了,比如綜合癥。
聶衛(wèi)平和柯杰都說,看了《阿爾法戈》后,我們發(fā)現(xiàn)很多人對《戈》有錯誤的理解。在某種程度上,阿爾法零號沒有歷史包袱,沒有輸贏的心理包袱,也沒有人類思維的限制。它對圍棋的探索是自由和無限的,其目標是全局最優(yōu)解。因此,它的方法很可能最終是正確的。
可以安慰人類的是,阿爾法零號的自由探索結(jié)果表明,人類幾千年來的一些研究和探索是錯誤的,但總的來說沒有令人發(fā)指的錯誤。AlphaGo Zero從一張白紙開始,最終收斂到與人類相似的方向。例如,它證實了一些人類的刻板印象是正確的,在一段時間的鬼混之后,阿爾法零號也是如此。
有點矛盾的是,阿爾法零號的訓(xùn)練方法有點像回到一個徹底的暴力算法,走完所有的可能性,看看哪一個會贏。根據(jù)計算,圍棋的所有可能的移動都超過了宇宙中的原子數(shù)量,所以阿爾法圍棋零分的樣本數(shù)量一定是非常小的比例。
但是正是這個微小的樣本讓阿爾法零號達到了這個水平。下面的問題是,在人工智能中,大數(shù)據(jù)更重要還是模型更重要?在AlphaGo Zero出現(xiàn)之前,人工智能在過去兩年的快速發(fā)展歸功于獲取大量數(shù)據(jù)是關(guān)鍵這一事實。所有取得重大進展的領(lǐng)域都是由于數(shù)據(jù)的可用性,包括語音、文本、圖像、視頻、醫(yī)療和自動駕駛。
現(xiàn)在阿爾法零號不需要現(xiàn)有的數(shù)據(jù)。給它規(guī)則和模型,它會自己推動一切。這是關(guān)于創(chuàng)造嗎?它能移植到其他領(lǐng)域成為一般智能嗎?思考有點可怕。
谷歌之所以偉大(至少到目前為止)是因為其他人認為它已經(jīng)取得了巨大的成就,當(dāng)其他人忙于贊美和跟進時,它經(jīng)常毫不猶豫地推翻現(xiàn)有的東西,并以另一種方式取得更驚人的成就。
在過去的一年里,我參加了搜索引擎優(yōu)化行業(yè)會議,我演講的主題是人工智能。作為一名搜索引擎優(yōu)化人員,我如此關(guān)注人工智能的原因是我不知道什么時候同樣的智能會被用于搜索算法。如果有一天人工智能顯示當(dāng)前的搜索算法在判斷內(nèi)容質(zhì)量上是錯誤的,權(quán)威方法是錯誤的,垃圾鏈接方法是錯誤的,人工智能有正確的方法,并且排名算法相應(yīng)地改變,那么我們以前使用的搜索引擎優(yōu)化方法仍然適用嗎?