人民網
人民網>>傳媒

圍棋人機對弈五十年:初代人工智能是中國人發明

2017年05月24日07:36 | 來源:北京日報
小字號
原標題:圍棋人機對弈五十年

  新聞背景

  AlphaGo2.0來到中國, “人機大戰第二季”激戰正酣。

  但事實上,AlphaGo已經是圍棋人工智能的第三代。在開發圍棋人工智能的道路上,人類已經艱難地探索了將近五十年。

  第一代圍棋人工智能是中國教授發明

  圍棋的英譯名Go是日語的發音譯來的,圍棋在日語裡寫成“碁”(即Go的發音),把圍棋譯成Go或者The game of go大概是最蹩腳的翻譯了,尤其是在互聯網時代,把圍棋譯成Go非常不利於圍棋的推廣,但AlphaGo的出現或能改變這個事實。

  棋類游戲是對人類智能的挑戰,自然也成了人工智能的標志之一。而圍棋一直被認為是人工智能領域裡的非常困難的挑戰。二戰還沒結束,圖靈就研究計算機下棋,他於1947年編了第一個國際象棋下棋程序,但直到1968年,最早的電腦圍棋程序才被編寫出來。它是由阿爾伯特·索伯特開發的,引入了一個評估函數對棋局進行分析,來估算雙方佔空的大小。然而,在相當長的一段時間裡,業界的普遍觀點是電腦圍棋隻能達到業余棋手的水准。

  真正意義上的第一代圍棋AI(人工智能)——“手談”,是由已故中山大學化學系教授陳志行研發的圍棋程序,從1993年到2002年共10次獲得電腦圍棋世界冠軍,而“手談”這個名字也是圍棋除“弈”之外的別稱。

  陳志行教授原本研究的是量子化學,但同時也是圍棋業余高手。在1991年退休后,他才開始潛心研發電腦圍棋軟件,雖然當時的電腦軟件技術水平還非常低,而圍棋棋盤大(19×19,一共有361點),空間狀態多,打劫、終局規則復雜,一般程序員至少需要設計一兩年才可能讓電腦學會下圍棋。但量子化學專業出身的陳志行,使用速度快但不太常用的匯編程序語言搭建圍棋框架和編寫圍棋對弈引擎,他潛心編寫的“Alpha-Beta搜索引擎”速度非常快,在當時領先其他同行幾個數量級,達到了13層搜索深度,也就是說“手談”可以算清后面的13步棋,而其他程序通常隻能算七八步。陳志行編寫的“模式識別”專家系統在當時也是無人能及。

  陳志行潛心研發“手談”3年后,終於在世界比賽中斬獲首個圍棋人工智能世界冠軍。當時的“手談”以戰斗力超強著稱,智能水平遙遙領先國際同行。之后“手談”對弈水平不斷進步,在國際性的電腦圍棋對弈比賽上連續奪冠,奪得了該時期大部分世界比賽的冠軍。

  當時個人電腦系統剛在世界范圍內普及,許多圍棋愛好者還專門購買電腦安裝“手談”軟件,用作學習圍棋和訓練的工具,“手談”軟件在世界范圍內銷售量排名第一。可以說,“手談”軟件的成功在國內掀起了一波圍棋人工智能研究的熱潮。

  “蒙特卡洛樹”算法開啟二代圍棋人工智能

  當如IBM深藍那樣的超級電腦,已經能夠擊敗世界上最好的國際象棋棋手時,圍棋軟件卻仍然無法擊敗業余圍棋高手。

  但是,從2006年開始,隨著應用蒙特卡洛方法的樹搜索即蒙特卡洛樹搜索和機器學習在圍棋上的應用,電腦圍棋水平有了突飛猛進的增長,棋力普遍提升到業余高段的水准。

  圍棋的棋子多,組合可能性也多。蒙特卡洛算法是一種基於“隨機數”的計算方法,這一方法源於美國在二戰中研制原子彈的“曼哈頓計劃”。頻率決定概率,圍棋對弈軟件將最常見的對弈定式及棋形輸入其中,從而達到較短時間提高棋力的功效。用通俗的語言解釋這種算法:“簡單來說,人腦下圍棋靠的是邏輯思維,而蒙特卡洛算法就是一個抽樣調查的方法。其實就是一個賭博概率式的方法,如果電腦下100盤棋,用這種下法贏了60盤,用另一種下法隻贏了50盤,那麼,它就會認定第一種下法,而淘汰另一種下法。”

  蒙特卡洛樹搜索算法的出現,可以看作是人工智能取得突破性進展的標志:計算機的思考方式,已經有點接近人類的思維方式了。目前使用蒙特卡洛樹搜索的圍棋對弈軟件有瘋石圍棋(CrazyStone)、銀星圍棋(SilverStar)、天頂圍棋(ZEN)等,都取得了不錯的成績。

  2011年8月歐洲圍棋大會,電腦圍棋軟件ZEN在19路盤上被讓五子擊敗日本職業棋手林耕三六段。2012年3月,ZEN被讓四子擊敗了日本超一流棋手武宮正樹九段,這是圍棋程序首次在被讓四子的情況下戰勝第一流職業選手。2013年,CrazyStone被讓四子擊敗日本石田芳夫九段,2014年,CrazyStone被讓四子擊敗日本依田紀基九段。可見圍棋軟件進步迅速,至少比起十年前對弈水平已經提高一大截,受讓四子優勢明顯。

  2015年10月,同樣基於蒙特卡洛樹搜索的Google旗下人工智能公司DeepMind開發的AlphaGo,在沒有任何讓子的情況下,以五戰全勝的成績擊敗了歐洲圍棋冠軍、職業圍棋二段樊麾,這也是電腦圍棋程序首次擊敗圍棋職業棋手,當然也意味著圍棋AI新時代的來臨。

  AlphaGo、絕藝以及人機協作

  圍棋AI之難,難在這項運動本身的多重復雜性——“最簡單的規則,最復雜的變化”。在AlphaGo及其開發團隊DeepMind出現之前,幾乎所有研究者都認為在十年內人工智能戰勝圍棋大師的機會是渺茫的。而在它出現以后,幾乎所有人都在驚呼人工智能已破解了圍棋這一歷史難題,甚至在極短的時間內兩次讓研究成果上了《自然》雜志的封面。

  據AlphaGo官方介紹,AlphaGo採用了一種更加“通用”的人工智能方法,即採用將改進的蒙特卡洛決策樹算法與深度神經網絡算法相結合的方法構建最終的學習系統。其包括兩個部分:策略網絡與價值網絡。策略網絡在當前給定的棋局中,負責預測下一步的走棋,並對下一步走棋的好壞進行打分,策略網絡的作用好比“模仿”人類棋手的各種走法,以達到預測的效果。然而僅憑模仿無法擊敗最頂級的人類高手,AlphaGo又增加了價值網絡來判斷當前的局面到底對哪一方有利,但圍棋程序的局勢評估相當困難,隻能通過深度學習網絡之間自我訓練的方法來達到良好的效果。

  2016年3月,AlphaGo以4:1戰勝世界圍棋名將李世石,AlphaGo的實力首次被世人真正認可。AlphaGo 2.0版本的升級亮點是——摒棄人類棋譜,即僅通過監督學習和強化學習,再度進化出新的“圍棋機器人”。

  事實上,除了AlphaGo,現在還有其他圍棋AI程序也已被証明達到甚至超過了人類棋手的一流水平,比如騰訊AI Lab(騰訊人工智能實驗室)研發的圍棋人工智能程序“絕藝”(Fine Art),它在今年首次參加UEC杯計算機圍棋大賽,就以11連勝奪得了本屆UEC杯冠軍,在隨后的人機大戰中完勝日本先鋒棋手一力遼。

  AI作為工具,被人類棋手“喂招”不斷進化后,它也能“反哺”人類,棋手使用圍棋AI開展人機協同,AI為人類棋手“蓄力”,1+1>2的進化成為了新看點。隨著數據量的高速增長,AI可以分析總結、自我學習,人則可以通過善用AI、人機協作,開啟智慧時代,改變現在以及未來的一切。

  (姜姝姝 作者為《機器人產業》雜志副總編)

(責編:宋心蕊、趙光霞)

分享讓更多人看到

傳媒推薦
  • @媒體人,新聞報道別任性
  • 網站運營者 這些"紅線"不能踩!
  • 一圖縱覽中國網絡視聽行業
返回頂部