[新聞] 微軟麻將AI來了，第一波人類高手已經被打爆

看板DataScience作者MartinJ40 (Martin J-40)時間6年前 (2019/08/30 19:01)推噓4(4推 0噓 1→)

留言5則, 4人參與討論串1/1

https://tw.news.yahoo.com/%E5%BE%AE%E8%BB%9F%E9%BA%BB%E5%B0%87ai%E4%BE%86%E4%BA%86%E7%AC%AC%E4%B8%80%E6%B3%A2%E4%BA%BA%E9%A1%9E%E9%AB%98%E6%89%8B%E5%B7%B2%E7%B6%93%E8%A2%AB%E6%89%93%E7%88%86-074454536.html 微軟麻將AI來了，第一波人類高手已經被打爆 2019年8月30日下午3:44 今年6月，由微軟亞洲研究院開發的麻將AI系統Suphx成為首個在國際專業麻將平台“天鳳 ”上榮升十段的AI系統，這是目前AI系統在麻將領域取得的最好成績，其實力超越該平台公開房間頂級人類選手的平均水平。今天，微軟首次對外正式披露了該項目的詳細進展，這個項目由微軟亞洲研究院副院長劉鐵岩帶隊的四人團隊組成，用時一年，成績顯著。大家可能有很多疑問，麻將AI和我們熟知的圍棋AI有哪些不同？都是人工智能那誰更厲害？麻將AI又能做什麼？網易智能同微軟團隊進行了深入的交流。 01 他們為什麼選擇麻將實際上，打造麻將AI要比打造已經壓制人類的谷歌圍棋AI難度更大。因為如果是圍棋，棋局信息是公開的，但對於麻將而言，有太多的隱藏信息，並且有更多的隨機性。換句話講，麻將這類非完美信息遊戲，與圍棋、象棋等完美信息遊戲相比，對人工智能來說具有更大的挑戰性，如果說圍棋的可觀測狀態信息是10的172次方，隱藏的不確定信息為0，那麼，麻將的可觀測狀態信息則是10的121次方，可怕的是隱藏的不確定信息達到了 10的48次方。劉鐵岩向網易智能表示，我們生活的世界是由許許多多的隨機事件構成的，而且在很多情況下，無法知曉的信息也許遠多於我們能夠掌握的信息，而我們仍然要在這樣信息不完全的條件下做出大大小小的決策。 “AI在非完美信息遊戲中的突破，將有助於協助人類應對更多高度複雜的現實問題，尤其是在智能交通、金融投資等容易受到隨機突發狀況影響的場景中“。他談到。 02 AI如何在天鳳“打怪升級” 據介紹，由於長期在民間廣為流傳，不同地區的麻將玩法非常多樣，缺乏統一的規則標準和評價體系。日本在線麻將竟技平台“天鳳”，因其完善的竟技規則、專業的段位體系，成為專業麻將平台，受到職業麻將界的廣泛承認。劉鐵岩介紹，天鳳平台為高水平麻將玩家提供兩種竟技房間：“特上房”對四段以上所有玩家免費開放，允許AI參與遊戲，目前所有玩家在此房間的最高段位是十段； “鳳凰房”僅對七段以上的人類付費玩家開放，目前不允許AI參與遊戲，在該房間能夠達到的最高段位是十一段，稱為“天鳳位”。自天鳳平台在2006年推出以來，全平台達到四人麻將天鳳位的麻將高手僅有13位[JL1]，曾經達到過十段的選手約有180位，而現役十段的人類選手也僅有十幾位。而微軟亞洲研究院開發的麻將AI系統Suphx於3月登陸天鳳平台，在AI能夠參與的公開竟技房“特上房”，Suphx與人類選手展開了5000余場四人麻將對局，在這5000余場對局中， Suphx的穩定段位超過了8.7。劉鐵岩透露，他們也在和天鳳平台探討，以怎樣的方式讓Suphx進入還不允許AI參與的鳳凰房。 03 麻將AI到底難在哪？與象棋、圍棋、德州撲克等棋牌類遊戲相比，麻將具有更複雜的隱藏信息和更高的難度。總體而言，微軟亞洲研究院將麻將AI面臨的挑戰總結為以下三點：首先，巨大的狀態空間：與只有52張牌的德州撲克相比，136張麻將牌的排列組合可能性更多。同時，麻將中同一個玩家兩次出牌之間，夾雜了其他三個玩家的出牌和自己摸的底牌，可能出現的不同局面數目非常巨大。值得特別指出的是，在麻將中，4位玩家的出牌順序是不固定的，任意一位玩家的“吃碰杠”都可能使出牌順序突然改變，導致遊戲樹不規則、且動態變化。這些特點使麻將很難直接利用AlphaGo等棋盤遊戲AI常用的蒙特卡洛樹搜索算法。其次，非完美信息博弈：象棋和圍棋屬於完美信息遊戲，玩家可以看到棋局中對方玩家的落子。麻將則存在大量的隱藏信息。具體而言，麻將中每個玩家可以有13張手牌，另外還有84張底牌。對於一個玩家而言，他只知道自己手裡的13張牌和之前已經打出來的牌，卻無法知道別人的手牌和沒有翻出來的底牌，所以最多可以有超過120張未知的牌[JL2]。這麼多的未知信息使得麻將的難度非常高。一方面，由於隨機性太大，玩家即便在出牌決策中估計對方玩家手牌、底牌等不可見的牌，也無法避免不確定性對於遊戲走向的影響。這將對AI模型的訓練帶來很大挑戰：AI模型很難發現已知牌面信息和最優打法之間的邏輯鏈路。另一方面，豐富的隱藏信息導致遊戲樹的寬度非常大，對樹搜索算法的可行性提出了進一步的挑戰。其三，複雜的獎勵機制：日本麻將的規則是“無役不能和牌”，多樣的特殊牌面構成了複雜的“役種”和番數計算規則。一輪遊戲共包含8局，單局得分與役種和番數相關，最後根據8局的得分總和進行排名，來形成最終影響段位的點數獎懲。因此有時麻將高手會策略性輸牌，例如，在第8輪時如果A玩家已經大比分領先第二名，他可能會故意放炮給排名第四的玩家，來防止總分被排名第二的玩家反超，保證自己在最終結算時獲得最大的點數獎勵。這為構建高超的麻將AI策略帶來了額外的挑戰，AI需要審時度勢，把握進攻與防守的時機。 04 三大技術見招拆招 “面對麻將遊戲的巨大挑戰，AI僅靠強大的計算力無法從根本上解決問題，而需要更強的直覺、預測、推理和模糊決策能力，“微軟亞洲研究院副院長、機器學習領域負責人劉鐵岩博士表示。他們的主要技術應用可以概況為先知教練、全盤預測、自適應決策。據瞭解，微軟亞洲研究院針對麻將的特點與難點嘗試了一系列基於強化學習的新算法，比如，為了應對巨大的狀態空間，研究團隊引入了全新的機制對探索過程的多樣性進行動態調控，讓Suphx可以比傳統算法更加充分地試探牌局狀態的不同可能；另一方面，一旦某一輪的底牌給定，其狀態子空間會大幅縮小；所以研究團隊讓Suphx在推理階段根據本輪的牌局來動態調整策略，對縮小了的狀態子空間進行更有針對性的探索，從而更好地根據本輪牌局的演進做出自適應的決策。其次，針對非完美信息博弈的挑戰，Suphx嘗試了先知教練技術來提升強化學習的效果。其基本思想是在自我博弈的訓練階段利用不可見的一些隱藏信息來引導AI模型的訓練方向，使其學習路徑更加清晰、更加接近完美信息意義下的最優路徑，從而倒逼AI模型更加深入地理解可見信息，從中找到有效的決策依據。另外，對於麻將複雜的牌面表達和計分機制，研究團隊還利用全盤預測技術搭建起每輪比賽和8輪過後的終盤結果之間的橋樑。可以讓AI理解每輪比賽對終盤的不同貢獻，從而將終盤的獎勵信號合理地分配回每一輪比賽之中，以便對自我博弈的過程進行更加直接而有效的指導，並使得Suphx可以學會一些具有大局觀的高級技巧。本文經授權發布，不代表36氪立場。如若轉載請註明出處。來源出處：36氪 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.163.58.205 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/MJ/M.1567162561.A.D4E.html ※ 編輯: MartinJ40 (118.163.58.205 臺灣), 08/30/2019 19:01:49