在 AI 的江湖中,率先出世並在圍棋和《星際爭霸 2》中擊敗人類頂級選手的 AlphaGo,已經宣告退隱。如今,高手仍在不斷湧現,繼 MOBA 遊戲被「攻陷」後,AI 將觸手伸向了 MMORPG 品類。今天我們故事的主角,是由騰訊 AI LAB 和天涯明月刀團隊共同研發的「絕智」。
隨著技術的發展,「AI 玩遊戲肯定比不過人類」的認知已經一次次被顛覆。《天涯明月刀》中的絕智 AI 正是其中之一。當主播在與絕智的 1v1 決鬥(遊戲中被稱為「論劍」)中被行雲流水、輕鬆寫意的招式輕鬆打敗後,無一不「戴上痛苦面具」:「我怎麼就輸掉了呢?發生了啥?我有點接受不了……」
▲ 被絕智「輕鬆」打敗後,遊戲主播「痛苦到模糊」
人類真的贏不了 AI 了嗎?APPSO 聯絡到了《天涯明月刀手遊》的研發團隊以及騰訊 AI LAB ,並對他們進行了採訪,希望得到這一問題的答案。
AI 的修行,從搭建修煉場開始
「反正人類也不是第一次輸給 AI 了,這次不過是換了一款遊戲罷了」,相信很多人會有這樣的想法。只是換了一個遊戲這麼簡單麼?聯合團隊的研究人員為我們分享了一段絕智 AI 的修煉之路。
想讓絕智在《天涯明月刀》中成為戰無不勝的大俠,第一步是為它搭建一個修煉場。
有別於人類玩家使用移動 app 或電腦軟體進行遊戲,AI 是以程式的形式「住在」伺服器裡。為了解決 AI 和遊戲,以及移動 app 和電腦軟體之間「語言不通」的問題,聯合團隊首先使用了微軟的 .Net Core 作為解決方案,無需重新編寫大量的程式碼就可以讓絕智跨越多種平臺與玩家「見面」。
而為了讓絕智真正「見到」玩家,聯合團隊也動了一番心思。
首先,團隊去除了原有程式內不相關的要素,專門搭建了包括人物屬性、技能傷害等遊戲內各種引數的基礎資料庫,讓絕智 AI 能以最少的負擔正常執行。
其次,在線上進行一場《天涯明月刀》的 1v1 對戰,其實就是讓兩個不同的伺服器的玩家進入一個「跨服伺服器」進行戰鬥。由於這個流程可能會橫跨六七個伺服器,有時還需要中轉,整個過程對伺服器的要求是很高的,同時還會消耗大量資源。
為了提高訓練效率,聯合團隊採取了一個巧妙的方法,那就是訓練過程中只保留跨服伺服器。讓絕智 AI 直接「住在」跨服伺服器上,把原本需要的資源量精簡到不足一半,從而讓戰鬥得以順利進行。但即便如此,聯合團隊依然消耗了幾百臺伺服器,用來保證同時進行幾十萬 AI 的不斷訓練強化。
最後,對戰場地自然重要,但觀戰與覆盤同樣不可或缺。為了及時發現訓練過程中的問題、保證整體效果。團隊運用一套工具來實時監控和調整 AI 的戰鬥場次,甚至可以用來隨時觀看任一場 AI 的對戰過程。
解決了跨服戰鬥和手遊移植的問題後,絕智 AI 才算是正式步入天刀武林了,完成了他成為武林高手的第一步。那絕智 AI 又是如何成為站在天刀論劍頂峰大俠的呢?這是它接下來的故事。
從初出茅廬到戰無不勝,這是絕智的修行之路
就像看完魔術,我們想知道背後的秘密,在看完 AI 打敗主播後,玩家肯定也想知道 AI 為什麼這麼強,它是怎麼打敗人類的。
而在介紹開始之前,我們先看看絕智到底用什麼樣的操作,讓主播直呼「接受不了」。
▲ 絕智的連招操作,為最大化造成傷害進行技能銜接與組合.
▲ 在主播施放特定技能的瞬間進行格擋,避免自己陷入破定狀態,並快速反擊.
每種遊戲 AI 都是同樣的「戰無不勝」,但它們的訓練方法卻因遊戲型別而完全不同。絕智 AI 在《天涯明月刀》這款 MMORPG 遊戲中,自然有著與其他 AI 完全不同的成長經歷。要聊絕智 AI,就先得聊聊《天涯明月刀》有什麼不同點。
當玩家在《天涯明月刀》中設定好一個角色後,從不同職業帶來的技能差異到玩家在成長中不同的個性化選擇,再到玩家操作水平和對遊戲的理解,讓天刀中的每一個角色都有所不同、千人千面。到了論劍場上,一招一式的針鋒相對,每時每刻的見招拆招,都需要玩家進行連續不間斷的決策選擇。如果想要進行不同職業間的對決,你還要對其他職業足夠了解,才能遊刃有餘。
▲ 天刀手遊中,每個門派都有數個主動和被動技能,而端遊則更加複雜.
對玩家來說尚要如此,對絕智 AI 來說更是一種挑戰。
為了讓絕智 AI 可以快速的成為《天涯明月刀》中的武林高手,一個可以讓它隨時切磋對戰的對手(強化學習訓框架)就必不可少了。
聯合團隊依託自主研發的大規模強化學習平臺,透過成千上萬場的對戰,在保證 AI 在訓練過程中循序漸進的提升行為策略前提下,為各種各樣的戰局狀況尋找最優的對應方式。
就像上文說到的,豐富的職業、技能、裝備讓論劍對局有無限可能,每一步操作都擁有非常龐大的探索空間。為了讓絕智 AI 走好論劍對戰的第一步,在訓練初期階段,透過引入一些課程學習策略,如隨機設定 AI 在地圖中的出生位置、初始化不同的狀態值等,起到加速探索的目的。
同時,在整個對戰期間,為了減少 AI 進行原地打轉、空放技能等無意義操作,還利用 Action Mask 對技能使用的條件進行了限制,保證 AI 不會在無法命中目標或者還未冷卻時釋放技能,從而降低它的探索空間,以便更高效的投入戰鬥。
▲ 如果沒有妥當的引導,AI 在學會高效戰鬥前會浪費大量的時間摸索技能釋放.
那麼,要如何讓 AI 知道什麼時候該做什麼事情呢?AI LAB 的專案負責人介紹,很重要的一點是 reward 設計。簡單來說,就是對各種目標設定一個獎勵分,舉個例子,如果 AI 用技能打到了對手,就給正分數,如果 AI 空放了技能,就給負分數,AI 的最終目標就是順利贏下這場對決,分數越高越好。
好的 reward 設計可以快速引導 AI 學習,但設計和驗證 reward 都有很高的成本,一方面,AI 可能找到捷徑,用特殊的方式拿到高分,另一方面,獎勵的設定,在一定程度上也會限制 AI 的發揮。
根據《天涯明月刀》的遊戲特點,AI LAB 與天刀聯合團隊針對角色生命值狀況設定了「血量零和」reward,來強調己方生命值損耗比對方更少;而影響戰鬥的「壓制」和「浮空時間」reward,則能引導 AI 學習如何透過技能組合長時間壓制對手和浮空連招,來提升戰鬥效率——不僅要贏,還要贏得高效漂亮。
▲ 經過引導與強化學習,AI 對浮空連擊技巧的應用已經爐火純青.
對於玩家來說,「戰無不勝」是他的終極目標,但對於 AI 來說,這只是它的第一階段:絕智 AI 還有一個更重要的任務:滿足不同玩家的遊戲需求——失敗是另一種成功。
上面提到,除了複雜的技能樹與多種職業帶來的龐大探索空間,《天涯明月刀》還有一個非常重要的差異點:那就是玩家差異。
在天刀的遊戲世界裡,裝備、經脈、心法等成長要素都會影響玩家的功力——功力是一個對玩家戰鬥力水平的評價數值,由遊戲中各維度屬性影響——在不斷成長的過程中,每個玩家的進度都是不一樣的。即使功力相似,玩家的操作水平也有高低之分。
正是角色本身的功力差異以及每個玩家的操作水平,才構成了玩家的段位。那麼,絕智 AI 是如何覆蓋所有玩家的呢?其實這是兩個問題:「如何覆蓋所有功力」和「如何覆蓋所有操作水平」。
▲ 與多數競技遊戲類似,在天刀中玩家也能透過勝利不斷提升段位,證明自己的同時獲得獎勵.
針對不同的功力,絕智採用了一個大規模的功力模版泛化去覆蓋所有功力的玩家。「戰無不勝」的絕智對《天涯明月刀》論劍的策略已經非常清楚了,進行大規模泛化後,基本可以覆蓋到所有功力的玩家;而針對不同操作水平的玩家,則採用了能力分級技術,把絕智 AI 的能力降下來。
透過這兩個方法,不同段位的玩家就能匹配到不同實力的絕智 AI,從而滿足不同功力、不同操作能力的玩家需求——不是絕智變弱了,而是它可以根據你的能力點到為止。
▲ 從最低到最高跨越了 24 個段位,而玩家也呈現正態分佈.
說起來簡單,但絕智的成長之路,可遠沒這麼簡單。《天涯明月刀》的戰鬥策劃 elsli 告訴我們,絕智的最初版,別說是連招,就連攻擊玩家都做不到,只會站在原地空放技能,或者不停的撞牆。它的操作,連一個遊戲的初學者都比不上。
而隨著百萬小時的對戰訓練和千萬場的論劍對決,reward 設計邏輯的不斷最佳化,那個只會在原地空放技能的 AI,就像一個初出茅廬,想要在武林中打出一片天地的少俠,逐漸學會了戰鬥、格擋、連招,終於有一天,天刀的戰鬥策劃突然發現:我好像打不過它了。
今天的絕智,戰鬥策劃已經無法透過和它對戰來判斷新的模型是否有進步——反正都是打不過,完全無法判斷 AI 到底有多強。
而當絕智到手遊端後,許多新玩法新套路,都是策劃、玩家在看過絕智 AI 的操作後才恍然大悟:原來還能這麼玩。
▲ 經過刻苦訓練後,AI 已經可以輕鬆「拿捏」大多數對手,甚至是「教他的老師傅」.
能戰無不勝,也能點到為止,能陪玩戰鬥,也能教你套路,絕智正在規劃的道路中不斷前進,又在前進的道路中不斷為我們帶來驚喜。
戰無不勝、點到為止,絕智的大俠風範
絕智到底有多強?《天涯明月刀》的戰鬥策劃給我們的答案是:超出預期。
作為一個陪玩 AI,絕智的目的還是讓玩家可以獲得更出色的遊戲體驗。而對玩家來說,不論是端遊還是手遊,關於 AI 玩家無非有以下三種期待:看到實力超群的遊戲主播、職業玩家被 AI 打敗;看 AI 之間進行對決,用絕對理性強大的操作來評判出武林中的最強門派。最後一個,也是最重要的一點:玩家希望有一個可以隨時可以與它對戰的人。
▲ 每個「戰鬥系」玩家都需要一個最瞭解自己又水平相當的陪練,甚至是「孤獨求敗」的頂端玩家.
《天涯明月刀》團隊對絕智 AI 的期待是,可以與不同功力、不同操作水平的玩家在論劍對決中,保持 40% 的勝率。可自我成長能力超過策劃預期的絕智 AI,在打敗人類的道路上一騎絕塵,在之前與遊戲主播的對戰中,更是拿下了 13 連勝的成績,什麼,設計目標是勝率 40%?
「雖然節目效果很好,但這真的不是我們的目的」——《天刀》的策劃在採訪時略顯抱歉,但同時也能感覺到他對絕智的驕傲。
在採訪的最後,《天涯明月刀》團隊為它打出了 8 分的成績:絕智足夠強,但強大並不是《天涯明月刀》團隊所追求的,讓絕智慧在論劍中保持點到為止的表現,並把它應用到更多遊戲場景中,讓玩家擁有更好的遊戲體驗,用 AI 技術去創造新的遊戲性,才是絕智的發展目標。
今天的絕智已經完成了一個穩定的訓練框架,從接入遊戲職業到 GameCore 的職業實現、進行 AI 訓練,再到即時穩定的訓練建模,已經可以在很短時間內在手遊端訓練出最強 AI。即使有版本迭代、職業調整,也可以快速完成訓練。
絕智可以變成最強 AI,一人一劍戰無不勝,但讓不論什麼水平的玩家,都可以在論劍或者其他遊戲場景中,找到一個符合自己技術水平、裝備功力的 AI,在和它大戰三百回合後收穫成長。那種峰迴路轉、柳暗花明的對局,才是最符合玩家期待的,陪伴玩家練習和成長的「最強 AI」
在這條道路上,絕智正在不斷探索、不斷前進,來為玩家創造新的遊戲性。
絕智的成長,還未到盡頭
在主播與 AI 的戰鬥中,除了絕智格擋反擊等讓玩家覺著不可思議、引發陣陣讚歎的流暢操作,還有另一場景同樣讓直播間充滿了歡樂的氣氛:在主播殘血即將失敗時,絕智並沒有來結束戰鬥,而是連續翻滾,似乎在「嘲諷」主播。
我原以為這是絕智的一個新奇的設定,而 AI LAB 的研究人員很堅定的告訴我們:雖然玩家反饋很好,但不得不承認,這只是一個 Bug。
▲「嘲諷」主播的絕智 AI「秦一十一」,被觀眾笑稱為「主播的一生之敵」.
強大的 AI 打敗真人玩家,這是玩家想要看到的,但玩家更想看到的,是 AI 不只單純的強,而且更具人性、更有溫度。那時的 AI,可要比單純的戰鬥力強要更加令人讚歎。
不過,雖然從理論上來講,AI 零延遲的反應速度、可以記住所有技能冷卻、判定範圍的記憶力是大多數玩家無法匹敵的高度,但對頂尖的、擁有比普通玩家更快反應速度的職業選手來說,現在的絕智 AI 並非無法戰勝,這是人類策略的勝利。在遊戲策略方面的進化,同樣是絕智未來想要拓展的方向之一。
那麼,絕智的未來會是什麼樣的呢?
在我們詢問對未來的計劃時,已經在天刀論劍中創造出「最強 AI」的研發人員反而謙虛了起來:「就是腳踏實地,先一步一個腳印吧。」而策劃口中的「一步」,已經在《天涯明月刀》的故事中開始醞釀。
「科技」與「武林」,似乎是兩個完全無法連線起來的概念,但在《天涯明月刀》中,它卻意外的有些和諧。從落眼於江湖的「孔雀翎」主題,到落眼於天下的「大悲賦」主題,《天涯明月刀》即將開啟落眼於宇宙的「血鸚鵡」主題。絕智,則是開啟這個新時代的鑰匙。
▲ 或許未來,遊戲內的 NPC 將由 AI 接管,變得更加栩栩如生.
現在提到宇宙,我們會想到浩瀚星空,但作為一個古詞,宇宙指的本是天下四方、古今往來的一切浩瀚神靈,而「絕智」之名,正來自天刀世界中,以腳步丈量九州、以手眼描繪風物,醉心於科技探索和發明創造的組織「絕智軒」。這樣的設定,讓絕智 AI 進入天刀宇宙顯得非常融洽。
《天刀》IP 的世界觀構架師則表示,會把絕智系列 AI 融入遊戲本身的設定中,古今輝映的天刀宇宙,會因絕智 AI 的加入來開啟全新的「血鸚鵡」主題。
在端遊的實踐中,研發團隊們發現許多 AI 都有了忠實的粉絲,玩家會根據 AI 設定上的特色,為他們賦予「比較慫」、「有心計」等性格。而在《天涯明月刀》未來的規劃中,絕智 AI 也確實將延伸出符合 AI 性格的人設,在隕星之戰(手遊)、馥郁之戰(端遊)等主題戰場上大展身手,甚至會成為「銜命絕智軒」的主題話本核心人物,讓 AI 成為 BOSS,為 PVE 玩法帶來更多可能。
同時,智慧化 AI 的潛力不僅僅是戰鬥 AI,還有整個遊戲世界和全新虛擬生態的構建。在未來,還會有「絕智系列傀儡」,不只陪玩家對戰,還能實現設定、性格方面的陪伴,成為一個與玩家共生、陪伴玩家成長、遊歷江湖的玩伴,讓每一位少俠的江湖之路都不再孤單。
▲ MMORPG 的特色是由千人千面的玩家組成生動的江湖,絕智 AI 的出現將創造更多的羈絆.
絕智可以是你的對手,也可以是你的師傅,可以是與職業選手對戰的最強陪練,也可以是賽場中的明星選手。我們相信,在天刀團隊與 AI LAB 未來「腳踏實地」的合作中,在對技術堅持、鞏固以及細節的把控裡,更強、更人性化、更多樣性的絕智 AI 即將再一次重新整理我們的認知、改變我們的體驗。
那個「一鞘劍光,戰無不勝」的神秘劍客,還會在不斷的技術精進中,為江湖書寫更多神話。