暴雪和DeepMind正在教AI打星際。他們希望有某一天,AI能教職業(yè)選手打星際。
原文發(fā)表于 arstechnica,作者為Nick Cowen,觸樂進(jìn)行了編譯。
2016暴雪嘉年華上有許多新消息。在那其中,最具革命性的消息反而最冷場。
《爐石傳說》、《風(fēng)暴英雄》、《守望先鋒》和《暗黑破壞神3》的新內(nèi)容收獲了暴雪迷的歡呼。然而,當(dāng)暴雪宣布《星際爭霸2》的開發(fā)團(tuán)隊將和谷歌DeepMind共同開展AI研究時,觀眾的反應(yīng)非常平淡,只有一些小聲的嘟囔。
(注:DeepMind是最強(qiáng)的人工智能公司之一,戰(zhàn)勝李世石的Alpha Go就是他們的產(chǎn)品。AI,Artificial Intelligence的簡寫,意為人工智能,本文會根據(jù)需要混用“AI”和“人工智能”。)
也許觀眾的態(tài)度有些令人掃興,但其實很容易理解:星際玩家為什么要對人工智能科學(xué)家的計劃感興趣?
進(jìn)一步說,如果DeepMind和暴雪的這項研究成功了,星際玩家也得不到任何好處——從此以后最高水平的星際競技就和人類沒關(guān)系了。
長久以來,人工智能始終是游戲的組成部分?!缎请H爭霸2》的執(zhí)行制作人克里斯·西嘉德就指出,DeepMind希望開發(fā)的AI肯定不會是第一個玩暴雪RTS游戲的AI,因為《星際爭霸》系列自帶腳本AI。這些AI由游戲設(shè)計師和工程師共同開發(fā),他們將之間對游戲的理解注入到腳本中。這些腳本是由“條件”驅(qū)動的。例如,假如滿足“資源收集量達(dá)到X”條件,AI就會花費(fèi)Y的資源,去購買Z單位。
“那些AI很精致,和它們對打也挺有趣。它們可以做一些隨機(jī)和特殊的選擇,可以根據(jù)地形發(fā)展,采集資源——你能做的事它們基本都能做。不過,那些AI的本質(zhì)是腳本,它們是可預(yù)測并且有限的。除非它們作弊,否則不可能戰(zhàn)勝人類玩家?!保ㄗⅲ哼@里表達(dá)的意思當(dāng)然是“有一定水平的人類玩家”。)
奧里奧爾·溫亞爾斯是DeepMind團(tuán)隊的科學(xué)家之一。他認(rèn)為,《星際爭霸2》可能幫助人工智能研究前進(jìn)一大步。像《星際爭霸2》這種非靜態(tài)、非回合制的游戲,對人工智能來說是一個更好的參照體系。
“我們認(rèn)為,《星際爭霸2》的復(fù)雜性能讓我們測試一些新算法。在幾年前,我們還沒有準(zhǔn)備好對付這些算法,現(xiàn)在是時候了。”他說。
為了贏下一局《星際爭霸2》,玩家需要很多信息,而這些信息大多是隱藏的。玩家需要一邊采礦,一邊造建筑,一邊探路。普通AI(即常見的腳本AI)可以通過數(shù)據(jù)直接獲取信息,DeepMind則希望它們的AI能夠用人類玩游戲的方式,挖掘出游戲中隱藏的信息。
“這是個復(fù)雜的過程。在游戲開局,玩家甚至不知道敵人在哪。他們需要運(yùn)營,需要回想是否和這個對手打過,并利用這些經(jīng)驗打敗他?!睖貋啝査拐f。
“這對AI來說是非常艱難的挑戰(zhàn),但我們會適應(yīng)這種新環(huán)境的。關(guān)鍵點在于,即使它沒有馬上成功,我們也可以通過研究過程來建立一個新的標(biāo)準(zhǔn)。這個標(biāo)準(zhǔn)會超越目前的最高水平。另外,項目是開放的,任何人都可以提出他們的意見?!?/p>
暴雪和DeepMind的合作不是封閉性的。在暴雪嘉年華的發(fā)布會上,溫亞爾斯表示“《星際爭霸2》AI研究項目”將對所有人工智能開發(fā)者,業(yè)余愛好者和玩家開放。DeepMind之所以把這個項目提升到“全球合作”的高度,是因為他們確實需要這么多人的智慧來完成如此艱巨的挑戰(zhàn)。項目API將以補(bǔ)丁的形式于2017年第一季度發(fā)布,玩家可以在免費(fèi)的初始版中進(jìn)行使用。當(dāng)然,溫亞爾斯指出,距離補(bǔ)丁上線還有一定距離,大量工作有待完成。
“我們的合作剛開始不久。第一步,我們需要建立測試環(huán)境。這個環(huán)境的作用是讓AI一邊玩一邊觀察。我們目前主要集中在這個環(huán)境上,因為它將對公眾開放。并且,它還有可能成為其他人工智能研究者的參照體系。”
“第二步就是引入AI了。這一步的完成度還不高,我們只能在很初級的水準(zhǔn)上完成。”
DeepMind需要確保AI能夠在測試環(huán)境中觀察并作出行動。這是深度學(xué)習(xí)的基本原理,但《星際爭霸2》讓它變得更復(fù)雜?!缎请H爭霸2》的復(fù)雜度可比左右搖晃Atari搖桿,或者在19乘19的矩陣上放旗子要難得多。
“以往的AI可以直接獲取游戲中的所有數(shù)據(jù)。我們希望AI直接面對游戲畫面(而不是數(shù)據(jù)),它將用人類的方式玩游戲。我們之所以如此激動,是因為這代表著神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的下一個階段。我們并不知道結(jié)果會如何?!蔽骷蔚抡f。
“我們在搞的東西可不是什么腳本。它通過觀察人類玩家來進(jìn)行學(xué)習(xí)。有一點是我們想做到但暫時沒做到的:我們希望AI能判斷出一個操作是好操作還是爛操作。我們甚至希望它可以成為人類的教練,告訴人類‘現(xiàn)在是造某單位的好時機(jī)’。”? ? ? ? ? ? ? ? ? ? ? ? ? ? ?”
西嘉德認(rèn)為,AI可以解決《星際爭霸2》目前面對的一些問題?!缎请H爭霸2》項目被韓國人統(tǒng)治,其重要原因是韓國人在家門口就能和世界最強(qiáng)的選手對戰(zhàn),而其他地區(qū)的選手只能碰到數(shù)量有限的高手。AI能幫助改善這個現(xiàn)狀。
“如果這個項目成功了,選手水平將不再受到地域因素的限制?!蔽骷蔚卤硎尽?/p>
DeepMind認(rèn)為,這個項目之所以有潛力,是因為項目中的難題具有普遍性。它們不光存在于這個項目里,還廣泛存在于其他技術(shù)領(lǐng)域。AI在游戲中做出最佳選擇,正是在模擬AI在現(xiàn)實世界中做出選擇。
“我們將在這個項目的同時,平行使用多個數(shù)據(jù)中心進(jìn)行其他游戲的模擬。我們的算法將不斷進(jìn)化,一旦我們認(rèn)為它完成了某種突破,我們就可以開始讓AI解決現(xiàn)實世界中的問題?!?/p>
其實,AI已經(jīng)開始解決現(xiàn)實世界的問題了。最新例子是,DeepMind的AI接手谷歌數(shù)據(jù)中心的制冷系統(tǒng),成功降低了40%的制冷費(fèi)用。Google原本希望通過新能源來解決數(shù)據(jù)中心的能耗問題,但AI提供了全新的解決思路。
溫亞爾斯說:“AI觀察房間里不同位置的溫度,從全局的角度做出最佳選擇,降低數(shù)據(jù)中心的溫度。當(dāng)然,實際過程要復(fù)雜得多。我們希望在不損傷服務(wù)器的情況下,盡可能地降低能耗。這同游戲有些類似?!瓵I/環(huán)境’模式非常強(qiáng)大,具有很強(qiáng)的普適性?!?/p>
“游戲幫助算法變得更快。一旦算法可以處理數(shù)據(jù)以外的對象,它就能產(chǎn)生飛躍,那對人工智能研究和開發(fā)來說會是一個偉大的時刻?!?/p>
那么,在溫亞爾斯眼中,《星際爭霸》的下一步在哪里呢?
“我不知道!”他大笑,“如果能在太空船里玩星際,我肯定會試試?!?/p>
(譯注:本文發(fā)表于11月23日,采訪時間應(yīng)該還要更早,所以我們才能看到西嘉德的談笑風(fēng)生。事實上,今年韓國星際競技界出現(xiàn)了極為強(qiáng)烈的震動,多個老牌賽事停辦,職業(yè)戰(zhàn)隊紛紛解散。截至11月23日,韓國職業(yè)星際戰(zhàn)隊僅剩下一支。)