顯示廣告
隱藏 ✕
Disp BBS guest 註冊 登入(i) 線上人數: 69
※ 本文為 tom50512 轉寄自 ptt.cc 更新時間: 2019-01-29 11:12:34
看板 C_Chat
作者 zkowntu (冰封冷雁)
標題 [新聞] 擊敗星海II職業玩家AlphaStar是在作弊?
時間 Mon Jan 28 15:52:22 2019


“擊敗星海爭霸II職業玩家”的 AlphaStar是在作弊?

機器之心 ·  2小時前

DeepMind 擊敗人類職業玩家的方式與他們聲稱的 AI 使命,以及所聲稱的『正確』方式
完全相反。

編者按:本文來自微信公眾號“機器之心”(ID:almosthuman2014),作者 機器之心編
輯部。36氪經授權轉載。

DeepMind 的人工智慧 AlphaStar 一戰成名,擊敗兩名人類職業選手。掌聲和歡呼之餘,
它也引起了一些質疑。

在前天 DeepMind 舉辦的 AMA 中,AlphaStar 專案領導者 Oriol Vinyals 和 David
Silver、職業玩家 LiquidTLO 與 LiquidMaNa 回答了一些疑問。不過困惑依然存在

近日,Aleksi Pietikäinen 在 Medium 上發表了文章,提出了幾點疑問,在 Twitter
和 Reddit 上引起了極大的關注:

    AlphaStar 使用了超人的速度,達到了超人的準確度。

    DeepMind 稱限制了 AI 的操作速度,不至於人類無法企及。但他們並未做到,且大
概率意識到自己沒做到。

    AlphaStar 擁有超人速度的原因可能是忘了考慮人類的無效點擊。作者懷疑
 DeepMind 想限制它使它更像人類,但是卻沒有做到。我們需要一些時間弄清楚這一點,
不過這也正是作者寫本文的原因。

前谷歌大腦科學家 Denny Britz 也轉載了此文章並在 Twitter 上表示:「有時候誠實和
謙虛一點,就像『目前已經做得不錯了,但我們還沒有達到最優,還有很長的路要走。』
而不是『看!那職業選手被擊敗了!!』,這樣才能走得更遠。


最讓我煩惱的是,雖然 AlphaStar 在很多方面都有令人驚訝的結果,但其聲稱『限制在
人類的操作水準』的解釋讓整個事件變得更像是在做公關,對於不熟悉機器學習和星海爭
霸的人來說這就是誤導。」



讓我們看看 AlphaStar 究竟哪裡「作弊」了,以下為機器之心對該文章的編譯介紹:

首先,我必須聲明我是門外漢。最近我一直追蹤 AI 發展和星海爭霸 2,不過我在這兩個
領域都不是專家。如有錯漏,請見諒。其次,AlphaStar 確實是一項巨大成就,我很期待
看到它以後的發展。


AlphaStar 的超人速度

AlphaStar 團隊領導 David Silver:「AlphaStar 不能比人類選手反應速度快,也不會
比人類選手執行更多點擊。」

2018 年,來自芬蘭的蟲族選手「Serral」Joona Sotala 制霸星海 2。他是目前的世界冠
軍,且他在當年的九場大型賽事中取得了七次冠軍,在星海 2 歷史上是史無前例的選手
。他的操作速度非常快,可能是世界上最快的星海 2 選手。


在 WCS2018 上,Serral 的毒爆蟲讓局勢逆轉。

在比賽中,我們可以看到 Serral 的 APM(actions per minute)。APM 基本上表示選手
點擊滑鼠和鍵盤的速度。Serral 無法長時間保持 500 APM。視頻中有一次 800 APM 的爆
發,但只持續了一秒,而且很可能是因為無效點擊。


世界上速度最快的人類選手能夠保持 500 APM 已經很不錯了,而 AlphaStar 一度飆到
 1500+。這種非人類的 1000+ APM 的速度竟然持續了 5 秒,而且都是有意義的動作。


一分鐘 1500 個動作意味著一秒 25 個動作。人類是無法做到的。我還要提醒大家,在星

海 2 這樣的遊戲中,5 秒是很長一段時間,尤其是在大戰的開始。

如果比賽前 5 秒的超人執行速度使 AI 占了上風,那麼它以大幅領先優勢獲取勝利可能
是由於雪球效應。

一位解說指出平均 APM 仍是可接受的,但很明顯這種持續時間並非人類所能為。

AlphaStar 的無效點擊、APM 和外科手術般的精准打擊

大部分人類都會出現無效點擊。無意義的點擊並沒有什麼用。例如,人類選手在移動軍隊
時,可能會點擊目的地不止一次。這有什麼作用呢?並沒有。軍隊不會因為你多點擊了幾
下就走得更快。那麼人類為什麼還要多點擊呢?原因如下:


1. 無效點擊是人類想要加快操作速度的自然結果。

2. 幫助活躍手指肌肉。

我們前面說過 Serral 最令人震驚的不是他的速度而是準確度。Serral 不只是具備高
 APM,還具備非常高的 effective-APM(下文中簡略為 EAPM),即僅將有效動作計算在
內的 APM。

一位前職業玩家在看到 Serral 的 EAPM 後發推表示震驚:

Serral 的 EAPM 是 344,這實際上已經是前所未有了。APM 和 EAPM 的區別也涉及
 AlphaStar。如果 AlphaStar 沒有無效動作,這是不是說明它的巔峰 EAPM 等於巔峰
 APM?這樣的話 1000+的爆發更加非人類了。

我們還需要考慮 AlphaStar 具備完美的準確率,它的性能好到「荒謬」的程度。它總能
點擊到想去的地方,而人類會有誤點擊。AlphaStar 可能不會一直使用巔峰狀態,但在關
鍵時刻,它的速度是世界最快選手的 4 倍,而準確率更是人類專業玩家想都不敢想的。

星海 2 中存在一個共識:AlphaStar 的執行序列人類無法複製。其速度和準確率突破了
人類現有極限。


AlphaStar 只能執行人類選手可以複製的動作?David Silver 不認同這種看法。


正確做事 vs 快速做事

AlphaStar 的首席設計工程師 Oriol Vinyals:我們正在努力構建擁有人類驚人學習能力
的智慧系統,因此確實需要讓我們的系統以盡可能「像人類一樣」的方式學習。

例如,通過非常高的 APM,將遊戲推向極限可能聽起來很酷,但這並不能真正幫助我們衡
量智慧體的能力和進步,使得基準測試毫無用處。

為什麼 DeepMind 想限制智慧體像人類一樣玩遊戲?為什麼不讓它放飛自我?原因是星海
爭霸 2 是一個可以通過完美操作攻破的遊戲。

在這個 2011 年的視頻(https://www.youtube.com/watch?v=IKVFZ28ybQs)中,AI 攻擊
Automaton 2000 Micro - Dodging Siege Tanks - YouTube
100 zerglings vs 20 sieged tanks should be a meat grinder... but when the lings are controlled by the Automaton micro bot, the outcome changes :) Automaton's...

 
一組坦克,其中一些小狗實現了完美的微操。例如,在受到坦克攻擊時讓周圍的小狗都躲
開。

通常情況下,小狗不能對坦克做出太大 傷害,但由於 AI 完美的微操,它們變得更加致
命,能夠以最小的損失摧毀坦克。

當單元控制足夠好時,AI 甚至不需要學習策略。而在沒有這種微操時,100 只小狗沖進
 20 架坦克中只能摧毀兩架坦克。



並不一定對創建可以簡單擊敗星海爭霸專業玩家的 AI 感興趣,而是希望將這個項目作為
推進整個 AI 研究的墊腳石。

雖然這個研究項目的重要成員聲稱具有人類極限限制,但事實上智慧體非常明顯地打破了
這些限制,尤其是當它利用超人速度的操作來贏得遊戲時,這是完全無法讓人滿意的。

AlphaStar 能夠在單位控制方面超越人類玩家,當遊戲開發者仔細平衡遊戲時,肯定不會
去考慮這一點。這種非人類級別的控制可以模糊人工智慧學習的任何戰略思維評估。

它甚至可以使戰略思維變得完全沒有必要。這與陷入局部極大值不同。當 AI 以非人類級
別的速度和準確率玩遊戲時,濫用卓越的控制能力很可能變成了玩遊戲時的最佳策略,這
聽起來有些令人失望。



這是專業人士在以 1-5 的比分輸掉比賽之後所說的 AI 優點和缺點:

MaNa:它最強的地方顯然是單位控制。在雙方兵力數量相當的情況下,人工智慧贏得了所
有比賽。在僅有的幾場比賽中我們能夠看到的缺點是它對於技術的頑固態度。

AlphaStar 有信心贏得戰術上的勝利,卻幾乎沒有做任何其它事情,最終在現場比賽中也
沒有獲得勝利。我沒有看到太多決策的跡象,所以我說人工智慧是在靠操作獲得勝利。

在 DeepMind 的 Replay 講解和現場比賽之後,星海爭霸玩家群體幾乎一致認為
 AlphaStar 幾乎完全是因為超人的速度、反應時間和準確性而獲得優勢的。

與之對抗的職業選手似乎也同意。有一個 DeepMind 團隊的成員在職業玩家測試它之前與
 AlphaStar 進行了比賽。他估計也同意這種觀點。

David Silver 和 Oriol Vinyal 不斷重複聲稱 AlphaStar 如何能夠完成人類可以做的事
情,但正如我們已經看到的那樣,這根本不是真的。

在這個視頻中關於「AlphaStar 如何能夠完成人類可以做的事情」的描述非常粗略。
為什麼 DeepMind 允許 AlphaStar 擁有超人的操作能力


現在讓我們回顧一下這篇文章的主要觀點:

    我們知道了 APM、EAPM 和無效點擊等概念;

    我們對人類玩家操作能力的上限有一個粗略的瞭解;

    我們知道了 AlphaStar 的遊戲玩法與開發人員聲稱允許執行的遊戲玩法完全矛盾;

    我們的一個共識是 AlphaStar 通過超人的控制能力贏得了比賽,甚至不需要卓越的
戰略思維;


    我們知道,DeepMind 的目標不是創建一個只能微操的 AI,或者以從未打算過的方式
濫用技術;

    令人難以置信的是,在 DeepMind 的星海爭霸 AI 團隊中沒有人質疑爆發的 1500+
APM 是否對於人類而言可及。他們的研究人員可能比我更瞭解這個遊戲。他們正與擁有星
海爭霸系列 IP 的遊戲公司暴雪密切合作,使 AI 盡可能接近人類才符合他們的利益(參
見本文前面提到的 David Silver 和 Oriol Vinyals 的提到的前幾個要點和使命陳述)



這是我對事情真相的猜測:

1)在專案一開始,DeepMind 同意對 AlphaStar 施加嚴格的 APM 限制。因此 AI 不會在
演示中出現超人的操作速度。如果讓我來設計這些限制,可能包含如下幾項:

    整場比賽的平均 APM;

    在短時間內爆發的最大 APM。我認為每秒加上 4-6 次點擊是合理的。還記得
 Serral 和他的 344 EAPM 超越了競爭對手?這還不到每秒 6 次點擊。與 MaNa 對戰的
 AlphaStar 版本在連續的時間段內每秒可以執行 25 次點擊。這比人類可以做到的最快
無效點擊速度要快得多,我認為原始限制是不允許這樣做的。


    點擊之間的最短間隔。即使 AI 的速度爆發被限制,它仍然可以在當前所處時間段的
某個時刻執行幾乎暫態的動作並且仍然以非人類的方式執行。人類顯然無法做到這一點。

有些人會主張還可以在準確率上添加隨機性來進行限制,但我懷疑這會過多地阻礙訓練的
速度。


2)接下來,DeepMind 會下載數以千計高排名的業餘遊戲視頻並開始模仿學習。在這個階
段,智慧體只是試圖模仿人類在遊戲中所做的事情。

3)智慧體採用無效點擊的行為。這很可能是因為人類玩家在遊戲過程中使用了這種點擊
行為。幾乎可以肯定,這是人類執行的最單調重複的行為模式,因此很可能深深紮根于智
慧體的行為中。


4)AlphaStar 爆發的最大 APM 受限於人類進行無效點擊的速度。由於 AlphaStar 執行
的大多數操作都是無效點擊,因此沒有足夠的 APM 可用於在戰鬥中進行實驗。如果智慧
體未進行實驗,則無法學習。以下是其中一位開發人員昨天在 AMA 上所說的話:


AlphaStar 的首席設計工程師 Oriol Vinyals:訓練人工智慧玩低 APM 非常有趣。在早
期,我們讓智慧體以非常低的 APM 進行訓練,但它們根本沒有微操。

5)為了加速開發,他們改變 APM 限制以允許高速爆發。以下是 AlphaStar 在演示中使
用的 APM 限制:

AlphaStar 的首席設計工程師 Oriol Vinyals:尤其是,我們在 5 秒的時間段內設置的
最大 APM 為 600,在 15 秒內最大為 400,30 秒內最大為 320,在 60 秒內最大為 300
。如果智慧體在此期間執行更多的操作,我們會刪除/忽略這些操作。這些是根據人類統
計資料設置的。


這相當於通過統計數字作弊。乍一看,對星海不太瞭解的人可能會覺得這樣做很合理,但
它會允許我們之前討論的超人速度爆發以及超人滑鼠精度,這是不太合理的。

人類進行無效點擊的速度是有限的。最典型的無效點擊形式是對一個單位發出移動或攻擊
命令。這是通過用滑鼠點擊地圖某個位置來完成的。

請盡你最快的速度點擊滑鼠試試。智慧體學會了這種無效點擊。它不會點擊地太快,因為
它模仿的人類無法點擊太快。而能讓它達到超人速度的額外 APM 可以被認為是「自由的
」APM,它可以用於更多次嘗試。


6)自由的 APM 被用於在交戰中進行實驗。這種交互在訓練中經常發生。AlphaStar 開始
學習新的行為以帶來更好的結果,它開始擺脫經常發生的無效點擊。

7)如果智慧體學會了真正有用的動作,為什麼 DeepMind 不回到最初對 APM 更苛刻、更
人性化的限制呢?他們肯定意識到了其智慧體正在執行超人的動作。

星海社區一致認為 AlphaStar 擁有超人的微操技術。人類專家在 ama 中表示,
AlphaStar 的最大優勢不是其單位控制,而其最大的弱點也不是戰略思維。

DeepMind 團隊中玩星海的人肯定也是這麼想的,理由是因為智慧體偶爾還是會進行無效
點擊。

雖然在玩遊戲的大部分時間裡,它能直接執行有效動作,但它還是經常做無效點擊。這一
點在它與 MaNa 的比賽中很明顯,該智慧體在 800APM 上無意義地點擊移動命令。

儘管這完全沒必要,而且消耗了它的 APM 資源,但它仍不忘記這麼幹。無效點擊會在大
規模戰爭中對智慧體造成很大傷害,它的 APM 上限可能會被修改以使它在這些對抗中表
現良好。



不要在意這些細節?

現在你明白是怎麼回事兒了。我甚至懷疑人工智慧無法忘記它在模仿人類玩家過程中學習
到的無效點擊行為,因而 DeepMind 不得不修改 APM 上限以允許實驗進行。

這麼做的缺點就是人工智慧有了超越人類能力的操作次數,從而導致 AI 以超越人類的手
速,不用戰術戰略就能打敗人類。

我們對 APM 如此關心,是因為 DeepMind 擊敗人類職業玩家的方式與他們所希望的方式
,以及所聲稱的「正確」方式完全相反。而 DeepMind 放出的遊戲 APM 統計圖也讓我們
對此有所洞悉:


這種統計方式似乎是在誤導不熟悉星海爭霸 2 的人。它似乎在把 AlphaStar 的 APM 描
述為合理的。我們可以看看 MaNa 的資料,儘管他的 APM 均值比 AlphaStar 要高,但在
最高值上 AI 遠高於人類,更不用說在高 APM 時人類操作的有效性了。


請注意:MaNa 的峰值是 750,而 AlphaStar 高於 1500。想像一下,MaNa 的 750 包含
 50% 的無效點擊,而 AlphaStar 的 EAPM 幾乎完美……

至於 TLO 的「逆天」手速,星海爭霸主播黃旭東和孫一峰在直播時認為他明顯使用了快
速鍵盤(通過特殊品牌的鍵盤熱鍵功能,設置某單個快速鍵/複合鍵代替多次滑鼠點擊)


快速鍵盤可以讓人類的 APM 達到不可理喻的高度,比如 15,000 多——但並不會提升你
的有效操作。

然而,你用快速鍵盤能做的唯一一件事就是無效施法。出於某些莫名的原因,TLO 在濫用
這個技術,這種操作的統計結果讓不熟悉星海爭霸的人看起來好像 AlphaStar 的 APM 是
在合理範圍之內的。


DeepMind 的介紹性博客並沒有提到 TLO 荒謬數字的原因,如果沒有解釋,這個數字就不
應該被列在圖中。

這簡直是在統計數字上作弊。

可以說有局限性,可以說潛力巨大


AlphaStar 星海爭霸 2 的人機大戰吸引了人工智慧領域裡很多專業人士的關注,它對於
 AI 技術的發展會有什麼樣的啟示。比賽過後,Facebook 研究科學家田淵棟在知乎上表
示:


昨天晚上抽空看了一下 DM 的 demonstration 還有 live 的比賽。確實做得很好。

我星海水準很爛,星海 2 也玩得不多,相信大家已經看到了大量的遊戲評論,我就跳過
了。

整個系統和 AlphaGo 第一版很接近,都是先用監督學習學會一個相當不錯的策略,然後
用自對弈(self-play)加強。當然有兩個關鍵的不同點,其一是自對弈用的是
 population-based 以防止掉進局部解(他們之前在 Quake 3 上也用到了)。

其二是在 network 裡面加了一些最近發表的神經網路模型,以加強 AI 對於遊戲全域和
歷史長程關聯性的建模能力(比如說用 transformer,比如說讓 AI 可以一下子看到全部
可見區域),這兩點對於不完全資訊遊戲來說是至關重要的。


因為不完全資訊遊戲只能通過點滴的歷史積累來估計出當前的狀態,尤其是對手的狀態,
多一點歷史記錄就能學得更好些,這個我們做過一些即時戰略遊戲(MiniRTS)的研究,
很有體會。


星海一個很大的問題是輸出的行動空間(action space)巨大無比,我記得他們在一開始
做的基線(baseline)演算法裡面用了 language model 輸出精確到單位的行動(
unit-level action),但在 DM 的 blog 裡面卻說每個時間節點上只有 10 到 26 種不
同的合法行動。

然後在他們的 demonstration 裡面「considered Build/Train」下面有 33 個輸出。這
些都讓人非常困惑。或許他們在監督學習的時候已經建立了一些子策略(比如說通過聚類
的方法),然後在訓練的時候直接調用這些子策略就行了。但具體細節不明,期待完整論
文出來。


另外,這次 AlphaStar 沒有用基於模型進行規劃的辦法,目前看起來是完全用經典的
 off-policy actor-critic 加大量 CPU 硬來,就有這樣的效果。

關於 AlphaStar 輸掉的那局。實話說被簡單的空投戰術重複幾次給拖死了,讓人大跌眼
鏡。聯想到 OpenAI Five 對職業選手也輸了,主要還是應變能力不強,無法對新戰術新
模式及時建模。


圍棋因為遊戲規則和雙方資訊完全透明,下棋的任何一方都可以用蒙特卡羅樹搜索(MCTS
)對當前局面進行臨時建模和分析,但不完全資訊博弈因為得要估計對手情況就沒有那麼
簡單。


AlphaStar 目前似乎是無模型的(model-free,Reddit 上的解答確認了這一點)。我不
知道是不是在進行充分的訓練之後,純粹無模型(model-free)的方法可以完全達到樹搜
索的效果——但至少我們能看到在圍棋上。


就算是用相當好的模型比如說 OpenGo,要是每盤都不用搜索而只用策略網路的最大概率
值來落子,還是會經常犯錯。

所以說,若是在不完全資訊博弈裡面用上了基於模型(model-based)的方法,並且能夠
穩定地強於無模型(model-free)方法,那在演算法上會是一個比較大的突破。

所以其實深度強化學習還是有很多很多很多沒有解決的問題,你可以說它有很大局限性,
也可以說它潛力巨大。

在這之上,更難的一個問題是如何讓 AI 具有高層推理的能力。人對將來的預測是非常靈
活且極為穩定的,可能會想到一秒後,也可能會想到一年後,而且對新模式可以很快概括
總結並加以利用。


但真寫點演算法去模仿人的預測能力,就會出現各種各樣的問題,比如說對沒探索過的地
方過於自信,多次預測產生累計誤差等等。那麼到底什麼樣的預測模型是穩定有效且靈活
的,目前還是研究熱點,沒有一個統一的答案。


對應到星海上,人在全域戰略上的優化效率要遠遠高於 AlphaStar,比如說一句「造兩個
鳳凰去滅了那個來空投的棱鏡」,可能就頂 AlphaStar 自對弈幾天幾夜。

這個效率的差距(可能是指數級的)是否可以用大量計算資源去填補,會是和頂尖高手對
局勝敗的關鍵所在。

https://www.36kr.com/p/5174690

--
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.192.113.200
※ 文章代碼(AID): #1SJhIvfq (C_Chat)
※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1548661945.A.A74.html
badend8769: 太長1F 01/28 15:52
blargelp: 長文不付懶人包in2019= =2F 01/28 15:55
weltschmerz: 轉貼還不編輯 上面重複一樣的段落3F 01/28 15:55
gcobc36557: 太長4F 01/28 15:56
akun710191: 轉文怎麼轉得這麼爛==5F 01/28 15:56
Shift2: 整理一下好不好6F 01/28 15:57
blargelp: 反正大概就是人類了不起幾百APM,而且還參雜無笑效的。A7F 01/28 15:57
blargelp: I說已經有限制了APM但還是可以破千,且全部有效?
gmoz: 懶人包:AI的有效APM(假定他沒有無效點擊)高達1000+9F 01/28 15:58
gmoz: 超過人類極限
arrenwu: 又長又無聊 = =  AS那也不是作弊 就操作比人類強11F 01/28 15:59
arrenwu: 然後DeepMind做這個實驗也不是為了要證明AS玩遊戲會贏人
arrenwu: 而是想知道在戰鬥策略規劃上AS有沒有可能展現高智能
arrenwu: 畢竟只是玩這遊戲玩贏人類有啥屁用?
spfy: 裡面好多重複的廢話 你直接轉中國文章沒處理吧15F 01/28 16:00
gigayaya: AI:朱雀  人類:魯魯修16F 01/28 16:00
y124421473: 打那麼多誰他媽看的完17F 01/28 16:00
spfy: 中國網站為了頁面的停留率和廣告曝光度 會把一篇文章切很多18F 01/28 16:00
gigayaya: 魯魯修:這不是人類辦的到的事情  朱雀:我來吧    !?19F 01/28 16:01
spfy: 段放123...N頁 還會塞很多廢話...20F 01/28 16:01
※ 編輯: zkowntu (123.192.113.200), 01/28/2019 16:07:07
hdjj: 開頭一句「首先我必須聲明我是門外漢」,然後下面打了一堆21F 01/28 16:07
hdjj: 這不就是說自己是在發廢文嗎?XD
siro0207: 超多廢話...23F 01/28 16:10
jasmine2015: 簡單來講就是人類的APM其實很大一部分是無意義動作24F 01/28 16:12
jasmine2015: 但是開發人員忽略這點 把AI的APM上限調太高 我是覺得
jasmine2015: 不如讓AI挑戰操作不那麼吃重的RST 例如英雄連之類的
durg: 確實是門外漢講廢話。27F 01/28 16:13
sth7667: 裡面那影片看了大概就懂意思了,那種操作人類不可能辦到28F 01/28 16:15
www8787: 簡單說就像打大老二比牌技時 電腦的吐胚可以贏葫蘆29F 01/28 16:19
siro0207: 簡單來說 這些比賽原本的目的應該是要測試AI能不能制定30F 01/28 16:20
jupto: 純粹是開發團隊給人類選手一個可以嘴的空間吧31F 01/28 16:20
alonelykid: 其實只有操作強是失敗的 早就有悍馬2000這種神級AI32F 01/28 16:21
siro0207: 戰略或戰術來獲勝 而不是靠單純的微操33F 01/28 16:21
iwinlottery: 這的確要限制啊34F 01/28 16:21
zseineo: 呃這個AI學會了營運好嗎,只是他順便練出了超強的操作35F 01/28 16:22
www8787: 要讓電腦的兔胚比人類葫蘆強 可以 但那失去比牌技的意義36F 01/28 16:22
alonelykid: 這種感覺比較想跟電腦比打字速度而不是寫文章37F 01/28 16:22
zseineo: 然後他的目的嘛,可以去星海板看Jotarun大的文38F 01/28 16:23
arrenwu: AS確實學會了營運,但只是要做到這件事情寫個script就行39F 01/28 16:23
siro0207: 畢竟這種微操在現實戰爭面來看非常的不現實 就像叫一群40F 01/28 16:27
siro0207: 步兵衝進敵人的砲兵陣列 然後指揮官透過無線電指揮每個
siro0207: 士兵 讓敵人的每發砲彈都只擊中一個士兵
jupto: 整體來說AS的微操已經被限制在哪裡可實現的範圍 只是人類43F 01/28 16:29
jupto: 還有有失誤與耐久的限制
siro0207: 或者是每發砲彈都打不中這樣45F 01/28 16:30
jupto: 至於沒有加入這兩個限制 原因是技術 開發者失誤 還是其他46F 01/28 16:31
jupto: 原因就不知了
hdjj: 在現實戰爭面來看很現實啊,有一種東西叫無人機48F 01/28 16:32
zseineo: 因為目的就不是做一個彷人類會失誤的AI49F 01/28 16:32
zseineo: 然後AS的高速操作人類是作不到的
hdjj: 而且現代軍隊火力操縱也大多由電腦來控制,人類只需下令開火51F 01/28 16:34
siro0207: 我的例子就不是無人機啊52F 01/28 16:35
siro0207: 如果今天配給你的士兵只是一般人 那你這AI不就垃圾
amsmsk: 操作散小狗有讀取到後台訊息了   as是看現場應對這能比嗎54F 01/28 16:38
amsmsk: 這作者知道自己講啥嗎
zseineo: 啊就重學啊XD 今天DM給他的APM限制就這樣,他就練出這種56F 01/28 16:38
zseineo: 戰術啊
arrenwu: 我發了個懶人包 大家有興趣的可以看看58F 01/28 16:40
dimw: 感覺和以前的深藍一樣 不知道之後要幹嘛了59F 01/28 16:43
jupto: 其實最好的方式就是把決策與操控做成兩個獨立的系統 操控60F 01/28 16:43
jupto: 提供決策許多戰術包 決策負責判斷使用哪個戰術包 這樣只要
jupto: 依照比賽對手條件調整戰術包的數量與參數就可以達到限制操
jupto: 作的目的
amaranth: 簡單講就是電腦可以操縱部隊開無雙來藉此獲勝,可是研究64F 01/28 16:44
amaranth: 的目的是希望能學習用戰術/策略取勝
arrenwu: 其實我還滿相信這文章某個論點,就是限制APM的話AS可能沒66F 01/28 16:44
arrenwu: 辦法拿出來展示
dimw: 回歸AI目的 在過去大概可以說是想模擬人類的大腦68F 01/28 16:45
dimw: 現在的話大概是想突破奇點 不過不管哪個實際上都還很遙遠
bahamutjr: 中間一段說學人類的關西 所以有無效操作 才需要放寬APM70F 01/28 16:46
bahamutjr: 的限制 後面又說EAPM完美 沒有無效操作
jupto: 我倒是認為AI其實早就離這些目的一步之遙 只人類永遠不敢去72F 01/28 16:48
jupto: 打開那道大門
s81048112: AI幹嘛要去仿人類失誤?74F 01/28 16:48
arrenwu: 一步之遙...想太多囉75F 01/28 16:48
aegisWIsL: 太長76F 01/28 16:48
arrenwu: 參考這個 http://rail.eecs.berkeley.edu/deeprlcourse/Reinforcement77F 01/28 16:50
arrenwu:  Learning 現在還一堆問題
arrenwu: 有很多做法看起來就像矇對的一樣
arrenwu: 現在AI之所以變強是因為人類幫他簡化問題並想方法找出正
arrenwu: 確的自我提升方向。這跟強AI是完全不同的東西
dimw: 人類在學習成長的過程中 會犯的錯誤大多是有意義的82F 01/28 16:54
dimw: 當然我是不敢說這種有意義的錯誤會是智慧的必要條件
jupto: 我倒認為這只是解釋人類目前連表達出自己想要什麼都一大堆b84F 01/28 16:55
jupto: ug需要修正
zseineo: 上面有些失誤是在講肌肉耐力或點擊失誤這種東西86F 01/28 16:55
lturtsamuel: 不是AI要模彷人類失誤 而是AI的對手人類本來就會失誤87F 01/28 16:56
lturtsamuel: 而這個遊戲本來就是這樣去設計平衡性的
lturtsamuel: 用一個不失誤的AI去打敗會失誤的人類 能說它比人類更
lturtsamuel: "智慧"嗎?
lturtsamuel: 這裡所謂的人類失誤也不是在智慧上的失誤 而是肌肉控
lturtsamuel: 制或反應時間導致的
arrenwu: 我還是覺得現在不用急著限制APM 因為人類還可以用策略贏93F 01/28 16:59
lturtsamuel: 不限APM 它就是一直往高操作兵種的方向去學習94F 01/28 17:01
lturtsamuel: 然後用超越平衡的打法去玩遊戲 我是覺得這樣練出來的
arrenwu: 但我覺得要先求有,至少目前要讓他能夠戰勝人類96F 01/28 17:02
lturtsamuel: 結果還挺歪的啦97F 01/28 17:02
dieorrun: 戰勝又沒意義 只是要贏的話方法一堆98F 01/28 17:02
arrenwu: 問題是現在他們的實驗成果沒辦法戰勝人類啊99F 01/28 17:03
jupto: 現在不就是限制了APM電腦還是靠操作就屌打人類 才會產生AS100F 01/28 17:03
jupto: 作弊一說?
arrenwu: 屌打人類? 現在人類上去跟他玩勝率會是100%102F 01/28 17:03
zseineo: 我覺得要弄懂DM的目的而不是自己定義AI的成功與否啦XD103F 01/28 17:03
lturtsamuel: 這不就像拳擊打不贏就吃禁藥一樣 吃禁藥打贏了技術會104F 01/28 17:04
lturtsamuel: 進步嗎
lturtsamuel: 我是覺得不吃禁藥打輸也比吃禁藥打贏學到更多啦
lturtsamuel: 它不是打贏職業了嗎 雖然是二線的沒錯 但不能說人類
lturtsamuel: 打100%會贏吧 serral打二線都不敢說自己100%會贏了
arrenwu: 我是自己猜如果APM限制得更嚴苛 可能會沒辦法DEMO109F 01/28 17:06
arrenwu: 你可以看最近那個現場跟Mana的表演賽,他不會打空投
arrenwu: 他不會打空投的原因是他根本不了解要怎麼對抗
lturtsamuel: 我也是這樣想 也許低APM那的區域數學性質很難收斂112F 01/28 17:06
arrenwu: 這其實很妙喔 因為神族對抗的rp 空投非常常見113F 01/28 17:07
zseineo: 目前AS有很多不同的版本,總戰績是10-1114F 01/28 17:07
lturtsamuel: 那它的方向應該是想辦法學會守空投 不是變成APM怪物115F 01/28 17:07
arrenwu: 這總戰績根本沒有任何意義116F 01/28 17:07
arrenwu: 那你有沒有想過為什麼他會放出這個連常見戰術都不會對抗
arrenwu: 的AI?
arrenwu: 之前AlphaZero有許多版本,但是會放出來的一定要屌虐之前
arrenwu: 所有版本的AlphaGo
lturtsamuel: 因為目前技術還沒跟上啊 不然咧@@121F 01/28 17:09
arrenwu: 我的看法是這暗示要理解"1隻鳳凰可以解決稜鏡"這件事情122F 01/28 17:09
arrenwu: 並沒有很容易
dieorrun: 所以到底是要怎樣 就成果和大家預期的不一樣啊124F 01/28 17:09
arnold3: 我玩即時戰略那麼久了 還真沒遇過打不贏的ai125F 01/28 17:09
arrenwu: 所以我覺得先讓他們可以在沒有APM限制下讓AS學會所有基本126F 01/28 17:10
arrenwu: 概念比較...好啦XD
dieorrun: 甚至有點練錯方向了 問題在哪128F 01/28 17:10
arnold3: 主要還是打幾場沒找到對電腦的打法而已129F 01/28 17:10
theyolf: 這種AI跟以前那種超級電腦有啥不同? 那個也叫營運嗎130F 01/28 17:10
zseineo: 就大家要的AI跟DM要的都不一樣啊,其實都在雞同鴨講131F 01/28 17:10
arnold3: 玩個幾天要打贏最難電腦不算多難132F 01/28 17:10
lturtsamuel: 我也覺得 目前的AI要理解空軍剋稜鏡 它的過程一定跟133F 01/28 17:10
lturtsamuel: 人類差很多
arrenwu: 我不太相信大家要的AI跟DM不一樣啦XD135F 01/28 17:11
lturtsamuel: 假如我現在突然擁有超越serral的手速 我相信我對遊戲136F 01/28 17:11
lturtsamuel: 的理解一定會歪掉
arrenwu: 人類的學習能力本來就是比較快的 這倒是一直都沒有疑問138F 01/28 17:12
lturtsamuel: 例如追獵剋不朽139F 01/28 17:12
arrenwu: 我在猜的是..AS可能目前就專注追獵操作這一套會收斂140F 01/28 17:12
arrenwu: 如果加入其他部分的話可能沒辦法收斂或收斂到這麼好
lturtsamuel: 我是覺得可以用高手速來pretrain 然後慢慢調低142F 01/28 17:13
lturtsamuel: 不過這作法這麼直覺 絕對有人做過 不知結果如何
jupto: 最簡單就是分解成決策與操作兩個系統 其實人類大腦也是這144F 01/28 17:26
jupto: 樣在搞 只是這樣可能就無法完全突破奇點
hitmd: 我以為 AI是每個單位都獨立自己可以行動,還可以掌握配合146F 01/28 18:17
jupto: 其實樓上說的這些 遊戲內建的引擎已經處理了不少147F 01/28 18:24
WindSucker: 輸不起148F 01/28 19:06
notneme159: 太長 整理一下吧149F 01/28 19:32
ge781221: 拿AI跟人類比本來就沒啥意義,會這樣比只是想凸顯AI會學150F 01/28 20:06
ge781221: 習戰術,但是不管你再加上諸多限制,AI的操作始終有優勢
ge781221: ,這種優勢在遊戲內是會一直擴大的,再說了比賽之所以好
ge781221: 看是因為人類可能有失誤,選手如何降低失誤甚至是失誤之
ge781221: 後怎麼挽回,都是讓比賽精彩的地方
yadohime: 簡單說就AI微操控兵就車翻你了就沒必要去想戰略,而製155F 01/28 20:21
yadohime: 作者真正要的是戰略戰術的層次。講得明白點,輸了就輸
yadohime: 了不用東拉西扯
yadohime: 真要有效應該讓AI對AI ,完全不限制性能,在此之上再發
yadohime: 展戰略跟戰術
cat5672: 靠暴力就能解決的事 戰術和戰略都是沒有意義的160F 01/28 22:53
cat5672: 比方現在有誰會在意棋類的ai有沒有戰術和戰略的能力
cat5672: 算得夠快有夠深能贏就好了 單純追求勝利看起來是很積極
cat5672: 但其實也很侷限

--
※ 看板: ACG 文章推薦值: 1 目前人氣: 0 累積人氣: 188 
分享網址: 複製 已複製
( ̄︶ ̄)b win2000ps2 說讚!
1樓 時間: 2019-01-29 08:34:32 (台灣)
  01-29 08:34 TW
人類送出遊戲命令是從腦→軀幹→手指→鍵盤滑鼠→電腦,過程中有延遲、疲勞、誤操作及受傷等實體到虛擬間介面轉換的問題。而本身就是軟體的AlphaStar則沒有這方面的問題,現階段要講公平,應該讓AI來操作機械手臂和人類對戰,才會相對公平。
r)回覆 e)編輯 d)刪除 M)收藏 ^x)轉錄 同主題: =)首篇 [)上篇 ])下篇