Umělá inteligence AlphaStar rozdrtila progamery Starcraftu II

Bez nadsázky se dá napsat, že se minulý čtvrtek v 19 hodin středoevropského času psala historie, a to nejenom herní. V tříhodinovém streamu jsme mohli sledovat, jak nejpokročilejší umělá inteligence na světě DeepMind porazila v 11 zápasech Starcraftu II celkem 10x dva přední světové progamery – TLO a MaNu. Ačkoli se nejedná o definitivní porážku lidských soupeřů (k tomu by musela AlphaStar vyhrát celý regulérní turnaj proti desítkám protihráčů hlavně z Jižní Korey), je namístě zpozornět.

Šachy jsou pro amatéry

Starcraft II je řádově složitější strategie než šachy, go nebo drtivá většina jiných existujících her – pokud by o tom někdo pochyboval, stačí si zkusit zahrát proti obyčejnému hráči na úrovni mistra (který je hluboko pod progamery).

Je třeba si uvědomit, že v případě deskových her mají oba hráči většinou k dispozici kompletní informace o herním prostředí. To v SC neplatí, tzv. fog of war zakrývá části mapy a hráč musí aktivně vyzvídat, „scoutovat“, co protivník připravuje. V případě absence informací musí člověk nebo umělá inteligence předvídat nejpravděpodobnější následující kroky, a to daleko do budoucnosti.

Pokud například v 3. minutě zápasu dáte přednost ekonomické expanzi namísto výroby správného typu obranných jednotek, protože přehlédnete skrytou produkční budovu nepřítele, chyba se každým dalším okamžikem hry kumuluje a v 8. minutě zápas beznadějně prohrajete. A to je jen jeden nejběžnější případ, nejlepší hráči totiž často využívají klamné taktiky, aby protihráče nachytali a zmátli.

Dále je Starcraft hrou odehrávající se v reálném čase. Každou vteřinu je třeba činit mnoho rozhodnutí, není možné se „zaseknout“ a dlouze nad něčím přemýšlet, to se rovná jisté prohře. A nesmíme zapomínat ani na fakt, že Starcraft nabízí desítky unikátních jednotek s různými schopnostmi a na mapě jich může být v jeden okamžik až 400.

Množství možných kombinací různých akcí v průběhu jedné dlouhé hry je o mnoho řádů jinde než v případě „triviálních“ šachů, go, ale i MOBA her.

Galerie

Učedník padl, ale co mistr?

Doposud existující boti se tyto překážky pokoušeli obcházet prostě tím, že nelidsky rychle ovládali každou jednotku zvlášť. Namísto nejlepších lidských cca 400 akcí za minutu (kliků myší, zmáčknutí klávesnice) dělali akcí třeba 160 000.

Inženýři v projektu DeepMind se ale chtěli vydat jinou cestou, a proto AlphaStar omezili na cca 1 600 akcí, přičemž průměrné APM se pohybuje okolo 277. Agent umělé inteligence totiž musí dodržovat prodlevu mezi vstupní informaci a svou akcí 350ms, což simuluje rychlost lidského nervového systému (oko → mozek → ruka).

Team DeepMind nejprve s předstihem 14 dnů vyzkoušel AlphaStar proti ne tak známému progamerovi TLO, který navíc hrál „off race“, to znamená za jinou ze tří možných ras, než jakou používá jako progamer – konkrétně protosse. Přestože TLO všech pět zápasů prohrál, bylo vidět, že umělá inteligence dělá sem a tam očividné chyby. I tak působivé, ale popravdě jsem byl spíš zklamaný.

Ovšem pak přišel do studia Grzegorz Komincz alias MaNa, který hraje SC od pěti let a už si jako progamer vydělal 192 000 dolarů. Na řadu přišlo pět zápasů, které si můžete prohlédnout na přiloženém záznamu (některé jsou k vidění pouze na stránce deepmind), kdy hrál naplno svou rasu (zase protosse).

Jenže MaNa už stál proti vylepšenému agentu, který se „celých“ 14 dní zlepšoval. A protože strojové učení běží v datacentru Googlu na speciálním HW rychle, šlo o ekvivalent 200 let nepřetržitého lidského tréninku.

Jako hrát na minimapě

Výsledek? 5:0 pro AlphaStar, a to MaNa rozhodně nehrál na půl plynu. Jeho chování bylo velmi inteligentní a snažil se umělou inteligenci nachytat v různých léčkách, např. připravil přepadení jejích jednotek v úzkém průchodu.

Přestože se mu podobné akce opakovaně povedly, nebyl schopen svou výhodu nikdy využít a vyhrát, protože umělá inteligence ve zlomku vteřiny přepnula do obranného módu a nezastavitelnou armádu, která by téměř jistě prorazila i nejlepší lidi, začala se zbytkem jednotek napadat ze všech stran.

MaNův postup se zpomalil, AlphaStar konsolidoval své jednotky stalkerů, posílil obě křídla, donutil MaNu rozdělit své síly a za pár vteřin byl útočník se zbytky svých kulhajících Zealotů na ústupu.

MaNa, ale i komentátoři správně namítali, že taková taktika je u člověka nemožná, protože nedokáže být na čtyřech místech najednou – AlphaStar totiž bojiště nevidí jako člověk skrz obrazovku, ale dostává o tom, co se na něm děje, údaje skrz datovou pipeline. Je to prostě, jako by hrál na velké verzi minimapy.

Inženýři proto umělou inteligenci v průběhu sedmi dnů ještě více polidštili a donutili ji koukat se na bojiště skrz ekvivalent malého výřezu lidského monitoru.

Galerie

Achillova pata? Oči

Následoval poslední, jedenáctý a konečně živý zápas. Umělá inteligence na první pohled hrála ještě lépe než dříve i přes fakt, že se MaNa adaptoval a začal používat pro své „macro“, to znamená ekonomickou část hry, stejný a dost inovativní postup saturace minerálů těžaři jako AI v minulých zápasech.

Ovšem MaNa v sobě nezapřel progamera, který chce vyhrát za každou cenu, a umělou inteligenci podvedl. Uvědomil si totiž, že na rozdíl od člověka nemá oči a nedokáže vizuálně zpozorovat přítomnost neviditelné průzkumné sondy – a umístil ji přímo doprostřed AlphaStarovy základny.

Díky tomu si mohl MaNa opakovaně dovolit útočit na jeho hlavní produkční základnu, aniž by byl jeho výsadek zničen. Právě v tento okamžik bylo vidět, že je AlphaStar bezradný. S touto situací se v simulacích proti různým verzím sebe samého nesetkal a nevěděl, co dělat. „Nedošlo mu“, že by stačilo postavit jednu leteckou jednotku a výsadku se tak rychle zbavit.

Kdyby MaNa neměl na místě neviditelnou sondu, jednotky AI by výsadek s velkou pravděpodobností po chvíli zničily – ostatně přesně takový výsledek zřejmě aAlphaStar očekával, ale protože ještě nemá obecnou inteligenci jako lidé, nedokázal si uvědomit, že MaNa musí jeho akce vidět a nemůže jít o náhodu. Nedokázal ani zformulovat nějakou náhradní strategii typu „útok všemi jednotkami“ a prohrál.

Skynetu se ještě týden nebojte

Takže člověk nakonec přece zvítězil? Nebyl bych tak klidný… Za jediný týden (neboli pro AlphaStar s jeho rychlostí učení za 100 let) může být vše jinak. Schopnosti umělé inteligence, hlavně té od Googlu, který má nejvíce surových dat na planetě, rostou exponenciálně. Zatímco včera porážela šachisty nebo hráče pongu, dnes drtí starcraftové legendy, které jsou po 20 let symbolem nejschopnějších jedinců celého e-sportu.

P.S. Zajímavostí také je, že celá umělá inteligence při živém zápase byla poháněna pouze jedinou grafickou kartou.