Nový model umělé inteligence Sora od OpenAI, tvůrců populárního nástroje ChatGPT, umí generovat videa. A jakkoliv to není nic nového a nástroj vlastně ještě není veřejně dostupný, vypadají výsledky skutečně působivě. Obzvláště když si uvědomíte, v jakém stavu bylo generování videí před rokem.
Nově zveřejněný technický dokument OpenAI podrobně popisuje schopnost modelu Sora dynamicky vykreslovat video v libovolném rozlišení a poměru stran, a to až do rozlišení 1080p. Dokáže plynule manipulovat s existujícími videi, rozšiřovat scény, nahrazovat pozadí a dokonce vytvářet klipy ve smyčce.
OpenAI Sora can simulate Minecraft I guess. Maybe next generation game console will be "Sora box" and games are distributed as 2-3 paragraphs of text. pic.twitter.com/9BZUIoruOV
— Andrew White (@andrewwhite01) February 16, 2024
Vtip je v tom, že nejspíš nejde ani tak o tvorbu videí, jako spíše o „engine“ schopný simulovat fyziku, animace, nasvícení a další prvky dobře známé z her. Sora je sice teprve na začátku, ale už teď prý dokáže simulovat jednoduché virtuální světy pomocí prostých textových pokynů.
V experimentu, při němž byly použity prompty se slovem „Minecraft“, vykreslila Sora herní prostředí včetně uživatelského rozhraní, a dokonce i základních fyzikálních pravidel. To znamená, že Sora funguje v podstatě jako fyzikální engine řízený daty, který počítá vlastnosti světa před generováním vizualizace.
„Sora je také schopna simulovat umělé procesy – jedním z příkladů jsou videohry. Sora dokáže současně ovládat hráče ve hře Minecraft pomocí základních příkazů a zároveň velice věrně vykreslovat svět i jeho mechanismy,“ zmiňují vědci z OpenAI na webu.
„Tyto vlastnosti naznačují, že další škálování videomodelů je slibnou cestou k vývoji vysoce schopných simulátorů fyzických a digitálních světů a objektů, zvířat a lidí, kteří v nich žijí,“ dodává tým OpenAI.
If you think OpenAI Sora is a creative toy like DALLE, ... think again. Sora is a data-driven physics engine. It is a simulation of many worlds, real or fantastical. The simulator learns intricate rendering, "intuitive" physics, long-horizon reasoning, and semantic grounding, all… pic.twitter.com/pRuiXhUqYR
— Jim Fan (@DrJimFan) February 15, 2024
Ačkoli fyzikální simulace v rámci Sory zůstávají zatím pořád základní a nekonzistentní, výzkumníci poznamenávají, že ukazují velký potenciál. Budoucí modely umělé inteligence by potenciálně mohly z textových popisů generovat realistické, nebo dokonce fotorealistické herní světy.
Zatím je Sora a jiné, jí (jemu?) podobné modely pochopitelně pořád na začátku a pro seriózní vývoj jsou nepoužitelné. Naznačují nicméně jistý směr, kterým se patrně budou nástroje generativní umělé inteligence ubírat a jak dobře víme, vývoj AI je nesmírně rychlý.
Stačí se podívat na to, jak vypadaly obrázky, které generovala Midjourney před rokem, nebo čeho všeho je teď schopen DALL-E 3 od OpenAI. Nemluvě o tom, na čem teď pracuje Google, ale nejen ten. Budoucnost herního vývoje je tak v současné době zajímavější než kdy dřív.