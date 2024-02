Nový model umělé inteligence Sora od OpenAI, tvůrců populárního nástroje ChatGPT, umí generovat videa. A jakkoliv to není nic nového a vlastně nástroj vlastně ještě není veřejně dostupný, vypadají výsledky skutečně působivě. Obzvláště když si uvědomíte, v jakém stavu bylo generování videí před rokem.

Nově zveřejněný technický dokument OpenAI podrobně popisuje schopnost modelu Sora dynamicky vykreslovat video v libovolném rozlišení a poměru stran, a to až do rozlišení 1080p. Dokáže plynule manipulovat s existujícími videi, rozšiřovat scény, nahrazovat pozadí a dokonce vytvářet klipy ve smyčce.

OpenAI Sora can simulate Minecraft I guess. Maybe next generation game console will be "Sora box" and games are distributed as 2-3 paragraphs of text.

Vtip je v tom, že nejspíš nejde ani tak o tvorbu videí, jako spíše o „engine“ schopný simulovat fyziku, animace, nasvícení a další prvky dobře známé z her. Sora je sice teprve na začátku, ale už teď prý dokáže simulovat jednoduché virtuální světy pomocí prostých textových pokynů.

V experimentu, při němž byly použity prompty se slovem „Minecraft“, vykreslila Sora herní prostředí včetně uživatelského rozhraní, a dokonce i základních fyzikálních pravidel. To znamená, že Sora funguje v podstatě jako fyzikální engine řízený daty, který počítá vlastnosti světa před generováním vizualizace.

„Sora je také schopna simulovat umělé procesy – jedním z příkladů jsou videohry. Sora dokáže současně ovládat hráče ve hře Minecraft pomocí základních příkazů a zároveň velice věrně vykreslovat svět i jeho mechanismy,“ zmiňují vědci z OpenAI na webu.

„Tyto vlastnosti naznačují, že další škálování videomodelů je slibnou cestou k vývoji vysoce schopných simulátorů fyzických a digitálních světů a objektů, zvířat a lidí, kteří v nich žijí,“ dodává tým OpenAI.

If you think OpenAI Sora is a creative toy like DALLE, ... think again. Sora is a data-driven physics engine. It is a simulation of many worlds, real or fantastical. The simulator learns intricate rendering, "intuitive" physics, long-horizon reasoning, and semantic grounding, all…