dozvědět se vše o umělé inteligenci, která generuje videa z textu

Sora je model umělé inteligence OpenAI schopný přeměnit textovou výzvu na video. Sora, potenciálně revoluce v umělecké tvorbě, vyvolává mnoho otázek, na které se zde snažíme odpovědět.

video generované Sorou
Kredit: OpenAI

Poté, co OpenAI vyvolalo nebývalé nadšení svým textovým generátorem ChatGPT a generátorem obrázků DALL-E, představilo Sora, svůj video generátor. Stejně jako u ostatních platforem se jedná o nástroj založený na umělé inteligenci, který je schopen vytvářet obsah z výzvy ve formě textu. Sora slibuje revoluci v mnoha kreativních využitích na internetu a dalších sektorech, zde je to, co o tom potřebujete vědět.

Jak přípravek Sora působí?

Sora je založena, stejně jako modely GPT, na a architektura transformátoru. V neuronové síti použije transformátor své pole studia k vytvoření vztahů mezi složkami sekvence, což mu umožní upravit vstupní sekvenci na výstupní a generovat odpověď na výzvu . Díky tomuto systému se zdá, že AI rozumí otázce a přemýšlí o vytvoření relevantní odpovědi, ale ve skutečnosti se nejedná o žádné logické schopnosti. Jedná se o algoritmy využívající matematické reprezentace ke vzájemnému vztahu pojmů.

Když velké jazykové modely (LLM) používají ve své činnosti tokeny, Sora používá to, co OpenAI nazývá tokeny. “náplasti” (vizuální opravy). Tato technika se již osvědčila v oblasti vizualizace dat. Videa jsou komprimací transformována na záplaty a tyto záplaty pak fungují jako tokeny. Lze je použít k rekonstrukci videa (nebo obrazu) pomocí transformátoru.

Náplasti SoraNáplasti Sora
Kredit: OpenAI

„Sora je streamovací model, který generuje video začínající videem, které vypadá jako statický šum, a postupně jej transformuje odstraněním šumu v několika krocích.“, vysvětluje OpenAI. Je možné vytvořit video jedním tahem z jedné výzvy nebo použít více výzev k prodloužení nebo opravě videa za pochodu.

Sora hlukSora hluk
Kredit: OpenAI

Model používá to samé technika rekapitulace používá DALL-E 3. Skládá se z generování velmi podrobných a popisných legend pro vytvoření bohaté databáze vizuálního školení. Model tak může z této databáze čerpat, aby věrněji vyhovoval textovým pokynům uživatele ve vygenerovaném videu.

Kromě textové výzvy podporuje Sora pokyny pro zpracování obsahující statický obrázek. Na základě obsahu tohoto obrázku pak vytvoří animaci. Výzva může dokonce navrhnout video, které bude moci Sora rozšířit nebo do kterého může přidat chybějící scény.

Jak dlouhé je video generované Sorou?

Prozatím může Sora generovat videa o délce až jedné minuty. Toto omezení je způsobeno množstvím zdrojů nutných k vytvoření videa, které striktně respektuje pokyny uživatele a požadovaný vizuální styl. OpenAI nesdělila dobu zpracování potřebnou k vytvoření videa. Zdá se, že zpětná vazba od prvních uživatelů naznačuje, že vytvoření minutového videa se Sorou trvá asi hodinu. Takové zpoždění představuje pro službu velkou slabinu a brání uživatelům efektivně opravovat svá videa novými výzvami k jejich optimalizaci a získání relevantnějších výsledků.

Jak dobrá je kvalita obrazu Sora?

Sora generuje videa v rozlišení až 1920 x 1080p, tedy Full HD. Dokáže také produkovat videa ve vertikálním formátu až do 1080 x 1920p a přizpůsobit se libovolnému poměru stran. Na rozdíl od jiných služeb tohoto typu není u videí znám počet snímků za sekundu.

Sora umí tvořit ultra realistické ztvárnění, ale i abstraktnější scény, podle požadavků vysvětlených ve výzvě. Mohou se objevit umělosti a aberace v obraze a můžeme si všimnout fenoménu halucinací, jako u generování obrazu pomocí DALL-E. Mohou se také vyskytnout chyby v pohybech, stejně jako v interakcích mezi postavami nebo s prostředím a předměty. Ale první příklady publikované OpenAI jsou působivé a můžeme si myslet, že Sora by již mohla být připravena generovat reklamní spoty vysílané na internetu nebo v televizi.

Podle vlastního přiznání OpenAI Sora stále potřebuje zlepšení. “Může mít potíže s přesnou simulací fyziky složité scény a nemusí rozumět konkrétním případům příčiny a následku.”, přiznává firma. Pokud například člověk kousne do sušenky, nemusí mít stopu po kousnutí. Správa rozbitého skla je také problém, se kterým se OpenAI setkává. Vzor se může zmást v prostorových pokynech výzvy, například smícháním doleva a doprava. Může být také obtížné sledovat pokyny pro směr scény, jako je konkrétní trajektorie nebo úhel kamery.

Sora je na druhou stranu schopen vytvářet scény s přesnými detaily námětu a pozadí, vyjadřovat emoce, respektovat vizuální styl, měnit záběry několikrát v jednom videu nebo dokonce převzít specifický filmový formát, například 35 mm. 3D konzistence je již zvládnuta. Sora umí generovat videa s dynamickým pohybem kamery. „Jak se kamera pohybuje a otáčí, lidé a prvky ve scéně se koherentně pohybují v trojrozměrném prostoru“učíme se.

Podobně je OpenAI spokojeno s výkonem Sora, pokud jde o časovou koherenci v průběhu videa a stálosti objektů. „Náš model dokáže ochránit lidi, zvířata a předměty, i když jsou skryté nebo opouštějí rám. Dokáže vygenerovat více záběrů stejného charakteru v jednom vzorku, přičemž jejich vzhled bude zachován v celém videu.“říká společnost.

Jak vyzkoušet Soru?

Sora je přístupná pouze členůmOpenAI Red Teaming Network. Jedná se o pečlivě vybranou skupinu uživatelů, jejichž posláním je otestovat schopnosti nástroje. Cílem je nahlásit technické, právní nebo etické problémy OpenAI, aby mohly být vyřešeny před širším spuštěním. Problematika deepfakes trápí zejména vydavatele řešení pro generování videa. V tomto ohledu je třeba postavit bariéry. Dodržování autorských práv je další důležitou otázkou, kterou je třeba vzít v úvahu.

„Také poskytujeme přístup mnoha umělcům, designérům a filmařům, aby získali zpětnou vazbu o tom, jak posunout model, aby byl co nejužitečnější pro kreativní profesionály“, hlásí také OpenAI. Společnost právě teď sdílí svůj pokrok a otevírá dveře do Sora několika lidem mimo OpenAI, aby získali co nejvíce zpětné vazby a zlepšili svůj nástroj. Kdy bude Sora dostupná pro širokou veřejnost, ani v jaké podobě, zatím nevíme.

Bude Sora integrována do ChatGPT?

V současné době nevíme, jak OpenAI hodlá distribuovat Sora široké veřejnosti. Pokud se opíráme o nedávná strategická rozhodnutí společnosti, není jisté, že nástroj má vlastní uživatelskou platformu. DALL-E 2 již nepřijímá nové klienty na svém vlastním rozhraní, zatímco pro přístup k DALL-E 3 musíte projít placenou nebo vývojářskou verzí ChatGPT. Můžeme si tedy představit, že až bude spuštěn, bude Sora přímo integrována do ChatGPT Plus. Není jisté, že bezplatná, byť omezená, dostupnost Sora bude nabídnuta po jejím vydání.

ChatGPTChatGPT
Kredit: 123RF

Jaká bezpečnostní opatření jsou v Soře zabudována?

Než bude Sora zpřístupněna široké veřejnosti, OpenAI již oznámilo řadu opatření ke snížení rizik zneužití tohoto mocného nástroje. Společnost v současné době vyvíjí nástroje „pomáhat odhalit zavádějící obsah“, citující zejména klasifikační systém, který umožňuje detekovat video generované Sorou. Je také specifikováno, že pokud by měl být model v budoucnu integrován do produktu OpenAI, týmy plánují zahrnout Metadata C2PA. Tento otevřený standard, který se již používá pro obrázky generované DALL-E 3, umožňuje vysledovat původ obsahu, abyste věděli, zda byl či nebyl vytvořen AI.

Sora bude těžit také z bezpečnostních prvků, které jsou již implementovány v jiných jejích službách. Plánuje se a textový klasifikátor jehož úlohou je kontrolovat a odmítat výzvy, které porušují zásady používání OpenAI. Výzvy, které vyžadují obsah zobrazující extrémní násilí, sexuální obsah, nenávistné obrázky, podobnost s celebritou nebo IP adresu třetí strany, jsou zakázány. Klasifikátory obrázků navíc prozkoumají obrázky každého vygenerovaného videa, aby zajistily, že žádné video neporušuje tyto známé zásady použití.

Kdo jsou Sořini konkurenti?

Po modelech generování textu a obrázků hlavní hráči v sektoru generační umělé inteligence vážně pracují na vývoji modelů generování videa. Google je jedním z hlavních konkurentů ChatGPT a GPT-4 s Gemini, představuje také těžkého soupeře na poli tvorby videí s Lumiere. Google Lumiere, který je rovněž nepřístupný široké veřejnosti, je zatím omezen na pětisekundová videa. Výzva může obsahovat obrázek, nejen text.

Mezi digitálními těžkými váhami se o toto téma zajímá také Meta, zejména s Video Emu, která vám umožňuje vytvářet videa pouze z textové výzvy, pouze z obrázkové výzvy nebo z kombinace obou. Můžeme citovat Gen-2 od Runway, který je schopen vytvářet videa nejen z textu nebo obrázků, ale i z jiného videa. Stable Video Diffusion a Pika jsou také vážnými konkurenty na tomto trhu.

Leave a Reply

Your email address will not be published. Required fields are marked *