Sora 2: Megérkeztek azok a videók, amelyek nehezen megkülönböztethetők a valóságtól | szmo.hu

Művészet és szórakozás

Hírességek náci egyenruhában, hamisított történelmi események, és valósághű színészekkel forgatott álfilmek – mindez az OpenAI legfrissebb videógeneráló modelljének köszönhetően valósággá vált. Ezek a videók egyszerre lenyűgözőek és aggasztóak, hiszen a határ a valóság és a fikció között egyre inkább elmosódik.

A Sora 2 videógeneráló modell szeptember végén debütált, és azzal a vonzó ígérettel érkezett, hogy a korábbi verzióhoz képest drámaian megnövekedett a fizikai pontosság, a realizmus és az irányíthatóság. Az OpenAI már a Sora tavaly decemberben bemutatott első kiadását is a ChatGPT sikeréhez hasonlítva emlegette, "a videókészítés GPT‑1 pillanataként" jellemezve azt. Ennek fényében nem meglepő, hogy a "GPT‑3.5 pillanataként" beharangozott Sora 2 iránti várakozások rendkívül magasak voltak.

Az első verzió fejlesztői változatáról készült demók alapján megállapítottuk, hogy az általuk generált filmek minősége olyan, mint amelyeket hagyományosan szöveges utasításokkal készítenek. Ezekhez általában külső helyszínek, díszletek, professzionális felszerelés, valamint szakemberek, statiszták és színészek szükségesek. Azonban úgy tűnik, hogy a jövőben mindehhez elegendő lesz egyetlen mesterséges intelligencia, a Sora.

Nyújthat ennél is többet egy videógeneráló modell? A Sora 2-nek a jelek szerint sikerült, mert a világ egyik ámulatból a másikba esik a vele készült mozgóképek láttán. Az OpenAI azt állítja, hogy az új modell kiküszöböli a korábbi videógenerálók jellemző hibáit, például az amorf tárgyakat és karaktereket, a torzult valóságot vagy a "túlzott optimizmust". Utóbbihoz példát is kapcsol: ha egy generált videóban szereplő kosárlabdázó "elvéti" a dobást, az eddigi verziók inkább kicsavarták a realitást, és a labda még lehetetlen szögből is a gyűrűbe "teleportált". Ehhez képest a Sora 2 a fizika törvényeivel teljesen megegyező módon bánik a tárgyak mozgásával: a labda a palánkba csapódik és pont úgy pattan vissza, ahogy az a valóságban is történne.

A tökéletlenség lehalkításával és a képminőség feltekerésével az OpenAI kisebb csodát alkotott: még egyszerű szöveges utasításokból is olyan videókat hoz létre, amelyeket a legtöbb néző képtelen megkülönböztetni a valóságtól. Az pedig, hogy mekkora a szakadék a versenytársak videógeneráló modelljei, valamint a Sora 2 között, remekül illusztrálja ez az összehasonlítás, amelyben a Google fejlesztette Veo 3-mal vetik össze a képességeit.

A folyamatosan fejlődő AI-videópiacon természetesen nem csak a Sora 2 ragadja magára a figyelmet, hiszen ott van például a Meta "Vibes" alkalmazása és a Meta Movie Gen modell, valamint Elon Musk xAI Grok Imagine rendszere is. A Forbes rámutat, hogy ezek a megoldások mindössze 6-10 másodperces videókat képesek létrehozni, míg a Sora 2 már akár egyperces tartalmakat is generál, és ráadásul hangot is társít a videókhoz. Ez a képesség komoly előnynek számít a versenytársakkal szemben. Jelenleg úgy tűnik, hogy a Sora 2 kiemelkedik a videógeneráló AI-k mezőnyéből, és a legnagyobb potenciállal bír.

Az OpenAI azóta, hogy elindította modelljét Észak-Amerikában, folyamatosan ösztönzi a felhasználókat, hogy a Sora 2 platform segítségével új, izgalmas világokat és történeteket alkossanak. A kreativitás határvonalán szinte csak a képzeletünk szabhat határt, hiszen a modell nem csupán élethű dialógusokat és hangeffekteket képes generálni, hanem akár a felhasználó saját hang- és videómintáiból is létrehoz egyedi avatárokat. Így bármelyikünkből a saját filmünk főszereplője válhat, lehetőséget adva arra, hogy valóra váltsuk álmaink forgatókönyvét.

Bár jelenleg nem áll rendelkezésünkre összehasonlítási alap a legújabb modell kapcsán, úgy tűnik, hogy komoly fejlődésen ment keresztül a technológia. A Sora demóiban a generált karakterek szemeit jellemzően valamilyen fedés (általában napszemüveg) takarta, míg a Sora 2 már sikeresen átlépte az "uncanny valley" határt. Ez a jelenség azt az aggasztó érzést jelenti, amikor egy videojátékban vagy filmben digitális úton létrehozott arcot látunk: a karakterek bár rendkívül élethűek, a tekintetük mégis zavaróan művi marad.

Olyannyira nincs, hogy az alábbi videóban látható és hallható Sam Altman sem Sam Altman, hanem egy Sora 2-vel létrehozott avatár, ami az OpenAI vezérigazgatójaként mutatja be a generatív AI képességeit. És ha erre nem figyelmeztetnek előre, aligha mondanánk meg, hogy nem a valódi személyt látjuk.

Az OpenAI véleménye szerint a Sora 2 legkiemelkedőbb újítása a fizikai törvények még precízebb szimulálása és a vizuális élmények élethűbb ábrázolása. Ez a modell nemcsak hosszabb és bonyolultabb történeteket képes feldolgozni, hanem a több szereplős akciójeleneteket is mesterien kezeli, mindeközben megőrzi a mozgás törvényeinek harmonikus összhangját.

A vállalat hangsúlyozta, hogy a videók több jelenetből álló utasítások alapján készülhetnek, és a rendszer képes megőrizni a generált világ állapotát: figyelembe veszi például, hogy az előző képsorban a tárgyak pontosan hol helyezkedtek el. Ennek köszönhetően már lehetővé válik, hogy akár több perces klipeket és kisfilmeket készítsenek, ami komplexebb narratívák kialakítását is lehetővé teszi. Jelenleg azonban az OpenAI a rövid, gyorsan népszerűsödő tartalmak irányába orientálja a felhasználókat, hiszen a trendi, játékos megközelítés vonzóbbá teszi a befektetők számára a további fejlesztések finanszírozását.

Az OpenAI a Sora és Sora 2 rendszerek bevezetésével a filmipar, animációs stúdiók és művészek számára egy új lehetőséget kínált. A BBC Science Focus is megerősíti ezt a nézetet, kiemelve, hogy a rendszer jelentősen megkönnyítheti az animált klipek előállítását, így időt és pénzt takaríthatunk meg. Azonban az első verzió nem mentes a hibáktól: a Washington Post figyelmeztetett arra, hogy a rendszer egy 1930-as évekbeli jelenetben például a cigaretta helytelen végét gyújtotta meg, és egyszerre több telefonkagylót adott egy generált karakter kezébe. Ráadásul a hangkeltés terén is hiányosságokkal küzdött.

Az IndieWire elemzője ennek ellenére sem gondolja, hogy az új verzió a filmiparnak készült. A fejlesztők szerinte "nem törődnek Hollywooddal", hiszen a platform elsősorban virális tartalmak gyártására ösztönzi az embereket, így a közösségi média új mémgyártó eszközévé válhat. És addig, ameddig ez csak igazoltatás elől meglépő Super Mario-s viccek szintjén realizálódik, nincs is nagy baj.

A gondok akkor kezdődnek, ha a könnyed hecceken túllépve valódi emberekről vagy valós eseményeket szimuláló helyzetekről készülnek valóságszagú kamuvideók, ami megnehezíti a független filmesek etikus AI‑felhasználását. Onnantól a Nintendo sem mókás rajongói videóként fogja kezelni a fentihez hasonló alkotásokat - ami még ingyen reklámot is csap a Mario Kart játékoknak -, mert attól tart majd, hogy a trend visszaéléseket szül, és óriási energiákat kell fordítani a szellemi tulajdona megvédésére.

A véleménycikk hangsúlyozza, hogy a Sora-videók virális mémjei új kihívásokat jelentenek a szerzői jogok terén. Az AI-felhasználók egyre inkább elhanyagolják a szellemi tulajdon védelmét, ami tovább mélyítheti a szakadékot az alkotók és az AI-fejlesztők között. Az Indiewire erre reagálva szakmai állásfoglalások kidolgozását sürgeti, figyelmeztetve arra, hogy ha a jogtulajdonosok és szakmai szervezetek nem állítanak fel világos irányelveket, könnyen elveszíthetik a küzdelmet.

Ezt az aggodalmat osztja Kyt Janae, a WGBH-nak nyilatkozó digitális képzőművész is, aki úgy véli, hogy nemsokára, talán már egy éven belül, szinte lehetetlenné válik majd megkülönböztetni az emberi kreativitás termékeit az AI által generált vizuális tartalmaktól. Thomas Smith, a Gado Images vezérigazgatója, aki a képek digitalizálásával, kezelésével, kiadásával és monetizálásával foglalkozik, ehhez hozzáfűzte:

Ezek a megállapítások arra utalnak, hogy a videókészítő mesterséges intelligencia számos területen jelentős problémákat okozhat, kezdve a szórakoztatóipar világától egészen a politikai színtérig, sőt a személyes jogok védelmét is veszélyeztetheti.

A Sora 2 debütálását azonnal elárasztották kritikák és aggodalmak. A The Guardian arról számolt be, hogy a generált videók megosztására kifejlesztett TikTok-szerű alkalmazás hírfolyama gyorsan tele lett erőszakos és rasszista tartalmakkal, beleértve bombázást és tömeggyilkosságot imitáló jeleneteket. Joan Donovan kutató figyelmeztetett arra, hogy ezek az új technológiák homályosítják el a valóság és a hamisság közötti határokat, lehetővé téve a gyűlöletkeltés és zaklatás terjedését.

Sam Altman a saját blogján a Sora 2 megjelenését a "kreativitás ChatGPT-pillanataként" fogalmazta meg, ugyanakkor hangsúlyozta, hogy a bullying megelőzése érdekében elengedhetetlen a moderálásra való fokozott figyelem.

A Rolling Stone cikkében érdekes példákkal szemléltette, hogyan használják a realisztikus videógeneráló technológiát a felhasználók - gyakran csak szórakozásból. Olyan hírességeket láthatunk náci egyenruhában, történelmi eseményeket hamisítanak meg, vagy levédett karaktereket, mint Pikachu, Ronald McDonald és SpongeBob, alkalmaznak, ami komoly szerzői jogi problémákhoz vezethet. Az ilyen kreatív, de kérdéses tartalmak felvetik a jogi és etikai kérdéseket, miközben a technológia határait feszegetik.

A Vox cikkében világosan kifejtik, hogy a Sora 2 alapértelmezett beállításai szerint a jogtulajdonosoknak kellene kérvényezniük a karaktereik eltávolítását. Ez olyan helyzetet teremt, mintha a fejlesztők szándékosan a szerzői jogok megsértésének irányába terelnék a felhasználókat.

Nem véletlen, hogy a kritikákkal szembesülő Sam Altman később frissítette a posztját, jelezve, hogy a jövőben a jogtulajdonosok "opt‑in" alapon adhatnak hozzá karaktereket az AI-modellhez, lehetővé téve, hogy a generált videók után részesedést kapjanak a bevételekből.

A modell bevezetését követően az elemzők aggodalmukat fejezték ki, miszerint a videók előállítása óriási számítási teljesítményt és energiafelhasználást követel meg. Egyes kutatók megállapították, hogy egy rövid, nagy felbontású videó előállítása több mint 700-szor annyi energiát igényel, mint egy egyszerű állókép létrehozása. Ennek következtében a jövő adatközpontjai kétségtelenül olyan energiafaló és szénkibocsátó óriásokká válnak, amelyek mérete vetekedni fog a legnagyobb városokéval.

A Time elemzése rávilágít arra, hogy bár az AI-alapú videók költségesek, a vállalatok – például az OpenAI és a Meta – abban bíznek, hogy a rövid videók előállításával új előfizetőket és befektetőket vonzanak magukhoz. Ezáltal új bevételi forrásokhoz juthatnak, ami elősegítheti a még fejlettebb modellek kifejlesztését, és egy napon akár az általános mesterséges intelligencia megvalósulásához is hozzájárulhat.

Az AI vállalatok számára a pénzügyi források kiemelkedően fontosak, hiszen a generatív videómodellek fejlesztéséhez szükséges költségek rendkívül magasak. Elemzők előrejelzése szerint ez a helyzet arra ösztönözheti a cégeket, hogy a befektetőktől és felhasználóktól beszedett tőke mellett a hirdetési szegmensben is terjeszkedjenek. Emellett új előfizetési csomagok kifejlesztésére és a meglévő árak emelésére is készülhetnek, hogy biztosítsák a fenntartható növekedést.

A közeljövőben várható fejlesztések kapcsán az OpenAI egyik legutóbbi bejelentése említette, hogy dolgoznak egy "világszimulátor" megalkotásán. Ez az innovatív eszköz képes lesz precízen modellezni a fizikai világ törvényeit, ami lehetőséget teremt új tudományos kihívások megoldására.

A Sora 2 ezeknek a vízióknak a nagy reménysége, amitől azt várják, hogy további fejlesztéseket és több platformon elérhető verziókat eredményez. A megjelenése új korszakot nyit a generatív AI-k világában, hiszen bátran kijelenthetjük, hogy ennyire valószerű mozgásokat és hangeffekteket, illetve ilyen időtartamú történeteket még egyik videógeneráló AI sem tudott létrehozni.

Bár a fizika törvényeit még nem követi le tökéletesen és vastagon lehetőséget ad a visszaélésekre - a deepfake-től az erőszakos tartalmakon át a szerzői jogok megsértéséig -, a komoly etikai és jogi kérdések kezelése után érdemes lehet kihasználni a benne rejlő lehetőségeket.

Mivel a gazdasági potenciál óriási, számolni kell a bővülésével és az energiafogyasztás növekedésével, valamint azzal, hogy a szellemi tulajdon megóvása érdekében ki kell harcolni a generált tartalmak után járó részesedést. Ezek az együttműködések - ha egyáltalán megköttetnek és aztán hosszú távon működőképesnek bizonyulnak - a kreatív tartalomgyártás ragyogó gyöngyszemévé varázsolhatják a Sora 2-t, illetve a jövőben érkező hasonló modelleket.