Genmo, az AI-alapú videógenerálásra specializálódott vállalat, nemrégiben bejelentette Mochi 1 kutatási előzetes verzióját. Ez az új, nyílt forráskódú modell lehetővé teszi, hogy szöveges utasításokból kiváló minőségű videókat hozzunk létre, miközben teljesítménye vetekszik vagy akár felül is múlja a vezető zárt forrású és tulajdonosi megoldásokat, mint például a Runway Gen-3 Alpha, Luma AI Dream Machine, Kuaishou Kling vagy Minimax Hailuo.
A Mochi 1 újdonságai és elérhetősége
A Mochi 1 modellt az engedékeny Apache 2.0 licenc alatt tették elérhetővé, így a felhasználók ingyenesen hozzáférhetnek a legmodernebb videógenerálási képességekhez. Ezzel szemben más modellek ára korlátozott ingyenes csomagoktól indul, és akár havi 94,99 dollárig is terjedhet (például a Hailuo Unlimited esetében).
A teljes modell súlyok és kód letölthetők a Hugging Face platformról, azonban a saját gépen való futtatáshoz legalább négy Nvidia H100 GPU szükséges. Emellett Genmo egy hosztolt játszóteret is biztosít, ahol bárki kipróbálhatja a Mochi 1 funkcióit élőben.
Jelenleg a 480p felbontású változat érhető el, de még idén várható egy magasabb felbontású verzió, a Mochi 1 HD, amely még részletesebb és élethűbb mozgást ígér.
Lenyűgöző valósághűség és mozgásminőség
A Genmo által megosztott első videók – például egy idős hölgyet ábrázoló jelenet – rendkívül élethű tájakat és mozgásokat mutatnak be. A Mochi 1 jelentős előrelépést hoz a videógenerálás területén:
- Magas hűségű mozgás
- Pontos promptkövetés, amely lehetővé teszi részletes utasítások követését karakterekre, helyszínekre és cselekményekre vonatkozóan
- Erős vizuális következetesség
Paras Jain, a Genmo vezérigazgatója szerint: „Még csak az út elején járunk a generatív videók jövőjében. A valódi kihívás hosszú, magas minőségű és folyékony mozgású videók létrehozása. Mi elsősorban a mozgás minőségének fejlesztésére koncentrálunk.”
Nyílt forráskódú megközelítés és demokratizálás
A Genmo alapítói küldetésüknek tekintik az AI-technológia mindenki számára elérhetővé tételét. Jain hangsúlyozta: „Fontosnak tartjuk ezt a technológiát demokratizálni és minél több ember kezébe adni. Ezért döntöttünk az open source mellett.”
Belső tesztek alapján a Mochi 1 jobb eredményeket ér el promptkövetésben és mozgásminőségben, mint számos zárt forrású versenytárs – például a Runway vagy Luna modellek.
28,4 millió dolláros Series A befektetés
A Mochi 1 kutatási előzetesével egy időben Genmo bejelentette egy 28,4 millió dolláros Series A finanszírozási kör sikeres lezárását is. A vezető befektető az NEA volt, további résztvevők között szerepeltek The House Fund, Gold House Ventures, WndrCo, Eastlink Capital Partners és Essence VC. Több angyalbefektető is támogatja a céget, köztük Abhay Parasnis (Typespace CEO) és Amjad Masad (Replit CEO).
Jain szerint a videó nem csupán szórakoztatás vagy tartalomgyártás eszköze: „A videó az egyik legfontosabb kommunikációs forma – agyunk 30-50%-a vizuális jelek feldolgozására specializálódott.” A hosszú távú cél pedig olyan eszközök fejlesztése, amelyek támogatják a robotika és autonóm rendszerek jövőjét.
Mochi 1 technológiai alapjai és hatékonysága
A Mochi 1 az innovatív Asymmetric Diffusion Transformer (AsymmDiT) architektúrán alapul. Ez az eddigi legnagyobb nyílt forráskódú videógeneráló modell 10 milliárd paraméterrel.
Kiemelt figyelmet kapott a vizuális következtetés: négyszer annyi paraméter dolgozza fel a videóadatokat, mint a szöveget. Emellett hatékony memóriahasználatot biztosít egy video VAE (Variational Autoencoder) segítségével, amely jelentősen tömöríti az adatokat.
Ezek az optimalizációk lehetővé teszik fejlesztők számára is a könnyebb hozzáférést: letölthetik a modellt Hugging Face-ről vagy integrálhatják API-n keresztül.
Képzéshez használt adatok és átláthatóság kérdése
Ami az adatforrást illeti – ami gyakran vitatott pont az AI kreatív eszközök esetében –, Jain csak annyit árult el: „Általában nyilvánosan elérhető adatokat használunk, illetve különféle adatpartnerekkel dolgozunk együtt.” Versenyhelyzet miatt további részleteket nem közölt.
Kiemelte azonban az adatok sokszínűségének fontosságát: „Ez kritikus számunkra.”
Korlátok és jövőbeli fejlesztések
Bár ígéretes újdonságokat hoz, jelenleg még vannak korlátai:
- Támogatott maximális felbontás jelenleg csak 480p
- Bonyolult mozgásoknál előfordulhatnak kisebb vizuális torzulások
- Kiváló fotorealisztikus stílusban, de animált tartalmak generálása még kihívást jelent számára
Az év második felében érkezik majd a Mochi 1 HD, amely már 720p-ben képes dolgozni és tovább javítja majd a mozgásminőséget.
Jain szerint „a mozgás maga a videó lelke – ezért fektettünk bele annyi energiát ebbe más modellekhez képest.” Továbbá fejlesztik majd az image-to-video synthesis képességeket és növelik majd a felhasználói kontrollt is.
Széles körű alkalmazási lehetőségek nyílnak meg
A Mochi 1 megjelenése új távlatokat nyit különféle iparágak számára:
- Kutatók továbbfejleszthetik a videógenerálási technológiákat
- Fejlesztők és termékcsapatok új alkalmazásokban gondolkodhatnak szórakoztatásban, reklámokban vagy oktatásban
- Szinergia alakulhat ki robotika és autonóm rendszerek mesterséges intelligencia tréningjéhez szükséges szintetikus adatok előállításában is
Jain így fogalmazott az esélyekről: „Öt év múlva elképzelem azt a világot, ahol egy szegény gyerek Mumbaiban előveszi telefonját, megvalósít egy nagyszerű ötletet és akár Oscar-díjat is nyerhet – ez az igazi demokratizáció.”
Kipróbálható élmény és toborzás
A Genmo meghív minden érdeklődőt, hogy próbálják ki személyre szabott promptokkal a Mochi 1 előzetes verzióját saját hosztolt játszóterükön keresztül: genmo.ai/play. Bár cikkünk írásakor ez az oldal még nem töltődött be megfelelően VentureBeat számára.
Eközben Genmo aktívan keresi kutatóit és mérnökeit is: „Kutatólaboratóriumként dolgozunk határvonalbeli modelleken video generáláshoz. Ez egy rendkívül izgalmas terület – az AI jobb agyának felszabadítása,” mondta Jain. A cég célja továbbfejleszteni az általános mesterséges intelligencia jövőképét is.