Mochi 1: Genmo nyílt forráskódú AI modellje a szövegből generált videókhoz

nov 6, 2025 | Tech

Genmo, az AI-alapú videógenerálásra specializálódott vállalat, nemrégiben bejelentette Mochi 1 kutatási előzetes verzióját. Ez az új, nyílt forráskódú modell lehetővé teszi, hogy szöveges utasításokból kiváló minőségű videókat hozzunk létre, miközben teljesítménye vetekszik vagy akár felül is múlja a vezető zárt forrású és tulajdonosi megoldásokat, mint például a Runway Gen-3 Alpha, Luma AI Dream Machine, Kuaishou Kling vagy Minimax Hailuo.

A Mochi 1 újdonságai és elérhetősége

A Mochi 1 modellt az engedékeny Apache 2.0 licenc alatt tették elérhetővé, így a felhasználók ingyenesen hozzáférhetnek a legmodernebb videógenerálási képességekhez. Ezzel szemben más modellek ára korlátozott ingyenes csomagoktól indul, és akár havi 94,99 dollárig is terjedhet (például a Hailuo Unlimited esetében).

A teljes modell súlyok és kód letölthetők a Hugging Face platformról, azonban a saját gépen való futtatáshoz legalább négy Nvidia H100 GPU szükséges. Emellett Genmo egy hosztolt játszóteret is biztosít, ahol bárki kipróbálhatja a Mochi 1 funkcióit élőben.

Jelenleg a 480p felbontású változat érhető el, de még idén várható egy magasabb felbontású verzió, a Mochi 1 HD, amely még részletesebb és élethűbb mozgást ígér.

Lenyűgöző valósághűség és mozgásminőség

A Genmo által megosztott első videók – például egy idős hölgyet ábrázoló jelenet – rendkívül élethű tájakat és mozgásokat mutatnak be. A Mochi 1 jelentős előrelépést hoz a videógenerálás területén:

  • Magas hűségű mozgás
  • Pontos promptkövetés, amely lehetővé teszi részletes utasítások követését karakterekre, helyszínekre és cselekményekre vonatkozóan
  • Erős vizuális következetesség

Paras Jain, a Genmo vezérigazgatója szerint: „Még csak az út elején járunk a generatív videók jövőjében. A valódi kihívás hosszú, magas minőségű és folyékony mozgású videók létrehozása. Mi elsősorban a mozgás minőségének fejlesztésére koncentrálunk.”

Nyílt forráskódú megközelítés és demokratizálás

A Genmo alapítói küldetésüknek tekintik az AI-technológia mindenki számára elérhetővé tételét. Jain hangsúlyozta: „Fontosnak tartjuk ezt a technológiát demokratizálni és minél több ember kezébe adni. Ezért döntöttünk az open source mellett.”

Belső tesztek alapján a Mochi 1 jobb eredményeket ér el promptkövetésben és mozgásminőségben, mint számos zárt forrású versenytárs – például a Runway vagy Luna modellek.

28,4 millió dolláros Series A befektetés

A Mochi 1 kutatási előzetesével egy időben Genmo bejelentette egy 28,4 millió dolláros Series A finanszírozási kör sikeres lezárását is. A vezető befektető az NEA volt, további résztvevők között szerepeltek The House Fund, Gold House Ventures, WndrCo, Eastlink Capital Partners és Essence VC. Több angyalbefektető is támogatja a céget, köztük Abhay Parasnis (Typespace CEO) és Amjad Masad (Replit CEO).

Jain szerint a videó nem csupán szórakoztatás vagy tartalomgyártás eszköze: „A videó az egyik legfontosabb kommunikációs forma – agyunk 30-50%-a vizuális jelek feldolgozására specializálódott.” A hosszú távú cél pedig olyan eszközök fejlesztése, amelyek támogatják a robotika és autonóm rendszerek jövőjét.

Mochi 1 technológiai alapjai és hatékonysága

A Mochi 1 az innovatív Asymmetric Diffusion Transformer (AsymmDiT) architektúrán alapul. Ez az eddigi legnagyobb nyílt forráskódú videógeneráló modell 10 milliárd paraméterrel.

Kiemelt figyelmet kapott a vizuális következtetés: négyszer annyi paraméter dolgozza fel a videóadatokat, mint a szöveget. Emellett hatékony memóriahasználatot biztosít egy video VAE (Variational Autoencoder) segítségével, amely jelentősen tömöríti az adatokat.

Ezek az optimalizációk lehetővé teszik fejlesztők számára is a könnyebb hozzáférést: letölthetik a modellt Hugging Face-ről vagy integrálhatják API-n keresztül.

Képzéshez használt adatok és átláthatóság kérdése

Ami az adatforrást illeti – ami gyakran vitatott pont az AI kreatív eszközök esetében –, Jain csak annyit árult el: „Általában nyilvánosan elérhető adatokat használunk, illetve különféle adatpartnerekkel dolgozunk együtt.” Versenyhelyzet miatt további részleteket nem közölt.

Kiemelte azonban az adatok sokszínűségének fontosságát: „Ez kritikus számunkra.”

Korlátok és jövőbeli fejlesztések

Bár ígéretes újdonságokat hoz, jelenleg még vannak korlátai:

  • Támogatott maximális felbontás jelenleg csak 480p
  • Bonyolult mozgásoknál előfordulhatnak kisebb vizuális torzulások
  • Kiváló fotorealisztikus stílusban, de animált tartalmak generálása még kihívást jelent számára

Az év második felében érkezik majd a Mochi 1 HD, amely már 720p-ben képes dolgozni és tovább javítja majd a mozgásminőséget.

Jain szerint „a mozgás maga a videó lelke – ezért fektettünk bele annyi energiát ebbe más modellekhez képest.” Továbbá fejlesztik majd az image-to-video synthesis képességeket és növelik majd a felhasználói kontrollt is.

Széles körű alkalmazási lehetőségek nyílnak meg

A Mochi 1 megjelenése új távlatokat nyit különféle iparágak számára:

  • Kutatók továbbfejleszthetik a videógenerálási technológiákat
  • Fejlesztők és termékcsapatok új alkalmazásokban gondolkodhatnak szórakoztatásban, reklámokban vagy oktatásban
  • Szinergia alakulhat ki robotika és autonóm rendszerek mesterséges intelligencia tréningjéhez szükséges szintetikus adatok előállításában is

Jain így fogalmazott az esélyekről: „Öt év múlva elképzelem azt a világot, ahol egy szegény gyerek Mumbaiban előveszi telefonját, megvalósít egy nagyszerű ötletet és akár Oscar-díjat is nyerhet – ez az igazi demokratizáció.”

Kipróbálható élmény és toborzás

A Genmo meghív minden érdeklődőt, hogy próbálják ki személyre szabott promptokkal a Mochi 1 előzetes verzióját saját hosztolt játszóterükön keresztül: genmo.ai/play. Bár cikkünk írásakor ez az oldal még nem töltődött be megfelelően VentureBeat számára.

Eközben Genmo aktívan keresi kutatóit és mérnökeit is: „Kutatólaboratóriumként dolgozunk határvonalbeli modelleken video generáláshoz. Ez egy rendkívül izgalmas terület – az AI jobb agyának felszabadítása,” mondta Jain. A cég célja továbbfejleszteni az általános mesterséges intelligencia jövőképét is.

Forrás: https://venturebeat.com/ai/video-ai-startup-genmo-launches-mochi-1-an-open-source-model-to-rival-runway-kling-and-others

Pixel 10 széria akciók: Minden modell kedvezményesen az Amazonon

Ha te is a Pixel rajongók táborát erősíted, mint én, akkor tudod, hogy az új generációs készülékek ritkán kerülnek leárazásra. Ezért is örömteli hír, hogy a teljes Pixel 10 család – a hagyományos Pixel 10-től egészen a nemrég megjelent Pixel 10 Pro Fold-ig – most...

Zöldterületek és mentális egészség: Több országra kiterjedő vizsgálat a kórházi felvételek összefüggéseiről

A mentális egészség megőrzése kulcsfontosságú az emberi jólét szempontjából, ugyanakkor világszerte komoly kihívást jelent. Egy új, hét országot érintő, több mint 11 millió kórházi felvételt elemző tanulmány feltárja, hogy milyen kapcsolat áll fenn a zöldterületekhez...

Pixel 10 széria akciók: Minden modell kedvezményesen az Amazonon

Ha te is a Pixel rajongók táborát erősíted, mint én, akkor tudod, hogy az új generációs készülékek ritkán kerülnek leárazásra. Ezért is örömteli hír, hogy a teljes Pixel 10 család – a hagyományos Pixel 10-től egészen a nemrég megjelent Pixel 10 Pro Fold-ig – most...

Defra 312 millió fontot költött IT-modernizációra: Windows 7-ről Windows 10-re váltás és további fejlesztések

Az Egyesült Királyság Környezetvédelmi, Élelmezési és Vidékfejlesztési Minisztériuma (Defra) jelentős, összesen 312 millió fontot (körülbelül 407 millió dollárt) fordított informatikai rendszerének korszerűsítésére. A beruházás egyik legfontosabb eleme a több tízezer...

Guardian 0 csillagos kritikák – Kim Kardashian Disney+ sorozatától a legrosszabb filmekig

Lucy Mangan, a Guardian újságírója ritka és szokatlan lépésre szánta el magát legutóbbi kritikájában: Kim Kardashian új Disney+ jogi drámájának, az All’s Fair-nek nulla csillagot adott. Ez nem csupán azért különleges, mert a sorozatot általánosan lehúzták, hanem mert...

Streaming szolgáltatások és DVR hozzáférés: Google és Disney vitája

A digitális tartalom birtoklása ma már nem olyan egyszerű, mint gondolnánk. A közelmúltban egy Reddit-felhasználó osztotta meg tapasztalatát, amely jól példázza, milyen problémákkal szembesülhetnek a streaming szolgáltatások előfizetői. A felhasználó így fogalmazott:...

Filmkészítés és mozipremierek jövője a Warner Bros. Discovery körüli felvásárlási hírek tükrében

Adam Aron, az AMC Entertainment vezérigazgatója nemrégiben nyilatkozott a Warner Bros. Discovery (WBD) körül kialakult felvásárlási helyzetről, amely jelenleg még nem valósult meg, így szerinte nincs értelme túl sok spekulációnak. Ugyanakkor hangsúlyozta, hogy az...

Lina Khan és Zohran Mamdani: Az új korszak kezdete New York városában

Nem telt el még 24 óra sem azóta, hogy Zohran Mamdani megnyerte New York város polgármesteri választását, de máris jelentős változások körvonalazódnak a nagyvállalatok és a helyi politika viszonyában. Az egyik legfigyelemreméltóbb fejlemény, hogy a korábbi Federal...

Toyota profitja 7%-kal csökkent, de éves előrejelzését növelte

A Toyota Motor Corporation 2024. szeptember végével záródó pénzügyi év első hat hónapjában 7%-os éves szintű profitcsökkenést jelentett be, amelyet részben az Egyesült Államokban bevezetett vámok okoztak. Ugyanakkor a japán autógyártó optimistán tekint a teljes...

Tech Részvénypiaci Korrekció és Az AI Befektetések Kockázatai

Az elmúlt héten az egyik legnagyobb pénzügyi piaci korrekciót tapasztalhattuk, amikor is becslések szerint félbillió dollárnyi érték tűnt el a globális részvénypiacokról. A legnagyobb technológiai vállalatok, mint az Nvidia, Microsoft és Palantir Technologies...

Jennifer Lawrence és Robert Pattinson intim jelenetei a Die My Love forgatásán – őszinte vallomások

Die My Love című filmjéről és a forgatás során szerzett élményeiről nyíltan mesélt Jennifer Lawrence, aki a produkcióban Robert Pattinson oldalán játszik. A film Lynne Ramsay rendezésében készült, aki a forgatókönyvet Enda Walsh-sal és Alice Birch-csel közösen írta. A...