ریانوی اولین مدل جهانی خود را منتشر کرد و صداگذاری بومی را به آخرین مدل ویدیویی خود اضافه کرد

این مقاله/پست توسط هوش مصنوعی ترجمه شده است، ممکن است دارای اشکالاتی باشد. برای دقت بیشتر، میتوانید منبع اصلی را مطالعه کنید.
رقابت برای انتشار مدلهای جهانی داغ است، زیرا شرکت تولیدکننده تصاویر و ویدیوهای هوش مصنوعی ریانوی (Runway) با راهاندازی اولین مدل جهانی خود، به تعداد فزایندهای از استارتاپها و شرکتهای بزرگ فناوری میپیوندد. این مدل که GWM-1 نام دارد، از طریق پیشبینی فریم به فریم کار میکند و یک شبیهسازی با درک فیزیک و نحوه رفتار واقعی جهان در طول زمان ایجاد میکند.
مدل جهانی یک سیستم هوش مصنوعی است که یک شبیهسازی داخلی از نحوه کار جهان را یاد میگیرد تا بتواند استدلال، برنامهریزی و عمل کند بدون اینکه نیاز به آموزش روی هر سناریوی ممکن در زندگی واقعی داشته باشد.
ریانوی که در اوایل این ماه مدل ویدیویی Gen 4.5 خود را منتشر کرد که در جدول امتیازات Video Arena از گوگل و OpenAI پیشی گرفت، میگوید مدل جهانی GWM-1 آن «عمومیتر» از Genie-3 گوگل و سایر رقبا است. این شرکت آن را به عنوان مدلی معرفی میکند که میتواند شبیهسازیهایی برای آموزش عاملها در دامنههای مختلف مانند رباتیک و علوم زیستی ایجاد کند.
آناستاسیس گرمنیدیس، مدیر ارشد فناوری شرکت، در طول پخش زنده گفت: «برای ساختن یک مدل جهانی، ابتدا باید یک مدل ویدیویی واقعاً عالی میساختیم. ما معتقدیم که مسیر درست برای ساختن یک مدل جهانی، آموزش مدلها برای پیشبینی مستقیم پیکسلها بهترین راه برای دستیابی به شبیهسازی با هدف عمومی است. در مقیاس کافی و با دادههای مناسب، میتوانید مدلی بسازید که درک کافی از نحوه کار جهان داشته باشد.»
ریانوی نسخههای خاصی از مدل جهانی جدید به نام GWM-Worlds، GWM-Robotics و GWM-Avatars را منتشر کرد.

GWM-Worlds برنامهای برای این مدل است که به شما امکان میدهد یک پروژه تعاملی ایجاد کنید. کاربران میتوانند با استفاده از یک پرامپت یا یک تصویر مرجع، صحنهای را تنظیم کنند و با کاوش در فضا، مدل جهان را با درک هندسه، فیزیک و نورپردازی تولید میکند. این شرکت اشاره کرد که شبیهسازی با سرعت ۲۴ فریم بر ثانیه و رزولوشن ۷۲۰p اجرا میشود. ریانوی گفت که در حالی که Worlds میتواند برای بازی مفید باشد، همچنین برای آموزش عاملها در مورد نحوه پیمایش و رفتار در دنیای فیزیکی نیز مناسب است.
با GWM-Robotics، این شرکت قصد دارد از دادههای مصنوعی غنی شده با پارامترهای جدید مانند تغییر شرایط آب و هوایی یا موانع استفاده کند. ریانوی میگوید این روش همچنین میتواند نشان دهد که رباتها در چه زمانی و چگونه ممکن است سیاستها و دستورالعملها را در سناریوهای مختلف نقض کنند.
ریانوی همچنین در حال ساخت آواتارهای واقعگرایانه تحت GWM-Avatars برای شبیهسازی رفتار انسان است. شرکتهایی مانند D-ID, Synthesia, Soul Machines و حتی گوگل روی ایجاد آواتارهای انسانی که واقعی به نظر میرسند و در زمینههایی مانند ارتباطات و آموزش کار میکنند، کار کردهاند.
این شرکت خاطرنشان کرد که از نظر فنی Worlds، Robotics و Avatars مدلهای جداگانهای هستند، اما در نهایت قصد دارد همه اینها را در یک مدل ادغام کند.
این شرکت علاوه بر انتشار یک مدل جهانی جدید، در حال بهروزرسانی مدل Gen 4.5 خود که در اوایل ماه منتشر شد نیز میباشد. این بهروزرسانی قابلیتهای صداگذاری بومی و تولید طولانیمدت و چند شات را به مدل اضافه میکند. این شرکت گفت که با این مدل، کاربران میتوانند ویدیوهای یک دقیقهای با ثبات شخصیت، دیالوگ بومی، صدای پسزمینه و شاتهای پیچیده از زوایای مختلف تولید کنند. این شرکت گفت که همچنین میتوانید صدای موجود را ویرایش کرده و دیالوگ اضافه کنید. به علاوه، میتوانید ویدیوهای چند شات با هر طولی را ویرایش کنید.
بهروزرسانی Gen 4.5، ریانوی را به مجموعه ویدیویی همهکاره Kling که نیز در اوایل این ماه راهاندازی شد، نزدیکتر میکند، بهویژه در زمینه صداگذاری بومی و داستانسرایی چند شات. همچنین نشان میدهد که مدلهای تولید ویدیو از نمونه اولیه به ابزارهای آماده تولید در حال حرکت هستند. مدل بهروز شده Gen 4.5 ریانوی برای همه کاربران طرحهای پولی در دسترس است.

این شرکت گفت که GWM-Robotics را از طریق یک SDK در دسترس قرار خواهد داد. این شرکت افزود که در حال گفتگوهای فعال با چندین شرکت رباتیک و سازمان برای استفاده از GWM-Robotics و GWM-Avatars است.



