AI

ریان‌وی اولین مدل جهانی خود را منتشر کرد و صداگذاری بومی را به آخرین مدل ویدیویی خود اضافه کرد

4 دقیقه مطالعه
منبع
ریان‌وی اولین مدل جهانی خود را منتشر کرد و صداگذاری بومی را به آخرین مدل ویدیویی خود اضافه کرد

این مقاله/پست توسط هوش مصنوعی ترجمه شده است، ممکن است دارای اشکالاتی باشد. برای دقت بیشتر، می‌توانید منبع اصلی را مطالعه کنید.

رقابت برای انتشار مدل‌های جهانی داغ است، زیرا شرکت تولیدکننده تصاویر و ویدیوهای هوش مصنوعی ریان‌وی (Runway) با راه‌اندازی اولین مدل جهانی خود، به تعداد فزاینده‌ای از استارتاپ‌ها و شرکت‌های بزرگ فناوری می‌پیوندد. این مدل که GWM-1 نام دارد، از طریق پیش‌بینی فریم به فریم کار می‌کند و یک شبیه‌سازی با درک فیزیک و نحوه رفتار واقعی جهان در طول زمان ایجاد می‌کند.

مدل جهانی یک سیستم هوش مصنوعی است که یک شبیه‌سازی داخلی از نحوه کار جهان را یاد می‌گیرد تا بتواند استدلال، برنامه‌ریزی و عمل کند بدون اینکه نیاز به آموزش روی هر سناریوی ممکن در زندگی واقعی داشته باشد.

ریان‌وی که در اوایل این ماه مدل ویدیویی Gen 4.5 خود را منتشر کرد که در جدول امتیازات Video Arena از گوگل و OpenAI پیشی گرفت، می‌گوید مدل جهانی GWM-1 آن «عمومی‌تر» از Genie-3 گوگل و سایر رقبا است. این شرکت آن را به عنوان مدلی معرفی می‌کند که می‌تواند شبیه‌سازی‌هایی برای آموزش عامل‌ها در دامنه‌های مختلف مانند رباتیک و علوم زیستی ایجاد کند.

آناستاسیس گرمنیدیس، مدیر ارشد فناوری شرکت، در طول پخش زنده گفت: «برای ساختن یک مدل جهانی، ابتدا باید یک مدل ویدیویی واقعاً عالی می‌ساختیم. ما معتقدیم که مسیر درست برای ساختن یک مدل جهانی، آموزش مدل‌ها برای پیش‌بینی مستقیم پیکسل‌ها بهترین راه برای دستیابی به شبیه‌سازی با هدف عمومی است. در مقیاس کافی و با داده‌های مناسب، می‌توانید مدلی بسازید که درک کافی از نحوه کار جهان داشته باشد.»

ریان‌وی نسخه‌های خاصی از مدل جهانی جدید به نام GWM-Worlds، GWM-Robotics و GWM-Avatars را منتشر کرد.

GWM-Worlds برنامه‌ای برای این مدل است که به شما امکان می‌دهد یک پروژه تعاملی ایجاد کنید. کاربران می‌توانند با استفاده از یک پرامپت یا یک تصویر مرجع، صحنه‌ای را تنظیم کنند و با کاوش در فضا، مدل جهان را با درک هندسه، فیزیک و نورپردازی تولید می‌کند. این شرکت اشاره کرد که شبیه‌سازی با سرعت ۲۴ فریم بر ثانیه و رزولوشن ۷۲۰p اجرا می‌شود. ریان‌وی گفت که در حالی که Worlds می‌تواند برای بازی مفید باشد، همچنین برای آموزش عامل‌ها در مورد نحوه پیمایش و رفتار در دنیای فیزیکی نیز مناسب است.

با GWM-Robotics، این شرکت قصد دارد از داده‌های مصنوعی غنی شده با پارامترهای جدید مانند تغییر شرایط آب و هوایی یا موانع استفاده کند. ریان‌وی می‌گوید این روش همچنین می‌تواند نشان دهد که ربات‌ها در چه زمانی و چگونه ممکن است سیاست‌ها و دستورالعمل‌ها را در سناریوهای مختلف نقض کنند.

ریان‌وی همچنین در حال ساخت آواتارهای واقع‌گرایانه تحت GWM-Avatars برای شبیه‌سازی رفتار انسان است. شرکت‌هایی مانند D-ID, Synthesia, Soul Machines و حتی گوگل روی ایجاد آواتارهای انسانی که واقعی به نظر می‌رسند و در زمینه‌هایی مانند ارتباطات و آموزش کار می‌کنند، کار کرده‌اند.

این شرکت خاطرنشان کرد که از نظر فنی Worlds، Robotics و Avatars مدل‌های جداگانه‌ای هستند، اما در نهایت قصد دارد همه این‌ها را در یک مدل ادغام کند.

این شرکت علاوه بر انتشار یک مدل جهانی جدید، در حال به‌روزرسانی مدل Gen 4.5 خود که در اوایل ماه منتشر شد نیز می‌باشد. این به‌روزرسانی قابلیت‌های صداگذاری بومی و تولید طولانی‌مدت و چند شات را به مدل اضافه می‌کند. این شرکت گفت که با این مدل، کاربران می‌توانند ویدیوهای یک دقیقه‌ای با ثبات شخصیت، دیالوگ بومی، صدای پس‌زمینه و شات‌های پیچیده از زوایای مختلف تولید کنند. این شرکت گفت که همچنین می‌توانید صدای موجود را ویرایش کرده و دیالوگ اضافه کنید. به علاوه، می‌توانید ویدیوهای چند شات با هر طولی را ویرایش کنید.

به‌روزرسانی Gen 4.5، ریان‌وی را به مجموعه ویدیویی همه‌کاره Kling که نیز در اوایل این ماه راه‌اندازی شد، نزدیک‌تر می‌کند، به‌ویژه در زمینه صداگذاری بومی و داستان‌سرایی چند شات. همچنین نشان می‌دهد که مدل‌های تولید ویدیو از نمونه اولیه به ابزارهای آماده تولید در حال حرکت هستند. مدل به‌روز شده Gen 4.5 ریان‌وی برای همه کاربران طرح‌های پولی در دسترس است.

این شرکت گفت که GWM-Robotics را از طریق یک SDK در دسترس قرار خواهد داد. این شرکت افزود که در حال گفتگوهای فعال با چندین شرکت رباتیک و سازمان برای استفاده از GWM-Robotics و GWM-Avatars است.