Startups

دنیای آزمایشگاه‌های Fei-Fei Li با اولین محصول تجاری‌اش، Marble، مسابقه مدل‌های جهان را سرعت می‌بخشد

8 دقیقه مطالعه
منبع
دنیای آزمایشگاه‌های Fei-Fei Li با اولین محصول تجاری‌اش، Marble، مسابقه مدل‌های جهان را سرعت می‌بخشد
چکیده کوتاه
ورلد لبز مدل جهان‌ساز مولد ماربل را معرفی کرد که متن، تصویر و ویدیو را به محیط‌های سه‌بعدی قابل ویرایش تبدیل می‌کند و هدفش دموکراتیزه کردن هوش فضایی و توانمندسازی خالقان در بازی‌سازی، جلوه‌های ویژه و واقعیت مجازی است.

World Labs، استارتاپی که توسط پیشگام هوش مصنوعی Fei-Fei Li تأسیس شده است، اولین محصول تجاری مدل جهان خود را عرضه می‌کند. Marble اکنون از طریق سطوح رایگان و پولی در دسترس است که به کاربران امکان می‌دهد متن‌ها، عکس‌ها، ویدیوها، طرح‌های سه‌بعدی یا پانوراما را به محیط‌های سه‌بعدی قابل ویرایش و دانلود تبدیل کنند.

راه‌اندازی مدل جهان مولد، که اولین بار دو ماه پیش در نسخه بتا محدود منتشر شد، کمی بیش از یک سال پس از آنکه World Labs با ۲۳۰ میلیون دلار بودجه از حالت پنهان خارج شد، استارتاپ را جلوتر از رقبای سازنده مدل‌های جهان قرار می‌دهد. مدل‌های جهان سیستم‌های هوش مصنوعی هستند که نمایشی داخلی از یک محیط را تولید می‌کنند و می‌توانند برای پیش‌بینی نتایج آینده و برنامه‌ریزی اقدامات مورد استفاده قرار گیرند.

استارتاپ‌هایی مانند Decart و Odyssey دموهای رایگان منتشر کرده‌اند و Genie گوگل هنوز در مرحله پیش‌نمایش تحقیقاتی محدود است. Marble با این‌ها - و حتی با مدل بلادرنگ خود World Labs، RTFM - متفاوت است، زیرا محیط‌های سه‌بعدی پایدار و قابل دانلود ایجاد می‌کند، به جای اینکه در حین کاوش، جهان‌ها را در لحظه تولید کند. این شرکت می‌گوید که این امر منجر به تغییر شکل یا ناهماهنگی کمتر می‌شود و به کاربران امکان می‌دهد جهان‌ها را به صورت Gaussian splats، مش یا ویدیو صادر کنند.

Marble همچنین اولین مدل از نوع خود است که ابزارهای ویرایش بومی هوش مصنوعی و یک ویرایشگر سه‌بعدی ترکیبی را ارائه می‌دهد که به کاربران امکان می‌دهد ساختارهای فضایی را قبل از اینکه هوش مصنوعی جزئیات بصری را پر کند، طرح‌ریزی کنند.

جاستین جانسون، هم‌بنیانگذار World Labs، به تک‌کرانچ گفت: «این یک دسته کاملاً جدید از مدل‌ها است که جهان‌های سه‌بعدی را تولید می‌کند و این چیزی است که با گذشت زمان بهتر خواهد شد. این چیزی است که ما در حال حاضر آن را بسیار بهبود بخشیده‌ایم.»

در دسامبر گذشته، World Labs نشان داد که چگونه مدل‌های اولیه آن می‌توانند صحنه‌های سه‌بعدی تعاملی را بر اساس یک عکس واحد تولید کنند. در حالی که چشمگیر بود، صحنه‌های تا حدودی کارتونی کاملاً قابل کاوش نبودند، زیرا حرکات به یک منطقه کوچک محدود می‌شد و خطاهای رندر گاه به گاه وجود داشت.

در آزمون من از پیش‌نمایش بتا، متوجه شدم که Marble جهان‌های چشمگیری را فقط از طریق درخواست‌های تصویری تولید می‌کند - از محیط‌های شبیه بازی گرفته تا نسخه‌های فوتورئالیستی از اتاق نشیمن من. صحنه‌ها در لبه‌ها تغییر شکل می‌دادند، اگرچه ظاهراً این در عرضه امروز بهبود یافته است. با این حال، جهانی که من در بتا با استفاده از یک درخواست واحد تولید کرده بودم، بهتر به نظر می‌رسید و با هدف من مطابقت بیشتری داشت تا درخواست مشابهی که اکنون انجام می‌دهد.

من هنوز ویژگی‌های ویرایش را آزمایش نکرده‌ام، اگرچه جانسون می‌گوید که آنها Marble را برای پروژه‌های نزدیک‌مدت بازی، VFX و واقعیت مجازی (VR) کاربردی می‌کنند.

جانسون گفت: «یکی از مضامین اصلی ما برای Marble در آینده، کنترل خلاقانه است. «همیشه باید یک مسیر سریع برای تولید چیزی وجود داشته باشد، اما شما باید بتوانید عمیق‌تر شوید و کنترل زیادی بر چیزهایی که تولید می‌کنید داشته باشید. شما نمی‌خواهید ماشین فقط فرمان را بگیرد و تمام آن خلاقیت را از شما دور کند.»

رویکرد Marble به کنترل خلاقانه با انعطاف‌پذیری ورودی آغاز می‌شود. بتا فقط تصاویر تکی را می‌پذیرفت و مدل را مجبور می‌کرد جزئیات دیده نشده را برای نمای ۳۶۰ درجه اختراع کند. با عرضه کامل، کاربران اکنون می‌توانند چندین تصویر یا کلیپ کوتاه را برای نمایش یک فضا از زوایای مختلف آپلود کنند و مدل جهان‌های دوقلوی دیجیتال نسبتاً واقعی را تولید کند.

سپس Chisel را داریم، یک ویرایشگر سه‌بعدی آزمایشی که به کاربران امکان می‌دهد طرح‌های فضایی درشت (مانند دیوارها، جعبه‌ها یا صفحات) را طرح‌ریزی کنند و سپس درخواست‌های متنی را برای هدایت سبک بصری اضافه کنند. Marble جهان را تولید می‌کند و ساختار را از سبک جدا می‌کند - شبیه به اینکه چگونه HTML ساختار یک وب‌سایت را فراهم می‌کند و CSS رنگ را اضافه می‌کند. برخلاف ویرایش مبتنی بر متن، Chisel به شما امکان می‌دهد اشیاء را مستقیماً دستکاری کنید.

جانسون گفت: «من می‌توانم فقط به آنجا بروم و بلوک سه‌بعدی را که نشان‌دهنده مبل است بگیرم و آن را به جای دیگری منتقل کنم.»

یکی دیگر از ویژگی‌های جدید که کنترل ویرایش بیشتری به شما می‌دهد، قابلیت گسترش جهان است.

جانسون گفت: «پس از تولید یک جهان، می‌توانید آن را تا یک بار گسترش دهید. «وقتی به قسمتی از جهان که شروع به از هم پاشیدن می‌کند می‌روید، می‌توانید اساساً به مدل بگویید که در آنجا گسترش یابد یا جهان بیشتری را در نزدیکی جایی که در حال حاضر هستید تولید کند، و سپس می‌تواند جزئیات بیشتری را در آن منطقه اضافه کند.»

کاربرانی که می‌خواهند فضاهای بسیار بزرگی ایجاد کنند، می‌توانند چندین جهان را با «حالت آهنگساز» ترکیب کنند. جانسون این را با دو جهانی که قبلاً ساخته بود - اتاقی ساخته شده از پنیر با صندلی‌های انگور و اتاق جلسه آینده‌نگر در فضا - برای من نشان داد.

مسیر هوش فضایی

Marble از طریق چهار سطح اشتراک در دسترس است: رایگان (چهار نسل از متن، تصویر یا پانوراما)، استاندارد (۲۰ دلار در ماه، ۱۲ نسل به علاوه ورودی چند تصویری/ویدئویی و ویرایش پیشرفته)، پرو (۳۵ دلار در ماه، ۲۵ نسل با گسترش صحنه و حقوق تجاری)، و مکس (۹۵ دلار در ماه، تمام ویژگی‌ها و ۷۵ نسل).

جانسون معتقد است موارد استفاده اولیه برای Marble بازی، جلوه‌های بصری برای فیلم و واقعیت مجازی خواهد بود.

توسعه‌دهندگان بازی احساسات متفاوتی نسبت به این فناوری دارند. یک نظرسنجی اخیر در کنفرانس توسعه‌دهندگان بازی نشان داد که یک سوم از پاسخ‌دهندگان معتقدند هوش مصنوعی مولد تأثیر منفی بر صنعت بازی دارد - ۱۲ درصد بیشتر از سال قبل. سرقت مالکیت معنوی، مصرف انرژی و کاهش کیفیت محتوای تولید شده توسط هوش مصنوعی از جمله نگرانی‌های اصلی مطرح شده بود. و سال گذشته، تحقیقی در وایرد نشان داد که استودیوهای بازی مانند اکتیویژن بلیزارد از هوش مصنوعی برای کاهش هزینه‌ها و مبارزه با فرسودگی شغلی استفاده می‌کنند.

در بازی، جانسون توسعه‌دهندگان را می‌بیند که از Marble برای تولید محیط‌های پس‌زمینه و فضاهای محیطی استفاده می‌کنند و سپس این دارایی‌ها را به موتورهای بازی مانند Unity یا Unreal Engine وارد می‌کنند تا عناصر تعاملی، منطق و کد را اضافه کنند.

او گفت: «این برای جایگزینی کل خط لوله موجود برای بازی طراحی نشده است، بلکه فقط دارایی‌هایی را به شما می‌دهد که می‌توانید در آن خط لوله قرار دهید.»

برای کارهای VFX، Marble ناهماهنگی و کنترل ضعیف دوربین را که مولدهای ویدیوی هوش مصنوعی را آزار می‌دهد، دور می‌زند. او گفت که دارایی‌های سه‌بعدی آن به هنرمندان اجازه می‌دهد صحنه‌ها را صحنه‌بندی کنند و حرکات دوربین را با دقت فریم به فریم کنترل کنند.

در حالی که جانسون گفت World Labs در حال حاضر بر روی برنامه‌های واقعیت مجازی (VR) تمرکز ندارد، او خاطرنشان کرد که این صنعت «تشنه محتوا» است و از این عرضه هیجان‌زده است. Marble در حال حاضر با هدست‌های واقعیت مجازی Vision Pro و Quest 3 سازگار است و هر جهان تولید شده امروز می‌تواند در VR مشاهده شود.

Marble همچنین ممکن است موارد استفاده بالقوه‌ای برای رباتیک داشته باشد. جانسون خاطرنشان کرد که برخلاف تولید تصویر و ویدیو، رباتیک از مزیت مخزن بزرگی از داده‌های آموزشی برخوردار نیست. اما با مولدهایی مانند Marble، شبیه‌سازی محیط‌های آموزشی آسان‌تر می‌شود.

طبق بیانیه‌ای اخیر توسط Fei-Fei Li، مدیر عامل و هم‌بنیانگذار World Labs، Marble اولین قدم به سوی ایجاد «یک مدل جهان واقعاً هوشمند فضایی» را نشان می‌دهد.

لی معتقد است «نسل بعدی مدل‌های جهان به ماشین‌ها امکان می‌دهد تا هوش فضایی را در سطحی کاملاً جدید به دست آورند.» اگر مدل‌های زبان بزرگ بتوانند ماشین‌ها را خواندن و نوشتن آموزش دهند، لی امیدوار است سیستم‌هایی مانند Marble بتوانند آنها را دیدن و ساختن آموزش دهند. او می‌گوید توانایی درک نحوه وجود و تعامل اشیاء در فضاهای سه‌بعدی می‌تواند در نهایت به ماشین‌ها کمک کند تا فراتر از بازی و رباتیک، و حتی در علم و پزشکی به پیشرفت‌هایی دست یابند.

لی نوشت: «رویای ما از ماشین‌های واقعاً هوشمند بدون هوش فضایی کامل نخواهد بود.»

یک نکته حساس یا اسناد محرمانه دارید؟ ما در مورد عملکرد داخلی صنعت هوش مصنوعی گزارش می‌دهیم - از شرکت‌هایی که آینده آن را شکل می‌دهند تا افرادی که تحت تأثیر تصمیمات آنها قرار می‌گیرند. با ربکا بلان درrebecca.bellan@techcrunch.com یا راسل براندوم در russell.brandom@techcrunch.com تماس بگیرید. برای ارتباط امن، می‌توانید از طریق سیگنال با آنها به شماره @rebeccabellan.491 و russellbrandom.49 تماس بگیرید.

این مقاله توسط هوش مصنوعی ترجمه شده است و ممکن است دارای اشکالاتی باشد. برای دقت بیشتر، می‌توانید منبع اصلی را مطالعه کنید.