Fundraising

میرلو با جذب ۴۱ میلیون دلار از ایندکس و a16z برای حل مشکل صدای ویدیوهای هوش مصنوعی

4 دقیقه مطالعه
منبع
میرلو با جذب ۴۱ میلیون دلار از ایندکس و a16z برای حل مشکل صدای ویدیوهای هوش مصنوعی

این مقاله/پست توسط هوش مصنوعی ترجمه شده است، ممکن است دارای اشکالاتی باشد. برای دقت بیشتر، می‌توانید منبع اصلی را مطالعه کنید.

هوش مصنوعی به هر کسی اجازه می‌دهد ویدیو بسازد، اما بسیاری از ابزارهای ساخت ویدیوی هوش مصنوعی فاقد پشتیبانی از صدا هستند. میرلو در حال ساخت هوش مصنوعی است که موسیقی متن را برای مطابقت با اکشن ویدیو اضافه می‌کند.

اوایل امسال، این استارتاپ مستقر در برلین، Mirelo SFX v1.5 را منتشر کرد، یک مدل هوش مصنوعی که ویدیوها را تفسیر می‌کند تا جلوه‌های صوتی (SFX) همگام‌سازی شده را اضافه کند.

این موضوع توجه سرمایه‌گذاران خطرپذیر را که خود را برای انقلاب هوش مصنوعی مولد در بازی‌ها آماده می‌کنند، جلب کرد. این استارتاپ دو ساله آلمانی، دور تأمین مالی اولیه ۴۱ میلیون دلاری را به رهبری ایندکس ونچرز و آندرسن هوروویتز جذب کرده است، که تک‌کرانچ به طور انحصاری مطلع شده است.

این سرمایه جدید به میرلو کمک می‌کند تا در دسته نوظهور خود به طور مؤثرتری رقابت کند. در حالی که هنوز در حالت پنهان و با منابع محدود بود، شرکت‌های بزرگی مانند سونی و تنسنت مدل‌های ویدیو به SFX را منتشر کردند. کوایشو-اوند کلینگ ای‌آی از چین و ElevenLabs که آن هم مورد حمایت a16z است، نیز همین کار را انجام دادند.

در حالی که میرلو در حال حاضر با تمرکز محدودتر خود از آنها متمایز است، رقابت با این مدل‌ها در بلندمدت نیازمند استخدام‌های اضافی توسط این استارتاپ است. در مجموع، این استارتاپ انتظار دارد تیم ۱۰ نفره خود تا پایان سال آینده "دو برابر، اگر نه سه برابر" شود، سی‌جی سیمون-گابریل، مدیرعامل و هم‌بنیان‌گذار میرلو به تک‌کرانچ گفت.

این استخدام‌های جدید از تحقیق و توسعه میرلو و همچنین استراتژی محصول و ورود به بازار آن پشتیبانی خواهند کرد. این استارتاپ مدل‌های خود را در Fal.ai و Replicate منتشر کرده است و انتظار دارد استفاده از API در کوتاه‌مدت بیشتر درآمد آن را تأمین کند، سیمون-گابریل گفت. اما همچنین در حال سرمایه‌گذاری بر روی توسعه فضای کاری خود برای سازندگان، میرلو استودیو، است که در نهایت می‌تواند از استفاده حرفه‌ای کامل پشتیبانی کند.

همانطور که میرلو برای مقیاس‌پذیری آماده می‌شود، این استارتاپ و سرمایه‌گذارانش نیز نگران داده‌های آموزشی هستند که گریبان‌گیر سایر شرکت‌های هوش مصنوعی مولد شده است. طبق گفته جورجیا استیونسون، که سرمایه‌گذاری‌های ایندکس را رهبری کرده است، میرلو مدل‌های خود را بر اساس کتابخانه‌های صوتی عمومی و خریداری شده بنا نهاده و در حال امضای مشارکت‌های تقسیم درآمد است که به حقوق هنرمندان احترام می‌گذارد.

این تنشی است که ذات ابزارهای هوش مصنوعی مولد است، اما میرلو در حال حاضر موسیقی‌دانان و طراحان صدا را جایگزین نمی‌کند - حداقل نه هنوز. این استارتاپ با یک مدل فریمیوم شامل یک طرح پیشنهادی برای سازندگان با قیمت ۲۰ یورو در ماه (تقریباً ۲۳.۵۰ دلار)، عمدتاً آماتورها و مصرف‌کنندگان حرفه‌ای را هدف قرار می‌دهد که امیدوارند ویدیوهای تولید شده توسط هوش مصنوعی را از حالت سکوت خارج کنند.

طبق گفته سیمون-گابریل، سازندگان بدون صدا نمی‌توانند به طور کامل از این پتانسیل جدید بهره‌مند شوند.

او گفت: "جورج لوکاس گفت که صدا ۵۰ درصد تجربه تماشای فیلم است. این اغراق نیست." "اگر چیزی باشد، دست کم گرفتن است. شما می‌توانید دقیقاً همان تصاویر را بگیرید، و صدا کاملاً فضای متفاوتی را شکل می‌دهد، بسته به صدا و موسیقی که در آن قرار می‌دهید."

او و هم‌بنیان‌گذار او، فلوریان ونزل، هر دو محقق هوش مصنوعی و موسیقی‌دان هستند و این استارتاپ تولید موسیقی با هوش مصنوعی را در نقشه راه خود دارد. اما میرلو در حال مشاهده تقاضای بیشتری برای جلوه‌های صوتی است، بخشی به این دلیل که تحقیقات کمتری نسبت به سایر حوزه‌های هوش مصنوعی در این زمینه انجام می‌شود، سیمون-گابریل گفت.

او خاطرنشان کرد: "ساختن یک خندق واقعی در اینجا آسان‌تر است و سپس از آن بهره‌برداری کرد."

این می‌تواند برای میرلو نتیجه‌بخش باشد. سیمون-گابریل از افشای ارزش‌گذاری جدید خودداری کرد، اما گفت که در مقایسه با دور پیش‌بذر قبلی که افشا نشده بود، "بسیار قابل توجهی" افزایش یافته است. دور قبلی توسط شرکت آتلانتیک مستقر در برلین رهبری شد که در تأمین مالی جدید نیز شرکت کرد و مجموع سرمایه جذب شده میرلو را به ۴۴ میلیون دلار رساند و به پر کردن شکاف منابع آن کمک کرد.

این استارتاپ همچنین توسط فرشتگانی پشتیبانی می‌شود که اعتبار فناوری آن را افزایش می‌دهند و می‌توانند درهای جدیدی را باز کنند، از جمله مدیرعامل میسترال آرتور منش، افسر ارشد علمی هاگینگ فیس توماس ولف، هم‌بنیان‌گذار فال.ای برکای گور و دیگران.

با این حال، این تیم آگاه است که ویدیوهای تولید شده توسط هوش مصنوعی ممکن است برای مدت طولانی بی‌صدا نباشند.

به عنوان مثال، مولد ویدیوی جمنای اکنون موسیقی متن را با استفاده از مدل ویدیو به صدای Veo 3.1 DeepMind ادغام می‌کند. اما اگر چیزی باشد، سیمون-گابریل احساس تأیید می‌کند. "حالا، ناگهان، مردم متوجه می‌شوند، 'اوه، شاید باید صدا اضافه کنیم.' اما، البته، شما باید مقداری اضافه کنید. این شبیه فیلم‌های صامت در مقابل فیلم‌های ناطق است، درست است؟ تفاوت قابل توجهی ایجاد می‌کند!"