میرلو با جذب ۴۱ میلیون دلار از ایندکس و a16z برای حل مشکل صدای ویدیوهای هوش مصنوعی

این مقاله/پست توسط هوش مصنوعی ترجمه شده است، ممکن است دارای اشکالاتی باشد. برای دقت بیشتر، میتوانید منبع اصلی را مطالعه کنید.
هوش مصنوعی به هر کسی اجازه میدهد ویدیو بسازد، اما بسیاری از ابزارهای ساخت ویدیوی هوش مصنوعی فاقد پشتیبانی از صدا هستند. میرلو در حال ساخت هوش مصنوعی است که موسیقی متن را برای مطابقت با اکشن ویدیو اضافه میکند.
اوایل امسال، این استارتاپ مستقر در برلین، Mirelo SFX v1.5 را منتشر کرد، یک مدل هوش مصنوعی که ویدیوها را تفسیر میکند تا جلوههای صوتی (SFX) همگامسازی شده را اضافه کند.
این موضوع توجه سرمایهگذاران خطرپذیر را که خود را برای انقلاب هوش مصنوعی مولد در بازیها آماده میکنند، جلب کرد. این استارتاپ دو ساله آلمانی، دور تأمین مالی اولیه ۴۱ میلیون دلاری را به رهبری ایندکس ونچرز و آندرسن هوروویتز جذب کرده است، که تککرانچ به طور انحصاری مطلع شده است.
این سرمایه جدید به میرلو کمک میکند تا در دسته نوظهور خود به طور مؤثرتری رقابت کند. در حالی که هنوز در حالت پنهان و با منابع محدود بود، شرکتهای بزرگی مانند سونی و تنسنت مدلهای ویدیو به SFX را منتشر کردند. کوایشو-اوند کلینگ ایآی از چین و ElevenLabs که آن هم مورد حمایت a16z است، نیز همین کار را انجام دادند.
در حالی که میرلو در حال حاضر با تمرکز محدودتر خود از آنها متمایز است، رقابت با این مدلها در بلندمدت نیازمند استخدامهای اضافی توسط این استارتاپ است. در مجموع، این استارتاپ انتظار دارد تیم ۱۰ نفره خود تا پایان سال آینده "دو برابر، اگر نه سه برابر" شود، سیجی سیمون-گابریل، مدیرعامل و همبنیانگذار میرلو به تککرانچ گفت.
این استخدامهای جدید از تحقیق و توسعه میرلو و همچنین استراتژی محصول و ورود به بازار آن پشتیبانی خواهند کرد. این استارتاپ مدلهای خود را در Fal.ai و Replicate منتشر کرده است و انتظار دارد استفاده از API در کوتاهمدت بیشتر درآمد آن را تأمین کند، سیمون-گابریل گفت. اما همچنین در حال سرمایهگذاری بر روی توسعه فضای کاری خود برای سازندگان، میرلو استودیو، است که در نهایت میتواند از استفاده حرفهای کامل پشتیبانی کند.
همانطور که میرلو برای مقیاسپذیری آماده میشود، این استارتاپ و سرمایهگذارانش نیز نگران دادههای آموزشی هستند که گریبانگیر سایر شرکتهای هوش مصنوعی مولد شده است. طبق گفته جورجیا استیونسون، که سرمایهگذاریهای ایندکس را رهبری کرده است، میرلو مدلهای خود را بر اساس کتابخانههای صوتی عمومی و خریداری شده بنا نهاده و در حال امضای مشارکتهای تقسیم درآمد است که به حقوق هنرمندان احترام میگذارد.
این تنشی است که ذات ابزارهای هوش مصنوعی مولد است، اما میرلو در حال حاضر موسیقیدانان و طراحان صدا را جایگزین نمیکند - حداقل نه هنوز. این استارتاپ با یک مدل فریمیوم شامل یک طرح پیشنهادی برای سازندگان با قیمت ۲۰ یورو در ماه (تقریباً ۲۳.۵۰ دلار)، عمدتاً آماتورها و مصرفکنندگان حرفهای را هدف قرار میدهد که امیدوارند ویدیوهای تولید شده توسط هوش مصنوعی را از حالت سکوت خارج کنند.
طبق گفته سیمون-گابریل، سازندگان بدون صدا نمیتوانند به طور کامل از این پتانسیل جدید بهرهمند شوند.
او گفت: "جورج لوکاس گفت که صدا ۵۰ درصد تجربه تماشای فیلم است. این اغراق نیست." "اگر چیزی باشد، دست کم گرفتن است. شما میتوانید دقیقاً همان تصاویر را بگیرید، و صدا کاملاً فضای متفاوتی را شکل میدهد، بسته به صدا و موسیقی که در آن قرار میدهید."
او و همبنیانگذار او، فلوریان ونزل، هر دو محقق هوش مصنوعی و موسیقیدان هستند و این استارتاپ تولید موسیقی با هوش مصنوعی را در نقشه راه خود دارد. اما میرلو در حال مشاهده تقاضای بیشتری برای جلوههای صوتی است، بخشی به این دلیل که تحقیقات کمتری نسبت به سایر حوزههای هوش مصنوعی در این زمینه انجام میشود، سیمون-گابریل گفت.
او خاطرنشان کرد: "ساختن یک خندق واقعی در اینجا آسانتر است و سپس از آن بهرهبرداری کرد."
این میتواند برای میرلو نتیجهبخش باشد. سیمون-گابریل از افشای ارزشگذاری جدید خودداری کرد، اما گفت که در مقایسه با دور پیشبذر قبلی که افشا نشده بود، "بسیار قابل توجهی" افزایش یافته است. دور قبلی توسط شرکت آتلانتیک مستقر در برلین رهبری شد که در تأمین مالی جدید نیز شرکت کرد و مجموع سرمایه جذب شده میرلو را به ۴۴ میلیون دلار رساند و به پر کردن شکاف منابع آن کمک کرد.
این استارتاپ همچنین توسط فرشتگانی پشتیبانی میشود که اعتبار فناوری آن را افزایش میدهند و میتوانند درهای جدیدی را باز کنند، از جمله مدیرعامل میسترال آرتور منش، افسر ارشد علمی هاگینگ فیس توماس ولف، همبنیانگذار فال.ای برکای گور و دیگران.
با این حال، این تیم آگاه است که ویدیوهای تولید شده توسط هوش مصنوعی ممکن است برای مدت طولانی بیصدا نباشند.
به عنوان مثال، مولد ویدیوی جمنای اکنون موسیقی متن را با استفاده از مدل ویدیو به صدای Veo 3.1 DeepMind ادغام میکند. اما اگر چیزی باشد، سیمون-گابریل احساس تأیید میکند. "حالا، ناگهان، مردم متوجه میشوند، 'اوه، شاید باید صدا اضافه کنیم.' اما، البته، شما باید مقداری اضافه کنید. این شبیه فیلمهای صامت در مقابل فیلمهای ناطق است، درست است؟ تفاوت قابل توجهی ایجاد میکند!"



