لیمن اسلایس ۱۰.۵ میلیون دلار از وای کامبینیتور و ماتریکس جذب کرد تا فناوری آواتار دیجیتال خود را توسعه دهد

توسعهدهندگان و شرکتها به طور فزایندهای در حال استفاده از عاملها و چتباتهای هوش مصنوعی در برنامههای خود هستند، اما تاکنون بیشتر محدود به متن بودهاند. شرکت تولیدکننده آواتارهای دیجیتال Lemon Slice در تلاش است تا با یک مدل انتشار جدید که میتواند آواتارهای دیجیتال را از یک تصویر واحد ایجاد کند، لایه ویدئویی را به این چتها اضافه کند.
این مدل که Lemon Slice-2 نام دارد، میتواند یک آواتار دیجیتال ایجاد کند که روی یک پایگاه دانش کار میکند تا هر نقشی را که از عامل هوش مصنوعی خواسته میشود، ایفا کند، مانند پاسخگویی به سوالات مشتریان، کمک به سوالات تکالیف مدرسه، یا حتی کار به عنوان یک عامل پشتیبانی سلامت روان.
لیناکولوتچی، یکی از بنیانگذاران، گفت: «در روزهای اولیه GenAI، همبنیانگذاران من شروع به کار با مدلهای مختلف ویدئویی کردند و برای ما واضح شد که ویدئو قرار است تعاملی باشد. بخش جذاب ابزارهایی مانند ChatGPT این بود که تعاملی بودند و ما میخواهیم ویدئو نیز این لایه را داشته باشد.»
لیمون اسلایس میگوید این یک مدل با ۲۰ میلیارد پارامتر است که میتواند روی یک GPU واحد کار کند و ویدئوها را با سرعت ۲۰ فریم در ثانیه پخش زنده کند. این شرکت مدل را از طریق یک API و یک ویجت قابل جاسازی که شرکتها میتوانند با یک خط کد آن را در سایتهای خود ادغام کنند، در دسترس قرار میدهد. پس از ایجاد آواتار، میتوانید پسزمینه، سبک و ظاهر یک شخصیت را در هر زمان تغییر دهید.
این شرکت علاوه بر آواتارهای شبیه انسان، بر توانایی تولید شخصیتهای غیرانسانی برای رفع نیازهای مختلف نیز تمرکز دارد. این استارتاپ از فناوری ElevenLabs برای تولید صداهای این آواتارها استفاده میکند.
لیمون اسلایس که در سال ۲۰۲۴ توسط لیناکولوتچی، سیدنی پریماس و اندرو وایتز تأسیس شد، شرط بسته است که استفاده از مدل انتشار عمومی خود (نوعی مدل مولد که یاد میگیرد با کار معکوس از دادههای آموزشی نویزی، دادههای جدیدی تولید کند) برای ساخت آواتارها، آن را از رقبا متمایز خواهد کرد.
کولوتچی گفت: «راهکارهای آواتار موجودی که تا به امروز دیدهام، ارزش منفی به محصول اضافه میکنند. آنها ترسناک و خشک هستند. برای چند ثانیه خوب به نظر میرسند و به محض اینکه شروع به تعامل با آنها میکنید، احساس بسیار ناخوشایندی به شما دست میدهد و شما را راحت نمیکند. چیزی که مانع از موفقیت واقعی آواتارها شده، این است که به اندازه کافی خوب نبودهاند.»
برای تأمین مالی این تلاش، این شرکت روز سهشنبه اعلام کرد که ۱۰.۵ میلیون دلار بودجه اولیه از Matrix Partners، Y Combinator، مدیر ارشد فناوری Dropbox آرش فردوسی، مدیرعامل Twitch امت شیر و The Chainsmokers جذب کرده است.
این شرکت میگوید که سازوکارهایی برای جلوگیری از شبیهسازی غیرمجاز چهره یا صدا در اختیار دارد و از مدلهای زبان بزرگ برای تعدیل محتوا استفاده میکند.
لیمون اسلایس نام سازمانهایی که از فناوری آن استفاده میکنند را ذکر نکرد، اما گفت که این مدل برای موارد استفادهای مانند آموزش، یادگیری زبان، تجارت الکترونیک و آموزش شرکتی به کار گرفته میشود.
این استارتاپ با رقابت شدیدی از سوی استارتاپهای تولید ویدئو مانند D-ID، HeyGen و Synthesia، و همچنین سایر سازندگان آواتار دیجیتال مانند Genies، Soul Machine، Praktika و AvatarOS روبرو است.
ایلیا سوخار، شریک در ماتریکس، معتقد است که آواتارها در زمینههایی که ویدئو برجسته است مفید خواهند بود. به عنوان مثال، مردم ترجیح میدهند از یوتیوب یاد بگیرند تا اینکه متنهای طولانی را بخوانند. وی خاطرنشان کرد که توانایی فنی لیمون اسلایس و اراده آن، به آن برتری نسبت به سایر استارتاپها خواهد داد.
او گفت: «این یک تیم عمیقاً فنی با سابقه ارائه محصولات ML، نه فقط دمو و تحقیق است. بسیاری از بازیگران دیگر مختص سناریوها یا بخشهای خاصی هستند و لیمون اسلایس رویکرد مقیاسپذیری عمومی «درس تلخ» (داده و محاسبات) را اتخاذ میکند که در سایر مودالیتههای هوش مصنوعی موفق بوده است.»
جرد فریدمن از وای کامبینیتور معتقد است که استفاده از مدل سبک انتشار (diffusion-style model) به لیمون اسلایس اجازه میدهد تا هر نوع آواتاری را تولید کند، در مقایسه با برخی استارتاپهای دیگر که بر آواتارهای شبیه انسان یا شبیه شخصیتهای بازی تمرکز دارند.
او گفت: «من معتقدم لیمون اسلایس تنها شرکتی است که رویکرد بنیادی ML را اتخاذ میکند که در نهایت میتواند بر دره ناخوشایند غلبه کند و تست تورینگ آواتار را بشکند. آنها از همان نوع مدل Veo3 یا Sora استفاده میکنند: یک ترانسفورمر انتشار ویدئویی. از آنجایی که این یک مدل عمومی است که کل فرآیند را از ابتدا تا انتها انجام میدهد، هیچ سقفی برای میزان خوب شدن آن وجود ندارد؛ دیگران در زیر سطح فوتورئالیستیک متوقف میشوند. همچنین برای چهرههای انسانی و غیرانسانی کار میکند و فقط به یک تصویر برای اضافه کردن چهره جدید نیاز دارد.»
این استارتاپ در حال حاضر هشت کارمند دارد و قصد دارد از این بودجه برای استخدام کارکنان مهندسی و بازاریابی، و همچنین پرداخت هزینههای محاسباتی برای آموزش مدلهای خود استفاده کند.
این مقاله توسط هوش مصنوعی ترجمه شده است و ممکن است دارای اشکالاتی باشد. برای دقت بیشتر، میتوانید منبع اصلی را مطالعه کنید.



