AI

OpenAI با مدل جدید تولید تصویر، مسیر «کد قرمز» خود را ادامه می‌دهد

3 دقیقه مطالعه
منبع
OpenAI با مدل جدید تولید تصویر، مسیر «کد قرمز» خود را ادامه می‌دهد

این مقاله/پست توسط هوش مصنوعی ترجمه شده است، ممکن است دارای اشکالاتی باشد. برای دقت بیشتر، می‌توانید منبع اصلی را مطالعه کنید.

OpenAI در حال عرضه نسخه جدیدی از ChatGPT Images است که نوید پیروی بهتر از دستورالعمل‌ها، ویرایش دقیق‌تر و سرعت تولید تصویر تا ۴ برابر بیشتر را می‌دهد.

مدل جدید که GPT Image 1.5 نام گرفته است، از سه‌شنبه برای همه کاربران ChatGPT و از طریق API در دسترس است. این جدیدترین تشدید رقابت با Gemini گوگل است، پس از آنکه سم آلتمن، مدیرعامل OpenAI، ماه گذشته در یک یادداشت داخلی فاش شده، اعلام «کد قرمز» کرد. این یادداشت برنامه‌های OpenAI را برای بازپس‌گیری جایگاه خود به عنوان رهبر هوش مصنوعی پس از آنکه گوگل با عرضه Gemini 3، آخرین مدل پرچمدار خود، و Nano Banana Pro، جدیدترین نسخه مولد تصویر ویروسی گوگل، شروع به تصاحب سهم بازار کرده بود، تشریح کرد – هر دو در چندین بنچمارک در صدر جدول LMArena قرار گرفتند.

گوگل حتی پس از آنکه OpenAI هفته گذشته با عرضه GPT-5.2 به موفقیت آن پاسخ داد و آن را به عنوان پیشرفته‌ترین مدل خود تا به امروز برای توسعه‌دهندگان و استفاده حرفه‌ای روزمره معرفی کرد، همچنان پیشتاز است. گزارش شده است که OpenAI قصد داشت در اوایل ژانویه یک مولد تصویر جدید منتشر کند و با اعلام این هفته، آن برنامه‌ها را تسریع کرده است. آخرین مدل تصویر منتشر شده آن GPT Image 1 در ماه آوریل بود.

GPT Image 1.5 در حالی عرضه می‌شود که مولدهای تصویر و ویدئو فراتر از نمونه‌های اولیه پیشرفت کرده و قابلیت‌های آماده‌تر برای تولید را به دست می‌آورند. مانند Nano Banana Pro، ChatGPT Image ویژگی‌های پس از تولید را ارائه می‌دهد و کنترل‌های ویرایش دقیق‌تری را برای حفظ ثبات بصری، مانند شباهت چهره، نورپردازی، ترکیب‌بندی و تُن رنگ در طول ویرایش‌ها فراهم می‌کند.

بیشتر ابزارهای تصویر GenAI در تکرار (iteration) ضعیف هستند، بنابراین این یک گام بزرگ رو به جلو خواهد بود. هنگامی که درخواستی برای تغییر خاصی مانند «تنظیم حالت چهره» یا «سردتر کردن نور» داده می‌شود، مدل‌ها اغلب تصویر را به طور کامل بازتفسیر می‌کنند که منجر به عدم ثبات می‌شود.

این به‌روزرسانی فقط مربوط به ویژگی‌های جدید نیست. تصاویر ChatGPT اکنون از طریق یک نقطه ورود اختصاصی در نوار کناری ChatGPT که «بیشتر شبیه یک استودیوی خلاقانه» کار می‌کند، در دسترس خواهند بود، فیدجی سیمو، مدیرعامل برنامه‌های OpenAI، روز سه‌شنبه در یک پست وبلاگ نوشت.

سیمو نوشت: «صفحه‌های جدید مشاهده و ویرایش تصویر، ایجاد تصاویری را که با چشم‌انداز شما مطابقت دارند یا الهام گرفتن از پرامپت‌های پرطرفدار و فیلترهای از پیش تعیین‌شده را آسان‌تر می‌کنند.»

علاوه بر مولد تصویر جدید، OpenAI راه‌های جدیدی را برای بهبود تجربه ChatGPT با عناصر بصری بیشتر معرفی می‌کند. طبق گفته سیمو، این طرح این است که درخواست‌های جستجو تصاویر بیشتری را با منابع واضح نمایش دهند، که می‌تواند برای کارهایی مانند تبدیل اندازه‌گیری‌ها یا بررسی امتیازات ورزشی مفید باشد.

سیمو نوشت: «هنگامی که در حال خلق هستید، باید بتوانید چیزی را که می‌سازید ببینید و شکل دهید. هنگامی که تصاویر بهتر از کلمات به تنهایی داستانی را بیان می‌کنند، ChatGPT باید آن‌ها را شامل شود. هنگامی که به یک پاسخ سریع نیاز دارید یا گام بعدی در ابزار دیگری قرار دارد، باید درست در آنجا باشد. با انجام این کار، می‌توانیم فاصله بین آنچه در ذهن شماست و توانایی شما برای زنده کردن آن را همچنان ببندیم.»

pic.twitter.com/PwG1F4TT6Q

— OpenAI (@OpenAI) December 16, 2025