OpenAI با مدل جدید تولید تصویر، مسیر «کد قرمز» خود را ادامه میدهد

این مقاله/پست توسط هوش مصنوعی ترجمه شده است، ممکن است دارای اشکالاتی باشد. برای دقت بیشتر، میتوانید منبع اصلی را مطالعه کنید.
OpenAI در حال عرضه نسخه جدیدی از ChatGPT Images است که نوید پیروی بهتر از دستورالعملها، ویرایش دقیقتر و سرعت تولید تصویر تا ۴ برابر بیشتر را میدهد.
مدل جدید که GPT Image 1.5 نام گرفته است، از سهشنبه برای همه کاربران ChatGPT و از طریق API در دسترس است. این جدیدترین تشدید رقابت با Gemini گوگل است، پس از آنکه سم آلتمن، مدیرعامل OpenAI، ماه گذشته در یک یادداشت داخلی فاش شده، اعلام «کد قرمز» کرد. این یادداشت برنامههای OpenAI را برای بازپسگیری جایگاه خود به عنوان رهبر هوش مصنوعی پس از آنکه گوگل با عرضه Gemini 3، آخرین مدل پرچمدار خود، و Nano Banana Pro، جدیدترین نسخه مولد تصویر ویروسی گوگل، شروع به تصاحب سهم بازار کرده بود، تشریح کرد – هر دو در چندین بنچمارک در صدر جدول LMArena قرار گرفتند.
گوگل حتی پس از آنکه OpenAI هفته گذشته با عرضه GPT-5.2 به موفقیت آن پاسخ داد و آن را به عنوان پیشرفتهترین مدل خود تا به امروز برای توسعهدهندگان و استفاده حرفهای روزمره معرفی کرد، همچنان پیشتاز است. گزارش شده است که OpenAI قصد داشت در اوایل ژانویه یک مولد تصویر جدید منتشر کند و با اعلام این هفته، آن برنامهها را تسریع کرده است. آخرین مدل تصویر منتشر شده آن GPT Image 1 در ماه آوریل بود.
GPT Image 1.5 در حالی عرضه میشود که مولدهای تصویر و ویدئو فراتر از نمونههای اولیه پیشرفت کرده و قابلیتهای آمادهتر برای تولید را به دست میآورند. مانند Nano Banana Pro، ChatGPT Image ویژگیهای پس از تولید را ارائه میدهد و کنترلهای ویرایش دقیقتری را برای حفظ ثبات بصری، مانند شباهت چهره، نورپردازی، ترکیببندی و تُن رنگ در طول ویرایشها فراهم میکند.

بیشتر ابزارهای تصویر GenAI در تکرار (iteration) ضعیف هستند، بنابراین این یک گام بزرگ رو به جلو خواهد بود. هنگامی که درخواستی برای تغییر خاصی مانند «تنظیم حالت چهره» یا «سردتر کردن نور» داده میشود، مدلها اغلب تصویر را به طور کامل بازتفسیر میکنند که منجر به عدم ثبات میشود.
این بهروزرسانی فقط مربوط به ویژگیهای جدید نیست. تصاویر ChatGPT اکنون از طریق یک نقطه ورود اختصاصی در نوار کناری ChatGPT که «بیشتر شبیه یک استودیوی خلاقانه» کار میکند، در دسترس خواهند بود، فیدجی سیمو، مدیرعامل برنامههای OpenAI، روز سهشنبه در یک پست وبلاگ نوشت.
سیمو نوشت: «صفحههای جدید مشاهده و ویرایش تصویر، ایجاد تصاویری را که با چشمانداز شما مطابقت دارند یا الهام گرفتن از پرامپتهای پرطرفدار و فیلترهای از پیش تعیینشده را آسانتر میکنند.»
علاوه بر مولد تصویر جدید، OpenAI راههای جدیدی را برای بهبود تجربه ChatGPT با عناصر بصری بیشتر معرفی میکند. طبق گفته سیمو، این طرح این است که درخواستهای جستجو تصاویر بیشتری را با منابع واضح نمایش دهند، که میتواند برای کارهایی مانند تبدیل اندازهگیریها یا بررسی امتیازات ورزشی مفید باشد.
سیمو نوشت: «هنگامی که در حال خلق هستید، باید بتوانید چیزی را که میسازید ببینید و شکل دهید. هنگامی که تصاویر بهتر از کلمات به تنهایی داستانی را بیان میکنند، ChatGPT باید آنها را شامل شود. هنگامی که به یک پاسخ سریع نیاز دارید یا گام بعدی در ابزار دیگری قرار دارد، باید درست در آنجا باشد. با انجام این کار، میتوانیم فاصله بین آنچه در ذهن شماست و توانایی شما برای زنده کردن آن را همچنان ببندیم.»
— OpenAI (@OpenAI) December 16, 2025



