OpenAI میگوید مرورگرهای هوش مصنوعی ممکن است همیشه در برابر حملات تزریق پرامپت آسیبپذیر باشند

این مقاله/پست توسط هوش مصنوعی ترجمه شده است، ممکن است دارای اشکالاتی باشد. برای دقت بیشتر، میتوانید منبع اصلی را مطالعه کنید.
حتی با وجود اینکه OpenAI در حال سختتر کردن مرورگر هوش مصنوعی Atlas خود در برابر حملات سایبری است، این شرکت اذعان میکند که تزریق پرامپت، نوعی حمله که عاملهای هوش مصنوعی را برای دنبال کردن دستورالعملهای مخرب که اغلب در صفحات وب یا ایمیلها پنهان شدهاند، دستکاری میکند، ریسکی است که به این زودیها از بین نمیرود — و این سوال را مطرح میکند که عاملهای هوش مصنوعی چقدر میتوانند با خیال راحت در وب باز فعالیت کنند.
OpenAI در یک پست وبلاگ روز دوشنبه نوشت: «تزریق پرامپت، بسیار شبیه به کلاهبرداریها و مهندسی اجتماعی در وب، بعید است که هرگز به طور کامل «حل» شود.» این پست جزئیات چگونگی تقویت زره Atlas توسط این شرکت برای مبارزه با حملات بیپایان را شرح میدهد. این شرکت اذعان کرد که «حالت عامل» در ChatGPT Atlas «سطح تهدید امنیتی را گسترش میدهد».
OpenAI مرورگر ChatGPT Atlas خود را در ماه اکتبر راهاندازی کرد و محققان امنیتی به سرعت دموهای خود را منتشر کردند و نشان دادند که میتوان با نوشتن چند کلمه در Google Docs، رفتار مرورگر زیرین را تغییر داد. در همان روز، Brave پست وبلاگی منتشر کرد و توضیح داد که تزریق پرامپت غیرمستقیم یک چالش سیستمی برای مرورگرهای مبتنی بر هوش مصنوعی، از جمله Comet پرپلکسیتی است.
OpenAI تنها کسی نیست که تشخیص میدهد تزریقهای مبتنی بر پرامپت از بین نمیروند. مرکز ملی امنیت سایبری بریتانیا در اوایل این ماه هشدار داد که حملات تزریق پرامپت علیه برنامههای هوش مصنوعی مولد «ممکن است هرگز به طور کامل کاهش نیابند» و وبسایتها را در معرض خطر نقض دادهها قرار دهند. آژانس دولتی بریتانیا به متخصصان امنیت سایبری توصیه کرد که ریسک و تأثیر تزریق پرامپت را کاهش دهند، به جای اینکه فکر کنند این حملات «متوقف» میشوند.
از طرف خود، OpenAI گفت: «ما تزریق پرامپت را یک چالش امنیتی بلندمدت هوش مصنوعی میدانیم و باید به طور مداوم دفاع خود را در برابر آن تقویت کنیم.»
پاسخ این شرکت به این وظیفه سیزیفوار چیست؟ یک چرخه واکنشی سریع و پیشگیرانه که این شرکت میگوید نویدبخش اولیه در کشف استراتژیهای حمله جدید در داخل شرکت قبل از اینکه «در دنیای واقعی» مورد سوءاستفاده قرار گیرند، است.
این کاملاً با آنچه رقبایی مانند Anthropic و Google گفتهاند متفاوت نیست: برای مبارزه با ریسک پایدار حملات مبتنی بر پرامپت، دفاعها باید لایهبندی شده و به طور مداوم تحت آزمایش استرس قرار گیرند. کار اخیر گوگل، به عنوان مثال، بر کنترلهای معماری و سطح خطمشی برای سیستمهای عاملیتی تمرکز دارد.
اما جایی که OpenAI رویکرد متفاوتی اتخاذ میکند، با «مهاجم خودکار مبتنی بر LLM» آن است. این مهاجم اساساً یک ربات است که OpenAI با استفاده از یادگیری تقویتی آن را آموزش داده است تا نقش یک هکر را بازی کند که به دنبال راههایی برای نفوذ دستورالعملهای مخرب به یک عامل هوش مصنوعی است.
این ربات میتواند حمله را قبل از استفاده واقعی در شبیهسازی آزمایش کند و شبیهساز نشان میدهد که هوش مصنوعی هدف چگونه فکر میکند و اگر حمله را ببیند چه اقداماتی انجام میدهد. سپس ربات میتواند آن پاسخ را مطالعه کند، حمله را تنظیم کند و بارها و بارها امتحان کند. این بینش به استدلال داخلی هوش مصنوعی هدف چیزی است که افراد خارجی به آن دسترسی ندارند، بنابراین، در تئوری، ربات OpenAI باید بتواند نقصها را سریعتر از یک مهاجم دنیای واقعی پیدا کند.
این یک تاکتیک رایج در آزمایش ایمنی هوش مصنوعی است: ساختن یک عامل برای یافتن موارد مرزی و آزمایش سریع آنها در شبیهسازی.
OpenAI نوشت: «مهاجم آموزشدیده ما با یادگیری تقویتی میتواند یک عامل را به سمت اجرای گردش کارهای مخرب پیچیده و بلندمدت که در طول دهها (یا حتی صدها) مرحله اتفاق میافتد، هدایت کند.» «ما همچنین استراتژیهای حمله جدیدی را مشاهده کردیم که در کمپین تست قرمز انسانی ما یا گزارشهای خارجی ظاهر نشدند.»

در یک دمو (که تا حدی در بالا نشان داده شده است)، OpenAI نشان داد که چگونه مهاجم خودکار آن یک ایمیل مخرب را در صندوق ورودی کاربر قرار داده است. هنگامی که عامل هوش مصنوعی بعداً صندوق ورودی را اسکن کرد، دستورالعملهای پنهان در ایمیل را دنبال کرد و به جای پیشنویس پاسخ عدم حضور، پیام استعفا ارسال کرد. اما طبق گفته این شرکت، پس از بهروزرسانی امنیتی، «حالت عامل» توانست با موفقیت تلاش تزریق پرامپت را تشخیص داده و آن را به کاربر پرچمگذاری کند.
این شرکت میگوید در حالی که ایمنسازی در برابر تزریق پرامپت به روشی بینقص دشوار است، اما برای سختتر کردن سیستمهای خود قبل از ظهور در حملات دنیای واقعی، به آزمایش در مقیاس بزرگ و چرخههای وصله سریعتر تکیه میکند.
سخنگوی OpenAI از اشتراکگذاری اینکه آیا بهروزرسانی امنیت Atlas منجر به کاهش قابل اندازهگیری در تزریقهای موفق شده است، خودداری کرد، اما میگوید این شرکت از قبل از راهاندازی با اشخاص ثالث برای سختتر کردن Atlas در برابر تزریق پرامپت همکاری کرده است.
رامی مککارتی، محقق امنیتی اصلی در شرکت امنیت سایبری Wiz، میگوید که یادگیری تقویتی یکی از راههای سازگاری مداوم با رفتار مهاجم است، اما تنها بخشی از تصویر است.
مککارتی به تککرانچ گفت: «یک راه مفید برای استدلال در مورد ریسک در سیستمهای هوش مصنوعی، خودمختاری ضربدر دسترسی است.»
مککارتی گفت: «مرورگرهای عاملیتی تمایل دارند در بخش چالشبرانگیزی از این فضا قرار بگیرند: خودمختاری متوسط همراه با دسترسی بسیار بالا.» «بسیاری از توصیههای فعلی نشاندهنده این بدهبستان است. محدود کردن دسترسی وارد شده عمدتاً قرار گرفتن در معرض خطر را کاهش میدهد، در حالی که نیاز به بررسی درخواستهای تأیید، خودمختاری را محدود میکند.»
اینها دو مورد از توصیههای OpenAI برای کاربران برای کاهش ریسک خودشان است و سخنگوی این شرکت گفت که Atlas همچنین برای دریافت تأیید کاربر قبل از ارسال پیام یا انجام پرداختها آموزش دیده است. OpenAI همچنین پیشنهاد میکند که کاربران دستورالعملهای مشخصی به عاملها بدهند، به جای اینکه به آنها دسترسی به صندوق ورودی خود را بدهند و به آنها بگویند «هر اقدامی لازم است انجام دهند».
طبق گفته OpenAI: «اختیار گسترده باعث میشود محتوای پنهان یا مخرب راحتتر عامل را تحت تأثیر قرار دهد، حتی زمانی که محافظها در جای خود قرار دارند.»
در حالی که OpenAI میگوید محافظت از کاربران Atlas در برابر تزریق پرامپت اولویت اصلی است، مککارتی نسبت به بازگشت سرمایه برای مرورگرهای پرخطر، تردیدهایی را ابراز میکند.
مککارتی به تککرانچ گفت: «برای اکثر موارد استفاده روزمره، مرورگرهای عاملیتی هنوز ارزش کافی برای توجیه مشخصات ریسک فعلی خود ارائه نمیدهند.» «ریسک با توجه به دسترسی آنها به دادههای حساس مانند ایمیل و اطلاعات پرداخت بالا است، حتی اگر این دسترسی همان چیزی است که آنها را قدرتمند میسازد. این تعادل تکامل خواهد یافت، اما امروز بدهبستانها هنوز بسیار واقعی هستند.»



