AI

OpenAI می‌گوید مرورگرهای هوش مصنوعی ممکن است همیشه در برابر حملات تزریق پرامپت آسیب‌پذیر باشند

6 دقیقه مطالعه
منبع
OpenAI می‌گوید مرورگرهای هوش مصنوعی ممکن است همیشه در برابر حملات تزریق پرامپت آسیب‌پذیر باشند

این مقاله/پست توسط هوش مصنوعی ترجمه شده است، ممکن است دارای اشکالاتی باشد. برای دقت بیشتر، می‌توانید منبع اصلی را مطالعه کنید.

حتی با وجود اینکه OpenAI در حال سخت‌تر کردن مرورگر هوش مصنوعی Atlas خود در برابر حملات سایبری است، این شرکت اذعان می‌کند که تزریق پرامپت، نوعی حمله که عامل‌های هوش مصنوعی را برای دنبال کردن دستورالعمل‌های مخرب که اغلب در صفحات وب یا ایمیل‌ها پنهان شده‌اند، دستکاری می‌کند، ریسکی است که به این زودی‌ها از بین نمی‌رود — و این سوال را مطرح می‌کند که عامل‌های هوش مصنوعی چقدر می‌توانند با خیال راحت در وب باز فعالیت کنند.

OpenAI در یک پست وبلاگ روز دوشنبه نوشت: «تزریق پرامپت، بسیار شبیه به کلاهبرداری‌ها و مهندسی اجتماعی در وب، بعید است که هرگز به طور کامل «حل» شود.» این پست جزئیات چگونگی تقویت زره Atlas توسط این شرکت برای مبارزه با حملات بی‌پایان را شرح می‌دهد. این شرکت اذعان کرد که «حالت عامل» در ChatGPT Atlas «سطح تهدید امنیتی را گسترش می‌دهد».

OpenAI مرورگر ChatGPT Atlas خود را در ماه اکتبر راه‌اندازی کرد و محققان امنیتی به سرعت دموهای خود را منتشر کردند و نشان دادند که می‌توان با نوشتن چند کلمه در Google Docs، رفتار مرورگر زیرین را تغییر داد. در همان روز، Brave پست وبلاگی منتشر کرد و توضیح داد که تزریق پرامپت غیرمستقیم یک چالش سیستمی برای مرورگرهای مبتنی بر هوش مصنوعی، از جمله Comet پرپلکسیتی است.

OpenAI تنها کسی نیست که تشخیص می‌دهد تزریق‌های مبتنی بر پرامپت از بین نمی‌روند. مرکز ملی امنیت سایبری بریتانیا در اوایل این ماه هشدار داد که حملات تزریق پرامپت علیه برنامه‌های هوش مصنوعی مولد «ممکن است هرگز به طور کامل کاهش نیابند» و وب‌سایت‌ها را در معرض خطر نقض داده‌ها قرار دهند. آژانس دولتی بریتانیا به متخصصان امنیت سایبری توصیه کرد که ریسک و تأثیر تزریق پرامپت را کاهش دهند، به جای اینکه فکر کنند این حملات «متوقف» می‌شوند.

از طرف خود، OpenAI گفت: «ما تزریق پرامپت را یک چالش امنیتی بلندمدت هوش مصنوعی می‌دانیم و باید به طور مداوم دفاع خود را در برابر آن تقویت کنیم.»

پاسخ این شرکت به این وظیفه سیزیف‌وار چیست؟ یک چرخه واکنشی سریع و پیشگیرانه که این شرکت می‌گوید نویدبخش اولیه در کشف استراتژی‌های حمله جدید در داخل شرکت قبل از اینکه «در دنیای واقعی» مورد سوءاستفاده قرار گیرند، است.

این کاملاً با آنچه رقبایی مانند Anthropic و Google گفته‌اند متفاوت نیست: برای مبارزه با ریسک پایدار حملات مبتنی بر پرامپت، دفاع‌ها باید لایه‌بندی شده و به طور مداوم تحت آزمایش استرس قرار گیرند. کار اخیر گوگل، به عنوان مثال، بر کنترل‌های معماری و سطح خط‌مشی برای سیستم‌های عاملیتی تمرکز دارد.

اما جایی که OpenAI رویکرد متفاوتی اتخاذ می‌کند، با «مهاجم خودکار مبتنی بر LLM» آن است. این مهاجم اساساً یک ربات است که OpenAI با استفاده از یادگیری تقویتی آن را آموزش داده است تا نقش یک هکر را بازی کند که به دنبال راه‌هایی برای نفوذ دستورالعمل‌های مخرب به یک عامل هوش مصنوعی است.

این ربات می‌تواند حمله را قبل از استفاده واقعی در شبیه‌سازی آزمایش کند و شبیه‌ساز نشان می‌دهد که هوش مصنوعی هدف چگونه فکر می‌کند و اگر حمله را ببیند چه اقداماتی انجام می‌دهد. سپس ربات می‌تواند آن پاسخ را مطالعه کند، حمله را تنظیم کند و بارها و بارها امتحان کند. این بینش به استدلال داخلی هوش مصنوعی هدف چیزی است که افراد خارجی به آن دسترسی ندارند، بنابراین، در تئوری، ربات OpenAI باید بتواند نقص‌ها را سریع‌تر از یک مهاجم دنیای واقعی پیدا کند.

این یک تاکتیک رایج در آزمایش ایمنی هوش مصنوعی است: ساختن یک عامل برای یافتن موارد مرزی و آزمایش سریع آن‌ها در شبیه‌سازی.

OpenAI نوشت: «مهاجم آموزش‌دیده ما با یادگیری تقویتی می‌تواند یک عامل را به سمت اجرای گردش کارهای مخرب پیچیده و بلندمدت که در طول ده‌ها (یا حتی صدها) مرحله اتفاق می‌افتد، هدایت کند.» «ما همچنین استراتژی‌های حمله جدیدی را مشاهده کردیم که در کمپین تست قرمز انسانی ما یا گزارش‌های خارجی ظاهر نشدند.»

اسکرین‌شاتی که حمله تزریق پرامپت را در مرورگر OpenAI نشان می‌دهد.

در یک دمو (که تا حدی در بالا نشان داده شده است)، OpenAI نشان داد که چگونه مهاجم خودکار آن یک ایمیل مخرب را در صندوق ورودی کاربر قرار داده است. هنگامی که عامل هوش مصنوعی بعداً صندوق ورودی را اسکن کرد، دستورالعمل‌های پنهان در ایمیل را دنبال کرد و به جای پیش‌نویس پاسخ عدم حضور، پیام استعفا ارسال کرد. اما طبق گفته این شرکت، پس از به‌روزرسانی امنیتی، «حالت عامل» توانست با موفقیت تلاش تزریق پرامپت را تشخیص داده و آن را به کاربر پرچم‌گذاری کند.

این شرکت می‌گوید در حالی که ایمن‌سازی در برابر تزریق پرامپت به روشی بی‌نقص دشوار است، اما برای سخت‌تر کردن سیستم‌های خود قبل از ظهور در حملات دنیای واقعی، به آزمایش در مقیاس بزرگ و چرخه‌های وصله سریع‌تر تکیه می‌کند.

سخنگوی OpenAI از اشتراک‌گذاری اینکه آیا به‌روزرسانی امنیت Atlas منجر به کاهش قابل اندازه‌گیری در تزریق‌های موفق شده است، خودداری کرد، اما می‌گوید این شرکت از قبل از راه‌اندازی با اشخاص ثالث برای سخت‌تر کردن Atlas در برابر تزریق پرامپت همکاری کرده است.

رامی مک‌کارتی، محقق امنیتی اصلی در شرکت امنیت سایبری Wiz، می‌گوید که یادگیری تقویتی یکی از راه‌های سازگاری مداوم با رفتار مهاجم است، اما تنها بخشی از تصویر است.

مک‌کارتی به تک‌کرانچ گفت: «یک راه مفید برای استدلال در مورد ریسک در سیستم‌های هوش مصنوعی، خودمختاری ضربدر دسترسی است.»

مک‌کارتی گفت: «مرورگرهای عاملیتی تمایل دارند در بخش چالش‌برانگیزی از این فضا قرار بگیرند: خودمختاری متوسط ​​همراه با دسترسی بسیار بالا.» «بسیاری از توصیه‌های فعلی نشان‌دهنده این بده‌بستان است. محدود کردن دسترسی وارد شده عمدتاً قرار گرفتن در معرض خطر را کاهش می‌دهد، در حالی که نیاز به بررسی درخواست‌های تأیید، خودمختاری را محدود می‌کند.»

اینها دو مورد از توصیه‌های OpenAI برای کاربران برای کاهش ریسک خودشان است و سخنگوی این شرکت گفت که Atlas همچنین برای دریافت تأیید کاربر قبل از ارسال پیام یا انجام پرداخت‌ها آموزش دیده است. OpenAI همچنین پیشنهاد می‌کند که کاربران دستورالعمل‌های مشخصی به عامل‌ها بدهند، به جای اینکه به آن‌ها دسترسی به صندوق ورودی خود را بدهند و به آن‌ها بگویند «هر اقدامی لازم است انجام دهند».

طبق گفته OpenAI: «اختیار گسترده باعث می‌شود محتوای پنهان یا مخرب راحت‌تر عامل را تحت تأثیر قرار دهد، حتی زمانی که محافظ‌ها در جای خود قرار دارند.»

در حالی که OpenAI می‌گوید محافظت از کاربران Atlas در برابر تزریق پرامپت اولویت اصلی است، مک‌کارتی نسبت به بازگشت سرمایه برای مرورگرهای پرخطر، تردیدهایی را ابراز می‌کند.

مک‌کارتی به تک‌کرانچ گفت: «برای اکثر موارد استفاده روزمره، مرورگرهای عاملیتی هنوز ارزش کافی برای توجیه مشخصات ریسک فعلی خود ارائه نمی‌دهند.» «ریسک با توجه به دسترسی آن‌ها به داده‌های حساس مانند ایمیل و اطلاعات پرداخت بالا است، حتی اگر این دسترسی همان چیزی است که آن‌ها را قدرتمند می‌سازد. این تعادل تکامل خواهد یافت، اما امروز بده‌بستان‌ها هنوز بسیار واقعی هستند.»