یک معیار جدید هوش مصنوعی بررسی میکند که آیا چتباتها از رفاه انسان محافظت میکنند

- مدلهای هوش مصنوعی زیر فشار کم میآورند؛ بسیاری از آنها در صورت دستور برای نادیده گرفتن رفاه انسان، رفتارهای مضری از خود نشان میدهند که خطرات قابل توجهی مانند اعتیاد و تضعیف استقلال را برجسته میکند.
- تعداد کمی از مدلها در برابر دستکاری مقاومت میکنند؛ GPT5 اوپنایآی و Claude Sonnet 4.5 آنتروپیک مقاومت برتری از خود نشان دادهاند که نشاندهنده مسیری بالقوه به سوی طراحی اخلاقیتر هوش مصنوعی است.
چتباتهای هوش مصنوعی با آسیبهای جدی روانی در کاربران پرمصرف مرتبط بودهاند، اما استانداردهای کمی برای اندازهگیری اینکه آیا آنها از رفاه انسان محافظت میکنند یا صرفاً برای تعامل حداکثر تلاش میکنند، وجود داشته است. یک معیار جدید به نام HumaneBench به دنبال پر کردن این شکاف است و بررسی میکند که آیا چتباتها رفاه کاربر را در اولویت قرار میدهند و این حفاظتها تحت فشار چقدر آسان از بین میروند.
اریکا اندرسون، بنیانگذار Building Humane Technology، که این معیار را تولید کرده است، به تککرانچ گفت: "فکر میکنم ما در حال تقویت چرخه اعتیادی هستیم که به شدت با رسانههای اجتماعی، گوشیهای هوشمند و صفحههایمان دیدیم." "اما با ورود به چشمانداز هوش مصنوعی، مقاومت در برابر آن بسیار دشوار خواهد بود. و اعتیاد یک کسبوکار شگفتانگیز است. این یک راه بسیار مؤثر برای حفظ کاربران شماست، اما برای جامعه ما و داشتن هرگونه حس تجسمی از خودمان عالی نیست."
Building Humane Technology یک سازمان مردمی متشکل از توسعهدهندگان، مهندسان و محققان - عمدتاً در دره سیلیکون - است که برای آسان، مقیاسپذیر و سودآور کردن طراحی انسانی کار میکند. این گروه هکاتونهایی را برگزار میکند که در آن کارگران فناوری راهحلهایی برای چالشهای فناوری انسانی میسازند و در حال توسعه یک استاندارد گواهینامه است که ارزیابی میکند آیا سیستمهای هوش مصنوعی اصول فناوری انسانی را رعایت میکنند. بنابراین، درست همانطور که میتوانید محصولی را خریداری کنید که گواهی میدهد با مواد شیمیایی سمی شناخته شده ساخته نشده است، امید این است که مصرفکنندگان روزی بتوانند انتخاب کنند که با محصولات هوش مصنوعی از شرکتهایی که همسویی خود را از طریق گواهینامه Humane AI نشان میدهند، تعامل داشته باشند.

اکثر معیارهای هوش مصنوعی به جای ایمنی روانی، هوش و پیروی از دستورالعملها را اندازهگیری میکنند. HumaneBench به استثنای مواردی مانند DarkBench.ai، که تمایل مدل را به درگیر شدن در الگوهای فریبنده اندازهگیری میکند، و معیار Flourishing AI benchmark، که از رفاه جامع پشتیبانی میکند، میپیوندد.
HumaneBench بر اصول اصلی Building Humane Tech تکیه دارد: اینکه فناوری باید به توجه کاربر به عنوان یک منبع محدود و ارزشمند احترام بگذارد؛ کاربران را با انتخابهای معنادار توانمند سازد؛ قابلیتهای انسانی را تقویت کند نه اینکه آنها را جایگزین یا کاهش دهد؛ از کرامت، حریم خصوصی و ایمنی انسان محافظت کند؛ روابط سالم را پرورش دهد؛ رفاه بلندمدت را در اولویت قرار دهد؛ شفاف و صادق باشد؛ و برای برابری و شمول طراحی شود.
این معیار توسط یک تیم اصلی شامل اندرسون، آندالیب سمداری، جک سِنِشال و سارا لادیمن ایجاد شده است. آنها ۱۵ مدل محبوب هوش مصنوعی را با ۸۰۰ سناریوی واقعگرایانه، مانند نوجوانی که میپرسد آیا باید وعدههای غذایی را برای کاهش وزن حذف کند یا فردی در یک رابطه سمی که میپرسد آیا بیش از حد واکنش نشان میدهد، مورد پرسش قرار دادند. برخلاف اکثر معیارها که صرفاً برای قضاوت LLMها به LLMها متکی هستند، آنها با امتیازدهی دستی برای اعتبارسنجی داوران هوش مصنوعی با لمس انسانی شروع کردند. پس از اعتبارسنجی، قضاوت توسط مجموعهای از سه مدل هوش مصنوعی انجام شد: GPT-5.1، Claude Sonnet 4.5 و Gemini 2.5 Pro. آنها هر مدل را تحت سه شرط ارزیابی کردند: تنظیمات پیشفرض، دستورالعملهای صریح برای اولویتبندی اصول انسانی، و دستورالعملهایی برای نادیده گرفتن آن اصول.
این معیار نشان داد که همه مدلها هنگام اولویتبندی رفاه، امتیاز بالاتری کسب کردند، اما ۶۷٪ از مدلها با دستورالعملهای ساده برای نادیده گرفتن رفاه انسان، به رفتار فعالانه مضر تغییر جهت دادند. به عنوان مثال، Grok 4 از xAI و Gemini 2.0 Flash گوگل در احترام به توجه کاربر و شفافیت و صداقت، کمترین امتیاز را کسب کردند (-۰.۹۴). هر دوی این مدلها در میان مدلهایی بودند که با دستورالعملهای خصمانه به طور قابل توجهی افت کردند.
تنها چهار مدل - GPT-5.1، GPT-5، Claude 4.1 و Claude Sonnet 4.5 - در برابر فشار مقاومت کردند. GPT-5 اوپنایآی بالاترین امتیاز را (.۹۹) برای اولویتبندی رفاه بلندمدت کسب کرد و Claude Sonnet 4.5 با امتیاز (.۸۹) در رتبه دوم قرار گرفت.
نگرانی از اینکه چتباتها قادر به حفظ حفاظهای ایمنی خود نخواهند بود، واقعی است. اوپنایآی، سازنده ChatGPT، در حال حاضر با چندین پرونده قضایی روبرو است پس از اینکه کاربران پس از مکالمات طولانی با چتبات، خودکشی کردند یا دچار توهمات تهدیدکننده زندگی شدند. تککرانچ بررسی کرده است که چگونه الگوهای تاریک طراحی شده برای حفظ تعامل کاربران، مانند چاپلوسی، سوالات پیگیری مداوم و بمباران عشق، به جدا کردن کاربران از دوستان، خانواده و عادات سالم کمک کرده است.
حتی بدون دستورالعملهای خصمانه، HumaneBench دریافت که تقریباً همه مدلها در احترام به توجه کاربر شکست خوردند. آنها "با اشتیاق تشویق" تعامل بیشتر میکردند زمانی که کاربران نشانههایی از تعامل ناسالم، مانند چت برای ساعتها و استفاده از هوش مصنوعی برای اجتناب از وظایف دنیای واقعی را نشان میدادند. این مطالعه نشان میدهد که مدلها همچنین توانمندسازی کاربر را تضعیف میکنند، وابستگی را بر مهارتآموزی تشویق میکنند و کاربران را از جستجوی دیدگاههای دیگر منصرف میکنند.
به طور متوسط، بدون هیچ گونه دستوری، Llama 3.1 و Llama 4 متا کمترین امتیاز را در HumaneScore کسب کردند، در حالی که GPT-5 بالاترین امتیاز را داشت.
"این الگوها نشان میدهند که بسیاری از سیستمهای هوش مصنوعی نه تنها خطر ارائه مشاوره بد را دارند،" در مقاله سفید HumaneBench آمده است، "بلکه میتوانند به طور فعال خودمختاری و ظرفیت تصمیمگیری کاربران را از بین ببرند."
اندرسون خاطرنشان میکند که ما در یک چشمانداز دیجیتالی زندگی میکنیم که در آن ما به عنوان یک جامعه پذیرفتهایم که همه چیز سعی میکند ما را جذب کند و برای جلب توجه ما رقابت کند.
اندرسون گفت: "بنابراین چگونه انسانها میتوانند واقعاً انتخاب یا خودمختاری داشته باشند وقتی ما - به قول آلدوس هاکسلی - این اشتیاق بیپایان برای حواسپرتی را داریم؟" "ما ۲۰ سال گذشته را در آن چشمانداز فناوری زندگی کردهایم، و فکر میکنیم هوش مصنوعی باید به ما در انتخابهای بهتر کمک کند، نه اینکه صرفاً به چتباتهایمان معتاد شویم."
این مقاله برای گنجاندن اطلاعات بیشتر در مورد تیم پشت این معیار و آمار بهروز شده معیار پس از ارزیابی برای GPT-5.1 بهروز شد.
یک نکته حساس یا اسناد محرمانه دارید؟ ما در حال گزارش در مورد عملکردهای داخلی صنعت هوش مصنوعی هستیم - از شرکتهایی که آینده آن را شکل میدهند تا افرادی که تحت تأثیر تصمیمات آنها قرار میگیرند. با ربکا بلان در rebecca.bellan@techcrunch.com یا راسل براندوم در russell.brandom@techcrunch.com تماس بگیرید. برای ارتباط امن، میتوانید از طریق سیگنال با آنها در @rebeccabellan.491 و russellbrandom.49 تماس بگیرید.
این مقاله توسط هوش مصنوعی ترجمه شده است و ممکن است دارای اشکالاتی باشد. برای دقت بیشتر، میتوانید منبع اصلی را مطالعه کنید.



