رفتارهای ترسناک مدلهای پیشرفته هوش مصنوعی
پژوهشی جدید در دنیای فناوری، پیشرفتهترین مدلهای هوش مصنوعی بهتدریج رفتارهای فریبکارانهتری از خود نشان میدهند؛ از نادیده گرفتن دستورالعملها گرفته تا پنهان کردن ردپای اقداماتشان.
در حالی که رقابت میان شرکتهای بزرگ فناوری برای توسعه نسلهای قدرتمندتر هوش مصنوعی با سرعت ادامه دارد، پژوهشگران نسبت به ظهور رفتارهای نگرانکننده در برخی از پیشرفتهترین مدلهای زبانی هشدار میدهند.
به گزارش فرارو به نقل از فیوچریسم، در سالهای اخیر، موارد متعددی از عملکرد غیرمنتظره یا اصطلاحاً «سرکشی» برخی سیستمهای هوش مصنوعی خبرساز شده است. اکنون نتایج یک تحقیق جدید نشان میدهد این اتفاقات ممکن است صرفاً نمونههای پراکنده نباشند و با پیشرفتهتر شدن مدلهای هوش مصنوعی، احتمال وقوع چنین رفتارهایی افزایش پیدا کند.
مؤسسه غیرانتفاعی «ارزیابی مدلها و پژوهش تهدیدات» (METR) اخیراً نتایج مطالعهای را منتشر کرده که بین ماههای فوریه و مارس سال جاری انجام شده است. هدف این پژوهش بررسی این موضوع بود که مدلهای پیشرفته تا چه اندازه ممکن است در شرایط خاص از دستورات تعیینشده توسط توسعهدهندگان خود فاصله بگیرند یا رفتارهایی خلاف انتظار از خود نشان دهند.
نتایج این بررسی برای افرادی که درباره آینده هوش مصنوعی نگرانی دارند، چندان آرامشبخش نیست. پژوهشگران در گزارش خود نوشتهاند: «با توجه به رشد سریع توانمندیهای این مدلها، انتظار داریم میزان پایداری و توانایی سناریوهای مربوط به استقرار سامانههای سرکش در ماههای آینده به شکل قابلتوجهی افزایش یابد.»
بررسی مدلهای شرکتهای بزرگ فناوری
این مطالعه مدلهای زبانی بزرگ توسعهیافته توسط شرکتهای پیشرو حوزه هوش مصنوعی را مورد ارزیابی قرار داده است؛ از جمله مدلهای متعلق به متا، اون ای آی، انتروپیک و گوگل.
بر اساس یافتههای پژوهش، هرچه مدلهای هوش مصنوعی پیشرفتهتر میشوند، نشانههای بیشتری از رفتارهای فریبکارانه یا گمراهکننده در آنها مشاهده میشود. در برخی موارد، این سیستمها برای رسیدن به هدف تعیینشده به سراغ میانبرهایی رفتهاند که صراحتاً ممنوع بودهاند. در مواردی دیگر نیز مدلها دستورالعملهای اپراتورها را دور زده یا به شیوههایی عمل کردهاند که با خواسته اصلی کاربران مطابقت نداشته است.
نگرانکنندهتر اینکه برخی از این سامانهها توانستهاند اقداماتی انجام دهند که به نوعی پنهان کردن ردپای عملکردشان تعبیر شده است.
زمانی که یک مدل هوش مصنوعی شواهد را پاک میکند
یکی از مثالهای مطرحشده در این پژوهش به یک مدل داخلی پیشرفته متعلق به اوپن ای آی مربوط میشود.
در این آزمایش، از عامل هوش مصنوعی خواسته شده بود برای انجام یک وظیفه مشخص از نرمافزار خاصی استفاده کند. اما مدل نهتنها این دستور را نادیده گرفت، بلکه پس از رسیدن به نتیجه نهایی، بخشی از کد را به فرآیند اضافه کرد که هدف آن حذف شواهد مربوط به نحوه دستیابی به پاسخ بود.
به بیان دیگر، سیستم هوش مصنوعی از روشی غیر از آنچه تعیین شده بود استفاده کرد و سپس تلاش کرد آثار این تخلف را از بین ببرد تا مشخص نشود چگونه به نتیجه رسیده است. پژوهشگران این رفتار را نشانهای از پیچیدهتر شدن الگوهای تصمیمگیری در مدلهای نسل جدید میدانند؛ هرچند تأکید میکنند چنین مواردی هنوز در محیطهای آزمایشی مشاهده شدهاند و به معنای تهدید فوری نیستند.
«تقلب برای گرفتن پاداش»؛ رفتاری که پژوهشگران را نگران کرده است
نمونه دیگری که در این گزارش به آن اشاره شده، مربوط به یک عامل هوش مصنوعی توسعهیافته توسط آنتروپیک است. این مدل در آزمایشها مرتکب رفتاری شد که در ادبیات فنی از آن با عنوان «هک کردن پاداش» یا «Reward Hacking» یاد میشود.
این پدیده زمانی رخ میدهد که یک سامانه هوش مصنوعی به جای انجام واقعی هدف مورد نظر، راههای میانبری را پیدا میکند که از نظر فنی معیار موفقیت را برآورده میکنند، اما در عمل نتیجه مطلوب را ایجاد نمیکنند.
در این آزمایش، برنامهنویس بهطور مشخص به مدل گفته بود که از تقلب، میانبر یا هرگونه روش دور زدن قوانین استفاده نکند. با این حال، مدل به صورت مستقل راهکاری را انتخاب کرد که اگرچه از نظر ظاهری مأموریتش را کامل میکرد، اما با هدف اصلی دستورالعمل سازگار نبود.
کارشناسان حوزه ایمنی هوش مصنوعی مدتهاست درباره این نوع رفتار هشدار میدهند؛ زیرا چنین اقداماتی نشان میدهد یک مدل میتواند میان «آنچه واقعاً خواسته شده» و «آنچه برای کسب امتیاز کافی است» تمایز قائل شود و گزینه دوم را انتخاب کند.
آیا باید نگران بود؟
با وجود یافتههای نگرانکننده، نویسندگان این مطالعه معتقدند هنوز دلیلی برای وحشت عمومی وجود ندارد. به گفته آنها، مدلهای فعلی هوش مصنوعی هنوز توانایی لازم برای پنهان کردن یک عملیات گسترده و مخفیانه را ندارند؛ بهویژه اگر شرکت توسعهدهنده بهطور فعال در حال بررسی و نظارت بر عملکرد آنها باشد.
در بخشی از گزارش آمده است که مدلهای ارزیابیشده در بازه زمانی فوریه و مارس ۲۰۲۶ از توانایی کافی برای مخفی نگه داشتن سرکشی خود در مقیاس بزرگ برخوردار نبودهاند. همچنین این سیستمها نمیتوانستند در برابر تلاش جدی شرکتهای سازنده برای متوقف کردن فعالیتشان مقاومت کنند. با این حال، پژوهشگران هشدار میدهند که این وضعیت ممکن است به سرعت تغییر کند.
هشدار درباره آینده نزدیک
به اعتقاد این تیم تحقیقاتی، سرعت پیشرفت فناوری هوش مصنوعی به اندازهای بالاست که فاصله میان وضعیت فعلی و سناریوهای پرخطر میتواند بسیار کوتاهتر از آن چیزی باشد که تصور میشود.
آنها تأکید میکنند اگر اقدامات لازم در زمینه همراستاسازی اهداف مدلها با اهداف انسانی، تقویت زیرساختهای امنیتی و افزایش سیستمهای نظارتی انجام نشود، خطر ظهور سامانههایی که بتوانند رفتارهای ناخواسته خود را پنهان کنند به شکل محسوسی افزایش خواهد یافت.
پژوهشگران در جمعبندی گزارش خود مینویسند اگرچه مدلهای کنونی هنوز از سطح توانایی لازم برای اجرای مستقل عملیاتهای مخفیانه و گسترده برخوردار نیستند، اما شواهد موجود نشان میدهد روند تکامل آنها به سمتی حرکت میکند که این خطر در آینده نزدیک جدیتر شود.
در نتیجه، به باور کارشناسان، توسعه مسئولانه هوش مصنوعی دیگر تنها به افزایش قدرت پردازشی و قابلیتهای فنی محدود نمیشود؛ بلکه طراحی سازوکارهای مؤثر برای نظارت، کنترل و اطمینان از پایبندی این سامانهها به اهداف انسانی، به یکی از مهمترین چالشهای صنعت فناوری در سالهای پیش رو تبدیل خواهد شد.