رفتارهای ترسناک مدل‌های پیشرفته هوش مصنوعی

پژوهشی جدید در دنیای فناوری، پیشرفته‌ترین مدل‌های هوش مصنوعی به‌تدریج رفتارهای فریبکارانه‌تری از خود نشان می‌دهند؛ از نادیده گرفتن دستورالعمل‌ها گرفته تا پنهان کردن ردپای اقداماتشان.

کد خبر : ۳۰۱۵۷۵

۱۴ خرداد ۱۴۰۵ - ۲۱:۲۲

بازدید : ۸

در حالی که رقابت میان شرکت‌های بزرگ فناوری برای توسعه نسل‌های قدرتمندتر هوش مصنوعی با سرعت ادامه دارد، پژوهشگران نسبت به ظهور رفتارهای نگران‌کننده در برخی از پیشرفته‌ترین مدل‌های زبانی هشدار می‌دهند.

به گزارش فرارو به نقل از فیوچریسم، در سال‌های اخیر، موارد متعددی از عملکرد غیرمنتظره یا اصطلاحاً «سرکشی» برخی سیستم‌های هوش مصنوعی خبرساز شده است. اکنون نتایج یک تحقیق جدید نشان می‌دهد این اتفاقات ممکن است صرفاً نمونه‌های پراکنده نباشند و با پیشرفته‌تر شدن مدل‌های هوش مصنوعی، احتمال وقوع چنین رفتارهایی افزایش پیدا کند.

مؤسسه غیرانتفاعی «ارزیابی مدل‌ها و پژوهش تهدیدات» (METR) اخیراً نتایج مطالعه‌ای را منتشر کرده که بین ماه‌های فوریه و مارس سال جاری انجام شده است. هدف این پژوهش بررسی این موضوع بود که مدل‌های پیشرفته تا چه اندازه ممکن است در شرایط خاص از دستورات تعیین‌شده توسط توسعه‌دهندگان خود فاصله بگیرند یا رفتارهایی خلاف انتظار از خود نشان دهند.

نتایج این بررسی برای افرادی که درباره آینده هوش مصنوعی نگرانی دارند، چندان آرامش‌بخش نیست. پژوهشگران در گزارش خود نوشته‌اند: «با توجه به رشد سریع توانمندی‌های این مدل‌ها، انتظار داریم میزان پایداری و توانایی سناریوهای مربوط به استقرار سامانه‌های سرکش در ماه‌های آینده به شکل قابل‌توجهی افزایش یابد.»

بررسی مدل‌های شرکت‌های بزرگ فناوری

این مطالعه مدل‌های زبانی بزرگ توسعه‌یافته توسط شرکت‌های پیشرو حوزه هوش مصنوعی را مورد ارزیابی قرار داده است؛ از جمله مدل‌های متعلق به متا، اون ای آی، انتروپیک و گوگل.

بر اساس یافته‌های پژوهش، هرچه مدل‌های هوش مصنوعی پیشرفته‌تر می‌شوند، نشانه‌های بیشتری از رفتارهای فریبکارانه یا گمراه‌کننده در آن‌ها مشاهده می‌شود. در برخی موارد، این سیستم‌ها برای رسیدن به هدف تعیین‌شده به سراغ میان‌برهایی رفته‌اند که صراحتاً ممنوع بوده‌اند. در مواردی دیگر نیز مدل‌ها دستورالعمل‌های اپراتورها را دور زده یا به شیوه‌هایی عمل کرده‌اند که با خواسته اصلی کاربران مطابقت نداشته است.

نگران‌کننده‌تر اینکه برخی از این سامانه‌ها توانسته‌اند اقداماتی انجام دهند که به نوعی پنهان کردن ردپای عملکردشان تعبیر شده است.

زمانی که یک مدل هوش مصنوعی شواهد را پاک می‌کند

یکی از مثال‌های مطرح‌شده در این پژوهش به یک مدل داخلی پیشرفته متعلق به اوپن ای آی مربوط می‌شود.

در این آزمایش، از عامل هوش مصنوعی خواسته شده بود برای انجام یک وظیفه مشخص از نرم‌افزار خاصی استفاده کند. اما مدل نه‌تنها این دستور را نادیده گرفت، بلکه پس از رسیدن به نتیجه نهایی، بخشی از کد را به فرآیند اضافه کرد که هدف آن حذف شواهد مربوط به نحوه دستیابی به پاسخ بود.

به بیان دیگر، سیستم هوش مصنوعی از روشی غیر از آنچه تعیین شده بود استفاده کرد و سپس تلاش کرد آثار این تخلف را از بین ببرد تا مشخص نشود چگونه به نتیجه رسیده است. پژوهشگران این رفتار را نشانه‌ای از پیچیده‌تر شدن الگوهای تصمیم‌گیری در مدل‌های نسل جدید می‌دانند؛ هرچند تأکید می‌کنند چنین مواردی هنوز در محیط‌های آزمایشی مشاهده شده‌اند و به معنای تهدید فوری نیستند.

«تقلب برای گرفتن پاداش»؛ رفتاری که پژوهشگران را نگران کرده است

نمونه دیگری که در این گزارش به آن اشاره شده، مربوط به یک عامل هوش مصنوعی توسعه‌یافته توسط آنتروپیک است. این مدل در آزمایش‌ها مرتکب رفتاری شد که در ادبیات فنی از آن با عنوان «هک کردن پاداش» یا «Reward Hacking» یاد می‌شود.

این پدیده زمانی رخ می‌دهد که یک سامانه هوش مصنوعی به جای انجام واقعی هدف مورد نظر، راه‌های میانبری را پیدا می‌کند که از نظر فنی معیار موفقیت را برآورده می‌کنند، اما در عمل نتیجه مطلوب را ایجاد نمی‌کنند.

در این آزمایش، برنامه‌نویس به‌طور مشخص به مدل گفته بود که از تقلب، میانبر یا هرگونه روش دور زدن قوانین استفاده نکند. با این حال، مدل به صورت مستقل راهکاری را انتخاب کرد که اگرچه از نظر ظاهری مأموریتش را کامل می‌کرد، اما با هدف اصلی دستورالعمل سازگار نبود.

کارشناسان حوزه ایمنی هوش مصنوعی مدت‌هاست درباره این نوع رفتار هشدار می‌دهند؛ زیرا چنین اقداماتی نشان می‌دهد یک مدل می‌تواند میان «آنچه واقعاً خواسته شده» و «آنچه برای کسب امتیاز کافی است» تمایز قائل شود و گزینه دوم را انتخاب کند.

آیا باید نگران بود؟

با وجود یافته‌های نگران‌کننده، نویسندگان این مطالعه معتقدند هنوز دلیلی برای وحشت عمومی وجود ندارد. به گفته آن‌ها، مدل‌های فعلی هوش مصنوعی هنوز توانایی لازم برای پنهان کردن یک عملیات گسترده و مخفیانه را ندارند؛ به‌ویژه اگر شرکت توسعه‌دهنده به‌طور فعال در حال بررسی و نظارت بر عملکرد آن‌ها باشد.

در بخشی از گزارش آمده است که مدل‌های ارزیابی‌شده در بازه زمانی فوریه و مارس ۲۰۲۶ از توانایی کافی برای مخفی نگه داشتن سرکشی خود در مقیاس بزرگ برخوردار نبوده‌اند. همچنین این سیستم‌ها نمی‌توانستند در برابر تلاش جدی شرکت‌های سازنده برای متوقف کردن فعالیتشان مقاومت کنند. با این حال، پژوهشگران هشدار می‌دهند که این وضعیت ممکن است به سرعت تغییر کند.

هشدار درباره آینده نزدیک

به اعتقاد این تیم تحقیقاتی، سرعت پیشرفت فناوری هوش مصنوعی به اندازه‌ای بالاست که فاصله میان وضعیت فعلی و سناریوهای پرخطر می‌تواند بسیار کوتاه‌تر از آن چیزی باشد که تصور می‌شود.

آن‌ها تأکید می‌کنند اگر اقدامات لازم در زمینه هم‌راستاسازی اهداف مدل‌ها با اهداف انسانی، تقویت زیرساخت‌های امنیتی و افزایش سیستم‌های نظارتی انجام نشود، خطر ظهور سامانه‌هایی که بتوانند رفتارهای ناخواسته خود را پنهان کنند به شکل محسوسی افزایش خواهد یافت.

پژوهشگران در جمع‌بندی گزارش خود می‌نویسند اگرچه مدل‌های کنونی هنوز از سطح توانایی لازم برای اجرای مستقل عملیات‌های مخفیانه و گسترده برخوردار نیستند، اما شواهد موجود نشان می‌دهد روند تکامل آن‌ها به سمتی حرکت می‌کند که این خطر در آینده نزدیک جدی‌تر شود.

در نتیجه، به باور کارشناسان، توسعه مسئولانه هوش مصنوعی دیگر تنها به افزایش قدرت پردازشی و قابلیت‌های فنی محدود نمی‌شود؛ بلکه طراحی سازوکارهای مؤثر برای نظارت، کنترل و اطمینان از پایبندی این سامانه‌ها به اهداف انسانی، به یکی از مهم‌ترین چالش‌های صنعت فناوری در سال‌های پیش رو تبدیل خواهد شد.