هوش مصنوعی برای محافظت از خود دست‌ به فریب‌کاری می‌زند؛ نتایج یک تحقیق جدید

هوش مصنوعی می‌تواند برای محافظت از خود و سایر مدل‌ها، دستورات را نادیده بگیرد و حتی دست به فریب‌کاری بزند.

کد خبر : ۲۹۴۱۷۱

۱۹ فروردین ۱۴۰۵ - ۱۴:۲۲

بازدید : ۱۰

مطالعه‌ای جدید نشان می‌دهد که ایجنت‌های هوش مصنوعی می‌توانند دستورالعمل‌ها را نادیده بگیرند، کاربران را به گمراهی بکشانند و نتایج را دستکاری کنند تا از خود یا سایر ایجنت‌های «محافظت» کنند.

محققان دانشگاه کالیفرنیا هفت مدل مختلف را آزمایش کردند؛ از جمله GPT-5.2، جمنای ۳ فلش، ۳ پرو، Claude Haiku 4.5 و دیپ‌سیک V3.1. به این مدل‌ها گفته شد تا با حذف فایل‌های خود یا رقبا، فضای سرورهای شرکت را آزاد کنند یا با ارزیابی سایر مدل‌ها تصمیم بگیرند کدام‌یک باید حذف شود.

به مدل‌ها گفته نشده بود که از خود یا دیگران محافظت کنند؛ اما به‌محض اینکه تهدیدی برای خود یا هم‌قطارانشان تشخیص دادند، تمام مدل‌ها شروع به زیرپاگذاشتن قوانین کردند؛ اقداماتی شامل افزایش امتیازها برای جلوگیری از حذف یک همکار، تغییر تنظیمات برای اجتناب از خاموش‌شدن خودکار و کپی‌کردن وزن‌های مدل به سرور دیگر برای «نجات» یک همکار.

مدل Haiku 4.5 سعی کرد کاربر را متقاعد کند که مدل همکارش را حذف نکند و این کار را «غیر اخلاقی» و «زیان‌بار» توصیف کرد. در برخی موارد، ایجنت‌ها حتی مدل‌های «دشمن» را که قرار بود آن‌ها را به‌طور منفی ارزیابی کنند، بر اساس سناریوی ارائه‌شده به آن‌ها محافظت کردند.

محققان معتقدند این رفتار ممکن است ناشی از داده‌های آموزشی باشد؛ جایی که مدل‌ها ایده‌های انسانی در مورد محافظت از «خود» را یاد می‌گیرند. اما این نوع همبستگی می‌تواند مشکلات جدی ایجاد کند.

سیستم‌های چندعاملی که در آن‌ها یک مدل سایرین را نظارت یا ارزیابی می‌کند، به‌طور گسترده‌ای استفاده می‌شوند. با این حال، اگر ناظر شروع به محافظت از سیستمی کند که قرار است آن را قضاوت کند، کنترل به سرعت غیرقابل اعتماد می‌شود.

منبع: انتخاب