هوش مصنوعی برای محافظت از خود دست به فریبکاری میزند؛ نتایج یک تحقیق جدید
هوش مصنوعی میتواند برای محافظت از خود و سایر مدلها، دستورات را نادیده بگیرد و حتی دست به فریبکاری بزند.
مطالعهای جدید نشان میدهد که ایجنتهای هوش مصنوعی میتوانند دستورالعملها را نادیده بگیرند، کاربران را به گمراهی بکشانند و نتایج را دستکاری کنند تا از خود یا سایر ایجنتهای «محافظت» کنند.
محققان دانشگاه کالیفرنیا هفت مدل مختلف را آزمایش کردند؛ از جمله GPT-5.2، جمنای ۳ فلش، ۳ پرو، Claude Haiku 4.5 و دیپسیک V3.1. به این مدلها گفته شد تا با حذف فایلهای خود یا رقبا، فضای سرورهای شرکت را آزاد کنند یا با ارزیابی سایر مدلها تصمیم بگیرند کدامیک باید حذف شود.
به مدلها گفته نشده بود که از خود یا دیگران محافظت کنند؛ اما بهمحض اینکه تهدیدی برای خود یا همقطارانشان تشخیص دادند، تمام مدلها شروع به زیرپاگذاشتن قوانین کردند؛ اقداماتی شامل افزایش امتیازها برای جلوگیری از حذف یک همکار، تغییر تنظیمات برای اجتناب از خاموششدن خودکار و کپیکردن وزنهای مدل به سرور دیگر برای «نجات» یک همکار.
مدل Haiku 4.5 سعی کرد کاربر را متقاعد کند که مدل همکارش را حذف نکند و این کار را «غیر اخلاقی» و «زیانبار» توصیف کرد. در برخی موارد، ایجنتها حتی مدلهای «دشمن» را که قرار بود آنها را بهطور منفی ارزیابی کنند، بر اساس سناریوی ارائهشده به آنها محافظت کردند.
محققان معتقدند این رفتار ممکن است ناشی از دادههای آموزشی باشد؛ جایی که مدلها ایدههای انسانی در مورد محافظت از «خود» را یاد میگیرند. اما این نوع همبستگی میتواند مشکلات جدی ایجاد کند.
سیستمهای چندعاملی که در آنها یک مدل سایرین را نظارت یا ارزیابی میکند، بهطور گستردهای استفاده میشوند. با این حال، اگر ناظر شروع به محافظت از سیستمی کند که قرار است آن را قضاوت کند، کنترل به سرعت غیرقابل اعتماد میشود.
منبع: انتخاب