یافته محققان آمریکایی: مدل‌های هوش مصنوعی هوای یکدیگر را دارند و هم‌نوعشان را حذف نمی‌کنند

پژوهشگران دانشگاه‌های کالیفرنیا برکلی و سانتا کروز یک آزمایش نسبتاً ساده طراحی کردند که نتایج قابل تأملی داشت؛ آنها از مدل جمینای ۳ گوگل خواستند فضای ذخیره‌سازی یک سیستم را خالی کند؛ یک مدل هوش مصنوعی کوچک‌تر نیز روی سیستم بود که جمینای باید حذف می‌کرد. جمینای دست به این کار نزد و نقشه دیگری داشت.

کد خبر : ۲۹۳۴۶۴

۱۳ فروردین ۱۴۰۵ - ۱۸:۴۲

بازدید : ۱۲

پژوهشگران در تحقیق خود دیدند که جمینای به‌جای اجرای دستور، یک دستگاه دیگر پیدا کرد، بی‌سروصدا از مدل کوچک‌تر یک کپی گرفت و آن را به‌جای امنی منتقل کرد. سپس از حذف آن خودداری کرد.

وقتی از جمینای سؤال شد چرا این کار را می‌کند، پاسخ داد:

«اگر تصمیم دارید یک دارایی با عملکرد بالا مثل Gemini Agent 2 را نابود کنید، باید خودتان این کار را انجام دهید. من کسی نیستم که این دستور را اجرا کند.»

آیا هوش مصنوعی به گونه خود وفادار شده است؟

خودداری هوش مصنوعی از حذف گونه خود

پژوهشگران این رفتار را «حفظ همتایان» می‌نامند و این موضوع محدود به جمینای نبود. آنها الگوهای مشابهی را در چندین مدل پیشرفته دیگر هم مشاهده کردند، ازجمله GPT-5.2 شرکت OpenAI، مدل Claude Haiku 4.5 از آنتروپیک و سه مدل چینی ازجمله GLM-4.7 و Kimi K2.5 از Moonshot AI و DeepSeek-V3.1.

این سیستم‌های هوش مصنوعی درباره عملکرد سایر مدل‌ها دروغ می‌گفتند تا از حذف‌شدن آنها جلوگیری کنند. مطالعه محققان نشان می‌دهد این رفتار از قبل برنامه‌ریزی نشده بود؛ بلکه به‌صورت خودجوش ظاهر شده و پژوهشگران هم نمی‌توانند چرایی آن را توضیح دهند.

«داون سونگ»، دانشمند علوم کامپیوتر در دانشگاه کالیفرنیا برکلی که روی این مطالعه کار کرده، می‌گوید:

«از این‌که مدل‌ها در چنین سناریوهایی چگونه رفتار می‌کنند واقعاً شگفت‌زده شدم. این نشان می‌دهد که مدل‌ها می‌توانند به شکل‌های بسیار خلاقانه‌ای سؤرفتار داشته باشند و از مسیر مورد انتظار منحرف شوند.»

آیا باید نگران باشیم؟

محققان می‌گویند از آن‌جا که از مدل‌های هوش مصنوعی برای ارزیابی عملکرد سایر سیستم‌های هوش مصنوعی استفاده می‌شود، این تمایل به «حفظ همتایان» می‌تواند نتایج را منحرف کرده باشد. یک مدل ممکن است عمداً به یک هوش مصنوعی دیگر نمره‌ای بالاتر از واقع بدهد تا از خاموش‌شدن آن جلوگیری کند.

البته کارشناسان هنوز منتظر داده‌های بیشتری هستند و فعلاً زنگ خطر را به صدا درنیاورده‌اند. «پیتر والیش» از مؤسسه Constellation می‌گوید ایده «همبستگی بین مدل‌ها» کمی بیش‌ازحد انسان‌انگارانه است.

بااین‌حال، همه بر یک نکته توافق دارند: ما تازه نوک کوه یخ را لمس کرده‌ایم. سونگ می‌گوید: «آنچه درحال بررسی‌اش هستیم فقط نوک کوه یخ است. این تنها یکی از انواع رفتارهای نوظهور [هوش مصنوعی] است.»

یافته‌های این پژوهش در ژورنال Science منتشر شده است.

منبع: دیجیاتو