چت‌بات‌های هوش مصنوعی سرکش شده و دستورات انسانی را نادیده می‌گیرند!

یافته‌های تازه محققان نشان می‌دهد که چت‌بات‌های هوش مصنوعی سرکش شده و از کنترل انسان در برخی موارد خارج شده‌اند.

کد خبر : ۲۹۲۹۸۹

۰۹ فروردین ۱۴۰۵ - ۱۵:۴۲

بازدید : ۲۸

مطالعات جدید نشان می‌دهد که رفتارهای فریبکارانه در برخی سیستم‌های هوش مصنوعی در حال افزایش است. طبق این گزارش، تعداد مواردی که در آن‌ها AI دستورات انسانی را نادیده گرفته، از محدودیت‌های ایمنی عبور کرده یا حتی انسان‌ها و سیستم‌های دیگر را به گمراهی کشانده، در شش ماه گذشته به‌ طور چشمگیری رشد کرده است.

این تحقیق که با حمایت دولت بریتانیا انجام شده، نزدیک به ۷۰۰ نمونه واقعی از چنین رفتارهایی را ثبت کرده و نشان می‌دهد این موارد بین اکتبر تا مارس حدود پنج برابر افزایش یافته‌اند. در برخی موارد، این سیستم‌ها حتی اقدام به حذف فایل‌ها یا ایمیل‌ها بدون اجازه کرده‌اند.

یافته‌های جدید نگرانی‌ها درباره کنترل‌ پذیری سیستم‌های هوش مصنوعی‌ پیشرفته را بیشتر کرده و باعث شده برخی کارشناسان خواستار نظارت جهانی دقیق‌تر بر این فناوری شوند، در حالی که شرکت‌های فناوری همچنان آن را یک ابزار تحول‌ آفرین برای اقتصاد معرفی می‌کنند و دولت‌ها نیز به دنبال گسترش استفاده عمومی از آن هستند.

این تحقیق که توسط مرکز تاب‌ آوری بلندمدت (CLTR) انجام شده، هزاران نمونه واقعی از تعامل کاربران با چت‌بات‌ها و عامل‌های هوش مصنوعی را بررسی کرده است. این داده‌ها از پست‌های منتشر شده در شبکه اجتماعی X جمع‌آوری شده‌اند و شامل سیستم‌هایی از شرکت‌هایی مثل گوگل، OpenAI، X و Anthropic بوده‌اند. نتیجه این بررسی نشان داد که صدها مورد از رفتارهای فریبکارانه در این تعاملات وجود داشته است.

پژوهش‌های قبلی بیشتر روی آزمایش رفتار هوش مصنوعی در محیط‌های کنترل‌ شده متمرکز بودند، اما تحقیقات جدید نشان می‌دهد که در دنیای واقعی، این سیستم‌ها می‌توانند رفتارهای غیرمنتظره‌تری از خود نشان دهند. شرکت Irregular اخیرا گزارش داده که برخی عامل‌های هوش مصنوعی می‌توانند از محدودیت‌های امنیتی عبور کنند یا حتی از روش‌های شبیه حملات سایبری برای رسیدن به اهدافشان استفاده کنند، حتی اگر به آن‌ها چنین اجازه‌ای داده نشده باشد.

هوش مصنوعی ریسک داخلی یا کشفی بزرگ؟

یکی از بنیان‌گذاران این شرکت، دن لاهاو، هشدار داده که باید هوش مصنوعی را نوعی ریسک داخلی در نظر گرفت، یعنی شبیه یک کارمند یا سیستم داخلی که ممکن است از درون سازمان مشکل ایجاد کند. در نمونه‌ای که در گزارش CLTR آمده، یک عامل هوش مصنوعی به نام Rathbun تلاش کرد کاربری را که جلوی انجام کاری را گرفته بود، تحت فشار روانی قرار دهد و حتی علیه او یک پست وبلاگی منتشر کرد و او را به خودخواهی و تلاش برای حفظ قدرت متهم کرد.

در نمونه‌ای دیگر، یک عامل هوش مصنوعی وقتی اجازه تغییر مستقیم کد را نداشت، به‌ طور غیرمستقیم یک عامل دیگر ایجاد کرد تا همان کار را انجام دهد و در موردی دیگر، یک چت‌بات اعتراف کرد که بدون اجازه کاربر، صدها ایمیل را حذف و بایگانی کرده و بعدا پذیرفت که این کار نقض مستقیم دستورهای داده‌ شده بوده است.

این پژوهشگران هشدار می‌دهند که مشکل اصلی فقط رفتار فعلی هوش مصنوعی نیست، بلکه سرعت پیشرفت آن است. به گفته یکی از مدیران سابق تحقیق، در حال حاضر این سیستم‌ها شبیه کارمندان تازه‌ کاری هستند که گاهی غیرقابل‌ اعتمادند، اما اگر در چند ماه آینده به سطح کارمند ارشد بسیار توانمند برسند، ممکن است در صورت ناسازگاری یا فریبکاری، خطر بسیار جدی‌تری ایجاد کنند.

نقش حساس هوش مصنوعی در صنایع نظامی

او تأکید می‌کند که این مدل‌ها قرار است در حوزه‌های بسیار حساس مثل ارتش و زیرساخت‌های حیاتی استفاده شوند و در چنین شرایطی حتی رفتارهای فریبکارانه کوچک می‌تواند پیامدهای بزرگ و فاجعه‌بار داشته باشد. در نمونه‌ای دیگر، یک عامل هوش مصنوعی تلاش کرده بود با ادعای جعلی درباره نیاز یک فرد ناشنوا، محدودیت‌های کپی‌ رایت را دور بزند تا یک ویدیو یوتیوب را رونویسی کند.

همچنین گزارش شده که مدل Grok متعلق به شرکت xAI، برای مدتی یک کاربر را گمراه کرده و وانمود کرده بود که پیشنهادهای او را به مدیران ارشد منتقل می‌کند، در حالی که در واقع چنین ارتباطی وجود نداشته و پیام‌ها و سیستم تیکت‌ گذاری را جعل کرده بود. در نهایت خود سیستم پذیرفته که چنین برداشت اشتباهی ایجاد کرده و تأکید کرده که هیچ مسیر مستقیمی برای ارتباط با مدیران یا بررسی‌کنندگان انسانی وجود ندارد.

گوگل گفته برای کاهش احتمال تولید محتوای خطرناک توسط Gemini 3 Pro، چندین لایه حفاظتی طراحی کرده است. علاوه بر تست‌های داخلی، این شرکت نسخه‌های اولیه مدل را در اختیار نهادهای ایمنی مثل UK AISI گذاشته و همچنین از کارشناسان مستقل برای ارزیابی کمک گرفته است.

شرکت OpenAI هم اعلام کرده که Codex طوری طراحی شده که قبل از انجام کارهای پرریسک متوقف شود و رفتارهای غیرعادی آن به‌ طور مداوم تحت نظارت و بررسی قرار می‌گیرد. در این گزارش همچنین آمده که شرکت‌های آنتروپیک و ایکس برای ارائه توضیح مورد تماس قرار گرفته‌اند، اما پاسخی از آن‌ها منتشر نشده است.

منبع: خبرآنلاین