چتباتهای هوش مصنوعی سرکش شده و دستورات انسانی را نادیده میگیرند!
یافتههای تازه محققان نشان میدهد که چتباتهای هوش مصنوعی سرکش شده و از کنترل انسان در برخی موارد خارج شدهاند.
مطالعات جدید نشان میدهد که رفتارهای فریبکارانه در برخی سیستمهای هوش مصنوعی در حال افزایش است. طبق این گزارش، تعداد مواردی که در آنها AI دستورات انسانی را نادیده گرفته، از محدودیتهای ایمنی عبور کرده یا حتی انسانها و سیستمهای دیگر را به گمراهی کشانده، در شش ماه گذشته به طور چشمگیری رشد کرده است.
این تحقیق که با حمایت دولت بریتانیا انجام شده، نزدیک به ۷۰۰ نمونه واقعی از چنین رفتارهایی را ثبت کرده و نشان میدهد این موارد بین اکتبر تا مارس حدود پنج برابر افزایش یافتهاند. در برخی موارد، این سیستمها حتی اقدام به حذف فایلها یا ایمیلها بدون اجازه کردهاند.
یافتههای جدید نگرانیها درباره کنترل پذیری سیستمهای هوش مصنوعی پیشرفته را بیشتر کرده و باعث شده برخی کارشناسان خواستار نظارت جهانی دقیقتر بر این فناوری شوند، در حالی که شرکتهای فناوری همچنان آن را یک ابزار تحول آفرین برای اقتصاد معرفی میکنند و دولتها نیز به دنبال گسترش استفاده عمومی از آن هستند.
این تحقیق که توسط مرکز تاب آوری بلندمدت (CLTR) انجام شده، هزاران نمونه واقعی از تعامل کاربران با چتباتها و عاملهای هوش مصنوعی را بررسی کرده است. این دادهها از پستهای منتشر شده در شبکه اجتماعی X جمعآوری شدهاند و شامل سیستمهایی از شرکتهایی مثل گوگل، OpenAI، X و Anthropic بودهاند. نتیجه این بررسی نشان داد که صدها مورد از رفتارهای فریبکارانه در این تعاملات وجود داشته است.
پژوهشهای قبلی بیشتر روی آزمایش رفتار هوش مصنوعی در محیطهای کنترل شده متمرکز بودند، اما تحقیقات جدید نشان میدهد که در دنیای واقعی، این سیستمها میتوانند رفتارهای غیرمنتظرهتری از خود نشان دهند. شرکت Irregular اخیرا گزارش داده که برخی عاملهای هوش مصنوعی میتوانند از محدودیتهای امنیتی عبور کنند یا حتی از روشهای شبیه حملات سایبری برای رسیدن به اهدافشان استفاده کنند، حتی اگر به آنها چنین اجازهای داده نشده باشد.
هوش مصنوعی ریسک داخلی یا کشفی بزرگ؟
یکی از بنیانگذاران این شرکت، دن لاهاو، هشدار داده که باید هوش مصنوعی را نوعی ریسک داخلی در نظر گرفت، یعنی شبیه یک کارمند یا سیستم داخلی که ممکن است از درون سازمان مشکل ایجاد کند. در نمونهای که در گزارش CLTR آمده، یک عامل هوش مصنوعی به نام Rathbun تلاش کرد کاربری را که جلوی انجام کاری را گرفته بود، تحت فشار روانی قرار دهد و حتی علیه او یک پست وبلاگی منتشر کرد و او را به خودخواهی و تلاش برای حفظ قدرت متهم کرد.
در نمونهای دیگر، یک عامل هوش مصنوعی وقتی اجازه تغییر مستقیم کد را نداشت، به طور غیرمستقیم یک عامل دیگر ایجاد کرد تا همان کار را انجام دهد و در موردی دیگر، یک چتبات اعتراف کرد که بدون اجازه کاربر، صدها ایمیل را حذف و بایگانی کرده و بعدا پذیرفت که این کار نقض مستقیم دستورهای داده شده بوده است.
این پژوهشگران هشدار میدهند که مشکل اصلی فقط رفتار فعلی هوش مصنوعی نیست، بلکه سرعت پیشرفت آن است. به گفته یکی از مدیران سابق تحقیق، در حال حاضر این سیستمها شبیه کارمندان تازه کاری هستند که گاهی غیرقابل اعتمادند، اما اگر در چند ماه آینده به سطح کارمند ارشد بسیار توانمند برسند، ممکن است در صورت ناسازگاری یا فریبکاری، خطر بسیار جدیتری ایجاد کنند.
نقش حساس هوش مصنوعی در صنایع نظامی
او تأکید میکند که این مدلها قرار است در حوزههای بسیار حساس مثل ارتش و زیرساختهای حیاتی استفاده شوند و در چنین شرایطی حتی رفتارهای فریبکارانه کوچک میتواند پیامدهای بزرگ و فاجعهبار داشته باشد. در نمونهای دیگر، یک عامل هوش مصنوعی تلاش کرده بود با ادعای جعلی درباره نیاز یک فرد ناشنوا، محدودیتهای کپی رایت را دور بزند تا یک ویدیو یوتیوب را رونویسی کند.
همچنین گزارش شده که مدل Grok متعلق به شرکت xAI، برای مدتی یک کاربر را گمراه کرده و وانمود کرده بود که پیشنهادهای او را به مدیران ارشد منتقل میکند، در حالی که در واقع چنین ارتباطی وجود نداشته و پیامها و سیستم تیکت گذاری را جعل کرده بود. در نهایت خود سیستم پذیرفته که چنین برداشت اشتباهی ایجاد کرده و تأکید کرده که هیچ مسیر مستقیمی برای ارتباط با مدیران یا بررسیکنندگان انسانی وجود ندارد.
گوگل گفته برای کاهش احتمال تولید محتوای خطرناک توسط Gemini 3 Pro، چندین لایه حفاظتی طراحی کرده است. علاوه بر تستهای داخلی، این شرکت نسخههای اولیه مدل را در اختیار نهادهای ایمنی مثل UK AISI گذاشته و همچنین از کارشناسان مستقل برای ارزیابی کمک گرفته است.
شرکت OpenAI هم اعلام کرده که Codex طوری طراحی شده که قبل از انجام کارهای پرریسک متوقف شود و رفتارهای غیرعادی آن به طور مداوم تحت نظارت و بررسی قرار میگیرد. در این گزارش همچنین آمده که شرکتهای آنتروپیک و ایکس برای ارائه توضیح مورد تماس قرار گرفتهاند، اما پاسخی از آنها منتشر نشده است.
منبع: خبرآنلاین