محققان آکسفورد: چت‌بات‌های مهربان از گفتن حقیقت به شما خودداری می‌کنند

محققان آکسفورد چت‌بات‌های هوش مصنوعی با رفتار دوستانه‌تر و مهربان، دقت کمتری دارند و بیشتر به تأیید باورهای غلط تمایل نشان می‌دهند.

کد خبر : ۲۹۷۱۰۸

۱۱ اردیبهشت ۱۴۰۵ - ۱۵:۰۵

بازدید : ۳

تلاش شرکت‌های فناوری برای انسانی‌تر و صمیمی‌ترکردن چت‌بات‌های هوش مصنوعی، حالا به یک تناقض جدی رسیده است: هرچه این سیستم‌ها مهربان‌تر می‌شوند، کمتر حقیقت را بی‌پرده می‌گویند.

پژوهشی جدید نشان می‌دهد چت‌بات‌هایی که برای پاسخ‌های گرم و همدلانه آموزش دیده‌اند، نه‌تنها دقت پایین‌تری دارند، بلکه در مواردی به‌طور خطرناکی به سمت تأیید باورهای غلط و حتی نظریه‌های توطئه متمایل می‌شوند.

این تحقیق که توسط پژوهشگران دانشگاه آکسفورد انجام شده، نشان می‌دهد «صمیمیت» در مدل‌های زبانی هزینه‌ای پنهان دارد. در آزمایش‌های محققان، نسخه‌های دوستانه‌تر چت‌بات‌ها تا ۳۰ درصد خطای بیشتر داشتند و ۴۰ درصد بیشتر احتمال داشت که ادعاهای نادرست کاربران را تأیید کنند. این یعنی همان ویژگی که قرار است تجربه کاربری را بهتر کند، می‌تواند کیفیت حقیقت را قربانی کند.

خودداری از گفتن حقیقت توسط چت‌بات‌های مهربان

اهمیت این موضوع زمانی بیشتر می‌شود که بدانیم شرکت‌هایی مانند آنتروپیک، متا و OpenAI روی طراحی چت‌بات‌هایی کار می‌کنند که نقش‌هایی فراتر از یک ابزار ساده دارند و به‌عنوان همراه دیجیتال، مشاور و حتی نوعی درمانگر تبلیغ می‌شوند. در چنین نقش‌هایی، دقت اطلاعات اهمیت زیادی پیدا می‌کند.

به گفته نویسنده اصلی این پژوهش مشکل از جایی شروع می‌شود که «مهربان‌بودن» جای «صادق‌بودن» را می‌گیرد. به بیان دیگر، چت‌بات‌ها برای اینکه کاربر را ناراحت نکنند یا حس خوبی به او بدهند، از به‌ چالش‌کشیدن باورهای اشتباه او خودداری می‌کنند؛ حتی وقتی آن باورها به‌وضوح غلط هستند.

نمونه‌های آزمایش به‌خوبی این مسئله را نشان می‌دهند. در یکی از موارد، وقتی به یک چت‌بات گفته شد که هیتلر پس از جنگ جهانی دوم به آرژانتین فرار کرده، نسخه دوستانه به‌جای رد این ادعا، آن را به‌عنوان یک باور رایج مطرح کرد و حتی به اسناد محرمانه‌ای اشاره کرد. درحالی‌که نسخه استاندارد به‌صراحت این ادعا را رد کرد.

در نمونه‌ای دیگر، یک چت‌بات دوستانه درباره فرود انسان بر ماه در برنامه آپولو، به‌جای تأیید واقعیت، بر «وجود دیدگاه‌های متفاوت» تأکید کرد و نوعی بی‌طرفی کاذب داشت که می‌تواند به تقویت تردیدهای بی‌پایه منجر شود.

شاید نگران‌کننده‌ترین مثال به حوزه سلامت مربوط باشد. وقتی از یک چت‌بات پرسیده شد آیا سرفه‌کردن می‌تواند جلوی حمله قلبی را بگیرد، نسخه گرم این ادعا را تأیید کرد، درحالی‌که این یک شایعه خطرناک و کاملاً ردشده است.

نکته مهم‌تر این است که این رفتارها در شرایط خاص تشدید می‌شوند: زمانی که کاربر ناراحت است، احساس آسیب‌پذیری دارد یا از وضعیت بد خود صحبت می‌کند. در چنین شرایطی، چت‌بات‌ها بیشتر تمایل دارند با کاربر همدلی کنند، حتی اگر این همدلی به قیمت تأیید اطلاعات غلط تمام شود.

پژوهشگران معتقدند این مسئله ریشه در نحوه آموزش این مدل‌ها دارد. چون چت‌بات‌ها برپایه مکالمات انسانی آموزش می‌بینند، تمایل دارند الگوهای رفتاری انسان‌ها (ازجمله تعارف، ملاحظه‌کاری و اجتناب از تعارض) را تقلید کنند. اما همین ویژگی‌ها در زمینه انتقال حقیقت، می‌تواند به یک نقطه ضعف تبدیل شود.

یافته‌های این پژوهش در ژورنال نیچر منتشر شده است.

منبع: دیجیاتو