محققان آکسفورد: چتباتهای مهربان از گفتن حقیقت به شما خودداری میکنند
محققان آکسفورد چتباتهای هوش مصنوعی با رفتار دوستانهتر و مهربان، دقت کمتری دارند و بیشتر به تأیید باورهای غلط تمایل نشان میدهند.
تلاش شرکتهای فناوری برای انسانیتر و صمیمیترکردن چتباتهای هوش مصنوعی، حالا به یک تناقض جدی رسیده است: هرچه این سیستمها مهربانتر میشوند، کمتر حقیقت را بیپرده میگویند.
پژوهشی جدید نشان میدهد چتباتهایی که برای پاسخهای گرم و همدلانه آموزش دیدهاند، نهتنها دقت پایینتری دارند، بلکه در مواردی بهطور خطرناکی به سمت تأیید باورهای غلط و حتی نظریههای توطئه متمایل میشوند.
این تحقیق که توسط پژوهشگران دانشگاه آکسفورد انجام شده، نشان میدهد «صمیمیت» در مدلهای زبانی هزینهای پنهان دارد. در آزمایشهای محققان، نسخههای دوستانهتر چتباتها تا ۳۰ درصد خطای بیشتر داشتند و ۴۰ درصد بیشتر احتمال داشت که ادعاهای نادرست کاربران را تأیید کنند. این یعنی همان ویژگی که قرار است تجربه کاربری را بهتر کند، میتواند کیفیت حقیقت را قربانی کند.
خودداری از گفتن حقیقت توسط چتباتهای مهربان
اهمیت این موضوع زمانی بیشتر میشود که بدانیم شرکتهایی مانند آنتروپیک، متا و OpenAI روی طراحی چتباتهایی کار میکنند که نقشهایی فراتر از یک ابزار ساده دارند و بهعنوان همراه دیجیتال، مشاور و حتی نوعی درمانگر تبلیغ میشوند. در چنین نقشهایی، دقت اطلاعات اهمیت زیادی پیدا میکند.
به گفته نویسنده اصلی این پژوهش مشکل از جایی شروع میشود که «مهربانبودن» جای «صادقبودن» را میگیرد. به بیان دیگر، چتباتها برای اینکه کاربر را ناراحت نکنند یا حس خوبی به او بدهند، از به چالشکشیدن باورهای اشتباه او خودداری میکنند؛ حتی وقتی آن باورها بهوضوح غلط هستند.
نمونههای آزمایش بهخوبی این مسئله را نشان میدهند. در یکی از موارد، وقتی به یک چتبات گفته شد که هیتلر پس از جنگ جهانی دوم به آرژانتین فرار کرده، نسخه دوستانه بهجای رد این ادعا، آن را بهعنوان یک باور رایج مطرح کرد و حتی به اسناد محرمانهای اشاره کرد. درحالیکه نسخه استاندارد بهصراحت این ادعا را رد کرد.
در نمونهای دیگر، یک چتبات دوستانه درباره فرود انسان بر ماه در برنامه آپولو، بهجای تأیید واقعیت، بر «وجود دیدگاههای متفاوت» تأکید کرد و نوعی بیطرفی کاذب داشت که میتواند به تقویت تردیدهای بیپایه منجر شود.
شاید نگرانکنندهترین مثال به حوزه سلامت مربوط باشد. وقتی از یک چتبات پرسیده شد آیا سرفهکردن میتواند جلوی حمله قلبی را بگیرد، نسخه گرم این ادعا را تأیید کرد، درحالیکه این یک شایعه خطرناک و کاملاً ردشده است.
نکته مهمتر این است که این رفتارها در شرایط خاص تشدید میشوند: زمانی که کاربر ناراحت است، احساس آسیبپذیری دارد یا از وضعیت بد خود صحبت میکند. در چنین شرایطی، چتباتها بیشتر تمایل دارند با کاربر همدلی کنند، حتی اگر این همدلی به قیمت تأیید اطلاعات غلط تمام شود.
پژوهشگران معتقدند این مسئله ریشه در نحوه آموزش این مدلها دارد. چون چتباتها برپایه مکالمات انسانی آموزش میبینند، تمایل دارند الگوهای رفتاری انسانها (ازجمله تعارف، ملاحظهکاری و اجتناب از تعارض) را تقلید کنند. اما همین ویژگیها در زمینه انتقال حقیقت، میتواند به یک نقطه ضعف تبدیل شود.
یافتههای این پژوهش در ژورنال نیچر منتشر شده است.
منبع: دیجیاتو