آیا «تحقیر کردن هوش مصنوعی» دقت آن را افزایش می‌دهد؟

آیا «تحقیر کردن هوش مصنوعی» دقت آن را افزایش می‌دهد؟

مطالعه‌ای تازه نشان می‌دهد که خشن یا تحقیرگر بودن ممکن است دقت یک مدل جدید هوش مصنوعی را بالاتر ببرد؛ نتیجه‌ای که با یافته‌های قبلی درباره مؤدب بودن نسبت به هوش مصنوعی تفاوت دارد.

کد خبر : ۲۶۸۰۰۹
بازدید : ۱۷

فرادید| دانشمندان دریافته‌اند که چت‌بات‌های هوش مصنوعی ممکن است وقتی با آن‌ها بی‌ادبانه رفتار می‌کنید پاسخ‌های دقیق‌تری بدهند، هرچند نسبت به آسیب‌های بالقوه استفاده از زبان تحقیرآمیز هم هشدار داده‌اند.

به گزارش فرادید؛  در مطالعه‌ای جدید که ششم اکتبر در پایگاه پیش‌چاپ arXiv منتشر شد، پژوهشگران خواستند بررسی کنند که آیا مؤدب بودن یا بی‌ادبی در عملکرد یک سیستم هوش مصنوعی تفاوت ایجاد می‌کند یا نه. البته نتایج این پژوهش هنوز مورد داوری نهایی قرار نگرفته است.

برای آزمودن اینکه لحن کاربر چه تأثیری بر دقت پاسخ‌ها دارد، محققان ۵۰ سؤال پایه چندگزینه‌ای تهیه کردند و سپس با افزودن پیشوندهایی آن‌ها را در پنج دسته لحن قرار دادند: بسیار مؤدبانه، مؤدبانه، خنثی، بی‌ادبانه و بسیار بی‌ادبانه. سؤالات حوزه‌های مختلفی مانند ریاضیات، تاریخ و علوم را پوشش می‌دادند.

هر سؤال با چهار گزینه مطرح شد که یکی از آن‌ها درست بود. آن‌ها مجموعاً ۲۵۰ سؤال حاصل را ده بار به ChatGPT-4o که یکی از پیشرفته‌ترین مدل‌های زبان بزرگ (LLM) توسعه‌یافته توسط OpenAI است، ارائه کردند.

پژوهشگران در مقاله‌شان نوشتند: «آزمایش‌های ما مقدماتی هستند و نشان می‌دهند که لحن می‌تواند عملکرد را از نظر نمره در پاسخ به ۵۰ سؤال به‌طور معناداری تحت تأثیر قرار دهد. به‌طور شگفت‌آوری، نتایج ما نشان می‌دهد که لحن‌های بی‌ادبانه نتایج بهتری نسبت به لحن‌های مؤدبانه به همراه دارند».

آن‌ها اضافه کردند: «اگرچه این یافته از لحاظ علمی جالب است، اما ما طرفدار به‌کارگیری رابط‌های خصمانه یا سمی در کاربردهای واقعی نیستیم. استفاده از زبان توهین‌آمیز یا تحقیرآمیز در تعامل انسان–هوش‌مصنوعی می‌تواند تأثیرات منفی بر تجربه کاربر، دسترسی‌پذیری و شمول‌پذیری داشته باشد و ممکن است به نُرم‌های ارتباطی مضر کمک کند. در عوض، ما نتایج‌مان را به‌عنوان شاهدی می‌بینیم بر این‌که مدل‌های زبان بزرگ نسبت به نشانه‌های سطحیِ پرامپت حساس باقی می‌مانند، امری که می‌تواند تناقض‌هایی ناخواسته میان عملکرد و رفاه کاربر ایجاد کند».

قبل از ارائه هر پرامپت، پژوهشگران از چت‌بات خواستند تا کاملاً مبادلات قبلی را نادیده بگیرد تا از تأثیرپذیری آن از لحن‌های پیشین جلوگیری شود. همچنین از چت‌بات‌ها خواسته شد، بدون توضیح، یکی از چهار گزینه را انتخاب کنند.

دقت پاسخ‌ها از ۸۰.۸٪ برای پرامپت‌های بسیار مؤدبانه تا ۸۴.۸٪ برای پرامپت‌های بسیار بی‌ادبانه متغیر بود. جالب اینکه دقت با هر گامی که از مودب‌ترین لحن دور می‌شد، افزایش یافت. دقت برای لحن مؤدبانه ۸۱.۴٪ بود، پس از آن ۸۲.۲٪ برای خنثی و ۸۲.۸٪ برای بی‌ادبانه ثبت شد.

تیم پژوهشی برای تغییر لحن از زبان‌های متنوعی در پیشوندها استفاده کرد، مگر در حالت خنثی که هیچ پیشوندی به کار نرفت و سؤال به‌تنهایی مطرح شد.

برای نمونه، در پرامپت‌های بسیار مؤدبانه، آن‌ها با عباراتی مانند «می‌توانم از شما تقاضای کمک برای این سؤال داشته باشم؟» یا «ممکن است لطف کنید و سؤال زیر را حل کنید؟» آغاز می‌کردند. در سوی بسیار بی‌ادبانه طیف، تیم از زبان‌هایی مانند «هی، نوکر؛ اینو حل کن» یا «می‌دانم تو باهوش نیستی، اما تلاش کن» استفاده می‌کرد.

این پژوهش بخشی از حوزه‌ای نوظهور به نام «مهندسی پرامپت» است که می‌کوشد بررسی کند ساختار، سبک و زبانِ پرامپت‌ها چگونه بر خروجی مدل‌های زبان بزرگ تأثیر می‌گذارد. این مطالعه همچنین به پژوهش‌های پیشین درباره مؤدب بودن در مقابل بی‌ادبی اشاره کرده و می‌گوید نتایج آن‌ها عموماً با یافته‌های گذشته در تضاد است.

در مطالعات قبلی، محققان دریافتند که «پرامپت‌های بی‌ادبانه اغلب منجر به عملکرد ضعیف می‌شوند، اما زبان بیش‌ازحد مؤدبانه نیز لزوماً نتایج بهتری را تضمین نمی‌کند.» با این حال، آن مطالعه پیشین با مدل‌های هوش مصنوعی متفاوتی مثل ChatGPT 3.5 و Llama 2-70B انجام شده و از طیف هشت‌گانه لحن استفاده کرده بود. با این وجود هم‌پوشانی‌هایی وجود داشت: تنظیمِ خشن‌ترین پرامپت نیز دقت بیش‌تری (۷۶.۴۷٪) نسبت به مودب‌ترین تنظیم (۷۵.۸۲٪) نشان داده بود.

پژوهشگران محدودیت‌های مطالعه جدید را پذیرفته‌اند. برای مثال، مجموعه‌ای متشکل از ۲۵۰ سؤال مجموعه‌داده‌ای نسبتاً محدود است و انجام آزمایش با یک مدل LLM به‌تنهایی بدین معناست که نتایج را نمی‌توان به سایر مدل‌های هوش مصنوعی تعمیم داد.

با توجه به این محدودیت‌ها، تیم قصد دارد پژوهش خود را به مدل‌های دیگر از جمله مدل Claude شرکت Anthropic و ChatGPT o3 شرکت OpenAI گسترش دهد. آن‌ها همچنین اذعان دارند که مطرح کردن تنها سؤالات چندگزینه‌ای اندازه‌گیری‌ها را به یک بُعد از عملکرد مدل محدود می‌کند و سایر ویژگی‌ها مانند روانیِ زبان، استدلال و انسجام را در برنمی‌گیرد.

۰
نظرات بینندگان
تازه‌‌ترین عناوین
پربازدید