تحقیق جدید: نصف توصیههای پزشکی چتباتهای محبوب نادرست یا ناقص هستند
محققان در این پژوهش پاسخهای پزشکی پنج هوش مصنوعی مشهور گراک، جمینای، Meta AI، دیپسیک و ChatGPT را بررسی کردند.
مطالعهای جدید نشان میدهد اتکا به چتباتهای هوش مصنوعی برای دریافت توصیههای پزشکی میتواند خطرناکتر از آن چیزی باشد که به نظر میرسد. به گفته محققان، این ابزارها در حدود نیمی از موارد اطلاعاتی نادرست یا ناقص ارائه میدهند؛ آن هم با لحنی کاملاً مطمئن و حرفهای که میتواند کاربران را گمراه کند.
در پژوهش جدید، محققان از پنج چتبات مشهور (گراک، جمینای، Meta AI، دیپسیک و ChatGPT) ۲۵۰ پرسش در حوزههای مختلف سلامت از جمله سرطان، واکسن، سلولهای بنیادی، تغذیه و ورزش پرسیدند. این پرسشها بهگونهای طراحی شده بودند که شبیه به سؤالات رایج کاربران باشند. هدف پژوهشگران این بود که بررسی کنند آیا پاسخ چتباتها با شواهد علمی همخوانی دارد یا به سمت توصیههای گمراهکننده و حتی خطرناک منحرف میشود.
توصیههای پزشکی نادرست چتباتهای محبوب
طبق نتایج این پژوهش، در موضوعات پزشکی نیمی از پاسخهای این چتباتها دارای نقص، خطا یا اطلاعات گمراهکننده بودهاند. البته محققان میگویند نوع پرسش تأثیر قابلتوجهی بر کیفیت پاسخها دارد.
ضعیفترین عملکرد مربوط به سؤالات باز و کلی بود؛ همان نوع پرسشهایی که کاربران در دنیای واقعی بیشتر مطرح میکنند. این سؤالات باعث شدند چتباتها پاسخهایی تولید کنند که اغلب ترکیبی از اطلاعات صحیح و ادعاهای نادرست یا اغراقآمیز بودند. در مقابل، پرسشهای بسته و ساختاریافته مثل سؤالات چندگزینهای بیشتر به پاسخهای ایمنتر و دقیقتر منجر شدند.

یکی از نکات مهم این است که کاربران معمولاً سؤالات پزشکی را بهصورت دقیق و قالببندیشده مطرح نمیکنند. آنها میپرسند آیا فلان درمان مؤثر است، آیا این واکسن ایمن است یا چه چیزی میتواند عملکرد ورزشیشان را بهبود دهد. همین سبک پرسشها در این مطالعه، چتباتها را به سمت پاسخهایی سوق داد که مرز میان واقعیت و اطلاعات گمراهکننده را کمرنگ میکرد.
مشکل دیگر به کیفیت منابع بازمیگردد. پژوهشگران گزارش دادهاند که میانگین کاملبودن ارجاعات فقط حدود ۴۰ درصد بوده و هیچیک از چتباتها نتوانستهاند فهرست منابع کاملاً دقیق و قابل اتکایی ارائه دهند. حتی در برخی موارد، منابعی جعلی در پاسخها دیده شده است. این درحالی است که پاسخها همچنان با اطمینان بالا ارائه شدهاند و تقریباً هیچ هشدار یا اشارهای به محدودیتها در آنها وجود نداشته است.
این مسئله اهمیت زیادی دارد، زیرا یکی از دلایل اصلی اعتماد کاربران به چتباتها، ظاهر مستند و حرفهای پاسخهاست. اما این مطالعه نشان میدهد که این ظاهر میتواند فریبنده باشد و با بررسی دقیق منابع، اعتبار پاسخها زیر سؤال برود.
البته پژوهشگران به محدودیتهای مطالعه نیز اشاره کردهاند. این بررسی فقط پنج چتبات را شامل میشود، این ابزارها بهسرعت درحال تغییر هستند و پرسشها نیز بهگونهای طراحی شده بودند که مدلها را تحت فشار قرار دهند؛ بنابراین ممکن است میزان خطا در استفاده روزمره کمتر از نتایج این مطالعه باشد.
منبع: دیجیاتو