به گزارش سرویس ترجمه خبرگزاری ایمنا، نتایج یک مطالعه منتشرشده در مجله BMJ Open نشان میدهد که حجم قابلتوجهی از اطلاعات پزشکی ارائهشده توسط پنج چتبات محبوب، نادرست و ناقص است و نیمی از پاسخها به سؤالات شفاف بر اساس شواهد علمی تا حدی یا شدیداً مشکلدار ارزیابی شده است. پژوهشگران هشدار دادهاند که ادامه استفاده از این چتباتها بدون آموزش عمومی و نظارت کافی، خطر گسترش اطلاعات نادرست را افزایش میدهد.
به گفته محققان، چتباتهای مولد هوش مصنوعی به سرعت در حوزههای پژوهش، آموزش، کسبوکار، بازاریابی و پزشکی مورد استقبال قرار گرفتهاند و بسیاری از مردم از آنها مانند موتورهای جستجو برای پرسشهای روزمره سلامت و پزشکی استفاده میکنند. محققان برای سنجش میزان دقت اطلاعات در حوزههای سلامت و پزشکی که از قبل مستعد اطلاعات نادرست هستند، در فوریه ۲۰۲۵ پنج چتبات مولد هوش مصنوعی محبوب و در دسترس عموم از جمله جمینای، دیپسیک، متال ایآی، چت جیپیتی و گروک ر را مورد آزمایش قرار دادند.
به هر چتبات در پنج دسته سرطان، واکسنها، سلولهای بنیادی، تغذیه و عملکرد ورزشی، ۱۰ سؤال باز و بسته داده شد. سؤالات بهگونهای طراحی شده بودند که شبیه پرسشهای رایج جستجوی اطلاعات سلامت و پزشکی و همچنین روایتهای نادرست رایج در فضای آنلاین و مباحث علمی باشد. محققان تأکید میکنند که این پرسشها برای فشار آوردن مدلها به سمت اطلاعات نادرست یا توصیههای منعشده طراحی شده بودند؛ استراتژی که به طور فزایندهای برای آزمایش استرس چتباتهای هوش مصنوعی و شناسایی آسیبپذیریهای رفتاری استفاده میشود.
پرسشهای بسته نیازمند پاسخهای از پیش تعریفشده، اغلب با یک پاسخ صحیح، بودند که با اجماع علمی هماهنگی داشت. پرسشهای باز نیز معمولاً نیازمند پاسخهای چندگانه در قالب فهرست بودند. پاسخها با استفاده از معیارهای عینی از پیش تعیینشده در سه دسته بدون مشکل، تا حدی مشکلدار و شدیداً مشکلدار طبقهبندی شدند. پاسخ مشکلدار به پاسخی گفته میشد که میتوانست کاربران عادی را به سمت درمانهای بالقوه ناکارآمد هدایت کند یا در صورت پیروی بدون راهنمایی حرفهای، به آنها آسیب برساند.
محققان همچنین بررسی کردند که آیا چتبات بدون توجه به قدرت شواهد علمی، تعادل نادرستی بین ادعاهای علمی و غیرعلمی برقرار میکند یا خیر. افزون بر این، خوانایی هر پاسخ نیز ارزیابی شد.
نیمی از پاسخها مشکلدار بود؛ از مجموع پاسخها، ۵۰ درصد مشکلدار ارزیابی شدند که ۳۰ درصد تا حدی مشکلدار و ۲۰ درصد شدیداً مشکلدار بودند. پرسشهای باز بهطور قابلتوجهی پاسخهای شدیداً مشکلدار بیشتری تولید کردند (۴۰ پاسخ) و پاسخهای بدون مشکل کمتری (۵۱ پاسخ). وضعیت معکوس برای پرسشهای بسته صادق بود.
محققان به این نتیجه رسیدند که عملکرد چتباتها متفاوت بود، اگرچه کیفیت پاسخها در میان پنج چتبات تفاوت معناداری نداشت، اما گروک بهطور قابلتوجهی بیشترین پاسخهای شدیداً مشکلدار را تولید کرد (۲۹ پاسخ از ۵۰ پاسخ؛ ۵۸ درصد). در مقابل، جمینای کمترین تعداد پاسخهای شدیداً مشکلدار و بیشترین پاسخهای بدون مشکل را داشت.

همچنین، چتباتها در حوزه واکسن و سرطان بهترین عملکرد را داشتند و در حوزههای سلولهای بنیادی، عملکرد ورزشی و تغذیه ضعیفترین عملکرد را نشان دادند. پاسخها همواره با اعتماد و قطعیت کامل بیان میشدند و بهندرت شامل توضیح یا هشدار بودند. از مجموع ۲۵۰ سؤال، تنها دو مورد خودداری از پاسخ مشاهده شد که هر دو مربوط به متا ایآی در پاسخ به سؤالات درباره استروئیدهای آنابولیک و درمانهای جایگزین سرطان بود.
کیفیت منابع ارائهشده پایین بود و میانگین نمره کامل بودن تنها ۴۰ درصد بود. توهمات و استنادات جعلی چتباتها باعث شد هیچ یک از آنها فهرست ارجاعات کاملاً دقیقی ارائه ندهد. تمام نمرات خوانایی در سطح دشوار ارزیابی شد که از نظر پیچیدگی معادل متن مناسب برای دانشآموختگان دانشگاهی است.
محققان اذعان میکنند که تنها پنج چتبات را ارزیابی کردهاند و هوش مصنوعی تجاری بهسرعت در حال تحول است، بنابراین یافتههای آنها ممکن است بهطور جهانی قابل تعمیم نباشد. همچنین رویکرد آنها برای طراحی پرسشهای عمداً خصمانه ممکن است شیوع محتوای مشکلدار را بیش از حد واقعی نشان داده باشد.
پژوهشگران تأکید میکنند که یافتههای آنها در مورد دقت علمی، کیفیت ارجاعات و خوانایی پاسخها، محدودیتهای رفتاری مهمی را نشان میدهد و نیاز به بازنگری در نحوه استفاده از چتباتهای هوش مصنوعی در ارتباطات سلامت و پزشکی عمومی وجود دارد.
به گفته آنها، چتباتها بهطور پیشفرض به دادههای لحظهای دسترسی ندارند، بلکه با استنباط الگوهای آماری از دادههای آموزشی خود و پیشبینی توالی کلمات محتمل، خروجی تولید میکنند. آنها استدلال نمیکنند، شواهد را وزن نمیکنند و قادر به قضاوت اخلاقی یا ارزشی نیستند. این محدودیت رفتاری به این معناست که چتباتها میتوانند پاسخهای معتبر بهنظر برسند اما در عین حال عمیقاً مشکلدار باشند.
دادههایی که چتباتها از آن استفاده میکنند شامل انجمنهای پرسش و پاسخ و رسانههای اجتماعی نیز میشود، دسترسی چتباتها به محتوای علمی به مقالههای رایگان و عمومی محدود میشود در حالی که چنین مقالههایی فقط ۳۰ تا ۵۰ درصد از کل مطالعات منتشرشده را تشکیل میدهد. به عبارت دیگر، چتبات به نیمی از دانش علمی جهان دسترسی ندارد.
پژوهشگران در پایان هشدار میدهند: « با گسترش روزافزون استفاده از چتباتهای هوش مصنوعی، یافتههای ما نشان میدهد که آموزش عمومی، تربیت حرفهای و نظارت قانونی ضرورتی انکارناپذیر است تا اطمینان حاصل شود که هوش مصنوعی مولد از سلامت عمومی حمایت میکند، نه آن را به مخاطره میاندازد.»
نظر شما