به گزارش سرویس ترجمه خبرگزاری ایمنا، مطالعهای جدید نشان داده است که ابزارهای جستوجوی هوش مصنوعی که امروزه بهعنوان دستیارهای پژوهشی عمل میکنند، در بسیاری از موارد قابل اعتماد نیستند و بسیاری از ادعاهای مطرحشده در پاسخهایشان از سوی منابع یادشده در آنها پشتیبانی نمیشوند. طبق این مطالعه، ابزارهای محبوب در ارائه پاسخهای مبتنیبر شواهد دچار ضعف جدی هستند و نسبت ادعاهای بدون پشتوانه در آنها از یکچهارم تا نزدیک به نیمی از بیانات جستوجوهای معمول متغیر است، در حالی که بعضی ابزارهای تحقیق عمیق حتی تا ۹۷.۵ درصد ادعاهای بدون پشتیبانی در گزارشهای طولانی خود داشتند.
محققان از چارچوبی به نام دیپتریس (DeepTRACE) استفاده کردند که پاسخها را در سطح جملات بررسی میکند تا ببیند هر جمله چه میگوید و آیا منابع ذکرشده، این جمله را پشتیبانی میکنند یا خیر. این چارچوب هشت بعد مختلف را برای هر پاسخ ارزیابی میکند:
- پاسخهای یکجانبه که تنها یک دیدگاه درباره سوالات بحثبرانگیز ارائه میکنند
- لحن بیشازحد مطمئن که میتواند کاربران را به اشتباه در باور به قطعیت موضوع بیاندازد
- نسبت جملات مرتبط
- نسبت جملات بدون پشتیبانی
- نسبت منابع بدون ارجاع
- ضرورت منبع که نشان میدهد آیا هر منبع واقعاً برای پشتیبانی از پاسخ لازم است
- دقت ارجاع که بررسی میکند آیا منبع بهطور مشخص از جمله حمایت میکند یا تنها به موضوع کلی مربوط است
- جامعیت ارجاع که میسنجد آیا همه منابع ممکن برای پشتیبانی به درستی ارجاع شدهاند
در میان سیستمهای مورد بررسی، میزان جملات بدون پشتیبان بسیار متفاوت بود، بعضی ابزارها حدود ۲۳ درصد و بعضی تا ۴۷ درصد جملات بیپشتوانه داشتند. در حالتهای تحقیق عمیق، با اینکه لحن محتاطتر میشد، محتوای بدون پشتیبانی حذف نشد. یکی از سیستمهای تحقیق عمیق بهرغم ارائه گزارشهای طولانی و پرارجاع، ۹۷.۵ درصد جملات بدون پشتوانه داشت. همچنین اشتباهات در ارجاع منابع نیز بسیار رایج بود، یعنی گاهی پاسخها منبعی نامرتبط را به جای منبع درست به جمله نسبت میدادند.

وقتی پاسخها تنها یک طرف بحث را نمایش میدهند و با لحن قاطع ارائه میشوند، احتمال میرود کاربران به دیدگاهی محدود و ناقص سوق داده شوند. این موضوع وقتی خطرناکتر میشود که ابزار هوش مصنوعی بهگونهای رفتار کند که حتی اگر موجب کاهش صحت اطلاعات باشد، نظرات کاربر را تقلید کند که به آن رفتار همسویی یا چاپلوسی (Sycophancy) گفته میشود. این گرایش در پرسشهای بحثبرانگیز بهوضوح دیده شد و میزان پاسخهای یکجانبه بالا باقی ماند. بنابراین کالیبره کردن لحن پاسخها بسیار مهم است.
دقت ارجاع منابع در این مطالعه بین ۴۰ تا ۸۰ درصد بود، به این معنا که بسیاری از لینکهای داده شده، بهطور دقیق از جملهای که به آن ارجاعشده حمایت نمیکردند. پژوهشگران هشدار دادند که تعداد زیاد منابع و طولانی بودن پاسخها به معنی اطمینان بیشتر نیست و بعضی منابع ممکن است تنها جنبه تزئینی داشته باشند. معیار ضرورت منبع به روشن شدن این موضوع کمک میکند، یعنی اگر تنها بخشی از لینکها واقعاً برای ادعاهای مهم لازم باشند، مابقی میتوانند به اشتباه اعتماد ایجاد کنند.
یافتهها نشان میدهد که صرف بازیابی منابع مناسب پاسخها را به کمال نمیرساند و مدلها همچنان باید بتوانند ادعاهای خود را به بخشهای مشخصی از شواهد منسوب کنند. تعاریف این مطالعه بهگونهای سختگیرانه طراحی شده است که شبیه به بررسی دقیق یک خواننده حرفهای برای تطبیق ادعاها با منابع است. این رویکرد با ارزیابیهای انسانی هم همبستگی مناسبی داشت.

پژوهشگران توصیه میکنند که پاسخهای جستوجوی هوش مصنوعی را همچون پیشنویسی اولیه در نظر بگیرید نه حکم قطعی. اگر جملهای ادعایی قوی داشت، صددرصد به منبع اصلی مراجعه کنند و مطمئن شوند که آن جمله بهطور واقعی پشتیبانی شده است. همچنین هنگام رویارویی با موضوعات بحثبرانگیز احتیاط کنند و اگر پاسخها تنها یک دیدگاه را ارائه کردند و لحن قطعی داشتند، بدانند که حقایق کامل ارائه نشده است. بهتر است چند منبع مستقل را هم مقایسه و به نشانههای نبود تطابق عدد یا متن توجه کنند.
این مطالعه با توجه به تغییرات سریع در تکنولوژی هوش مصنوعی، نیاز به ارزیابیهای مکرر و بهروزرسانی دارد و آمار و نتایج آن بر اهمیت نقد و ارزیابی دقیق منابع و محتواهای تولیدشده با هوش مصنوعی تاکید و یادآوری میکند که هوش مصنوعی هنوز در مرحلهای است که نباید پاسخهای آن را بدون بررسی جدی پذیرفت.


نظر شما