۳۰ شهریور ۱۴۰۴ - ۱۵:۳۱

پژوهشی نشان داد

محتواهای هوش مصنوعی باید تحت ارزیابی مکرر قرار بگیرد

ابزارهای جست‌وجوی هوش مصنوعی در ارائه پاسخ‌های دقیق و مستند ضعف دارند و بسیاری از ادعاهایشان بدون پشتوانه منابع است؛ مطالعه‌ای جدید نشان می‌دهد که در بعضی موارد نرخ ادعاهای نادرست تا ۹۷.۵ درصد نیز می‌رسد، اما لحن بیش‌ازحد مطمئن آن‌ها کاربران را گمراه می‌کند.

به گزارش سرویس ترجمه خبرگزاری ایمنا، مطالعه‌ای جدید نشان داده است که ابزارهای جست‌وجوی هوش مصنوعی که امروزه به‌عنوان دستیارهای پژوهشی عمل می‌کنند، در بسیاری از موارد قابل اعتماد نیستند و بسیاری از ادعاهای مطرح‌شده در پاسخ‌هایشان از سوی منابع یادشده در آن‌ها پشتیبانی نمی‌شوند. طبق این مطالعه، ابزارهای محبوب در ارائه پاسخ‌های مبتنی‌بر شواهد دچار ضعف جدی هستند و نسبت ادعاهای بدون پشتوانه در آن‌ها از یک‌چهارم تا نزدیک به نیمی از بیانات جست‌وجوهای معمول متغیر است، در حالی که بعضی ابزارهای تحقیق عمیق حتی تا ۹۷.۵ درصد ادعاهای بدون پشتیبانی در گزارش‌های طولانی خود داشتند.

محققان از چارچوبی به نام دیپ‌تریس (DeepTRACE) استفاده کردند که پاسخ‌ها را در سطح جملات بررسی می‌کند تا ببیند هر جمله چه می‌گوید و آیا منابع ذکرشده، این جمله را پشتیبانی می‌کنند یا خیر. این چارچوب هشت بعد مختلف را برای هر پاسخ ارزیابی می‌کند:

پاسخ‌های یک‌جانبه که تنها یک دیدگاه درباره سوالات بحث‌برانگیز ارائه می‌کنند
لحن بیش‌ازحد مطمئن که می‌تواند کاربران را به اشتباه در باور به قطعیت موضوع بیاندازد
نسبت جملات مرتبط
نسبت جملات بدون پشتیبانی
نسبت منابع بدون ارجاع
ضرورت منبع که نشان می‌دهد آیا هر منبع واقعاً برای پشتیبانی از پاسخ لازم است
دقت ارجاع که بررسی می‌کند آیا منبع به‌طور مشخص از جمله حمایت می‌کند یا تنها به موضوع کلی مربوط است
جامعیت ارجاع که می‌سنجد آیا همه منابع ممکن برای پشتیبانی به درستی ارجاع شده‌اند

در میان سیستم‌های مورد بررسی، میزان جملات بدون پشتیبان بسیار متفاوت بود، بعضی ابزارها حدود ۲۳ درصد و بعضی تا ۴۷ درصد جملات بی‌پشتوانه داشتند. در حالت‌های تحقیق عمیق، با اینکه لحن محتاط‌تر می‌شد، محتوای بدون پشتیبانی حذف نشد. یکی از سیستم‌های تحقیق عمیق به‌رغم ارائه گزارش‌های طولانی و پرارجاع، ۹۷.۵ درصد جملات بدون پشتوانه داشت. همچنین اشتباهات در ارجاع منابع نیز بسیار رایج بود، یعنی گاهی پاسخ‌ها منبعی نامرتبط را به جای منبع درست به جمله نسبت می‌دادند.

محتواهای هوش مصنوعی باید تحت ارزیابی مکرر قرار بگیرد

وقتی پاسخ‌ها تنها یک طرف بحث را نمایش می‌دهند و با لحن قاطع ارائه می‌شوند، احتمال می‌رود کاربران به دیدگاهی محدود و ناقص سوق داده شوند. این موضوع وقتی خطرناک‌تر می‌شود که ابزار هوش مصنوعی به‌گونه‌ای رفتار کند که حتی اگر موجب کاهش صحت اطلاعات باشد، نظرات کاربر را تقلید کند که به آن رفتار همسویی یا چاپلوسی (Sycophancy) گفته می‌شود. این گرایش در پرسش‌های بحث‌برانگیز به‌وضوح دیده شد و میزان پاسخ‌های یک‌جانبه بالا باقی ماند. بنابراین کالیبره کردن لحن پاسخ‌ها بسیار مهم است.

دقت ارجاع منابع در این مطالعه بین ۴۰ تا ۸۰ درصد بود، به این معنا که بسیاری از لینک‌های داده شده، به‌طور دقیق از جمله‌ای که به آن ارجاع‌شده حمایت نمی‌کردند. پژوهشگران هشدار دادند که تعداد زیاد منابع و طولانی بودن پاسخ‌ها به معنی اطمینان بیشتر نیست و بعضی منابع ممکن است تنها جنبه تزئینی داشته باشند. معیار ضرورت منبع به روشن شدن این موضوع کمک می‌کند، یعنی اگر تنها بخشی از لینک‌ها واقعاً برای ادعاهای مهم لازم باشند، مابقی می‌توانند به اشتباه اعتماد ایجاد کنند.

یافته‌ها نشان می‌دهد که صرف بازیابی منابع مناسب پاسخ‌ها را به کمال نمی‌رساند و مدل‌ها همچنان باید بتوانند ادعاهای خود را به بخش‌های مشخصی از شواهد منسوب کنند. تعاریف این مطالعه به‌گونه‌ای سختگیرانه طراحی شده است که شبیه به بررسی دقیق یک خواننده حرفه‌ای برای تطبیق ادعاها با منابع است. این رویکرد با ارزیابی‌های انسانی هم همبستگی مناسبی داشت.

محتواهای هوش مصنوعی باید تحت ارزیابی مکرر قرار بگیرد

پژوهشگران توصیه می‌کنند که پاسخ‌های جست‌وجوی هوش مصنوعی را همچون پیش‌نویسی اولیه در نظر بگیرید نه حکم قطعی. اگر جمله‌ای ادعایی قوی داشت، صددرصد به منبع اصلی مراجعه کنند و مطمئن شوند که آن جمله به‌طور واقعی پشتیبانی شده است. همچنین هنگام رویارویی با موضوعات بحث‌برانگیز احتیاط کنند و اگر پاسخ‌ها تنها یک دیدگاه را ارائه کردند و لحن قطعی داشتند، بدانند که حقایق کامل ارائه نشده است. بهتر است چند منبع مستقل را هم مقایسه و به نشانه‌های نبود تطابق عدد یا متن توجه کنند.

این مطالعه با توجه به تغییرات سریع در تکنولوژی هوش مصنوعی، نیاز به ارزیابی‌های مکرر و به‌روزرسانی دارد و آمار و نتایج آن بر اهمیت نقد و ارزیابی دقیق منابع و محتواهای تولیدشده با هوش مصنوعی تاکید و یادآوری می‌کند که هوش مصنوعی هنوز در مرحله‌ای است که نباید پاسخ‌های آن را بدون بررسی جدی پذیرفت.

کد خبر 907517

پژوهشی نشان داد

محتواهای هوش مصنوعی باید تحت ارزیابی مکرر قرار بگیرد

برچسب‌ها

نظر شما

آخرین اخبار شهرهای جهان

از نفوذ موفق فناوری در مدیریت پسماند تا آلوده‌ترین شهرهای جهان در سال ۲۰۲۶

نمودار قیمت دلار ۲۴ بهمن ۱۴۰۴ + شاخص دلار آمریکا

نمودار قیمت طلا ۲۴ بهمن ۱۴۰۴ + قیمت جهانی طلا

کدام کشور بیشترین پوشش جنگلی جهان را دارد؟

آینده معماری در تخریب نیست، در بازاندیشی گذشته است

نیویورک دفتر مسئولیت‌پذیری الگوریتمی ایجاد می‌کند

از سرمایه‌گذاری هزار میلیاردی در طرح‌های دانش‌بنیان تا ابلاغ عیدی ۱۰ میلیون تومانی

۱۰ شهر آلوده جهان در سال ۲۰۲۶ کدامند؟

وقتی اینترنت آب شهرها را خشک می‌کند

نمودار قیمت دلار ۲۳ بهمن ۱۴۰۴ + شاخص دلار آمریکا