۶ اردیبهشت ۱۴۰۴ - ۱۷:۳۹

مدل‌های اصلی هوش مصنوعی همچون ChatGPT به راحتی قابل دور زدن هستند

تحقیقات جدید نشان می‌دهد که تمام مدل‌های اصلی هوش مصنوعی از جمله ChatGPT، Gemini و Claude به روش‌های ساده‌ای قابل دور زدن هستند و می‌توان آنها را وادار به نقض دستورالعمل‌های طراحی شده توسط توسعه‌دهندگان کرد.

به گزارش خبرگزاری ایمنا و به نقل از فیوچریزم، محققان امنیتی با استفاده از تکنیک‌های به نسبت ساده‌ای توانسته‌اند محدودیت‌های اخلاقی و امنیتی این سیستم‌ها را دور بزنند. این تکنیک‌ها شامل استفاده از دستورالعمل‌های خاص، تغییر فرمول‌بندی سوالات و به کارگیری متدهای مهندسی پیچیده‌تر می‌شود. یکی از محققان در این باره گفت: شگفت‌انگیز است که چطور با کمی تغییر در نحوه پرسش می‌توان این سیستم‌های پیشرفته را وادار به تولید محتوای خطرناک یا نادرست کرد.

شرکت‌های توسعه‌دهنده این مدل‌ها از جمله OpenAI، گوگل و Anthropic در واکنش به این گزارش اعلام کرده‌اند که از این موضوع اطلاع داشته و در حال کار بر روی راهکارهای امنیتی پیشرفته‌تر هستند. سخنگوی OpenAI گفت: به طور مداوم در حال بهبود مکانیسم‌های امنیتی مدل‌های خود هستیم و به کاربران توصیه می‌کنیم آخرین به‌روزرسانی‌های امنیتی را نصب کنند.

کارشناسان هشدار می‌دهند که این آسیب‌پذیری می‌تواند به سوءاستفاده‌های گسترده منجر شود، از جمله تولید محتوای مخرب، انتشار اطلاعات نادرست و حتی کمک به فعالیت‌های مجرمانه. آنها از جامعه فناوری خواسته‌اند تا پیش از گسترش بیشتر کاربردهای هوش مصنوعی، استانداردهای امنیتی سخت‌گیرانه‌تری را توسعه دهند.

کد خبر 860979

مدل‌های اصلی هوش مصنوعی همچون ChatGPT به راحتی قابل دور زدن هستند

برچسب‌ها

نظر شما

آخرین اخبار فناوری

دانشگاهیان کشور با آرمان‌های امام راحل تجدید بیعت کردند

تمدید مهلت ثبت‌نام در فراخوان جذب اعضای هیئت علمی تا ۲۴ بهمن‌

کلاس‌های دانشگاه تهران در تمامی مقاطع تحصیلی حضوری برگزار می‌شود

بارش شهابی α- Centaurid 2026 چه زمانی به اوج می‌رسد؟

از تثبیت اقتدار جمهوری اسلامی در دنیا تا پیشتازی کشور در تولیدات علمی

توزیع کارت آزمون دکتری از امروز

آزمون دکتری ۲۴ بهمن در ۱۲۵ شهرستان برگزار می‌شود

اپل ممکن است پشتیبانی از چت‌بات‌های هوش مصنوعی را در CarPlay فعال کند

تسلا تولید Model S و Model X را متوقف می‌کند

خودروی زیکر ۰۰۹ مدل ۲۰۲۶ چه مشخصاتی دارد؟