به گزارش خبرگزاری ایمنا، در گذشته تشخیص تصاویر ساختهشده توسط هوش مصنوعی از نمونههای انسانی بسیار آسان بود. تنها دو سال پیش، استفاده از مدلهای تصویری برای طراحی منوی یک رستوران مکزیکی موجب ابداع واژگان عجیب و غریبی میشد که هیچ شباهتی به املای صحیح خوراکها نداشت، اما اکنون مدل جدید ChatGPT Images 2.0 با نگارش صحیح متن، منویی طراحی میکند که بدون هیچ نقصی در یک رستوران واقعی قابل استفاده است و مشتریان متوجه مصنوعی بودن آن نخواهند شد.
تولیدکنندههای تصویر هوش مصنوعی پیش از این بهدلیل استفاده از مدلهای انتشار ( Diffusion) که تصاویر را از طریق بازسازی نویز تولید میکردند، در املای کلمات دچار مشکل بودند، پژوهشگران در سالهای اخیر به سراغ مکانیسمهای دیگری نظیر مدلهای خودبازگشت (Autoregressive) رفتهاند که عملکردی مشابه مدلهای زبانی بزرگ دارند. با وجود این، OpenAI در نشست خبری اخیر خود از پاسخ به پرسشی درباره نوع دقیق مدل به کار رفته در Images 2.0 خودداری کرد.
این شرکت توضیح داد که مدل جدید قابلیت تفکر دارد، که به آن اجازه میدهد در وب جستوجو کند، از یک دستور واحد چندین تصویر بسازد و خروجیهای خود را دوباره بررسی کند. این ویژگیها، Images 2.0 را قادر میسازد تا داراییهای بازاریابی در ابعاد مختلف و حتی کمیکاستریپهای چندپنلی تولید کند، همچنین این مدل در درک و نگارش متون غیرلاتین به زبانهایی همچون هندی، بنگالی، کرهای و ژاپنی توانایی بسیار بالایی پیدا کرده است. بر اساس بیانیه رسمی OpenAI، این مدل سطح بیسابقهای از دقت را به ارمغان آورده است و میتواند جزئیات ظریفی همچون آیکونها، عناصر رابط کاربری و ترکیببندیهای متراکم را با وضوح 2K رندر کند. اگرچه تولید تصاویر پیچیده چند دقیقهای زمان میبرد، اما کیفیت خروجی جهش بزرگی داشته است. دسترسی به این ابزار از روز سهشنبه برای همه کاربران آغاز شده و نسخه API آن نیز با نام gpt-image-2 در اختیار توسعهدهندگان قرار میگیرد.
نظر شما