به گزارش خبرگزاری ایمنا، در چند سال اخیر، جهان فناوری درگیر موجی بیسابقه از تحول در عرصه هوش مصنوعی شده است؛ موجی که از مرز پیشرفتهای تدریجی گذشته و به جهشی بنیادین شباهت دارد. در قلب این تحول، معماریای قرار دارد که امروز همچون ستون فقرات بسیاری از سامانههای پیشرفته شناخته میشود. «ترنسفورمر».
این معماری نخستین بار در سال ۲۰۱۷ توسط پژوهشگران گوگل معرفی شد؛ ابتکاری که بهسرعت مرزهای پردازش داده را دگرگون کرد، ترنسفورمر با مکانیزم منحصربهفرد خود موسوم به «توجه» (Attention)، محدودیتهای مدلهای پیشین را کنار زد و راه را برای ساخت مدلهایی هموار ساخت که نهتنها متن، بلکه تصویر، صدا و حتی دادههای چندرسانهای را با دقتی بیسابقه درک میکنند.
امروز اگر نامهایی همچون GPT، Gemini یا VEO در صدر اخبار فناوری دیده میشود، باید دانست که همه این مدلها بر شانههای ترنسفورمر ایستادهاند، با این حال مسیر پیشرفت هیچگاه متوقف نشده است. درست همانگونه که هر فناوری نوین پس از تولد نیازمند بازآفرینیهای پیاپی است، پژوهشگران نیز در سالهای اخیر دست به تغییرات و اصلاحات اساسی بر بستر ترنسفورمر زدهاند؛ تغییراتی که هر یک جهشی تازه در توانمندی هوش مصنوعی رقم زده است.
تغییراتی که «مغز» هوش مصنوعی را بازآفرینی کردند
نخستین نوآوری بزرگ، Mixture of Experts بود؛ رویکردی که در مدل DeepSeek مورد استفاده قرار گرفت، در این شیوه، مدل بهجای آنکه همه وظایف را بهطور یکنواخت انجام دهد، هر بخش از پردازش را به «کارشناسی» ویژه میسپارد، حاصل آن کاهش چشمگیر مصرف منابع محاسباتی و افزایش بهرهوری است.
نوآوری دوم، Shared Query-Key در خانواده مدلهای LLaMA بود؛ تغییری ظریف اما بنیادین که با اشتراکگذاری بخشهایی از مکانیزم توجه، سرعت پردازش را افزایش داد و مصرف انرژی را بهینه ساخت.
سومین تحول، Conformer بود؛ معماریای که برای پردازش همزمان صوت و تصویر طراحی شد و توانست مرزهای بینایی ماشین و گفتار را جابهجا کند، هر یک از این نوآوریها، نشان داد که مغز هوش مصنوعی ایستا نیست، بلکه ساختاری است که با هر بازطراحی میتواند به سطحی تازه از قدرت و کارایی برسد.
پروژهای تازه با رویکردی بنیادین
در روزهای اخیر اما نام پروژهای جدید در محافل پژوهشی شنیده میشود، پروژهای که جسورانه میکوشد معماری ترنسفورمر را از نو بازتعریف کند، هدف این پروژه، نهتنها بهینهسازی بخشی از سازوکار موجود، بلکه طراحی دوباره «مغز» هوش مصنوعی است.
برای درک سادهتر، میتوان هوش مصنوعی را به انسانی مصنوعی تشبیه کرد، این انسان مصنوعی سه مرحله اساسی را پشت سر میگذارد؛ نخست، ساخت مغز یا همان طراحی معماری پایه؛ دوم، آموزش مغز با حجم عظیمی از دادهها؛ و در نهایت استفاده از مغز در وظایفی همچون مکالمه، جستوجو، ترجمه یا خلق محتوا. بیشتر مدلهای کنونی، مغز خود را بر اساس ترنسفورمر شکل دادهاند، اما تجربه Mixture of Experts، Shared Query-Key و Conformer نشان داده است که تغییر در همین مرحله نخست یعنی معماری مغز میتواند نتایجی شگفتانگیز به همراه داشته باشد.
پروژه تازه بهطور دقیق در همین نقطه تمایز پیدا میکند. پژوهشگران گزارش دادهاند که این معماری بازطراحیشده، در آزمایشهای اولیه توانسته است از نسخههای مرسوم ترنسفورمر عملکرد بهتری نشان دهد. این برتری ممکن است به معنای سرعت بیشتر در پردازش، دقت بالاتر در پاسخدهی یا حتی توانایی درک و تولید محتوای پیچیدهتر باشد.
پیامدهایی فراتر از آزمایشگاه
اگرچه چنین دستاوردی در وهله نخست برای جامعه علمی و پژوهشی اهمیت دارد، اما بازتاب آن بهسرعت به زندگی روزمره نیز خواهد رسید. دستیارهای هوشمند شخصی، موتورهای جستوجو، سامانههای ترجمه آنی، ابزارهای خلاقیت دیجیتال و حتی فناوریهای آموزشی میتوانند از این «مغز» تازه و کارآمدتر بهرهمند شوند.
این تحول یادآور یک حقیقت بنیادین است، «مسیر هوش مصنوعی، مسیری ایستا و خطی نیست». هر بازآفرینی معماری میتواند آیندهای تازه ترسیم کند؛ آیندهای که در آن، ماشینها نهتنها سریعتر و دقیقتر، بلکه خلاقتر و نزدیکتر به تواناییهای ذهن انسانی خواهند بود.
شاید آنچه امروز در آزمایشگاههای تحقیقاتی بهعنوان یک پروژه نوپا در جریان است، فردا به نقطه عطفی بدل شود که تاریخچه هوش مصنوعی را بازنویسی کند. ترنسفورمر در سال ۲۰۱۷ مرزهای تازهای گشود؛ اکنون اما به نظر میرسد که وقت آن رسیده باشد مغزی تازه، آیندهای متفاوت را برای فناوری هوشمند جهان رقم بزند.

چتبات هوش مصنوعی روی موبایل بدون سرور
علی زارعان، کارشناس ارشد هوش مصنوعی در گفتوگو با خبرنگار ایمنا اظهار کرد: نوآوری در معماری مدلهای ترانسفورمر میتواند علاوهبر ارتقای عملکرد چتباتهای بزرگ، امکان اجرای مدلهای هوش مصنوعی کوچک و کمهزینه را روی دستگاههای شخصی فراهم کند.
وی بیانکرد: در دنیای هوش مصنوعی سه رکن اصلی وجود دارد؛ نخست ساختار و معماری مدل که همچون مغز عمل میکند، دوم روش آموزش مدل و سوم دادههایی که برای آموزش استفاده میشود، هرچه معماری این «مغز» پیشرفتهتر باشد، قابلیت یادگیری و انجام وظایف پیچیدهتر افزایش پیدا میکند.
کارشناس ارشد هوش مصنوعی با اشاره به اهمیت معماری مدلها خاطرنشان کرد: تمام مدلهای بزرگ امروزی همچون GPT و DeepSeek بر پایه معماری ترانسفورمر هستند که سال ۲۰۱۷ توسط گوگل معرفی شد و جهشی بزرگ در هوش مصنوعی ایجاد کرد. از آن زمان تاکنون، نوآوریهای محدودی روی این معماری انجام شده که هر کدام تأثیر چشمگیری داشتهاند؛ برای نمونه استفاده از روش Mixture of Experts در DeepSeek موجب کاهش چشمگیر هزینه اجرای مدل شد.
زارعان ادامه داد: پروژهای که من روی آن کار میکنم، یک نوآوری در همین معماری ترانسفورمر است که میتواند در طیف وسیعی از کاربردها، از پردازش متن و تصویر گرفته تا صوت و تحلیل داده، مورد استفاده قرار گیرد، این نوآوری هم برای مدلهای بزرگ در مقیاس GPT و هم برای مدلهای کوچک قابل اجرا است.
وی درباره نمونه عملی این ایده تصریح کرد: در حال حاضر این نوآوری را روی یک چتبات خاصمنظوره کوچک پیادهسازی میکنم که میتواند روی تلفن همراه بدون نیاز به اتصال اینترنت اجرا شود و به قدرت پردازشی بسیار کمی نیاز دارد، این ویژگی میتواند تحولی بزرگ در دسترسپذیری و کارایی هوش مصنوعی ایجاد کند.

به گزارش ایمنا، معماری ترنسفورمر، نقطه عطفی در تاریخ هوش مصنوعی بود و تغییرات خلاقانه بر بستر آن، موتور محرک نسلهای جدید این فناوری محسوب میشوند. پروژه جدید با بازطراحی این معماری، گامی دیگر در مسیر ساخت «مغزهای» قدرتمندتر برای ماشینها برداشته است. اگر این روند ادامه پیدا کند، میتوان انتظار داشت که در آیندهای نهچندان دور، مدلهای هوش مصنوعی نهتنها سریعتر و دقیقتر، بلکه انعطافپذیرتر و خلاقتر از همیشه عمل کنند و این یعنی ورود به عصری که مرز میان تواناییهای انسان و ماشین، بیشازپیش کمرنگ خواهد شد.


نظر شما