معماری جدید گوگل برای غلبه بر محدودیت های جدی معماری Transformer با سرعت دو برابری در استدلال و کاهش ۵۰ درصدی پارامتر ها
در حوزه هوش مصنوعی، از همون ابتدا مدلهای زبانی بزرگ به دلیل مشکل بزرگ و کند بودن مورد انتقاد بودن. با وجود افزایش بی وقفه تعداد پارامترها، مشکلاتی مانند کاهش کارایی در متون طولانی و مصرف بیهوده منابع محاسباتی همچنان به قوت خود باقی موندن.
معماری Transformer همیشه ستون فقرات مدل های بزرگ زبانی بوده، اما با افزایش طول متن ورودی، ضعف های اونها بیشتر آشکار میشه.
همچنین Transformer ها منابع محاسباتی رو به طور برابر و بدون توجه به پیچیدگی هر توکن تخصیص میدن، این موضوع باعث پردازش غیرضروری عبارات ساده میشه. از سوی دیگه، ذخیرهسازی مقادیر کلید و مقدار (KV Cache) برای پشتیبانی از طول های بالا، حافظه عظیمی مصرف میکنه.
توی این مقاله محققین گوگل با معماری جدید Mixture-of-Recursions (بهاختصار MoR)، دو مفهوم مهم، به اشتراک گذاری پارامتر و محاسبه تطبیقی رو در هم آمیختن تا مسیر جدیدی باز کنن.
گوگل دیپ مایند معماری جدیدی برای مدلهای زبانی بزرگ (LLM) با نام Mixture-of-Recursions (MoR) معرفی کرده، معماری که انقلابی توصیف شده و این پتانسیل رو داره که به «قاتل ترنسفورمرها» تبدیل شه
https://arxiv.org/abs/2507.10524
در حوزه هوش مصنوعی، از همون ابتدا مدلهای زبانی بزرگ به دلیل مشکل بزرگ و کند بودن مورد انتقاد بودن. با وجود افزایش بی وقفه تعداد پارامترها، مشکلاتی مانند کاهش کارایی در متون طولانی و مصرف بیهوده منابع محاسباتی همچنان به قوت خود باقی موندن.
معماری Transformer همیشه ستون فقرات مدل های بزرگ زبانی بوده، اما با افزایش طول متن ورودی، ضعف های اونها بیشتر آشکار میشه.
همچنین Transformer ها منابع محاسباتی رو به طور برابر و بدون توجه به پیچیدگی هر توکن تخصیص میدن، این موضوع باعث پردازش غیرضروری عبارات ساده میشه. از سوی دیگه، ذخیرهسازی مقادیر کلید و مقدار (KV Cache) برای پشتیبانی از طول های بالا، حافظه عظیمی مصرف میکنه.
توی این مقاله محققین گوگل با معماری جدید Mixture-of-Recursions (بهاختصار MoR)، دو مفهوم مهم، به اشتراک گذاری پارامتر و محاسبه تطبیقی رو در هم آمیختن تا مسیر جدیدی باز کنن.
گوگل دیپ مایند معماری جدیدی برای مدلهای زبانی بزرگ (LLM) با نام Mixture-of-Recursions (MoR) معرفی کرده، معماری که انقلابی توصیف شده و این پتانسیل رو داره که به «قاتل ترنسفورمرها» تبدیل شه
https://arxiv.org/abs/2507.10524
arXiv.org
Mixture-of-Recursions: Learning Dynamic Recursive Depths for...
Scaling language models unlocks impressive capabilities, but the accompanying computational and memory demands make both training and deployment expensive. Existing efficiency efforts typically...
👍13❤4🔥3
Tensorflow(@CVision)
معماری جدید گوگل برای غلبه بر محدودیت های جدی معماری Transformer با سرعت دو برابری در استدلال و کاهش ۵۰ درصدی پارامتر ها در حوزه هوش مصنوعی، از همون ابتدا مدلهای زبانی بزرگ به دلیل مشکل بزرگ و کند بودن مورد انتقاد بودن. با وجود افزایش بی وقفه تعداد پارامترها،…
برای مثال، زمانی که یک متن طولانی رو به یک مدل هوش مصنوعی میدیم، مدل میتونه به طور دقیق به سوالات در نیمهی اول متن پاسخ بده، اما در نیمهی دوم شروع به گفتن مطالب بی ربط یا نامفهوم میکنه. این مسئله تصادفی نیست. مطالعات اخیر نشون دادن که مدلهای بزرگ فعلی در پردازش متون طولانی با افت عملکرد قابلتوجهی مواجه میشن و این افت در مدلهای مختلف در نقاط متفاوتی رخ میده، برخی مدلها در هنگام خواندن صفحه دهم یه کتاب عملکردشون به طور چشمگیری کاهش میابه، در حالیکه برخی دیگه تا صفحهی صدم دوام میارن.
علت اصلی این کاهش عملکرد، نقصهای ذاتی در معماری ترنسفورمر (Transformer) سنتی هست.
ترنسفورمر با انباشتن لایه ها سعی در افزایش توانایی مدل دارن، اما این روش باعث میشه منابع محاسباتی بدون توجه به میزان پیچیدگی هر توکن به طور یکنواخت تخصیص یابن. توکنهای ساده (مانند حروف ربط و فعلهای کمکی) و توکنهای پیچیده (مانند اصطلاحات تخصصی و جملات بلند) به یک اندازه پردازش میشن، که این امر منجر به محاسبات زائد زیادی میشه.
در عین حال، مکانیزم (KV Cache) در مواجهه با متون طولانی حجم زیادی از حافظه رو اشغال میکنه و این موضوع نیز کارایی مدل رو بیشتر محدود میکنه.
علت اصلی این کاهش عملکرد، نقصهای ذاتی در معماری ترنسفورمر (Transformer) سنتی هست.
ترنسفورمر با انباشتن لایه ها سعی در افزایش توانایی مدل دارن، اما این روش باعث میشه منابع محاسباتی بدون توجه به میزان پیچیدگی هر توکن به طور یکنواخت تخصیص یابن. توکنهای ساده (مانند حروف ربط و فعلهای کمکی) و توکنهای پیچیده (مانند اصطلاحات تخصصی و جملات بلند) به یک اندازه پردازش میشن، که این امر منجر به محاسبات زائد زیادی میشه.
در عین حال، مکانیزم (KV Cache) در مواجهه با متون طولانی حجم زیادی از حافظه رو اشغال میکنه و این موضوع نیز کارایی مدل رو بیشتر محدود میکنه.
👍7❤2👌1
Tensorflow(@CVision)
برای مثال، زمانی که یک متن طولانی رو به یک مدل هوش مصنوعی میدیم، مدل میتونه به طور دقیق به سوالات در نیمهی اول متن پاسخ بده، اما در نیمهی دوم شروع به گفتن مطالب بی ربط یا نامفهوم میکنه. این مسئله تصادفی نیست. مطالعات اخیر نشون دادن که مدلهای بزرگ فعلی…
برای حل این مشکلات، پژوهشگران به طور فعال در دو مسیر مختلف تحقیق میکنن:
یکی افزایش بهره وری از پارامترها از طریق «اشتراک وزنها»، و دوم اختصاص پویا (دینامیک) منابع محاسباتی بر اساس میزان پیچیدگی ورودی، تا بتوان به نوعی «پردازش تطبیقی» دست پیدا کنه.
این معماری MoR (Mixture of Routing) به طور هوشمندانه این دو ایده رو با هم ترکیب کرده و مسیر تازهای رو برای توسعه مدلهای زبانی بزرگ گشوده.
اول اشتراک پارامترها:
در مدلهای معمولی، هر لایه مجموعهی مستقلی از پارامترها دارن که باعث افزایش حجم مدل میشه. اما با اشتراک گذاری پارامترها بین لایهها، میشه همون عملکرد رو با تعداد کمتری از پارامترها حفظ کرد. این کار باعث کاهش حافظه مورد نیاز و ساده تر شدن آموزش مدل میشه. MoR این ویژگی را از معماری های Recursive Transformer (ترنسفورمر بازگشتی) به ارث میبره، یعنی مدل چندین بار از یک بلوک ترنسفورمری تکرارشونده استفاده میکنه.
دوم محاسبه تطبیقی:
بهجای اینکه همهی توکنها (کلمات یا نشانهها) بهصورت مساوی پردازش شن، در این رویکرد مدل بر اساس پیچیدگی هر توکن تصمیم میگیره چقدر منابع محاسباتی به اون اختصاص بده. مثلاً ممکنه واژهای ساده مثل "and" خیلی سریع پردازش شه، اما عبارتی پیچیده یا تخصصی مثل "quantum entanglement" نیاز به پردازش عمیق تری داشته باشه.
سوم مسیردهی پویا در سطح توکن:
در این بخش از MoR، مدل بهصورت پویا تصمیم میگیره که هر توکن در کدام مسیر یا زیرشبکه (subnetwork) پردازش شه. این ایده شبیه به مفهوم Mixture of Experts هست، ولی در MoR به جای انتخاب بین چند "کارشناس" مجزا، مسیرهای محاسباتی با بازدهی بالا و اشتراکی در سطح توکنها طراحی شدن.
و مهمترین بخش چهارم معماری همافزا!
ترکیب این دو ویژگی (اشتراک پارامتر و محاسبه تطبیقی) در قالب یک فریم ورک واحد، باعث شده MoR یک معماری «همافزا» باشه؛ یعنی این دو رویکرد نهتنها تداخلی با هم ندارن، بلکه عملکرد یکدیگر رو تقویت می کنن
یکی افزایش بهره وری از پارامترها از طریق «اشتراک وزنها»، و دوم اختصاص پویا (دینامیک) منابع محاسباتی بر اساس میزان پیچیدگی ورودی، تا بتوان به نوعی «پردازش تطبیقی» دست پیدا کنه.
این معماری MoR (Mixture of Routing) به طور هوشمندانه این دو ایده رو با هم ترکیب کرده و مسیر تازهای رو برای توسعه مدلهای زبانی بزرگ گشوده.
اول اشتراک پارامترها:
در مدلهای معمولی، هر لایه مجموعهی مستقلی از پارامترها دارن که باعث افزایش حجم مدل میشه. اما با اشتراک گذاری پارامترها بین لایهها، میشه همون عملکرد رو با تعداد کمتری از پارامترها حفظ کرد. این کار باعث کاهش حافظه مورد نیاز و ساده تر شدن آموزش مدل میشه. MoR این ویژگی را از معماری های Recursive Transformer (ترنسفورمر بازگشتی) به ارث میبره، یعنی مدل چندین بار از یک بلوک ترنسفورمری تکرارشونده استفاده میکنه.
دوم محاسبه تطبیقی:
بهجای اینکه همهی توکنها (کلمات یا نشانهها) بهصورت مساوی پردازش شن، در این رویکرد مدل بر اساس پیچیدگی هر توکن تصمیم میگیره چقدر منابع محاسباتی به اون اختصاص بده. مثلاً ممکنه واژهای ساده مثل "and" خیلی سریع پردازش شه، اما عبارتی پیچیده یا تخصصی مثل "quantum entanglement" نیاز به پردازش عمیق تری داشته باشه.
سوم مسیردهی پویا در سطح توکن:
در این بخش از MoR، مدل بهصورت پویا تصمیم میگیره که هر توکن در کدام مسیر یا زیرشبکه (subnetwork) پردازش شه. این ایده شبیه به مفهوم Mixture of Experts هست، ولی در MoR به جای انتخاب بین چند "کارشناس" مجزا، مسیرهای محاسباتی با بازدهی بالا و اشتراکی در سطح توکنها طراحی شدن.
و مهمترین بخش چهارم معماری همافزا!
ترکیب این دو ویژگی (اشتراک پارامتر و محاسبه تطبیقی) در قالب یک فریم ورک واحد، باعث شده MoR یک معماری «همافزا» باشه؛ یعنی این دو رویکرد نهتنها تداخلی با هم ندارن، بلکه عملکرد یکدیگر رو تقویت می کنن
❤6👍4
استدلال تطبیقی در مدلهای زبانی بزرگ، روشی نوین برای «تفکر به اندازه نیاز» در هوش مصنوعی
در روند توسعه مدل های زبانی بزرگ نظیر GPT، LLaMA و مشابه های چینی اون، یکی از چالش های اساسی، دستیابی به تعادلی میان دقت و کارایی در پاسخگویی به سؤالات متنوع هست.
بهطور خاص، پرسش های ساده نیاز به پاسخ های سریع و مختصر دارن، در حالی که مسائل پیچیده مستلزم تحلیل و استدلال چند مرحلهای هستن. پیاده سازی یه رویکرد یکسان برای تمام پرسش ها منجر به اتلاف منابع محاسباتی یا موجب افت دقت پاسخ میشه.
برای حل این معضل، مفهوم نوینی به نام استدلال تطبیقی (Adaptive Reasoning) مطرح شده. در این رویکرد، مدل یاد میگیره که بسته به نوع و پیچیدگی سؤال، میزان «تفکر» مورد نیاز رو تنظیم کنه.
نکته قابل توجه اینجاست که پیادهسازی این قابلیت نیازی به باز آموزی کامل مدل پایه نداره و با بهرهگیری از روشهایی چون Fine-tuning، یادگیری تقویتی (Reinforcement Learning)، یا مهندسی پرامپت (Prompt Engineering) قابل انجامه.
https://arxiv.org/html/2507.09662v1
در روند توسعه مدل های زبانی بزرگ نظیر GPT، LLaMA و مشابه های چینی اون، یکی از چالش های اساسی، دستیابی به تعادلی میان دقت و کارایی در پاسخگویی به سؤالات متنوع هست.
بهطور خاص، پرسش های ساده نیاز به پاسخ های سریع و مختصر دارن، در حالی که مسائل پیچیده مستلزم تحلیل و استدلال چند مرحلهای هستن. پیاده سازی یه رویکرد یکسان برای تمام پرسش ها منجر به اتلاف منابع محاسباتی یا موجب افت دقت پاسخ میشه.
برای حل این معضل، مفهوم نوینی به نام استدلال تطبیقی (Adaptive Reasoning) مطرح شده. در این رویکرد، مدل یاد میگیره که بسته به نوع و پیچیدگی سؤال، میزان «تفکر» مورد نیاز رو تنظیم کنه.
نکته قابل توجه اینجاست که پیادهسازی این قابلیت نیازی به باز آموزی کامل مدل پایه نداره و با بهرهگیری از روشهایی چون Fine-tuning، یادگیری تقویتی (Reinforcement Learning)، یا مهندسی پرامپت (Prompt Engineering) قابل انجامه.
https://arxiv.org/html/2507.09662v1
❤4⚡3👍1
Tensorflow(@CVision)
استدلال تطبیقی در مدلهای زبانی بزرگ، روشی نوین برای «تفکر به اندازه نیاز» در هوش مصنوعی در روند توسعه مدل های زبانی بزرگ نظیر GPT، LLaMA و مشابه های چینی اون، یکی از چالش های اساسی، دستیابی به تعادلی میان دقت و کارایی در پاسخگویی به سؤالات متنوع هست.…
رویکردهای موجود در استدلال تطبیقی
1. روش مبتنی بر کنترل کاربر مثل مدل Qwen3
در این رویکرد، تصمیمگیری درخصوص میزان استدلال مورد نیاز به کاربر سپرده میشه. مدل از طریق علائمی مانند
و
تشخیص میده که پاسخ باید شامل استدلال چند مرحلهای باشه یا خیر.
با این روش، کاربر در تعیین سطح پاسخ نقش مستقیم داره. برای آموزش مدل، از مجموعه دادههایی شامل نمونه های دارای هر دو نوع پاسخ (ساده و تحلیلی) استفاده شده و از طریق fine-tuning، قابلیت تطبیق ایجاد میشه.
2. رویکرد مبتنی بر بهینهسازی هزینه،فایده مدل AdaCoT (توسعهیافته توسط ByteDance)
این روش از الگویی شبیه به تحلیل اقتصادی بهره میبره، مدل سعی میکنه با صرف حداقل منابع محاسباتی، حداکثر دقت پاسخ رو فراهم کنه. در ابتدا، داده ها برچسب گذاری میشن تا مشخص شه کدوم پرسش ها نیاز به تفکر دارن. سپس مدل از طریق fine-tuning و یادگیری تقویتی با معیارهایی مانند دقت پاسخ، اجتناب از تفکر غیر ضروری، و صرف زمان بهینه آموزش میبینه. برای رسیدن به این هدف، از روشهایی نظیر Selective Loss Masking استفاده میشه.
1. روش مبتنی بر کنترل کاربر مثل مدل Qwen3
در این رویکرد، تصمیمگیری درخصوص میزان استدلال مورد نیاز به کاربر سپرده میشه. مدل از طریق علائمی مانند
/think
و
/no_think
تشخیص میده که پاسخ باید شامل استدلال چند مرحلهای باشه یا خیر.
با این روش، کاربر در تعیین سطح پاسخ نقش مستقیم داره. برای آموزش مدل، از مجموعه دادههایی شامل نمونه های دارای هر دو نوع پاسخ (ساده و تحلیلی) استفاده شده و از طریق fine-tuning، قابلیت تطبیق ایجاد میشه.
2. رویکرد مبتنی بر بهینهسازی هزینه،فایده مدل AdaCoT (توسعهیافته توسط ByteDance)
این روش از الگویی شبیه به تحلیل اقتصادی بهره میبره، مدل سعی میکنه با صرف حداقل منابع محاسباتی، حداکثر دقت پاسخ رو فراهم کنه. در ابتدا، داده ها برچسب گذاری میشن تا مشخص شه کدوم پرسش ها نیاز به تفکر دارن. سپس مدل از طریق fine-tuning و یادگیری تقویتی با معیارهایی مانند دقت پاسخ، اجتناب از تفکر غیر ضروری، و صرف زمان بهینه آموزش میبینه. برای رسیدن به این هدف، از روشهایی نظیر Selective Loss Masking استفاده میشه.
👍6❤3
Tensorflow(@CVision)
رویکردهای موجود در استدلال تطبیقی 1. روش مبتنی بر کنترل کاربر مثل مدل Qwen3 در این رویکرد، تصمیمگیری درخصوص میزان استدلال مورد نیاز به کاربر سپرده میشه. مدل از طریق علائمی مانند /think و /no_think تشخیص میده که پاسخ باید شامل استدلال چند مرحلهای…
3. رویکرد تصمیمگیری خودکار مدل AdaptThink (توسعهیافته توسط دانشگاه Tsinghua چین)
در این رویکرد، مدل بدون مداخله کاربر یا تحلیل هزینه–فایده، به طور خودکار تصمیم میگیره که در چه زمانی نیاز به استدلال و تفکر چند مرحلهای وجود داره.
برای اطمینان از کیفیت پاسخ، در فرایند آموزش از قید هایی استفاده میشه که مدل رو ملزم میکنه در پاسخ های بدون استدلال نیز کیفیتی هم سطح پاسخ های تحلیلی ارائه بده. همچنین، مدل با بهرهگیری از تکنیکهایی نظیر یادگیری تقویتی (PPO) به تصمیم گیری هوشمندانه دست میابه.
در حال حاضر، تمرکز این رویکرد تنها بر تصمیمگیری ابتدایی در خصوص نیاز یا عدم نیاز به استدلال هست. اما در آینده انتظار میره قابلیت هایی نظیر موارد زیر به اون افزوده شه:
برنامهریزی استدلال چندمرحلهای: مدل قادر خواهد بود پیش بینی کنه چند مرحله استدلال لازمه و چگونه اون رو مدیریت کنه.
بازنگری و اصلاح پاسخ: در صورت تشخیص اشتباه، مدل میتونه برگرده و پاسخ خودش رو بهبود ببخشه.
ادغام با حافظه خارجی یا سیستمهای بازیابی اطلاعات (RAG): مدل بر اساس نیاز، اطلاعات مرتبط رو از پایگاههای داده یا منابع خارجی بازیابی و در فرآیند استدلال وارد میکنه.
در این رویکرد، مدل بدون مداخله کاربر یا تحلیل هزینه–فایده، به طور خودکار تصمیم میگیره که در چه زمانی نیاز به استدلال و تفکر چند مرحلهای وجود داره.
برای اطمینان از کیفیت پاسخ، در فرایند آموزش از قید هایی استفاده میشه که مدل رو ملزم میکنه در پاسخ های بدون استدلال نیز کیفیتی هم سطح پاسخ های تحلیلی ارائه بده. همچنین، مدل با بهرهگیری از تکنیکهایی نظیر یادگیری تقویتی (PPO) به تصمیم گیری هوشمندانه دست میابه.
در حال حاضر، تمرکز این رویکرد تنها بر تصمیمگیری ابتدایی در خصوص نیاز یا عدم نیاز به استدلال هست. اما در آینده انتظار میره قابلیت هایی نظیر موارد زیر به اون افزوده شه:
برنامهریزی استدلال چندمرحلهای: مدل قادر خواهد بود پیش بینی کنه چند مرحله استدلال لازمه و چگونه اون رو مدیریت کنه.
بازنگری و اصلاح پاسخ: در صورت تشخیص اشتباه، مدل میتونه برگرده و پاسخ خودش رو بهبود ببخشه.
ادغام با حافظه خارجی یا سیستمهای بازیابی اطلاعات (RAG): مدل بر اساس نیاز، اطلاعات مرتبط رو از پایگاههای داده یا منابع خارجی بازیابی و در فرآیند استدلال وارد میکنه.
❤5
Forwarded from Deep learning channel (Alister☄)
یکی از عمیق ترین حقایق یادگیری ماشین اینست که : همواره خوب نیست که از یک مدل “پیچیده تر” استفاده کرد، مدلی که فاکتور های بیشتری را به حساب میآورد. اما مسئله مهمتر اینست: چگونه پیچیدگی یک مدل را توجیه کنیم، و یا اینکه تا چه میزان پیچیدگی یک مدل قابل توجیه است؟
در این پست سعی شده یکی از مفاهیم پایهای یادگیری ماشین، یعنی "بیشبرارزش" و روشهای مقابله با آن از یک دیدگاه فلسفی بررسی شود . اساسا بیش برارزش نوعی “بت پرستی داده” است، با پیامد تمرکز بر روی آنچه که قادر به اندازه گیری هستیم نه آنچه که اهمیت دارد.
https://alisterta.github.io/2018-09-28/چه-وقت-کم-تر-فکر-کنیم!-بررسی-پاره-ای-از-مفاهیم-یادگیری-ماشینی-از-یک-دیدگاه-فلسفی/
در این پست سعی شده یکی از مفاهیم پایهای یادگیری ماشین، یعنی "بیشبرارزش" و روشهای مقابله با آن از یک دیدگاه فلسفی بررسی شود . اساسا بیش برارزش نوعی “بت پرستی داده” است، با پیامد تمرکز بر روی آنچه که قادر به اندازه گیری هستیم نه آنچه که اهمیت دارد.
https://alisterta.github.io/2018-09-28/چه-وقت-کم-تر-فکر-کنیم!-بررسی-پاره-ای-از-مفاهیم-یادگیری-ماشینی-از-یک-دیدگاه-فلسفی/
alisterta.github.io
چه وقت کم تر فکر کنیم! بررسی پاره ای از مفاهیم یادگیری ماشینی از یک دیدگاه فلسفی
معلم ریاضی درس جدید رو شروع کرد و بدون مقدمه شروع به نوشتن فرمول کرد، اما من پافشاری کردم که قبل از ارائه فرمول فلسفه آن را شرح دهد، بعد از کمی کشمکش مجبور شدم کلاس را ترک کنیم.
❤3👍2
Deep learning channel
یکی از عمیق ترین حقایق یادگیری ماشین اینست که : همواره خوب نیست که از یک مدل “پیچیده تر” استفاده کرد، مدلی که فاکتور های بیشتری را به حساب میآورد. اما مسئله مهمتر اینست: چگونه پیچیدگی یک مدل را توجیه کنیم، و یا اینکه تا چه میزان پیچیدگی یک مدل قابل توجیه…
از دیرباز، این پرسش که «چقدر باید فکر کرد؟» دغدغه ای بنیادین در فلسفهی ذهن، معرفت و عمل بوده، پرسشی که در مقاله «چه وقت کمتر فکر کنیم، از منظر یادگیری ماشین» سعی کردم چند سال پیش به تفضیل پاسخش بدم، شاید خوندن مجدد اون خالی از لطف نباشه.
توی این مقاله سعی کردم با تکیه بر مسئله بیشبرازش، نشون بدم که افراط در تحلیل، الزاما به ادراک بهتر نمی انجامه، بلکه گاها ما رو در دام جزئیاتی میندازه و ما رو از حقیقت دور میکنه.
در اینجا، فکر کردن بیپایان به مثابه نوعی بازتولید بی معنای پیچیدگی ظاهر میشه، جایی که الگوریتم ها، و به طور استعاری انسان ها، به جای دیدن واقعیت، تنها بازتاب اغتشاش دادهها رو میبینن.
توی این مقاله سعی کردم با تکیه بر مسئله بیشبرازش، نشون بدم که افراط در تحلیل، الزاما به ادراک بهتر نمی انجامه، بلکه گاها ما رو در دام جزئیاتی میندازه و ما رو از حقیقت دور میکنه.
در اینجا، فکر کردن بیپایان به مثابه نوعی بازتولید بی معنای پیچیدگی ظاهر میشه، جایی که الگوریتم ها، و به طور استعاری انسان ها، به جای دیدن واقعیت، تنها بازتاب اغتشاش دادهها رو میبینن.
❤10👍3🔥1
Forwarded from آموزش LLM
Media is too big
VIEW IN TELEGRAM
💡 آموزش هوش مصنوعی مولد با مدلهای زبانی بزرگ (LLM)
مدرس: علیرضا اخوانپور
📅 زمان انتشار: به زودی…
📍 منتشر میشود توسط کلاسویژن در مکتبخونه
سرفصلها: https://t.iss.one/llm_huggingface/18
🔥 برای اطلاع از انتشار و دریافت کد تخفیف، همین حالا عضو کانال تلگرام ما بشید:
👇👇👇
@llm_huggingface
👆👆👆
#llm #course #دوره #مدل_زبانی_بزرگ #هوش_مصنوعی #مکتبخونه
مدرس: علیرضا اخوانپور
📅 زمان انتشار: به زودی…
📍 منتشر میشود توسط کلاسویژن در مکتبخونه
سرفصلها: https://t.iss.one/llm_huggingface/18
🔥 برای اطلاع از انتشار و دریافت کد تخفیف، همین حالا عضو کانال تلگرام ما بشید:
👇👇👇
@llm_huggingface
👆👆👆
#llm #course #دوره #مدل_زبانی_بزرگ #هوش_مصنوعی #مکتبخونه
❤18🔥4
Forwarded from آموزش LLM
📢دورهی "آموزش هوش مصنوعی مولد با مدلهای زبانی بزرگ (LLM)" منتشر شد🎉🎊
https://mktb.me/04dr/
🎁10 کد تخفیف 60 درصدی برای 10 نفر اول
🎁10 کد تخفیف 55 درصدی برای 10 نفر دوم
🎁20 کد تخفیف 50 درصدی برای 20 نفر بعدی
سرفصلهای دوره:
https://t.iss.one/llm_huggingface/18
https://mktb.me/04dr/
🎁10 کد تخفیف 60 درصدی برای 10 نفر اول
COUPON-a6296
🎁10 کد تخفیف 55 درصدی برای 10 نفر دوم
COUPON-c834a
🎁20 کد تخفیف 50 درصدی برای 20 نفر بعدی
COUPON-14e45
سرفصلهای دوره:
https://t.iss.one/llm_huggingface/18
مکتبخونه
آموزش هوش مصنوعی مولد با مدلهای زبانی بزرگ (LLM)
در این دوره ابتدا ساختار مدلهای زبانی و مفاهیم پایهای مانند زبان طبیعی، توکنسازی، ترنسفورمر و attention آموزش داده میشود. سپس مسیر آموزش این مدلها از مرحله پیشتمرین (pretraining) تا ریزتنظیم (fine-tuning) بررسی میشود.
❤13🤯3
Forwarded from آموزش LLM
به پاس استقبال شما عزیزان، تعدادی کد تخفیف 50 درصد دیگر ایجاد شد
📢دورهی "آموزش هوش مصنوعی مولد با مدلهای زبانی بزرگ (LLM)" منتشر شد🎉🎊
https://mktb.me/04dr/
سرفصلهای دوره:
https://t.iss.one/llm_huggingface/18
COUPON-091dc
📢دورهی "آموزش هوش مصنوعی مولد با مدلهای زبانی بزرگ (LLM)" منتشر شد🎉🎊
https://mktb.me/04dr/
سرفصلهای دوره:
https://t.iss.one/llm_huggingface/18
مکتبخونه
آموزش هوش مصنوعی مولد با مدلهای زبانی بزرگ (LLM)
در این دوره ابتدا ساختار مدلهای زبانی و مفاهیم پایهای مانند زبان طبیعی، توکنسازی، ترنسفورمر و attention آموزش داده میشود. سپس مسیر آموزش این مدلها از مرحله پیشتمرین (pretraining) تا ریزتنظیم (fine-tuning) بررسی میشود.
1❤8👍2❤🔥1
Voxtral
👉 @ai_python
پادکست مصنوعی فارسی تولید شده از پست اخیر ما در خصوص Train دو مدل Voxtral
ایرادات تلفظی که در این فایل می شنوید اگر چه که زیاد نیستند و سعی کردیم فایل رو با بالاترین کیفیت Generate کنیم، ولی به دلیل تولید این فایل با استفاده از هوش مصنوعی هستند. 👨💻
پادکست مصنوعی فارسی تولید شده از پست اخیر ما در خصوص Train دو مدل Voxtral
ایرادات تلفظی که در این فایل می شنوید اگر چه که زیاد نیستند و سعی کردیم فایل رو با بالاترین کیفیت Generate کنیم، ولی به دلیل تولید این فایل با استفاده از هوش مصنوعی هستند. 👨💻
1❤14❤🔥1🔥1
دنیایی از منابع برنامهنویسی توی این کانال بصورت دستهبندی شده با هشتگ بصورت روزانه قرار داده میشه.
@pythony
@pythony
❤5
FineTuning Gemma 3n for Medical VQA on ROCOv2
https://learnopencv.com/finetuning-gemma-3n-medical-vqa/
https://learnopencv.com/finetuning-gemma-3n-medical-vqa/
LearnOpenCV – Learn OpenCV, PyTorch, Keras, Tensorflow with code, & tutorials
FineTuning Gemma 3n for Medical VQA on ROCOv2
What if a radiologist facing a complex scan in the middle of the night could ask an AI assistant for a second opinion, right from their local workstation? This isn't science fiction; it's the frontier of Clinical AI, made possible by models like Google's…
👍2
Forwarded from آموزش LLM
Media is too big
VIEW IN TELEGRAM
📢دورهی "آموزش هوش مصنوعی مولد با مدلهای زبانی بزرگ (LLM)" منتشر شد🎉🎊
🔥تعداد محدودی کد تخفیف 50 درصدی جدید🔥
🔗 لینک دوره | 📄سرفصلها | 🥇کانال دوره | پیشنیاز با کد تخفیف ویژه
🔥 برای اطلاع از کدهای تخفیف، همین حالا عضو کانال تلگرام ما بشید:
👇👇👇
@llm_huggingface
👆👆👆
#llm #course #دوره #مدل_زبانی_بزرگ #هوش_مصنوعی #مکتبخونه #کلاس_ویژن
🔥تعداد محدودی کد تخفیف 50 درصدی جدید🔥
COUPON-bdfd8
🔗 لینک دوره | 📄سرفصلها | 🥇کانال دوره | پیشنیاز با کد تخفیف ویژه
🔥 برای اطلاع از کدهای تخفیف، همین حالا عضو کانال تلگرام ما بشید:
👇👇👇
@llm_huggingface
👆👆👆
#llm #course #دوره #مدل_زبانی_بزرگ #هوش_مصنوعی #مکتبخونه #کلاس_ویژن
🔥3
Forwarded from آموزش LLM
🎓 پیشنیاز دوره LLM رو از دست نده!
برای اونایی که تجربه کار با شبکههای عصبی ندارن،
۳ فصل اول دورهی "یادگیری عمیق با TensorFlow و Keras" بهترین شروعه.
🔥 الان میتونی این دوره رو با کد تخفیف ۶۰٪ و مدت محدود تهیه کنی
تا با خیال راحت وارد دنیای مدلهای زبانی بزرگ (LLM) بشی.
🎟 کد تخفیف:
🕒 فرصت محدوده – از دستش نده!
🔗https://mktb.me/2klm/
🔥 برای اطلاع از کدهای تخفیف، همین حالا عضو کانال تلگرام ما بشید:
👇👇👇
@class_vision
👆👆👆
برای اونایی که تجربه کار با شبکههای عصبی ندارن،
۳ فصل اول دورهی "یادگیری عمیق با TensorFlow و Keras" بهترین شروعه.
🔥 الان میتونی این دوره رو با کد تخفیف ۶۰٪ و مدت محدود تهیه کنی
تا با خیال راحت وارد دنیای مدلهای زبانی بزرگ (LLM) بشی.
🎟 کد تخفیف:
COUPON-30da4
🕒 فرصت محدوده – از دستش نده!
🔗https://mktb.me/2klm/
🔥 برای اطلاع از کدهای تخفیف، همین حالا عضو کانال تلگرام ما بشید:
👇👇👇
@class_vision
👆👆👆
👍2❤1
Forwarded from DeepMind AI Expert (Farzad 🦅)
متا سه نفر از کسایی که در پروژه جمنای ک توانسته بودند مدل طلا رو برای این مدل کسب کنن استخدام کرد.
https://www.latestly.com/socially/technology/meta-hires-3-more-google-deepmind-ai-researchers-who-worked-on-gemini-ai-version-that-achieved-gold-medal-level-performance-at-imo-2025-report-7014925.html/amp
https://www.latestly.com/socially/technology/meta-hires-3-more-google-deepmind-ai-researchers-who-worked-on-gemini-ai-version-that-achieved-gold-medal-level-performance-at-imo-2025-report-7014925.html/amp
👀8🔥1
Forwarded from کلاس ویژن: یادگیری عمیق و بینایی کامپیوتر
🎓 یادگیری عمیق رو اصولی یاد بگیر!
دوره محبوب یادگیری عمیق با TensorFlow و Keras، مناسب علاقهمندان به هوش مصنوعی، با ۴۰ ساعت آموزش پروژهمحور از مقدمات تا مباحث پیشرفته مثل CNN، NLP، GAN، CTC و استقرار مدلها 💡
🔥 کد تخفیف ۷۰٪ فقط برای مدت محدود:
🎥 لینک دوره:
https://mktb.me/2klm
📌 مناسب دانشجویان، پژوهشگران و همه علاقهمندان به AI
📚 بدون پیشنیاز جز پایتون!
🔥 برای اطلاع از کدهای تخفیف، همین حالا عضو کانال تلگرام ما بشید:
👇👇👇
@class_vision
👆👆👆
دوره محبوب یادگیری عمیق با TensorFlow و Keras، مناسب علاقهمندان به هوش مصنوعی، با ۴۰ ساعت آموزش پروژهمحور از مقدمات تا مباحث پیشرفته مثل CNN، NLP، GAN، CTC و استقرار مدلها 💡
🔥 کد تخفیف ۷۰٪ فقط برای مدت محدود:
COUPON-e7343
🎥 لینک دوره:
https://mktb.me/2klm
📌 مناسب دانشجویان، پژوهشگران و همه علاقهمندان به AI
📚 بدون پیشنیاز جز پایتون!
🔥 برای اطلاع از کدهای تخفیف، همین حالا عضو کانال تلگرام ما بشید:
👇👇👇
@class_vision
👆👆👆
❤6👏1💯1