This media is not supported in your browser
    VIEW IN TELEGRAM
  💡 مدل RND1 — انقلاب در تولید متن با رویکرد دیفیوژنی!
🧠 مدل RND1 یک مدل زبانی آزمایشی با ۳۰ میلیارد پارامتر است که بر پایهی معماری Sparse Mixture-of-Experts (MoE) ساخته شده؛ اما فقط ۳ میلیارد پارامتر آن در هر لحظه فعال است.
یعنی قدرت زیاد، اما با مصرف بسیار کمتر! ⚙️
🔁 تفاوت اصلی RND1 با مدلهای معمولی مثل GPT در این است که: مدلهای کلاسیک (Autoregressive) متن را کلمه به کلمه تولید میکنند،
اما RND1 کل جمله را بهصورت همزمان میسازد و سپس در چند مرحله آن را دقیقتر میکند — درست مثل مدلهای دیفیوژنی که تصویر را از «نویز» بیرون میکشند. 🎨
---
🚀 چطور ساخته شد؟
تیم Radical Numerics موفق شد یک مدل زبانی موجود (Qwen3-30B-A3B) را به مدل دیفیوژنی تبدیل کند — بدون نیاز به آموزش از صفر!
این فرآیند را AR-to-Diffusion Conversion (A2D) مینامند:
۱️⃣ انتخاب یک مدل قوی شبیه GPT
۲️⃣ تغییر مکانیزم توجه (attention) تا مدل کل متن را همزمان ببیند
۳️⃣ آموزش روی دادههای جدید با روش دیفیوژنی
۴️⃣ استفاده از نرخ یادگیری متفاوت برای بخشهای مختلف شبکه تا مدل هم «یاد قدیمی» را نگه دارد، هم «تفکر جدید» یاد بگیرد 🧩
---
⚙️ ویژگیهای کلیدی
🔸 اول MoE فعال: تنها ۳ میلیارد پارامتر در هر بار فعال میشوند → سرعت بالا و بهرهوری انرژی عالی.
🔸 یادگیری پیوسته: دانش قبلی پاک نمیشود، بلکه در منطق جدید ادغام میشود.
🔸 همچنین Batchهای عظیم: آموزش پایدار حتی هنگام مشاهدهی همزمان کل توکنها.
---
✨ چرا اهمیت دارد؟
✅ تولید موازی متن — بدون تأخیر گامبهگام
✅ مصرف کمتر منابع با حفظ کیفیت GPTهای بزرگ
✅ معماری هیبریدی بین AR و DLM
✅ کاملاً متنباز (کد، گزارش و وزنها در دسترساند)
✅ گامی مهم بهسوی هوش خودبهبودیاب (RSI)؛ مدلی که میتواند خودش را طراحی و بهبود دهد 🤖
---
📎 منابع:
🔸 وبلاگ:
radicalnumerics.ai/blog/rnd1
🔸 کد:
github.com/RadicalNumerics/RND1
🔸 گزارش فنی:
rnd1_report.pdf
🔸 وزنها:
huggingface.co/radicalnumerics/RND1-Base-0910
---
📡 @rss_ai_ir
#RND1 #RadicalNumerics #AI #DLM #DiffusionModel #MoE #OpenSource
🧠 مدل RND1 یک مدل زبانی آزمایشی با ۳۰ میلیارد پارامتر است که بر پایهی معماری Sparse Mixture-of-Experts (MoE) ساخته شده؛ اما فقط ۳ میلیارد پارامتر آن در هر لحظه فعال است.
یعنی قدرت زیاد، اما با مصرف بسیار کمتر! ⚙️
🔁 تفاوت اصلی RND1 با مدلهای معمولی مثل GPT در این است که: مدلهای کلاسیک (Autoregressive) متن را کلمه به کلمه تولید میکنند،
اما RND1 کل جمله را بهصورت همزمان میسازد و سپس در چند مرحله آن را دقیقتر میکند — درست مثل مدلهای دیفیوژنی که تصویر را از «نویز» بیرون میکشند. 🎨
---
🚀 چطور ساخته شد؟
تیم Radical Numerics موفق شد یک مدل زبانی موجود (Qwen3-30B-A3B) را به مدل دیفیوژنی تبدیل کند — بدون نیاز به آموزش از صفر!
این فرآیند را AR-to-Diffusion Conversion (A2D) مینامند:
۱️⃣ انتخاب یک مدل قوی شبیه GPT
۲️⃣ تغییر مکانیزم توجه (attention) تا مدل کل متن را همزمان ببیند
۳️⃣ آموزش روی دادههای جدید با روش دیفیوژنی
۴️⃣ استفاده از نرخ یادگیری متفاوت برای بخشهای مختلف شبکه تا مدل هم «یاد قدیمی» را نگه دارد، هم «تفکر جدید» یاد بگیرد 🧩
---
⚙️ ویژگیهای کلیدی
🔸 اول MoE فعال: تنها ۳ میلیارد پارامتر در هر بار فعال میشوند → سرعت بالا و بهرهوری انرژی عالی.
🔸 یادگیری پیوسته: دانش قبلی پاک نمیشود، بلکه در منطق جدید ادغام میشود.
🔸 همچنین Batchهای عظیم: آموزش پایدار حتی هنگام مشاهدهی همزمان کل توکنها.
---
✨ چرا اهمیت دارد؟
✅ تولید موازی متن — بدون تأخیر گامبهگام
✅ مصرف کمتر منابع با حفظ کیفیت GPTهای بزرگ
✅ معماری هیبریدی بین AR و DLM
✅ کاملاً متنباز (کد، گزارش و وزنها در دسترساند)
✅ گامی مهم بهسوی هوش خودبهبودیاب (RSI)؛ مدلی که میتواند خودش را طراحی و بهبود دهد 🤖
---
📎 منابع:
🔸 وبلاگ:
radicalnumerics.ai/blog/rnd1
🔸 کد:
github.com/RadicalNumerics/RND1
🔸 گزارش فنی:
rnd1_report.pdf
🔸 وزنها:
huggingface.co/radicalnumerics/RND1-Base-0910
---
📡 @rss_ai_ir
#RND1 #RadicalNumerics #AI #DLM #DiffusionModel #MoE #OpenSource
👍1