VIRSUN
6.08K subscribers
1.06K photos
626 videos
5 files
687 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
💡 مدل RND1 — انقلاب در تولید متن با رویکرد دیفیوژنی!

🧠 مدل RND1 یک مدل زبانی آزمایشی با ۳۰ میلیارد پارامتر است که بر پایه‌ی معماری Sparse Mixture-of-Experts (MoE) ساخته شده؛ اما فقط ۳ میلیارد پارامتر آن در هر لحظه فعال است.
یعنی قدرت زیاد، اما با مصرف بسیار کمتر! ⚙️

🔁 تفاوت اصلی RND1 با مدل‌های معمولی مثل GPT در این است که: مدل‌های کلاسیک (Autoregressive) متن را کلمه به کلمه تولید می‌کنند،
اما RND1 کل جمله را به‌صورت همزمان می‌سازد و سپس در چند مرحله آن را دقیق‌تر می‌کند — درست مثل مدل‌های دیفیوژنی که تصویر را از «نویز» بیرون می‌کشند. 🎨


---

🚀 چطور ساخته شد؟

تیم Radical Numerics موفق شد یک مدل زبانی موجود (Qwen3-30B-A3B) را به مدل دیفیوژنی تبدیل کند — بدون نیاز به آموزش از صفر!

این فرآیند را AR-to-Diffusion Conversion (A2D) می‌نامند:
۱️⃣ انتخاب یک مدل قوی شبیه GPT
۲️⃣ تغییر مکانیزم توجه (attention) تا مدل کل متن را همزمان ببیند
۳️⃣ آموزش روی داده‌های جدید با روش دیفیوژنی
۴️⃣ استفاده از نرخ یادگیری متفاوت برای بخش‌های مختلف شبکه تا مدل هم «یاد قدیمی» را نگه دارد، هم «تفکر جدید» یاد بگیرد 🧩


---

⚙️ ویژگی‌های کلیدی

🔸 اول MoE فعال: تنها ۳ میلیارد پارامتر در هر بار فعال می‌شوند → سرعت بالا و بهره‌وری انرژی عالی.
🔸 یادگیری پیوسته: دانش قبلی پاک نمی‌شود، بلکه در منطق جدید ادغام می‌شود.

🔸 همچنین Batchهای عظیم: آموزش پایدار حتی هنگام مشاهده‌ی هم‌زمان کل توکن‌ها.


---

چرا اهمیت دارد؟

تولید موازی متن — بدون تأخیر گام‌به‌گام
مصرف کمتر منابع با حفظ کیفیت GPTهای بزرگ
معماری هیبریدی بین AR و DLM
کاملاً متن‌باز (کد، گزارش و وزن‌ها در دسترس‌اند)
گامی مهم به‌سوی هوش خودبهبودیاب (RSI)؛ مدلی که می‌تواند خودش را طراحی و بهبود دهد 🤖


---

📎 منابع:
🔸 وبلاگ:
radicalnumerics.ai/blog/rnd1
🔸 کد:
github.com/RadicalNumerics/RND1
🔸 گزارش فنی:
rnd1_report.pdf
🔸 وزن‌ها:
huggingface.co/radicalnumerics/RND1-Base-0910


---

📡 @rss_ai_ir
#RND1 #RadicalNumerics #AI #DLM #DiffusionModel #MoE #OpenSource
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🎨 Mesh2Motion — نسخه‌ی اپن‌سورس Mixamo در مرورگر!

اگر با Mixamo کار کرده‌اید، حالا می‌توانید نسخه‌ی آزاد و کاملاً تحت وب آن را امتحان کنید:
Mesh2Motion 👇

💡 کافی است مدل سه‌بعدی خود را آپلود کنید —
سیستم به‌صورت خودکار ریگ (Rig) را ایجاد می‌کند، با قابلیت ویرایش دستی،
و سپس می‌توانید انیمیشن دلخواهتان را روی آن اعمال کرده و در نهایت خروجی بگیرید (📦 GLB / GLTF).
---
⚙️ امکانات اصلی:

♻️رینگ خودکار با کنترل‌های دقیق تنظیم دستی
♻️اعمال انیمیشن آماده یا سفارشی
♻️پشتیبانی از مرورگر، بدون نصب هیچ نرم‌افزاری
♻️خروجی سازگار با تمامی موتورهای سه‌بعدی (Blender, Unity, Unreal و غیره)

---

🌐 سایت: mesh2motion.org
🎬 دمو: app.mesh2motion.org
💻 کد منبع: github.com/scottpetrovic/mesh2motion-app

@rss_ai_ir
#3D #Mesh2Motion #Rigging #Animation #OpenSource #Blender #Unreal #Unity #AI #WebTools
👍1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 بساز انسان‌نمای خودت!

پروژه‌ی OpenArm یک طرح کاملاً متن‌باز برای ساخت ربات انسان‌نماست که هرچیزی برای شروع لازم دارید را در اختیارتان می‌گذارد — از مدل‌های CAD و فریمور تا نرم‌افزار کنترل و شبیه‌سازها.

🦾 با این سیستم می‌تونید بازوهای رباتیک بسازید، تغییر بدید و کنترل کنید؛
پشتیبانی از تله‌اپراسیون با فیدبک نیرویی و جبران گرانش باعث میشه کنترل بازو طبیعی و دقیق باشه.

💡 یکپارچه با MuJoCo و Isaac Sim — می‌تونید قبل از اجرای واقعی، کنترل و حرکت‌ها رو در محیط مجازی تست کنید.

🔩 هدف پروژه ساده است:
دموکراتیزه کردن رباتیک — تا هر پژوهشگر، استارتاپ یا علاقه‌مند بتونه از مرحله‌ی ایده به ربات واقعی برسه.
می‌تونید خودتون بسازید یا نسخه‌ی آماده سفارش بدید.

توسعه‌دهنده: Enactic (توکیو، ژاپن) 🇯🇵
GitHub: github.com/enactic/OpenArm

@rss_ai_ir

#OpenSource #Robot #Humanoid #Robotics #AI #Engineering #Enactic
3
🤗 چه کسانی واقعاً محرک هوش مصنوعی متن‌باز هستند؟
تحلیل ۵۰ مدل برتر از نظر دانلود در Hugging Face

---
📊 مطالعه‌ی جدید نشان می‌دهد که کدام سازمان‌ها و چه نوع مدل‌هایی ستون فقرات اکوسیستم open-source AI را تشکیل می‌دهند.
---
🔥 نتایج کلیدی:
📦 تنها ۵۰ مدل (۳.۴٪ از کل مدل‌ها) بیش از ۸۰٪ از ۴۵ میلیارد دانلود را به خود اختصاص داده‌اند.
یعنی بیشتر فعالیت‌ها حول محور گروه کوچکی از رهبران می‌چرخد — همان‌هایی که چهره‌ی اصلی AI متن‌باز را می‌سازند.


---

📉 اندازه مهم است (کوچک‌تر = بهتر):

♻️۹۲.۵٪ دانلودها مربوط به مدل‌هایی با کمتر از ۱ میلیارد پارامتر
♻️۸۶.۳٪ < ۵۰۰ میلیون
♻️۷۰٪ < ۲۰۰ میلیون
♻️۴۰٪ < ۱۰۰ میلیون


نتیجه واضح است: در دنیای open-source، مدل‌های سبک، سریع و قابل اجرا روی دستگاه‌های محلی برنده‌اند.
---

🧠 محبوب‌ترین حوزه‌ها:

♻️مدل NLP (پردازش زبان طبیعی) — ۵۸.۱٪
♻️بینایی کامپیوتر — ۲۱.۲٪
♻️صوت — ۱۵.۱٪
♻️چندوجهی — ۳.۳٪
♻️داده‌های زمانی — ۱.۷٪
---

🏢 چه کسانی این مدل‌ها را می‌سازند؟

♻️شرکت‌ها — ۶۳.۲٪ (گوگل پیشتاز است)
♻️دانشگاه‌ها — ۲۰.۷٪
♻️توسعه‌دهندگان مستقل — ۱۲.۱٪
♻️سازمان‌های غیرانتفاعی — ۳.۸٪
♻️آزمایشگاه‌های دیگر — ۰.۳٪
---

⚙️ چه نوع مدل‌هایی محبوب‌ترند؟

♻️مدل Encoderهای متنی — ۴۵٪ از کل دانلودها
♻️مدل Decoderها — ۹.۵٪
♻️مدل Encoder-Decoderها — ۳٪

📌 بر خلاف هیاهوی رسانه‌ای پیرامون LLMها، کاربران عمدتاً مدل‌های کاربردی و کوچک را دانلود می‌کنند که به راحتی در محصولات واقعی ادغام می‌شوند.

---

🌍 پراکندگی جغرافیایی:
ایالات متحده با اختلاف پیشتاز است:

♻️۱۸ بار در میان ۵۰ مدل برتر دیده می‌شود.
♻️۵۶.۴٪ از کل دانلودها از مدل‌های ساخت آمریکا هستند.
---
💡 نتیجه نهایی:
هوش مصنوعی متن‌باز نه به لطف غول‌هایی با تریلیون پارامتر، بلکه به کمک مدل‌های فشرده، سریع و کاربردی زنده است — همان‌هایی که واقعاً در پروژه‌ها و محصولات استفاده می‌شوند.

---

📖 منبع کامل: Hugging Face Blog
@rss_ai_ir

#AI #HuggingFace #OpenSource #MachineLearning #LLM #AITrends
👍1
⚡️ Omni-Embed-Nemotron —
مدل چندوجهی جدید انویدیا برای جستجو در متن، تصویر، صدا و ویدیو

انویدیا از مدل Omni-Embed-Nemotron رونمایی کرد — سامانه‌ای یکپارچه برای تبدیل انواع داده‌ها به نمایش برداری مشترک (Unified Embedding).

🎯 ویژگی‌های کلیدی:

پشتیبانی از همه نوع داده: 📝 متن، 🖼 تصویر، 🔊 صدا، 🎥 ویدیو

مبتنی بر معماری Qwen Omni (ماژول Thinker، بدون تولید متن)

طول زمینه تا ۳۲٬۷۶۸ توکن

اندازه‌ی بردار نهائی (Embedding) برابر ۲۰۴۸

بهینه‌شده برای GPU و پشتیبانی از FlashAttention 2


🚀 کاربردها:

♻️جستجوی متقاطع بین مدیاها (مثلاً پیدا کردن ویدیو بر اساس متن یا تصویر)

♻️بهبود پروژه‌های RAG (Retrieval-Augmented Generation)

♻️توسعه سیستم‌های درک چندوجهی محتوا
♻️مدلی ساده، سریع و باز که مرز میان داده‌های متنی و دیداری را از میان برمی‌دارد.

🌐 مدل متن‌باز:
huggingface.co/nvidia/omni-embed-nemotron-3b

#NVIDIA #OmniEmbed #CrossModal #RAG #AI #OpenSource #Multimodal #هوش_مصنوعی #یادگیری_عمیق #جستجوی_هوشمند
FlashVSR —
ارتقای ویدیو در زمان واقعی بر پایه‌ی دیفیوشن

پروژه‌ی FlashVSR به هدف رسیدن به Super-Resolution ویدیوهای استریم در زمان واقعی طراحی شده است — نه بهترین، اما کاملاً متن‌باز و قابل استفاده برای همه 🔓

📦 کد منبع:

🔗 github.com/OpenImagingLab/FlashVSR

🧩 نودها برای ComfyUI:

🔗 github.com/smthemex/ComfyUI_FlashVSR

💡 ویژگی‌ها و نکات فنی:

✳️مصرف حافظه بالا (مثل اکثر آپ‌اسکیلرهای دیفیوشنی)

✳️مبتنی بر Block-Sparse Attention — ممکن است روی کارت‌های گرافیکی ضعیف ناپایدار عمل کند

✳️کیفیت خروجی مناسب با تأکید بر سرعت پردازش


در مجموع، گزینه‌ای عالی برای کسانی که دنبال راه‌حل متن‌باز ارتقای ویدیو با انعطاف بالا هستند.

#FlashVSR #AI #Upscaling #VideoAI #SuperResolution #OpenSource #MachineLearning #DiffusionModels #ComfyUI #DeepLearning #BlockSparseAttention
👍1🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 Krea Realtime 14B —
مدل جدید متن‌به‌ویدیو با کدباز از Krea AI

مدل جدید Krea Realtime 14B با ۱۴ میلیارد پارامتر عرضه شد — بیش از ۱۰ برابر بزرگ‌تر از اکثر مدل‌های بلادرنگ (Realtime) فعلی.

⚙️ ویژگی‌ها و نوآوری‌ها:

🚀 سرعت بالا: تولید ویدیو با نرخ حدود ۱۱ فریم بر ثانیه با تنها ۴ مرحله استنتاج روی یک GPU از نوع NVIDIA B200.

🧩 فناوری Self-Forcing: این روش مدل دیفیوژنی ویدیو را به معماری خودبازگشتی (autoregressive) تبدیل می‌کند و باعث افزایش پایداری و کنترل می‌شود.

🎬 حالت‌ها:

Text-to-Video (تبدیل متن به ویدیو)

Video-to-Video (تبدیل سبک ویدیو به ویدیو – هنوز در حال توسعه)


🎨 تعامل زنده: کاربر می‌تواند در حین تولید، پرامپت را تغییر دهد، سبک تصویر را عوض کند و اولین فریم‌ها را در حدود ۱ ثانیه ببیند.


🔓 مجوز: Apache 2.0
📦 کد باز در HuggingFace:
👉 huggingface.co/krea/krea-realtime-video

#AI #TextToVideo #KreaAI #OpenSource #GenerativeAI #Realtime #VideoAI
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 هوش مصنوعی متن‌باز با سرعتی بی‌سابقه در حال پیشرفت است — و حالا NVIDIA پیشتاز شده! ⚡️

انویدیا اکنون در صدر مشارکت‌های جهانی AI متن‌باز قرار دارد و با انتشار مجموعه‌ای از مدل‌های بزرگ مانند:

🧠 Nemotron، 🧬 BioNeMo، 🌌 Cosmos و 🤖 Gr00t،

در حال بازتعریف نحوه‌ی توسعه و اشتراک‌گذاری مدل‌های هوش مصنوعی در سراسر دنیاست.
این حرکت نه‌تنها صنعت را متحول می‌کند، بلکه مرز بین مدل‌های اختصاصی و متن‌باز را هم از بین می‌برد.
بی‌نظیر! 🔥

@rss_ai_ir

#NVIDIA #AI #OpenSource #Nemotron #BioNeMo #Cosmos #Gr00t #هوش_مصنوعی #متن_باز #DeepLearning #MachineLearning
🌍 تنسنت نسخه جدید مدل بازسازی سه‌بعدی خود را منتشر کرد — Hunyuan World 1.1 (WorldMirror)

نسخه‌ی قبلی Hunyuan World 1.0 می‌توانست تنها با یک تصویر یا توضیح متنی صحنه‌های سه‌بعدی بسازد — حتی روی کارت‌های گرافیک معمولی!
اما حالا نسخه‌ی جدید 1.1 یک جهش بزرگ کرده و قادر است جهان‌های سه‌بعدی را از ویدیو یا تصاویر چندزاویه‌ای بازسازی کند. 🎥🧠

🔹 ورودی‌های متنوع:
مدل می‌تواند با هر نوع داده کار کند — ویدیو، عکس، نقشه‌های عمق (Depth Maps)، توضیحات حرکتی (Pose) و حتی پارامترهای دوربین.
بازسازی هندسه صحنه با دقت بالا و بدون اعوجاج انجام می‌شود.

🔹 خروجی‌های کامل:
نتیجه می‌تواند شامل باشد:

♻️ابر نقاط متراکم (Dense Point Clouds)
♻️نقشه‌های عمق
♻️نرمال‌های سطح
♻️پارامترهای دوربین
♻️و حتی 3D Gaussian Splatting آماده برای رندر.


🔹 سرعت فوق‌العاده:
مدل کاملاً feed-forward است و تنها با یک گذر روی GPU، صحنه را در چند ثانیه بازسازی می‌کند ⚡️

🔗 پروژه:
3d-models.hunyuan.tencent.com/world

💻 GitHub:
Tencent-Hunyuan/HunyuanWorld-Mirror

🤗 HuggingFace:
tencent/HunyuanWorld-Mirror
🧪 دمو:
HuggingFace Space
📄 گزارش فنی:
HYWorld Mirror Tech Report

@rss_ai_ir

#هوش_مصنوعی #3D #تنسنت #مدلسازی_سه‌بعدی #واقعیت_مجازی #گیمینگ #OpenSource #AI #VR
🧠 Qwen3-VL-2B-Thinking —
نسخه کوچک اما هوشمند مدل چندحالته‌ی Qwen، مخصوص استدلال و تحلیل منطقی

این نسخه‌ی فشرده از خانواده‌ی Qwen3-VL برای تفکر عمیق، تحلیل داده و کاربردهای عامل‌محور (Agent-based) طراحی شده است.

در سری Qwen-VL دو حالت کلیدی وجود دارد:
🔹 Instruct —
برای گفتگوها و پاسخ به دستورها
🔹 Thinking —
برای منطق، برنامه‌نویسی و حل مسائل پیچیده

ویژگی‌ها:

ساختار چندحالته (Multimodal): درک هم‌زمان متن و تصویر، تحلیل محتوا و کشف روابط علت و معلولی

بهینه‌شده برای وظایف استدلالی، جایی که تمرکز روی فرآیند تفکر و نتیجه‌گیری است، نه صرفاً تولید متن

تنها با ۲ میلیارد پارامتر، به‌راحتی روی GPUهای محلی یا محیط‌های ابری قابل اجراست

پشتیبانی از Tool Calling و ادغام با چارچوب‌های عامل‌محور (Agent Frameworks)


📘 نتیجه:
مدلی کوچک، سریع و درعین‌حال قدرتمند برای تفکر و تحلیل — گزینه‌ای عالی برای پروژه‌های سبک و هوشمند 💡

🔗 مشاهده در Hugging Face

@rss_ai_ir

#هوش_مصنوعی #Qwen #Qwen3VL #Reasoning #LLM #OpenSource #Multimodal #AI
👍1