This media is not supported in your browser
VIEW IN TELEGRAM
📹🤖 LONGLIVE از NVIDIA —
ویدئوسازی تعاملیِ بلادرنگ
مدل LONGLIVE یک چارچوب autoregressive در سطح فریم برای تولید ویدئوی طولانی بهصورت Real-time است. حین تولید میتوانید پشتسرهم پرامپت بدهید و مدل همانجا مسیر ویدئو را تغییر دهد.
چرا مهم است؟
⏱️ پاسخدهی بلادرنگ؛ مناسب استریم و تجربههای تعاملی
🧠 تولید فریمبهفریم = کنترل دقیق صحنه و تداوم داستان
🧩 پشتیبانی از پرامپتهای پیدرپی (sequential prompts)
🛠️ کد و مدل منتشر شده (لایسنس غیرتجاری)
لینکها:
Paper: arxiv.org/pdf/2509.22622
Project: nvlabs.github.io/LongLive/
Code: github.com/NVlabs/LongLive
HF: huggingface.co/Efficient-Large-Model/LongLive-1.3B
#NVIDIA #LongLive #RealtimeVideo #InteractiveAI #GenerativeVideo #Autoregressive #AIResearch #OpenSource
ویدئوسازی تعاملیِ بلادرنگ
مدل LONGLIVE یک چارچوب autoregressive در سطح فریم برای تولید ویدئوی طولانی بهصورت Real-time است. حین تولید میتوانید پشتسرهم پرامپت بدهید و مدل همانجا مسیر ویدئو را تغییر دهد.
چرا مهم است؟
⏱️ پاسخدهی بلادرنگ؛ مناسب استریم و تجربههای تعاملی
🧠 تولید فریمبهفریم = کنترل دقیق صحنه و تداوم داستان
🧩 پشتیبانی از پرامپتهای پیدرپی (sequential prompts)
🛠️ کد و مدل منتشر شده (لایسنس غیرتجاری)
لینکها:
Paper: arxiv.org/pdf/2509.22622
Project: nvlabs.github.io/LongLive/
Code: github.com/NVlabs/LongLive
HF: huggingface.co/Efficient-Large-Model/LongLive-1.3B
#NVIDIA #LongLive #RealtimeVideo #InteractiveAI #GenerativeVideo #Autoregressive #AIResearch #OpenSource
👍4🔥1🙏1
خبری تازه از Hunyuan — معرفی HunyuanImage 3.0 (خبر خوب و خبر بد) 👇
خوب:
سورسکد اوپنسورس منتشر شده. 🔗
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
دموی تحت وب برای تست:
https://hunyuan.tencent.com/image/en?tabIndex=0
نسخههای تعاملی/آزمایشی در پلتفرمهایی مثل Fal.ai/Replicate هم قرار گرفتهاند.
چیکار میکنه؟
✅بزرگترین مدل متن→تصویر اوپنسورس تا امروز: ~80B پارامتر (که حدود 13B فعال روی هر توکن استفاده میشه).
✅معماری MoE + Transfusion — ترکیب Diffusion و LLM در یک فریمورک.
✅آموزش روی مجموعهداده عظیم: ~5 میلیارد زوج تصویر-متن و تِرلیونها توکن.
✅پشتیبانی از پرتپرامپتهای طولانی (هزاران کلمه)، فهم دقیق متن و توانایی خوب در کار با متن داخل تصویر.
نتیجه: reasoning سطح بالا، مولتیمودالیتی قوی و کارآمدی در پیروی از دستورالعملهای پیچیده.
من خودم یک تست زدم:
بهش گفتم:
خروجی — هم حل ریاضی و هم تصویر راهحل — در پست قابل دیدنه؛ جذاب بود.
⛔️بد:
❌هنوز image2image نداره.
❌پشتیبانی از VLLM / runtime سبک ندارن (فعلاً).
❌وزنها خیلی بزرگن — حدود 170 گیگابایت.
❌برای اجرا به سختافزار سنگینی نیاز دارید: ۴ کارت وِیآرایام ۸۰GB (۴ × 80GB VRAM) — یعنی فعلاً برای اکثرِ آدمها و پژوهشگرای معمولی قابلدسترس نیست.
❌بهقولی «اوپنسورسِ اشرافی» — کد رو گذاشتن، ولی عملاً فقط کسایی با سرورهای بزرگ میتونن راحت اجرا کنن.
❌گزارشهایی از اشکالاتی در آناتومی و تکسچر پوست هست — نتایج هنوز جای کاستن دارند.
جمعبندی:
♻️قابل ذکره که HunyuanImage 3.0 از نظر مقیاس و معماری یه جهش بزرگه و خیلی پرامکاناته، ولی در عمل فعلاً فقط برای تیمها یا سازمانهایی با دیتاسنترِ بزرگ کاربردیه. منتظر بهینهسازیها، نسخههای distilled و runtimeهای سبکتر میمونیم تا این پکیج واقعاً در دسترس عموم قرار بگیره.
⛔️لینکها دوباره:
گیتهاب:
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
دمو:
https://hunyuan.tencent.com/image/en?tabIndex=0
playground در Fal.ai:
https://fal.ai/models/fal-ai/hunyuan-image/v3/text-to-image/playground
@rss_ai_ir
#HunyuanImage #GenerativeAI #OpenSource #3DGenAI #AI_news
خوب:
سورسکد اوپنسورس منتشر شده. 🔗
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
دموی تحت وب برای تست:
https://hunyuan.tencent.com/image/en?tabIndex=0
نسخههای تعاملی/آزمایشی در پلتفرمهایی مثل Fal.ai/Replicate هم قرار گرفتهاند.
چیکار میکنه؟
✅بزرگترین مدل متن→تصویر اوپنسورس تا امروز: ~80B پارامتر (که حدود 13B فعال روی هر توکن استفاده میشه).
✅معماری MoE + Transfusion — ترکیب Diffusion و LLM در یک فریمورک.
✅آموزش روی مجموعهداده عظیم: ~5 میلیارد زوج تصویر-متن و تِرلیونها توکن.
✅پشتیبانی از پرتپرامپتهای طولانی (هزاران کلمه)، فهم دقیق متن و توانایی خوب در کار با متن داخل تصویر.
نتیجه: reasoning سطح بالا، مولتیمودالیتی قوی و کارآمدی در پیروی از دستورالعملهای پیچیده.
من خودم یک تست زدم:
بهش گفتم:
solve this: 8x + 10 = 18 and make picture with solution
خروجی — هم حل ریاضی و هم تصویر راهحل — در پست قابل دیدنه؛ جذاب بود.
⛔️بد:
❌هنوز image2image نداره.
❌پشتیبانی از VLLM / runtime سبک ندارن (فعلاً).
❌وزنها خیلی بزرگن — حدود 170 گیگابایت.
❌برای اجرا به سختافزار سنگینی نیاز دارید: ۴ کارت وِیآرایام ۸۰GB (۴ × 80GB VRAM) — یعنی فعلاً برای اکثرِ آدمها و پژوهشگرای معمولی قابلدسترس نیست.
❌بهقولی «اوپنسورسِ اشرافی» — کد رو گذاشتن، ولی عملاً فقط کسایی با سرورهای بزرگ میتونن راحت اجرا کنن.
❌گزارشهایی از اشکالاتی در آناتومی و تکسچر پوست هست — نتایج هنوز جای کاستن دارند.
جمعبندی:
♻️قابل ذکره که HunyuanImage 3.0 از نظر مقیاس و معماری یه جهش بزرگه و خیلی پرامکاناته، ولی در عمل فعلاً فقط برای تیمها یا سازمانهایی با دیتاسنترِ بزرگ کاربردیه. منتظر بهینهسازیها، نسخههای distilled و runtimeهای سبکتر میمونیم تا این پکیج واقعاً در دسترس عموم قرار بگیره.
⛔️لینکها دوباره:
گیتهاب:
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
دمو:
https://hunyuan.tencent.com/image/en?tabIndex=0
playground در Fal.ai:
https://fal.ai/models/fal-ai/hunyuan-image/v3/text-to-image/playground
@rss_ai_ir
#HunyuanImage #GenerativeAI #OpenSource #3DGenAI #AI_news
❤1👍1🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
💡 مدل RND1 — انقلاب در تولید متن با رویکرد دیفیوژنی!
🧠 مدل RND1 یک مدل زبانی آزمایشی با ۳۰ میلیارد پارامتر است که بر پایهی معماری Sparse Mixture-of-Experts (MoE) ساخته شده؛ اما فقط ۳ میلیارد پارامتر آن در هر لحظه فعال است.
یعنی قدرت زیاد، اما با مصرف بسیار کمتر! ⚙️
🔁 تفاوت اصلی RND1 با مدلهای معمولی مثل GPT در این است که: مدلهای کلاسیک (Autoregressive) متن را کلمه به کلمه تولید میکنند،
اما RND1 کل جمله را بهصورت همزمان میسازد و سپس در چند مرحله آن را دقیقتر میکند — درست مثل مدلهای دیفیوژنی که تصویر را از «نویز» بیرون میکشند. 🎨
---
🚀 چطور ساخته شد؟
تیم Radical Numerics موفق شد یک مدل زبانی موجود (Qwen3-30B-A3B) را به مدل دیفیوژنی تبدیل کند — بدون نیاز به آموزش از صفر!
این فرآیند را AR-to-Diffusion Conversion (A2D) مینامند:
۱️⃣ انتخاب یک مدل قوی شبیه GPT
۲️⃣ تغییر مکانیزم توجه (attention) تا مدل کل متن را همزمان ببیند
۳️⃣ آموزش روی دادههای جدید با روش دیفیوژنی
۴️⃣ استفاده از نرخ یادگیری متفاوت برای بخشهای مختلف شبکه تا مدل هم «یاد قدیمی» را نگه دارد، هم «تفکر جدید» یاد بگیرد 🧩
---
⚙️ ویژگیهای کلیدی
🔸 اول MoE فعال: تنها ۳ میلیارد پارامتر در هر بار فعال میشوند → سرعت بالا و بهرهوری انرژی عالی.
🔸 یادگیری پیوسته: دانش قبلی پاک نمیشود، بلکه در منطق جدید ادغام میشود.
🔸 همچنین Batchهای عظیم: آموزش پایدار حتی هنگام مشاهدهی همزمان کل توکنها.
---
✨ چرا اهمیت دارد؟
✅ تولید موازی متن — بدون تأخیر گامبهگام
✅ مصرف کمتر منابع با حفظ کیفیت GPTهای بزرگ
✅ معماری هیبریدی بین AR و DLM
✅ کاملاً متنباز (کد، گزارش و وزنها در دسترساند)
✅ گامی مهم بهسوی هوش خودبهبودیاب (RSI)؛ مدلی که میتواند خودش را طراحی و بهبود دهد 🤖
---
📎 منابع:
🔸 وبلاگ:
radicalnumerics.ai/blog/rnd1
🔸 کد:
github.com/RadicalNumerics/RND1
🔸 گزارش فنی:
rnd1_report.pdf
🔸 وزنها:
huggingface.co/radicalnumerics/RND1-Base-0910
---
📡 @rss_ai_ir
#RND1 #RadicalNumerics #AI #DLM #DiffusionModel #MoE #OpenSource
🧠 مدل RND1 یک مدل زبانی آزمایشی با ۳۰ میلیارد پارامتر است که بر پایهی معماری Sparse Mixture-of-Experts (MoE) ساخته شده؛ اما فقط ۳ میلیارد پارامتر آن در هر لحظه فعال است.
یعنی قدرت زیاد، اما با مصرف بسیار کمتر! ⚙️
🔁 تفاوت اصلی RND1 با مدلهای معمولی مثل GPT در این است که: مدلهای کلاسیک (Autoregressive) متن را کلمه به کلمه تولید میکنند،
اما RND1 کل جمله را بهصورت همزمان میسازد و سپس در چند مرحله آن را دقیقتر میکند — درست مثل مدلهای دیفیوژنی که تصویر را از «نویز» بیرون میکشند. 🎨
---
🚀 چطور ساخته شد؟
تیم Radical Numerics موفق شد یک مدل زبانی موجود (Qwen3-30B-A3B) را به مدل دیفیوژنی تبدیل کند — بدون نیاز به آموزش از صفر!
این فرآیند را AR-to-Diffusion Conversion (A2D) مینامند:
۱️⃣ انتخاب یک مدل قوی شبیه GPT
۲️⃣ تغییر مکانیزم توجه (attention) تا مدل کل متن را همزمان ببیند
۳️⃣ آموزش روی دادههای جدید با روش دیفیوژنی
۴️⃣ استفاده از نرخ یادگیری متفاوت برای بخشهای مختلف شبکه تا مدل هم «یاد قدیمی» را نگه دارد، هم «تفکر جدید» یاد بگیرد 🧩
---
⚙️ ویژگیهای کلیدی
🔸 اول MoE فعال: تنها ۳ میلیارد پارامتر در هر بار فعال میشوند → سرعت بالا و بهرهوری انرژی عالی.
🔸 یادگیری پیوسته: دانش قبلی پاک نمیشود، بلکه در منطق جدید ادغام میشود.
🔸 همچنین Batchهای عظیم: آموزش پایدار حتی هنگام مشاهدهی همزمان کل توکنها.
---
✨ چرا اهمیت دارد؟
✅ تولید موازی متن — بدون تأخیر گامبهگام
✅ مصرف کمتر منابع با حفظ کیفیت GPTهای بزرگ
✅ معماری هیبریدی بین AR و DLM
✅ کاملاً متنباز (کد، گزارش و وزنها در دسترساند)
✅ گامی مهم بهسوی هوش خودبهبودیاب (RSI)؛ مدلی که میتواند خودش را طراحی و بهبود دهد 🤖
---
📎 منابع:
🔸 وبلاگ:
radicalnumerics.ai/blog/rnd1
🔸 کد:
github.com/RadicalNumerics/RND1
🔸 گزارش فنی:
rnd1_report.pdf
🔸 وزنها:
huggingface.co/radicalnumerics/RND1-Base-0910
---
📡 @rss_ai_ir
#RND1 #RadicalNumerics #AI #DLM #DiffusionModel #MoE #OpenSource
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🎨 Mesh2Motion — نسخهی اپنسورس Mixamo در مرورگر!
اگر با Mixamo کار کردهاید، حالا میتوانید نسخهی آزاد و کاملاً تحت وب آن را امتحان کنید:
Mesh2Motion 👇
💡 کافی است مدل سهبعدی خود را آپلود کنید —
سیستم بهصورت خودکار ریگ (Rig) را ایجاد میکند، با قابلیت ویرایش دستی،
و سپس میتوانید انیمیشن دلخواهتان را روی آن اعمال کرده و در نهایت خروجی بگیرید (📦 GLB / GLTF).
---
⚙️ امکانات اصلی:
♻️رینگ خودکار با کنترلهای دقیق تنظیم دستی
♻️اعمال انیمیشن آماده یا سفارشی
♻️پشتیبانی از مرورگر، بدون نصب هیچ نرمافزاری
♻️خروجی سازگار با تمامی موتورهای سهبعدی (Blender, Unity, Unreal و غیره)
---
🌐 سایت: mesh2motion.org
🎬 دمو: app.mesh2motion.org
💻 کد منبع: github.com/scottpetrovic/mesh2motion-app
@rss_ai_ir
#3D #Mesh2Motion #Rigging #Animation #OpenSource #Blender #Unreal #Unity #AI #WebTools
اگر با Mixamo کار کردهاید، حالا میتوانید نسخهی آزاد و کاملاً تحت وب آن را امتحان کنید:
Mesh2Motion 👇
💡 کافی است مدل سهبعدی خود را آپلود کنید —
سیستم بهصورت خودکار ریگ (Rig) را ایجاد میکند، با قابلیت ویرایش دستی،
و سپس میتوانید انیمیشن دلخواهتان را روی آن اعمال کرده و در نهایت خروجی بگیرید (📦 GLB / GLTF).
---
⚙️ امکانات اصلی:
♻️رینگ خودکار با کنترلهای دقیق تنظیم دستی
♻️اعمال انیمیشن آماده یا سفارشی
♻️پشتیبانی از مرورگر، بدون نصب هیچ نرمافزاری
♻️خروجی سازگار با تمامی موتورهای سهبعدی (Blender, Unity, Unreal و غیره)
---
🌐 سایت: mesh2motion.org
🎬 دمو: app.mesh2motion.org
💻 کد منبع: github.com/scottpetrovic/mesh2motion-app
@rss_ai_ir
#3D #Mesh2Motion #Rigging #Animation #OpenSource #Blender #Unreal #Unity #AI #WebTools
👍1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 بساز انساننمای خودت!
پروژهی OpenArm یک طرح کاملاً متنباز برای ساخت ربات انساننماست که هرچیزی برای شروع لازم دارید را در اختیارتان میگذارد — از مدلهای CAD و فریمور تا نرمافزار کنترل و شبیهسازها.
🦾 با این سیستم میتونید بازوهای رباتیک بسازید، تغییر بدید و کنترل کنید؛
پشتیبانی از تلهاپراسیون با فیدبک نیرویی و جبران گرانش باعث میشه کنترل بازو طبیعی و دقیق باشه.
💡 یکپارچه با MuJoCo و Isaac Sim — میتونید قبل از اجرای واقعی، کنترل و حرکتها رو در محیط مجازی تست کنید.
🔩 هدف پروژه ساده است:
دموکراتیزه کردن رباتیک — تا هر پژوهشگر، استارتاپ یا علاقهمند بتونه از مرحلهی ایده به ربات واقعی برسه.
میتونید خودتون بسازید یا نسخهی آماده سفارش بدید.
توسعهدهنده: Enactic (توکیو، ژاپن) 🇯🇵
GitHub: github.com/enactic/OpenArm
@rss_ai_ir
#OpenSource #Robot #Humanoid #Robotics #AI #Engineering #Enactic
پروژهی OpenArm یک طرح کاملاً متنباز برای ساخت ربات انساننماست که هرچیزی برای شروع لازم دارید را در اختیارتان میگذارد — از مدلهای CAD و فریمور تا نرمافزار کنترل و شبیهسازها.
🦾 با این سیستم میتونید بازوهای رباتیک بسازید، تغییر بدید و کنترل کنید؛
پشتیبانی از تلهاپراسیون با فیدبک نیرویی و جبران گرانش باعث میشه کنترل بازو طبیعی و دقیق باشه.
💡 یکپارچه با MuJoCo و Isaac Sim — میتونید قبل از اجرای واقعی، کنترل و حرکتها رو در محیط مجازی تست کنید.
🔩 هدف پروژه ساده است:
دموکراتیزه کردن رباتیک — تا هر پژوهشگر، استارتاپ یا علاقهمند بتونه از مرحلهی ایده به ربات واقعی برسه.
میتونید خودتون بسازید یا نسخهی آماده سفارش بدید.
توسعهدهنده: Enactic (توکیو، ژاپن) 🇯🇵
GitHub: github.com/enactic/OpenArm
@rss_ai_ir
#OpenSource #Robot #Humanoid #Robotics #AI #Engineering #Enactic
❤3
🤗 چه کسانی واقعاً محرک هوش مصنوعی متنباز هستند؟
تحلیل ۵۰ مدل برتر از نظر دانلود در Hugging Face
---
📊 مطالعهی جدید نشان میدهد که کدام سازمانها و چه نوع مدلهایی ستون فقرات اکوسیستم open-source AI را تشکیل میدهند.
---
🔥 نتایج کلیدی:
📦 تنها ۵۰ مدل (۳.۴٪ از کل مدلها) بیش از ۸۰٪ از ۴۵ میلیارد دانلود را به خود اختصاص دادهاند.
یعنی بیشتر فعالیتها حول محور گروه کوچکی از رهبران میچرخد — همانهایی که چهرهی اصلی AI متنباز را میسازند.
---
📉 اندازه مهم است (کوچکتر = بهتر):
♻️۹۲.۵٪ دانلودها مربوط به مدلهایی با کمتر از ۱ میلیارد پارامتر
♻️۸۶.۳٪ < ۵۰۰ میلیون
♻️۷۰٪ < ۲۰۰ میلیون
♻️۴۰٪ < ۱۰۰ میلیون
✅ نتیجه واضح است: در دنیای open-source، مدلهای سبک، سریع و قابل اجرا روی دستگاههای محلی برندهاند.
---
🧠 محبوبترین حوزهها:
♻️مدل NLP (پردازش زبان طبیعی) — ۵۸.۱٪
♻️بینایی کامپیوتر — ۲۱.۲٪
♻️صوت — ۱۵.۱٪
♻️چندوجهی — ۳.۳٪
♻️دادههای زمانی — ۱.۷٪
---
🏢 چه کسانی این مدلها را میسازند؟
♻️شرکتها — ۶۳.۲٪ (گوگل پیشتاز است)
♻️دانشگاهها — ۲۰.۷٪
♻️توسعهدهندگان مستقل — ۱۲.۱٪
♻️سازمانهای غیرانتفاعی — ۳.۸٪
♻️آزمایشگاههای دیگر — ۰.۳٪
---
⚙️ چه نوع مدلهایی محبوبترند؟
♻️مدل Encoderهای متنی — ۴۵٪ از کل دانلودها
♻️مدل Decoderها — ۹.۵٪
♻️مدل Encoder-Decoderها — ۳٪
📌 بر خلاف هیاهوی رسانهای پیرامون LLMها، کاربران عمدتاً مدلهای کاربردی و کوچک را دانلود میکنند که به راحتی در محصولات واقعی ادغام میشوند.
---
🌍 پراکندگی جغرافیایی:
ایالات متحده با اختلاف پیشتاز است:
♻️۱۸ بار در میان ۵۰ مدل برتر دیده میشود.
♻️۵۶.۴٪ از کل دانلودها از مدلهای ساخت آمریکا هستند.
---
💡 نتیجه نهایی:
هوش مصنوعی متنباز نه به لطف غولهایی با تریلیون پارامتر، بلکه به کمک مدلهای فشرده، سریع و کاربردی زنده است — همانهایی که واقعاً در پروژهها و محصولات استفاده میشوند.
---
📖 منبع کامل: Hugging Face Blog
@rss_ai_ir
#AI #HuggingFace #OpenSource #MachineLearning #LLM #AITrends
تحلیل ۵۰ مدل برتر از نظر دانلود در Hugging Face
---
📊 مطالعهی جدید نشان میدهد که کدام سازمانها و چه نوع مدلهایی ستون فقرات اکوسیستم open-source AI را تشکیل میدهند.
---
🔥 نتایج کلیدی:
📦 تنها ۵۰ مدل (۳.۴٪ از کل مدلها) بیش از ۸۰٪ از ۴۵ میلیارد دانلود را به خود اختصاص دادهاند.
یعنی بیشتر فعالیتها حول محور گروه کوچکی از رهبران میچرخد — همانهایی که چهرهی اصلی AI متنباز را میسازند.
---
📉 اندازه مهم است (کوچکتر = بهتر):
♻️۹۲.۵٪ دانلودها مربوط به مدلهایی با کمتر از ۱ میلیارد پارامتر
♻️۸۶.۳٪ < ۵۰۰ میلیون
♻️۷۰٪ < ۲۰۰ میلیون
♻️۴۰٪ < ۱۰۰ میلیون
✅ نتیجه واضح است: در دنیای open-source، مدلهای سبک، سریع و قابل اجرا روی دستگاههای محلی برندهاند.
---
🧠 محبوبترین حوزهها:
♻️مدل NLP (پردازش زبان طبیعی) — ۵۸.۱٪
♻️بینایی کامپیوتر — ۲۱.۲٪
♻️صوت — ۱۵.۱٪
♻️چندوجهی — ۳.۳٪
♻️دادههای زمانی — ۱.۷٪
---
🏢 چه کسانی این مدلها را میسازند؟
♻️شرکتها — ۶۳.۲٪ (گوگل پیشتاز است)
♻️دانشگاهها — ۲۰.۷٪
♻️توسعهدهندگان مستقل — ۱۲.۱٪
♻️سازمانهای غیرانتفاعی — ۳.۸٪
♻️آزمایشگاههای دیگر — ۰.۳٪
---
⚙️ چه نوع مدلهایی محبوبترند؟
♻️مدل Encoderهای متنی — ۴۵٪ از کل دانلودها
♻️مدل Decoderها — ۹.۵٪
♻️مدل Encoder-Decoderها — ۳٪
📌 بر خلاف هیاهوی رسانهای پیرامون LLMها، کاربران عمدتاً مدلهای کاربردی و کوچک را دانلود میکنند که به راحتی در محصولات واقعی ادغام میشوند.
---
🌍 پراکندگی جغرافیایی:
ایالات متحده با اختلاف پیشتاز است:
♻️۱۸ بار در میان ۵۰ مدل برتر دیده میشود.
♻️۵۶.۴٪ از کل دانلودها از مدلهای ساخت آمریکا هستند.
---
💡 نتیجه نهایی:
هوش مصنوعی متنباز نه به لطف غولهایی با تریلیون پارامتر، بلکه به کمک مدلهای فشرده، سریع و کاربردی زنده است — همانهایی که واقعاً در پروژهها و محصولات استفاده میشوند.
---
📖 منبع کامل: Hugging Face Blog
@rss_ai_ir
#AI #HuggingFace #OpenSource #MachineLearning #LLM #AITrends
👍1
⚡️ Omni-Embed-Nemotron —
مدل چندوجهی جدید انویدیا برای جستجو در متن، تصویر، صدا و ویدیو
انویدیا از مدل Omni-Embed-Nemotron رونمایی کرد — سامانهای یکپارچه برای تبدیل انواع دادهها به نمایش برداری مشترک (Unified Embedding).
🎯 ویژگیهای کلیدی:
پشتیبانی از همه نوع داده: 📝 متن، 🖼 تصویر، 🔊 صدا، 🎥 ویدیو
مبتنی بر معماری Qwen Omni (ماژول Thinker، بدون تولید متن)
طول زمینه تا ۳۲٬۷۶۸ توکن
اندازهی بردار نهائی (Embedding) برابر ۲۰۴۸
بهینهشده برای GPU و پشتیبانی از FlashAttention 2
🚀 کاربردها:
♻️جستجوی متقاطع بین مدیاها (مثلاً پیدا کردن ویدیو بر اساس متن یا تصویر)
♻️بهبود پروژههای RAG (Retrieval-Augmented Generation)
♻️توسعه سیستمهای درک چندوجهی محتوا
♻️مدلی ساده، سریع و باز که مرز میان دادههای متنی و دیداری را از میان برمیدارد.
🌐 مدل متنباز:
huggingface.co/nvidia/omni-embed-nemotron-3b
#NVIDIA #OmniEmbed #CrossModal #RAG #AI #OpenSource #Multimodal #هوش_مصنوعی #یادگیری_عمیق #جستجوی_هوشمند
مدل چندوجهی جدید انویدیا برای جستجو در متن، تصویر، صدا و ویدیو
انویدیا از مدل Omni-Embed-Nemotron رونمایی کرد — سامانهای یکپارچه برای تبدیل انواع دادهها به نمایش برداری مشترک (Unified Embedding).
🎯 ویژگیهای کلیدی:
پشتیبانی از همه نوع داده: 📝 متن، 🖼 تصویر، 🔊 صدا، 🎥 ویدیو
مبتنی بر معماری Qwen Omni (ماژول Thinker، بدون تولید متن)
طول زمینه تا ۳۲٬۷۶۸ توکن
اندازهی بردار نهائی (Embedding) برابر ۲۰۴۸
بهینهشده برای GPU و پشتیبانی از FlashAttention 2
🚀 کاربردها:
♻️جستجوی متقاطع بین مدیاها (مثلاً پیدا کردن ویدیو بر اساس متن یا تصویر)
♻️بهبود پروژههای RAG (Retrieval-Augmented Generation)
♻️توسعه سیستمهای درک چندوجهی محتوا
♻️مدلی ساده، سریع و باز که مرز میان دادههای متنی و دیداری را از میان برمیدارد.
🌐 مدل متنباز:
huggingface.co/nvidia/omni-embed-nemotron-3b
#NVIDIA #OmniEmbed #CrossModal #RAG #AI #OpenSource #Multimodal #هوش_مصنوعی #یادگیری_عمیق #جستجوی_هوشمند
⚡ FlashVSR —
ارتقای ویدیو در زمان واقعی بر پایهی دیفیوشن
پروژهی FlashVSR به هدف رسیدن به Super-Resolution ویدیوهای استریم در زمان واقعی طراحی شده است — نه بهترین، اما کاملاً متنباز و قابل استفاده برای همه 🔓
📦 کد منبع:
🔗 github.com/OpenImagingLab/FlashVSR
🧩 نودها برای ComfyUI:
🔗 github.com/smthemex/ComfyUI_FlashVSR
💡 ویژگیها و نکات فنی:
✳️مصرف حافظه بالا (مثل اکثر آپاسکیلرهای دیفیوشنی)
✳️مبتنی بر Block-Sparse Attention — ممکن است روی کارتهای گرافیکی ضعیف ناپایدار عمل کند
✳️کیفیت خروجی مناسب با تأکید بر سرعت پردازش
در مجموع، گزینهای عالی برای کسانی که دنبال راهحل متنباز ارتقای ویدیو با انعطاف بالا هستند.
#FlashVSR #AI #Upscaling #VideoAI #SuperResolution #OpenSource #MachineLearning #DiffusionModels #ComfyUI #DeepLearning #BlockSparseAttention
ارتقای ویدیو در زمان واقعی بر پایهی دیفیوشن
پروژهی FlashVSR به هدف رسیدن به Super-Resolution ویدیوهای استریم در زمان واقعی طراحی شده است — نه بهترین، اما کاملاً متنباز و قابل استفاده برای همه 🔓
📦 کد منبع:
🔗 github.com/OpenImagingLab/FlashVSR
🧩 نودها برای ComfyUI:
🔗 github.com/smthemex/ComfyUI_FlashVSR
💡 ویژگیها و نکات فنی:
✳️مصرف حافظه بالا (مثل اکثر آپاسکیلرهای دیفیوشنی)
✳️مبتنی بر Block-Sparse Attention — ممکن است روی کارتهای گرافیکی ضعیف ناپایدار عمل کند
✳️کیفیت خروجی مناسب با تأکید بر سرعت پردازش
در مجموع، گزینهای عالی برای کسانی که دنبال راهحل متنباز ارتقای ویدیو با انعطاف بالا هستند.
#FlashVSR #AI #Upscaling #VideoAI #SuperResolution #OpenSource #MachineLearning #DiffusionModels #ComfyUI #DeepLearning #BlockSparseAttention
👍1🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 Krea Realtime 14B —
مدل جدید متنبهویدیو با کدباز از Krea AI
مدل جدید Krea Realtime 14B با ۱۴ میلیارد پارامتر عرضه شد — بیش از ۱۰ برابر بزرگتر از اکثر مدلهای بلادرنگ (Realtime) فعلی.
⚙️ ویژگیها و نوآوریها:
🚀 سرعت بالا: تولید ویدیو با نرخ حدود ۱۱ فریم بر ثانیه با تنها ۴ مرحله استنتاج روی یک GPU از نوع NVIDIA B200.
🧩 فناوری Self-Forcing: این روش مدل دیفیوژنی ویدیو را به معماری خودبازگشتی (autoregressive) تبدیل میکند و باعث افزایش پایداری و کنترل میشود.
🎬 حالتها:
Text-to-Video (تبدیل متن به ویدیو)
Video-to-Video (تبدیل سبک ویدیو به ویدیو – هنوز در حال توسعه)
🎨 تعامل زنده: کاربر میتواند در حین تولید، پرامپت را تغییر دهد، سبک تصویر را عوض کند و اولین فریمها را در حدود ۱ ثانیه ببیند.
🔓 مجوز: Apache 2.0
📦 کد باز در HuggingFace:
👉 huggingface.co/krea/krea-realtime-video
#AI #TextToVideo #KreaAI #OpenSource #GenerativeAI #Realtime #VideoAI
مدل جدید متنبهویدیو با کدباز از Krea AI
مدل جدید Krea Realtime 14B با ۱۴ میلیارد پارامتر عرضه شد — بیش از ۱۰ برابر بزرگتر از اکثر مدلهای بلادرنگ (Realtime) فعلی.
⚙️ ویژگیها و نوآوریها:
🚀 سرعت بالا: تولید ویدیو با نرخ حدود ۱۱ فریم بر ثانیه با تنها ۴ مرحله استنتاج روی یک GPU از نوع NVIDIA B200.
🧩 فناوری Self-Forcing: این روش مدل دیفیوژنی ویدیو را به معماری خودبازگشتی (autoregressive) تبدیل میکند و باعث افزایش پایداری و کنترل میشود.
🎬 حالتها:
Text-to-Video (تبدیل متن به ویدیو)
Video-to-Video (تبدیل سبک ویدیو به ویدیو – هنوز در حال توسعه)
🎨 تعامل زنده: کاربر میتواند در حین تولید، پرامپت را تغییر دهد، سبک تصویر را عوض کند و اولین فریمها را در حدود ۱ ثانیه ببیند.
🔓 مجوز: Apache 2.0
📦 کد باز در HuggingFace:
👉 huggingface.co/krea/krea-realtime-video
#AI #TextToVideo #KreaAI #OpenSource #GenerativeAI #Realtime #VideoAI
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 هوش مصنوعی متنباز با سرعتی بیسابقه در حال پیشرفت است — و حالا NVIDIA پیشتاز شده! ⚡️
انویدیا اکنون در صدر مشارکتهای جهانی AI متنباز قرار دارد و با انتشار مجموعهای از مدلهای بزرگ مانند:
🧠 Nemotron، 🧬 BioNeMo، 🌌 Cosmos و 🤖 Gr00t،
در حال بازتعریف نحوهی توسعه و اشتراکگذاری مدلهای هوش مصنوعی در سراسر دنیاست.
این حرکت نهتنها صنعت را متحول میکند، بلکه مرز بین مدلهای اختصاصی و متنباز را هم از بین میبرد.
بینظیر! 🔥
@rss_ai_ir
#NVIDIA #AI #OpenSource #Nemotron #BioNeMo #Cosmos #Gr00t #هوش_مصنوعی #متن_باز #DeepLearning #MachineLearning
انویدیا اکنون در صدر مشارکتهای جهانی AI متنباز قرار دارد و با انتشار مجموعهای از مدلهای بزرگ مانند:
🧠 Nemotron، 🧬 BioNeMo، 🌌 Cosmos و 🤖 Gr00t،
در حال بازتعریف نحوهی توسعه و اشتراکگذاری مدلهای هوش مصنوعی در سراسر دنیاست.
این حرکت نهتنها صنعت را متحول میکند، بلکه مرز بین مدلهای اختصاصی و متنباز را هم از بین میبرد.
بینظیر! 🔥
@rss_ai_ir
#NVIDIA #AI #OpenSource #Nemotron #BioNeMo #Cosmos #Gr00t #هوش_مصنوعی #متن_باز #DeepLearning #MachineLearning
🌍 تنسنت نسخه جدید مدل بازسازی سهبعدی خود را منتشر کرد — Hunyuan World 1.1 (WorldMirror)
نسخهی قبلی Hunyuan World 1.0 میتوانست تنها با یک تصویر یا توضیح متنی صحنههای سهبعدی بسازد — حتی روی کارتهای گرافیک معمولی!
اما حالا نسخهی جدید 1.1 یک جهش بزرگ کرده و قادر است جهانهای سهبعدی را از ویدیو یا تصاویر چندزاویهای بازسازی کند. 🎥🧠
🔹 ورودیهای متنوع:
مدل میتواند با هر نوع داده کار کند — ویدیو، عکس، نقشههای عمق (Depth Maps)، توضیحات حرکتی (Pose) و حتی پارامترهای دوربین.
بازسازی هندسه صحنه با دقت بالا و بدون اعوجاج انجام میشود.
🔹 خروجیهای کامل:
نتیجه میتواند شامل باشد:
♻️ابر نقاط متراکم (Dense Point Clouds)
♻️نقشههای عمق
♻️نرمالهای سطح
♻️پارامترهای دوربین
♻️و حتی 3D Gaussian Splatting آماده برای رندر.
🔹 سرعت فوقالعاده:
مدل کاملاً feed-forward است و تنها با یک گذر روی GPU، صحنه را در چند ثانیه بازسازی میکند ⚡️
🔗 پروژه:
3d-models.hunyuan.tencent.com/world
💻 GitHub:
Tencent-Hunyuan/HunyuanWorld-Mirror
🤗 HuggingFace:
tencent/HunyuanWorld-Mirror
🧪 دمو:
HuggingFace Space
📄 گزارش فنی:
HYWorld Mirror Tech Report
@rss_ai_ir
#هوش_مصنوعی #3D #تنسنت #مدلسازی_سهبعدی #واقعیت_مجازی #گیمینگ #OpenSource #AI #VR
نسخهی قبلی Hunyuan World 1.0 میتوانست تنها با یک تصویر یا توضیح متنی صحنههای سهبعدی بسازد — حتی روی کارتهای گرافیک معمولی!
اما حالا نسخهی جدید 1.1 یک جهش بزرگ کرده و قادر است جهانهای سهبعدی را از ویدیو یا تصاویر چندزاویهای بازسازی کند. 🎥🧠
🔹 ورودیهای متنوع:
مدل میتواند با هر نوع داده کار کند — ویدیو، عکس، نقشههای عمق (Depth Maps)، توضیحات حرکتی (Pose) و حتی پارامترهای دوربین.
بازسازی هندسه صحنه با دقت بالا و بدون اعوجاج انجام میشود.
🔹 خروجیهای کامل:
نتیجه میتواند شامل باشد:
♻️ابر نقاط متراکم (Dense Point Clouds)
♻️نقشههای عمق
♻️نرمالهای سطح
♻️پارامترهای دوربین
♻️و حتی 3D Gaussian Splatting آماده برای رندر.
🔹 سرعت فوقالعاده:
مدل کاملاً feed-forward است و تنها با یک گذر روی GPU، صحنه را در چند ثانیه بازسازی میکند ⚡️
🔗 پروژه:
3d-models.hunyuan.tencent.com/world
💻 GitHub:
Tencent-Hunyuan/HunyuanWorld-Mirror
🤗 HuggingFace:
tencent/HunyuanWorld-Mirror
🧪 دمو:
HuggingFace Space
📄 گزارش فنی:
HYWorld Mirror Tech Report
@rss_ai_ir
#هوش_مصنوعی #3D #تنسنت #مدلسازی_سهبعدی #واقعیت_مجازی #گیمینگ #OpenSource #AI #VR
Tencent
腾讯混元3D
腾讯混元3D生成模型基于Diffusion技术,支持文本和图像生成3D资产。该模型配备精心设计的文本和图像编码器、扩散模型及3D解码器,能够实现多视图生成、重建及单视图生成。腾讯混元3D大模型可快速生成精美3D物体,适用于多种下游应用。
🧠 Qwen3-VL-2B-Thinking —
نسخه کوچک اما هوشمند مدل چندحالتهی Qwen، مخصوص استدلال و تحلیل منطقی
این نسخهی فشرده از خانوادهی Qwen3-VL برای تفکر عمیق، تحلیل داده و کاربردهای عاملمحور (Agent-based) طراحی شده است.
در سری Qwen-VL دو حالت کلیدی وجود دارد:
🔹 Instruct —
برای گفتگوها و پاسخ به دستورها
🔹 Thinking —
برای منطق، برنامهنویسی و حل مسائل پیچیده
✨ ویژگیها:
ساختار چندحالته (Multimodal): درک همزمان متن و تصویر، تحلیل محتوا و کشف روابط علت و معلولی
بهینهشده برای وظایف استدلالی، جایی که تمرکز روی فرآیند تفکر و نتیجهگیری است، نه صرفاً تولید متن
تنها با ۲ میلیارد پارامتر، بهراحتی روی GPUهای محلی یا محیطهای ابری قابل اجراست
پشتیبانی از Tool Calling و ادغام با چارچوبهای عاملمحور (Agent Frameworks)
📘 نتیجه:
مدلی کوچک، سریع و درعینحال قدرتمند برای تفکر و تحلیل — گزینهای عالی برای پروژههای سبک و هوشمند 💡
🔗 مشاهده در Hugging Face
@rss_ai_ir
#هوش_مصنوعی #Qwen #Qwen3VL #Reasoning #LLM #OpenSource #Multimodal #AI
نسخه کوچک اما هوشمند مدل چندحالتهی Qwen، مخصوص استدلال و تحلیل منطقی
این نسخهی فشرده از خانوادهی Qwen3-VL برای تفکر عمیق، تحلیل داده و کاربردهای عاملمحور (Agent-based) طراحی شده است.
در سری Qwen-VL دو حالت کلیدی وجود دارد:
🔹 Instruct —
برای گفتگوها و پاسخ به دستورها
🔹 Thinking —
برای منطق، برنامهنویسی و حل مسائل پیچیده
✨ ویژگیها:
ساختار چندحالته (Multimodal): درک همزمان متن و تصویر، تحلیل محتوا و کشف روابط علت و معلولی
بهینهشده برای وظایف استدلالی، جایی که تمرکز روی فرآیند تفکر و نتیجهگیری است، نه صرفاً تولید متن
تنها با ۲ میلیارد پارامتر، بهراحتی روی GPUهای محلی یا محیطهای ابری قابل اجراست
پشتیبانی از Tool Calling و ادغام با چارچوبهای عاملمحور (Agent Frameworks)
📘 نتیجه:
مدلی کوچک، سریع و درعینحال قدرتمند برای تفکر و تحلیل — گزینهای عالی برای پروژههای سبک و هوشمند 💡
🔗 مشاهده در Hugging Face
@rss_ai_ir
#هوش_مصنوعی #Qwen #Qwen3VL #Reasoning #LLM #OpenSource #Multimodal #AI
👍1
🧠 DeepAnalyze:
مدل عاملمحور برای علم دادهی خودکار (Autonomous Data Science)
پژوهشگران دانشگاه Renmin چین مدل جدیدی با نام DeepAnalyze معرفی کردهاند — چارچوبی مبتنی بر Agentic LLM که میتواند بهصورت مستقل فرآیند کامل علم داده را انجام دهد: از تحلیل اولیه و پاکسازی دادهها تا مدلسازی و تفسیر نتایج. ⚙️📊
✨ ویژگیها:
✳️طراحیشده برای خودکارسازی کامل چرخه علم داده
✳️مجهز به عاملهای تخصصی (agents) برای تحلیل، مدلسازی و ارزیابی
✳️توانایی استدلال چندمرحلهای و تصمیمگیری دادهمحور
✳️یکپارچه با LLM و ابزارهای داده مانند pandas و sklearn
🔗 منابع:
🖥 GitHub:
github.com/ruc-datalab/DeepAnalyze
📕 Paper:
huggingface.co/papers/2510.16872
🌐 Project Page:
ruc-deepanalyze.github.io
@rss_ai_ir
#AI #DataScience #LLM #AutonomousAI #DeepAnalyze #OpenSource
مدل عاملمحور برای علم دادهی خودکار (Autonomous Data Science)
پژوهشگران دانشگاه Renmin چین مدل جدیدی با نام DeepAnalyze معرفی کردهاند — چارچوبی مبتنی بر Agentic LLM که میتواند بهصورت مستقل فرآیند کامل علم داده را انجام دهد: از تحلیل اولیه و پاکسازی دادهها تا مدلسازی و تفسیر نتایج. ⚙️📊
✨ ویژگیها:
✳️طراحیشده برای خودکارسازی کامل چرخه علم داده
✳️مجهز به عاملهای تخصصی (agents) برای تحلیل، مدلسازی و ارزیابی
✳️توانایی استدلال چندمرحلهای و تصمیمگیری دادهمحور
✳️یکپارچه با LLM و ابزارهای داده مانند pandas و sklearn
🔗 منابع:
🖥 GitHub:
github.com/ruc-datalab/DeepAnalyze
📕 Paper:
huggingface.co/papers/2510.16872
🌐 Project Page:
ruc-deepanalyze.github.io
@rss_ai_ir
#AI #DataScience #LLM #AutonomousAI #DeepAnalyze #OpenSource
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🏜️ مدل ناوبری خودران OmniNWM — گامی تازه در دنیای رانندگی خودکار 🚗🤖
مدل OmniNWM یک سیستم یکپارچهی جهانمحور و پانورامیک است که آیندهی رانندگی خودکار را متحول میکند.
این مدل میتواند حالتهای چندوجهی (multi-modal states) شامل تصویر RGB، نقشههای معنایی، عمق و اشغال سهبعدی (3D occupancy) را بهصورت همزمان تولید کند.
✨ ویژگیهای کلیدی:
♻️تولید همزمان دادههای تصویری، عمقی و فضایی برای درک کامل محیط؛
♻️کنترل دقیق حرکات و تصمیمگیریها در لحظه؛
♻️ارزیابی بسته (closed-loop) با پاداشهای متراکم مبتنی بر اشغال فضا؛
♻️اجرای سریع و بهینه روی GPU.
📘 این مدل تحت مجوز Apache 2.0 منتشر شده و برای پژوهش و توسعه کاملاً آزاد است.
🔗 منابع:
👉 مقاله: arxiv.org/pdf/2510.17422
👉 پروژه: urbanverseproject.github.io
👉 ریپوی GitHub: lnkd.in/efCSvjtp
@rss_ai_ir
#AI #AutonomousDriving #Navigation #ComputerVision #OmniNWM #DeepLearning #OpenSource
مدل OmniNWM یک سیستم یکپارچهی جهانمحور و پانورامیک است که آیندهی رانندگی خودکار را متحول میکند.
این مدل میتواند حالتهای چندوجهی (multi-modal states) شامل تصویر RGB، نقشههای معنایی، عمق و اشغال سهبعدی (3D occupancy) را بهصورت همزمان تولید کند.
✨ ویژگیهای کلیدی:
♻️تولید همزمان دادههای تصویری، عمقی و فضایی برای درک کامل محیط؛
♻️کنترل دقیق حرکات و تصمیمگیریها در لحظه؛
♻️ارزیابی بسته (closed-loop) با پاداشهای متراکم مبتنی بر اشغال فضا؛
♻️اجرای سریع و بهینه روی GPU.
📘 این مدل تحت مجوز Apache 2.0 منتشر شده و برای پژوهش و توسعه کاملاً آزاد است.
🔗 منابع:
👉 مقاله: arxiv.org/pdf/2510.17422
👉 پروژه: urbanverseproject.github.io
👉 ریپوی GitHub: lnkd.in/efCSvjtp
@rss_ai_ir
#AI #AutonomousDriving #Navigation #ComputerVision #OmniNWM #DeepLearning #OpenSource
This media is not supported in your browser
VIEW IN TELEGRAM
🌊 پروتکل جدید ردیابی دینامیکی — ITTO از Caltech 🐠
محققان دانشگاه Caltech مجموعهبنچمارک جدیدی به نام ITTO معرفی کردهاند —
سیستمی برای ارزیابی و تحلیل روشهای ردیابی در حرکات پیچیده و بلندمدت 🔍
💡 ویژگیها:
♻️طراحیشده برای حرکات طولانی، پیچیده و غیرخطی
♻️تمرکز بر ارزیابی پایداری در فریمهای زیاد
♻️مناسب برای آموزش و تست الگوریتمهای بینایی ماشین در سناریوهای واقعی
📘 مجوز: CC BY-NC 4.0 — استفادهی آزاد برای اهداف پژوهشی
🔗 لینکها:
📄 مقاله
🌐 پروژه
💾 کد منبع
@rss_ai_ir
#AI #Tracking #ComputerVision #Caltech #Research #OpenSource
محققان دانشگاه Caltech مجموعهبنچمارک جدیدی به نام ITTO معرفی کردهاند —
سیستمی برای ارزیابی و تحلیل روشهای ردیابی در حرکات پیچیده و بلندمدت 🔍
💡 ویژگیها:
♻️طراحیشده برای حرکات طولانی، پیچیده و غیرخطی
♻️تمرکز بر ارزیابی پایداری در فریمهای زیاد
♻️مناسب برای آموزش و تست الگوریتمهای بینایی ماشین در سناریوهای واقعی
📘 مجوز: CC BY-NC 4.0 — استفادهی آزاد برای اهداف پژوهشی
🔗 لینکها:
📄 مقاله
🌐 پروژه
💾 کد منبع
@rss_ai_ir
#AI #Tracking #ComputerVision #Caltech #Research #OpenSource
❤1
🚀 NVIDIA
دوباره صحنه رو آتیش زد!
روش جدیدشون به نام GenCluster باعث شد برای اولین بار یک مدل متنباز بتونه به سطح مدلهای بستهی شرکتهای بزرگ برسه 💥
🧠 مدل gpt-oss-120b موفق شد در المپیاد بینالمللی انفورماتیک (IOI 2025) مدال طلا بگیره —
اولین باریه در تاریخ که این افتخار نصیب یک مدل open-source شده! 🥇
📊 چطور کار میکنه؟
مدل هزاران راهحل برنامهنویسی تولید میکنه،
اونها رو تست و گروهبندی میکنه،
و بین بهترینها یک «تورنمنت هوش مصنوعی» برگزار میکنه،
که داوریاش هم با یک مدل هوش مصنوعی دیگهست 😎
📈 نتیجه:
۴۴۶.۷۵ امتیاز و مدال طلای رسمی IOI
یک جهش بزرگ در سمت استدلال و حل مسئلهی سطح انسانی توسط مدلهای باز
📄 جزئیات مقاله:
🔗 arxiv.org/abs/2510.14232v1
#NVIDIA #GenCluster #AI #OpenSource #LLM #Research #MachineLearning #IOI2025
دوباره صحنه رو آتیش زد!
روش جدیدشون به نام GenCluster باعث شد برای اولین بار یک مدل متنباز بتونه به سطح مدلهای بستهی شرکتهای بزرگ برسه 💥
🧠 مدل gpt-oss-120b موفق شد در المپیاد بینالمللی انفورماتیک (IOI 2025) مدال طلا بگیره —
اولین باریه در تاریخ که این افتخار نصیب یک مدل open-source شده! 🥇
📊 چطور کار میکنه؟
مدل هزاران راهحل برنامهنویسی تولید میکنه،
اونها رو تست و گروهبندی میکنه،
و بین بهترینها یک «تورنمنت هوش مصنوعی» برگزار میکنه،
که داوریاش هم با یک مدل هوش مصنوعی دیگهست 😎
📈 نتیجه:
۴۴۶.۷۵ امتیاز و مدال طلای رسمی IOI
یک جهش بزرگ در سمت استدلال و حل مسئلهی سطح انسانی توسط مدلهای باز
📄 جزئیات مقاله:
🔗 arxiv.org/abs/2510.14232v1
#NVIDIA #GenCluster #AI #OpenSource #LLM #Research #MachineLearning #IOI2025
❤1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🌏 Hunyuan World 1.1 (WorldMirror) —
نسخهی جدید مدل متنباز تولید جهان سهبعدی از Tencent Hunyuan
در حالیکه نسخهی قبلی Hunyuan World 1.0 برای ساخت جهانهای سهبعدی از متن یا تصاویر تکزاویهای طراحی شده بود و روی GPUهای معمولی اجرا میشد، نسخهی جدید 1.1 حالا از ویدیوها و تصاویر چندزاویهای پشتیبانی میکند.
🎯 ویژگیهای کلیدی:
ورودی آزاد (Any Input): از ویدیو، تصویر، نقشه عمق و پارامترهای دوربین پشتیبانی میکند و ساختار سهبعدی دقیق و بدون اعوجاج میسازد.
خروجی آزاد (Any Output): تولید همزمان چندین نمای سهبعدی — از جمله نقشه عمق، ابر نقاط (Point Cloud)، نرمال سطوح و Gaussian Splatting.
سرعت بالا: مدل از نوع Feed-Forward است و تمام ویژگیهای سهبعدی را تنها در چند ثانیه و در یک GPU تولید میکند.
⚙️ این مدل بهنوعی ادامهی مسیر تکاملی مدلهای تولید ویدیو است — با این تفاوت که حالا میتواند جهانهای کامل را بازسازی کند.
در حالیکه گوگل با مدل GENIE-3 پاسخ داده، OpenAI هنوز هیچ معادل مستقیمی برای این فناوری ندارد.
💻 منابع:
🔹 کد: github.com/Tencent-Hunyuan/HunyuanWorld-Mirror
🔹 پروژه: 3d-models.hunyuan.tencent.com/world/
🔹 دمو: Hugging Face Space
🔹 مقاله: Tech Report PDF
@rss_ai_ir
#AI #3D #GenerativeAI #Hunyuan #Tencent #OpenSource #هوش_مصنوعی #سهبعدی #مدل_تولیدی
نسخهی جدید مدل متنباز تولید جهان سهبعدی از Tencent Hunyuan
در حالیکه نسخهی قبلی Hunyuan World 1.0 برای ساخت جهانهای سهبعدی از متن یا تصاویر تکزاویهای طراحی شده بود و روی GPUهای معمولی اجرا میشد، نسخهی جدید 1.1 حالا از ویدیوها و تصاویر چندزاویهای پشتیبانی میکند.
🎯 ویژگیهای کلیدی:
ورودی آزاد (Any Input): از ویدیو، تصویر، نقشه عمق و پارامترهای دوربین پشتیبانی میکند و ساختار سهبعدی دقیق و بدون اعوجاج میسازد.
خروجی آزاد (Any Output): تولید همزمان چندین نمای سهبعدی — از جمله نقشه عمق، ابر نقاط (Point Cloud)، نرمال سطوح و Gaussian Splatting.
سرعت بالا: مدل از نوع Feed-Forward است و تمام ویژگیهای سهبعدی را تنها در چند ثانیه و در یک GPU تولید میکند.
⚙️ این مدل بهنوعی ادامهی مسیر تکاملی مدلهای تولید ویدیو است — با این تفاوت که حالا میتواند جهانهای کامل را بازسازی کند.
در حالیکه گوگل با مدل GENIE-3 پاسخ داده، OpenAI هنوز هیچ معادل مستقیمی برای این فناوری ندارد.
💻 منابع:
🔹 کد: github.com/Tencent-Hunyuan/HunyuanWorld-Mirror
🔹 پروژه: 3d-models.hunyuan.tencent.com/world/
🔹 دمو: Hugging Face Space
🔹 مقاله: Tech Report PDF
@rss_ai_ir
#AI #3D #GenerativeAI #Hunyuan #Tencent #OpenSource #هوش_مصنوعی #سهبعدی #مدل_تولیدی
👍2🔥1👏1
⚡️ LMMs Engine –
موتور واحد برای آموزش مدلهای چندوجهی (Multimodal)
فریمورکی ساده، منعطف و قدرتمند از LMMs-Lab برای آموزش مدلهایی که همزمان میتوانند متن، تصویر، صدا و ویدیو را درک کنند — همه در یک محیط یکپارچه 🎛️
🎯 ویژگیها:
پشتیبانی از بیش از ۱۹ معماری مختلف:
🧠 Qwen3-VL:
پردازش تصویر با رزولوشن اصلی و کانتکست بیش از ۱۰٬۰۰۰ توکن
🎧 Qwen2.5-Omni:
مدل واحد برای متن، تصویر و صوت
🎥 WanVideo:
تولید ویدیو از متن، تصویر یا ویدیو (T2V, I2V, V2V)
🌫 dLLM:
مدلهای زبانی دیفیوژنی
🪄 LLaVA-OneVision، Bagel، SiT، RAE-SigLip و دیگر مدلهای پیشرفته
📜 لایسنس: Apache 2.0 — قابلاستفاده حتی در پروژههای تجاری
🔗 گیتهاب:
github.com/EvolvingLMMs-Lab/lmms-engine
@rss_ai_ir
#AI #Multimodal #OpenSource #DeepLearning #LLM #LMMsEngine
موتور واحد برای آموزش مدلهای چندوجهی (Multimodal)
فریمورکی ساده، منعطف و قدرتمند از LMMs-Lab برای آموزش مدلهایی که همزمان میتوانند متن، تصویر، صدا و ویدیو را درک کنند — همه در یک محیط یکپارچه 🎛️
🎯 ویژگیها:
پشتیبانی از بیش از ۱۹ معماری مختلف:
🧠 Qwen3-VL:
پردازش تصویر با رزولوشن اصلی و کانتکست بیش از ۱۰٬۰۰۰ توکن
🎧 Qwen2.5-Omni:
مدل واحد برای متن، تصویر و صوت
🎥 WanVideo:
تولید ویدیو از متن، تصویر یا ویدیو (T2V, I2V, V2V)
🌫 dLLM:
مدلهای زبانی دیفیوژنی
🪄 LLaVA-OneVision، Bagel، SiT، RAE-SigLip و دیگر مدلهای پیشرفته
📜 لایسنس: Apache 2.0 — قابلاستفاده حتی در پروژههای تجاری
🔗 گیتهاب:
github.com/EvolvingLMMs-Lab/lmms-engine
@rss_ai_ir
#AI #Multimodal #OpenSource #DeepLearning #LLM #LMMsEngine
❤2
This media is not supported in your browser
VIEW IN TELEGRAM
🦄 مدل چندوجهی «PixelRefer»؛ فهم ناحیهای دقیق در تصویر و ویدئو
🎯 چارچوب یکپارچهی MLLM که بهجای نگاه کلی به صحنه، روی ناحیههای مشخص تمرکز میکند؛ هم در تصاویر ثابت، هم در ویدئوهای پویا. نتیجه: دقت بالاتر در اشاره به ناحیهها، رفع سوگیری صحنهمحور، و رکوردهای SOTA.
چه میدهد؟
🎥🖼️ فهم ناحیهای دقیق در تصویر/ویدئو (region-level grounding)
🧠 رفع bias مدلهای قبلی که فقط صحنهی کلی را میدیدند
🚀 نتایج SOTA + دموی آنلاین، دیتاست و کد متنباز
لینکها:
Paper: arxiv.org/pdf/2510.23603
Project: circleradon.github.io/PixelRefer
Repo: https://github.com/alibaba-damo-academy/PixelRefer
@rss_ai_ir
#MLLM #Multimodal #VisionLanguage #Grounding #ReferringSegmentation #SOTA #OpenSource
🎯 چارچوب یکپارچهی MLLM که بهجای نگاه کلی به صحنه، روی ناحیههای مشخص تمرکز میکند؛ هم در تصاویر ثابت، هم در ویدئوهای پویا. نتیجه: دقت بالاتر در اشاره به ناحیهها، رفع سوگیری صحنهمحور، و رکوردهای SOTA.
چه میدهد؟
🎥🖼️ فهم ناحیهای دقیق در تصویر/ویدئو (region-level grounding)
🧠 رفع bias مدلهای قبلی که فقط صحنهی کلی را میدیدند
🚀 نتایج SOTA + دموی آنلاین، دیتاست و کد متنباز
لینکها:
Paper: arxiv.org/pdf/2510.23603
Project: circleradon.github.io/PixelRefer
Repo: https://github.com/alibaba-damo-academy/PixelRefer
@rss_ai_ir
#MLLM #Multimodal #VisionLanguage #Grounding #ReferringSegmentation #SOTA #OpenSource
🛠️📊 Dev3000 —
لاگگیری هوشمند با پشتیبانی از هوش مصنوعی
ابزار Dev3000 تمام رویدادهای توسعهی وباپلیکیشن شما را بهصورت زمانی ثبت میکند — از لاگهای سرور و رویدادهای مرورگر تا اسکرینشاتهای خودکار.
با این روش، ابزارهایی مثل Claude میتوانند تمام دادهها را یکجا تحلیل کنند و در عیبیابی به شما کمک کنند. 🤖
🚀 ویژگیهای کلیدی:
ذخیرهی لاگها با زمانبندی دقیق ⏱️
ثبت خودکار اسکرینشاتها هنگام خطا یا جابهجایی در صفحات 📸
پشتیبانی از تحلیل و دیباگ خودکار با هوش مصنوعی 🤖
جستجو و فیلتر سریع بین لاگها 🔍
رابط گرافیکی زیبا برای مرور آسان اطلاعات 💡
📎 GitHub:
github.com/vercel-labs/dev3000
@rss_ai_ir
#AI #DevTools #Debugging #JavaScript #WebDevelopment #Claude #OpenSource
لاگگیری هوشمند با پشتیبانی از هوش مصنوعی
ابزار Dev3000 تمام رویدادهای توسعهی وباپلیکیشن شما را بهصورت زمانی ثبت میکند — از لاگهای سرور و رویدادهای مرورگر تا اسکرینشاتهای خودکار.
با این روش، ابزارهایی مثل Claude میتوانند تمام دادهها را یکجا تحلیل کنند و در عیبیابی به شما کمک کنند. 🤖
🚀 ویژگیهای کلیدی:
ذخیرهی لاگها با زمانبندی دقیق ⏱️
ثبت خودکار اسکرینشاتها هنگام خطا یا جابهجایی در صفحات 📸
پشتیبانی از تحلیل و دیباگ خودکار با هوش مصنوعی 🤖
جستجو و فیلتر سریع بین لاگها 🔍
رابط گرافیکی زیبا برای مرور آسان اطلاعات 💡
📎 GitHub:
github.com/vercel-labs/dev3000
@rss_ai_ir
#AI #DevTools #Debugging #JavaScript #WebDevelopment #Claude #OpenSource