This media is not supported in your browser
VIEW IN TELEGRAM
🌏 Hunyuan World 1.1 (WorldMirror) —
نسخهی جدید مدل متنباز تولید جهان سهبعدی از Tencent Hunyuan
در حالیکه نسخهی قبلی Hunyuan World 1.0 برای ساخت جهانهای سهبعدی از متن یا تصاویر تکزاویهای طراحی شده بود و روی GPUهای معمولی اجرا میشد، نسخهی جدید 1.1 حالا از ویدیوها و تصاویر چندزاویهای پشتیبانی میکند.
🎯 ویژگیهای کلیدی:
ورودی آزاد (Any Input): از ویدیو، تصویر، نقشه عمق و پارامترهای دوربین پشتیبانی میکند و ساختار سهبعدی دقیق و بدون اعوجاج میسازد.
خروجی آزاد (Any Output): تولید همزمان چندین نمای سهبعدی — از جمله نقشه عمق، ابر نقاط (Point Cloud)، نرمال سطوح و Gaussian Splatting.
سرعت بالا: مدل از نوع Feed-Forward است و تمام ویژگیهای سهبعدی را تنها در چند ثانیه و در یک GPU تولید میکند.
⚙️ این مدل بهنوعی ادامهی مسیر تکاملی مدلهای تولید ویدیو است — با این تفاوت که حالا میتواند جهانهای کامل را بازسازی کند.
در حالیکه گوگل با مدل GENIE-3 پاسخ داده، OpenAI هنوز هیچ معادل مستقیمی برای این فناوری ندارد.
💻 منابع:
🔹 کد: github.com/Tencent-Hunyuan/HunyuanWorld-Mirror
🔹 پروژه: 3d-models.hunyuan.tencent.com/world/
🔹 دمو: Hugging Face Space
🔹 مقاله: Tech Report PDF
@rss_ai_ir
#AI #3D #GenerativeAI #Hunyuan #Tencent #OpenSource #هوش_مصنوعی #سهبعدی #مدل_تولیدی
نسخهی جدید مدل متنباز تولید جهان سهبعدی از Tencent Hunyuan
در حالیکه نسخهی قبلی Hunyuan World 1.0 برای ساخت جهانهای سهبعدی از متن یا تصاویر تکزاویهای طراحی شده بود و روی GPUهای معمولی اجرا میشد، نسخهی جدید 1.1 حالا از ویدیوها و تصاویر چندزاویهای پشتیبانی میکند.
🎯 ویژگیهای کلیدی:
ورودی آزاد (Any Input): از ویدیو، تصویر، نقشه عمق و پارامترهای دوربین پشتیبانی میکند و ساختار سهبعدی دقیق و بدون اعوجاج میسازد.
خروجی آزاد (Any Output): تولید همزمان چندین نمای سهبعدی — از جمله نقشه عمق، ابر نقاط (Point Cloud)، نرمال سطوح و Gaussian Splatting.
سرعت بالا: مدل از نوع Feed-Forward است و تمام ویژگیهای سهبعدی را تنها در چند ثانیه و در یک GPU تولید میکند.
⚙️ این مدل بهنوعی ادامهی مسیر تکاملی مدلهای تولید ویدیو است — با این تفاوت که حالا میتواند جهانهای کامل را بازسازی کند.
در حالیکه گوگل با مدل GENIE-3 پاسخ داده، OpenAI هنوز هیچ معادل مستقیمی برای این فناوری ندارد.
💻 منابع:
🔹 کد: github.com/Tencent-Hunyuan/HunyuanWorld-Mirror
🔹 پروژه: 3d-models.hunyuan.tencent.com/world/
🔹 دمو: Hugging Face Space
🔹 مقاله: Tech Report PDF
@rss_ai_ir
#AI #3D #GenerativeAI #Hunyuan #Tencent #OpenSource #هوش_مصنوعی #سهبعدی #مدل_تولیدی
👍2🔥1👏1
⚡️ LMMs Engine –
موتور واحد برای آموزش مدلهای چندوجهی (Multimodal)
فریمورکی ساده، منعطف و قدرتمند از LMMs-Lab برای آموزش مدلهایی که همزمان میتوانند متن، تصویر، صدا و ویدیو را درک کنند — همه در یک محیط یکپارچه 🎛️
🎯 ویژگیها:
پشتیبانی از بیش از ۱۹ معماری مختلف:
🧠 Qwen3-VL:
پردازش تصویر با رزولوشن اصلی و کانتکست بیش از ۱۰٬۰۰۰ توکن
🎧 Qwen2.5-Omni:
مدل واحد برای متن، تصویر و صوت
🎥 WanVideo:
تولید ویدیو از متن، تصویر یا ویدیو (T2V, I2V, V2V)
🌫 dLLM:
مدلهای زبانی دیفیوژنی
🪄 LLaVA-OneVision، Bagel، SiT، RAE-SigLip و دیگر مدلهای پیشرفته
📜 لایسنس: Apache 2.0 — قابلاستفاده حتی در پروژههای تجاری
🔗 گیتهاب:
github.com/EvolvingLMMs-Lab/lmms-engine
@rss_ai_ir
#AI #Multimodal #OpenSource #DeepLearning #LLM #LMMsEngine
موتور واحد برای آموزش مدلهای چندوجهی (Multimodal)
فریمورکی ساده، منعطف و قدرتمند از LMMs-Lab برای آموزش مدلهایی که همزمان میتوانند متن، تصویر، صدا و ویدیو را درک کنند — همه در یک محیط یکپارچه 🎛️
🎯 ویژگیها:
پشتیبانی از بیش از ۱۹ معماری مختلف:
🧠 Qwen3-VL:
پردازش تصویر با رزولوشن اصلی و کانتکست بیش از ۱۰٬۰۰۰ توکن
🎧 Qwen2.5-Omni:
مدل واحد برای متن، تصویر و صوت
🎥 WanVideo:
تولید ویدیو از متن، تصویر یا ویدیو (T2V, I2V, V2V)
🌫 dLLM:
مدلهای زبانی دیفیوژنی
🪄 LLaVA-OneVision، Bagel، SiT، RAE-SigLip و دیگر مدلهای پیشرفته
📜 لایسنس: Apache 2.0 — قابلاستفاده حتی در پروژههای تجاری
🔗 گیتهاب:
github.com/EvolvingLMMs-Lab/lmms-engine
@rss_ai_ir
#AI #Multimodal #OpenSource #DeepLearning #LLM #LMMsEngine
❤2
This media is not supported in your browser
VIEW IN TELEGRAM
🦄 مدل چندوجهی «PixelRefer»؛ فهم ناحیهای دقیق در تصویر و ویدئو
🎯 چارچوب یکپارچهی MLLM که بهجای نگاه کلی به صحنه، روی ناحیههای مشخص تمرکز میکند؛ هم در تصاویر ثابت، هم در ویدئوهای پویا. نتیجه: دقت بالاتر در اشاره به ناحیهها، رفع سوگیری صحنهمحور، و رکوردهای SOTA.
چه میدهد؟
🎥🖼️ فهم ناحیهای دقیق در تصویر/ویدئو (region-level grounding)
🧠 رفع bias مدلهای قبلی که فقط صحنهی کلی را میدیدند
🚀 نتایج SOTA + دموی آنلاین، دیتاست و کد متنباز
لینکها:
Paper: arxiv.org/pdf/2510.23603
Project: circleradon.github.io/PixelRefer
Repo: https://github.com/alibaba-damo-academy/PixelRefer
@rss_ai_ir
#MLLM #Multimodal #VisionLanguage #Grounding #ReferringSegmentation #SOTA #OpenSource
🎯 چارچوب یکپارچهی MLLM که بهجای نگاه کلی به صحنه، روی ناحیههای مشخص تمرکز میکند؛ هم در تصاویر ثابت، هم در ویدئوهای پویا. نتیجه: دقت بالاتر در اشاره به ناحیهها، رفع سوگیری صحنهمحور، و رکوردهای SOTA.
چه میدهد؟
🎥🖼️ فهم ناحیهای دقیق در تصویر/ویدئو (region-level grounding)
🧠 رفع bias مدلهای قبلی که فقط صحنهی کلی را میدیدند
🚀 نتایج SOTA + دموی آنلاین، دیتاست و کد متنباز
لینکها:
Paper: arxiv.org/pdf/2510.23603
Project: circleradon.github.io/PixelRefer
Repo: https://github.com/alibaba-damo-academy/PixelRefer
@rss_ai_ir
#MLLM #Multimodal #VisionLanguage #Grounding #ReferringSegmentation #SOTA #OpenSource
🛠️📊 Dev3000 —
لاگگیری هوشمند با پشتیبانی از هوش مصنوعی
ابزار Dev3000 تمام رویدادهای توسعهی وباپلیکیشن شما را بهصورت زمانی ثبت میکند — از لاگهای سرور و رویدادهای مرورگر تا اسکرینشاتهای خودکار.
با این روش، ابزارهایی مثل Claude میتوانند تمام دادهها را یکجا تحلیل کنند و در عیبیابی به شما کمک کنند. 🤖
🚀 ویژگیهای کلیدی:
ذخیرهی لاگها با زمانبندی دقیق ⏱️
ثبت خودکار اسکرینشاتها هنگام خطا یا جابهجایی در صفحات 📸
پشتیبانی از تحلیل و دیباگ خودکار با هوش مصنوعی 🤖
جستجو و فیلتر سریع بین لاگها 🔍
رابط گرافیکی زیبا برای مرور آسان اطلاعات 💡
📎 GitHub:
github.com/vercel-labs/dev3000
@rss_ai_ir
#AI #DevTools #Debugging #JavaScript #WebDevelopment #Claude #OpenSource
لاگگیری هوشمند با پشتیبانی از هوش مصنوعی
ابزار Dev3000 تمام رویدادهای توسعهی وباپلیکیشن شما را بهصورت زمانی ثبت میکند — از لاگهای سرور و رویدادهای مرورگر تا اسکرینشاتهای خودکار.
با این روش، ابزارهایی مثل Claude میتوانند تمام دادهها را یکجا تحلیل کنند و در عیبیابی به شما کمک کنند. 🤖
🚀 ویژگیهای کلیدی:
ذخیرهی لاگها با زمانبندی دقیق ⏱️
ثبت خودکار اسکرینشاتها هنگام خطا یا جابهجایی در صفحات 📸
پشتیبانی از تحلیل و دیباگ خودکار با هوش مصنوعی 🤖
جستجو و فیلتر سریع بین لاگها 🔍
رابط گرافیکی زیبا برای مرور آسان اطلاعات 💡
📎 GitHub:
github.com/vercel-labs/dev3000
@rss_ai_ir
#AI #DevTools #Debugging #JavaScript #WebDevelopment #Claude #OpenSource
🤖 GaussGym:
انقلابی در آموزش رباتها از طریق پیکسلها — سریع، فتوواقعگرایانه و متنباز
فریمورک جدید GaussGym معرفی شد — اولین پلتفرم open-source که سرعت بسیار بالا را با بینایی فتوواقعی (Photorealistic Vision) در شبیهسازی رباتها ترکیب میکند. 🚀
این سیستم با استفاده از 3D Gaussian Splatting بهعنوان یک رندرکنندهی تعبیهشده در شبیهسازهای وکتوریزه (مانند IsaacGym)، قادر است سیاستهای بینایی-حرکتی (Visuomotor Policies) را تنها از تصاویر RGB با سرعتی بیش از ۱۰۰٬۰۰۰ گام در ثانیه آموزش دهد — حتی روی یک کارت RTX 4090! ⚡
🔹 ساخت دنیای تمرینی از ویدیوهای iPhone، دیتاستهای GrandTour و ARKit یا حتی ویدیوهای مولد (مثل Veo)
🔹 بازسازی خودکار صحنههای فیزیکی دقیق با کمک VGGT و NKSR بدون نیاز به مدلسازی دستی سهبعدی
🔹 آموزش سیاستهای حرکت و ناوبری مستقیم از پیکسلها و انتقال آنها به دنیای واقعی بدون هیچ تنظیم اضافی (Zero-Shot Sim2Real) — نمونهی آزمایشی شامل بالا رفتن ربات از پلههای ۱۷ سانتیمتری
🔹 پشتیبانی از عمق، motion blur، randomization دوربین و سایر افکتهای واقعگرایانه برای بهبود انتقال
تمامی کدها، دادهها، مدلها و دیتاستها بهصورت کاملاً متنباز در دسترس هستند 👇
🔗 دمو: escontrela.me/gauss_gym
📄 مقاله: arxiv.org/abs/2510.15352
💾 دادهها: huggingface.co/collections/escontra/gauss-gym-datasets
💻 کد: github.com/escontra/gauss_gym
✨مدل GaussGym مرز بین سرعت و واقعگرایی را در رباتیک از بین برده و مسیر آموزش رباتها از تصاویر را واقعاً مقیاسپذیر کرده است.
@rss_ai_ir
#AI #Robotics #Simulation #GaussGym #IsaacGym #3DGS #OpenSource
انقلابی در آموزش رباتها از طریق پیکسلها — سریع، فتوواقعگرایانه و متنباز
فریمورک جدید GaussGym معرفی شد — اولین پلتفرم open-source که سرعت بسیار بالا را با بینایی فتوواقعی (Photorealistic Vision) در شبیهسازی رباتها ترکیب میکند. 🚀
این سیستم با استفاده از 3D Gaussian Splatting بهعنوان یک رندرکنندهی تعبیهشده در شبیهسازهای وکتوریزه (مانند IsaacGym)، قادر است سیاستهای بینایی-حرکتی (Visuomotor Policies) را تنها از تصاویر RGB با سرعتی بیش از ۱۰۰٬۰۰۰ گام در ثانیه آموزش دهد — حتی روی یک کارت RTX 4090! ⚡
🔹 ساخت دنیای تمرینی از ویدیوهای iPhone، دیتاستهای GrandTour و ARKit یا حتی ویدیوهای مولد (مثل Veo)
🔹 بازسازی خودکار صحنههای فیزیکی دقیق با کمک VGGT و NKSR بدون نیاز به مدلسازی دستی سهبعدی
🔹 آموزش سیاستهای حرکت و ناوبری مستقیم از پیکسلها و انتقال آنها به دنیای واقعی بدون هیچ تنظیم اضافی (Zero-Shot Sim2Real) — نمونهی آزمایشی شامل بالا رفتن ربات از پلههای ۱۷ سانتیمتری
🔹 پشتیبانی از عمق، motion blur، randomization دوربین و سایر افکتهای واقعگرایانه برای بهبود انتقال
تمامی کدها، دادهها، مدلها و دیتاستها بهصورت کاملاً متنباز در دسترس هستند 👇
🔗 دمو: escontrela.me/gauss_gym
📄 مقاله: arxiv.org/abs/2510.15352
💾 دادهها: huggingface.co/collections/escontra/gauss-gym-datasets
💻 کد: github.com/escontra/gauss_gym
✨مدل GaussGym مرز بین سرعت و واقعگرایی را در رباتیک از بین برده و مسیر آموزش رباتها از تصاویر را واقعاً مقیاسپذیر کرده است.
@rss_ai_ir
#AI #Robotics #Simulation #GaussGym #IsaacGym #3DGS #OpenSource
🚀 استفاده از مدلهای زبانی در Go با کتابخانهی جدید yzma
کتابخانهی yzma امکان اجرای مدلهای زبانی (LLM)، مدلهای دید-زبان (VLM) و سایر معماریها را بهصورت بومی روی سختافزار خودتان فراهم میکند — با پشتیبانی کامل از شتاب سختافزاری و بدون نیاز به CGo! ⚙️
💡 ویژگیهای کلیدی:
🔹 پشتیبانی از VLM، LLM، SLM و TLM در یک پکیج واحد
🔹 بهرهگیری کامل از شتابدهندههای سختافزاری برای بیشترین سرعت
🔹 بدون نیاز به C compiler — نصب و اجرا تنها با Go
🔹 کاملاً سازگار با نسخههای جدید llama.cpp
🔹 همراه با نمونهکدهای آماده برای انواع مدلها
📦 سیستمعاملهای پشتیبانیشده:
Linux 🐧
macOS 🍎
Windows 💻
📌 سورسکد و مستندات:
github.com/hybridgroup/yzma
با yzma، زبان Go بالاخره ابزار قدرتمند و سادهای برای استفاده مستقیم از مدلهای هوش مصنوعی روی دستگاه محلی پیدا کرده است. 🚀
@rss_ai_ir
#Go #LLM #VLM #AI #yzma #MachineLearning #OpenSource
کتابخانهی yzma امکان اجرای مدلهای زبانی (LLM)، مدلهای دید-زبان (VLM) و سایر معماریها را بهصورت بومی روی سختافزار خودتان فراهم میکند — با پشتیبانی کامل از شتاب سختافزاری و بدون نیاز به CGo! ⚙️
💡 ویژگیهای کلیدی:
🔹 پشتیبانی از VLM، LLM، SLM و TLM در یک پکیج واحد
🔹 بهرهگیری کامل از شتابدهندههای سختافزاری برای بیشترین سرعت
🔹 بدون نیاز به C compiler — نصب و اجرا تنها با Go
🔹 کاملاً سازگار با نسخههای جدید llama.cpp
🔹 همراه با نمونهکدهای آماده برای انواع مدلها
📦 سیستمعاملهای پشتیبانیشده:
Linux 🐧
macOS 🍎
Windows 💻
📌 سورسکد و مستندات:
github.com/hybridgroup/yzma
با yzma، زبان Go بالاخره ابزار قدرتمند و سادهای برای استفاده مستقیم از مدلهای هوش مصنوعی روی دستگاه محلی پیدا کرده است. 🚀
@rss_ai_ir
#Go #LLM #VLM #AI #yzma #MachineLearning #OpenSource
👍2
🎉 مدل Qwen3-VL حالا در llama.cpp اجرا میشود! 🤖💥
خبر عالی برای عاشقان اجرای محلی مدلها —
حالا میتوانید Qwen3-VL را مستقیماً روی دستگاه خود اجرا کنید، بدون نیاز به ابر یا سرویسهای جانبی!
🚀 پشتیبانی کامل از:
✳️CPU
✳️CUDA
✳️Metal
✳️Vulkan
و سایر بکاندهای رایج.
📦 وزنهای GGUF برای همه نسخهها در دسترس است — از ۲B تا ۲۳۵B.
این یعنی از لپتاپ تا ایستگاه کاری قدرتمند، میتوانید نسخهای مناسب اجرا کنید.
---
🔗 منابع:
🤗 Hugging Face
🤖 ModelScope
📌 PR در llama.cpp
📡 @rss_ai_ir
#هوش_مصنوعی #LLM #Qwen3 #LlamaCpp #AI #OpenSource
خبر عالی برای عاشقان اجرای محلی مدلها —
حالا میتوانید Qwen3-VL را مستقیماً روی دستگاه خود اجرا کنید، بدون نیاز به ابر یا سرویسهای جانبی!
🚀 پشتیبانی کامل از:
✳️CPU
✳️CUDA
✳️Metal
✳️Vulkan
و سایر بکاندهای رایج.
📦 وزنهای GGUF برای همه نسخهها در دسترس است — از ۲B تا ۲۳۵B.
این یعنی از لپتاپ تا ایستگاه کاری قدرتمند، میتوانید نسخهای مناسب اجرا کنید.
---
🔗 منابع:
🤗 Hugging Face
🤖 ModelScope
📌 PR در llama.cpp
📡 @rss_ai_ir
#هوش_مصنوعی #LLM #Qwen3 #LlamaCpp #AI #OpenSource
❤5
This media is not supported in your browser
VIEW IN TELEGRAM
💻 در llama.cpp رابط وب شبیه Automatic1111 ساخته شد! 🤖⚙️
توسعهدهندگان llama.cpp حالا نسخهای از WebUI مخصوص خودشان را ارائه کردهاند — چیزی شبیه Automatic1111 برای Stable Diffusion، اما اینبار برای مدلهای زبانی (LLM)!
برخلاف ابزارهای تولید تصویر که صدها پارامتر دارند، این رابط سادهتر است و بیشتر شبیه ChatGPT یا Qwen Chat عمل میکند.
کافی است:
1️⃣ سرور محلی خود را اجرا کنید،
2️⃣ آدرس 127.0.0.1 را در مرورگر باز کنید،
3️⃣ و از طریق رابط وب به صدها مدل بازمتن دسترسی پیدا کنید.
📂 همچنین میتوانید تصاویر یا اسناد خود را آپلود کنید تا مدل مستقیماً با دادههای شما کار کند.
📘 دستورالعمل کامل در گیتهاب:
👉 github.com/ggml-org/llama.cpp#hot-topics
📡 @rss_ai_ir
#هوش_مصنوعی #llamaCpp #LLM #OpenSource #AI #WebUI
توسعهدهندگان llama.cpp حالا نسخهای از WebUI مخصوص خودشان را ارائه کردهاند — چیزی شبیه Automatic1111 برای Stable Diffusion، اما اینبار برای مدلهای زبانی (LLM)!
برخلاف ابزارهای تولید تصویر که صدها پارامتر دارند، این رابط سادهتر است و بیشتر شبیه ChatGPT یا Qwen Chat عمل میکند.
کافی است:
1️⃣ سرور محلی خود را اجرا کنید،
2️⃣ آدرس 127.0.0.1 را در مرورگر باز کنید،
3️⃣ و از طریق رابط وب به صدها مدل بازمتن دسترسی پیدا کنید.
📂 همچنین میتوانید تصاویر یا اسناد خود را آپلود کنید تا مدل مستقیماً با دادههای شما کار کند.
📘 دستورالعمل کامل در گیتهاب:
👉 github.com/ggml-org/llama.cpp#hot-topics
📡 @rss_ai_ir
#هوش_مصنوعی #llamaCpp #LLM #OpenSource #AI #WebUI
🔥4❤1
🔥 Kimi K2 Thinking —
عامل متنباز که واقعاً فکر میکند!
شرکت Moonshot AI مدل جدید خود با نام Kimi K2 Thinking را منتشر کرده است — عاملی متنباز برای استدلال خودکار و استفاده از ابزارها که در حال شکستن رکوردهای جدید است.
🔹 عملکرد:
• بهترین نتایج (SOTA) در HLE با ۴۴.۹٪ و BrowseComp با ۶۰.۲٪
• انجام ۲۰۰ تا ۳۰۰ فراخوان ابزاری بدون نیاز به دخالت انسان
• تخصص در استدلال، جستجوی عاملمحور و کدنویسی
• دارای پنجرهی زمینهی ۲۵۶K
🧠 طراحیشده برای “test-time scaling”:
همچنین K2 فقط برای پیشبینی توکنها آموزش ندیده، بلکه برای تفکر گامبهگام در حل مسائل ساخته شده — با مقیاسپذیری در عمق استدلال و تعداد گامهای ابزاری.
🌐 در دسترس:
• حالت گفتگو:
kimi.com
• API:
platform.moonshot.ai
• وبلاگ فنی:
moonshotai.github.io/Kimi-K2/thinking
• وزنها و کد:
huggingface.co/moonshotai
عاملهای متنباز با سرعتی باور نکردنی در حال پیشرفتاند.
چالش بعدی Kimi: تبدیل قدرت خام استدلال به خودمختاری واقعی در دنیای فیزیکی. 🤖
#هوش_مصنوعی #عامل_هوشمند #KimiK2 #MoonshotAI #AGI #AI #OpenSource #Neural
عامل متنباز که واقعاً فکر میکند!
شرکت Moonshot AI مدل جدید خود با نام Kimi K2 Thinking را منتشر کرده است — عاملی متنباز برای استدلال خودکار و استفاده از ابزارها که در حال شکستن رکوردهای جدید است.
🔹 عملکرد:
• بهترین نتایج (SOTA) در HLE با ۴۴.۹٪ و BrowseComp با ۶۰.۲٪
• انجام ۲۰۰ تا ۳۰۰ فراخوان ابزاری بدون نیاز به دخالت انسان
• تخصص در استدلال، جستجوی عاملمحور و کدنویسی
• دارای پنجرهی زمینهی ۲۵۶K
🧠 طراحیشده برای “test-time scaling”:
همچنین K2 فقط برای پیشبینی توکنها آموزش ندیده، بلکه برای تفکر گامبهگام در حل مسائل ساخته شده — با مقیاسپذیری در عمق استدلال و تعداد گامهای ابزاری.
🌐 در دسترس:
• حالت گفتگو:
kimi.com
• API:
platform.moonshot.ai
• وبلاگ فنی:
moonshotai.github.io/Kimi-K2/thinking
• وزنها و کد:
huggingface.co/moonshotai
عاملهای متنباز با سرعتی باور نکردنی در حال پیشرفتاند.
چالش بعدی Kimi: تبدیل قدرت خام استدلال به خودمختاری واقعی در دنیای فیزیکی. 🤖
#هوش_مصنوعی #عامل_هوشمند #KimiK2 #MoonshotAI #AGI #AI #OpenSource #Neural
❤1🔥1
⭐ مدل VibeThinker-1.5B؛ مدل کوچک اما رکوردشکن در استدلال
این مدل ۱.۵ میلیارد پارامتری با وجود اندازهی بسیار کوچک، در آزمونهای استدلالی به نتایج SOTA رسیده است.
🚀 عملکرد:
در AIME24/25 و HMMT25 جزو بهترینهاست و حتی مدل DeepSeek R1-0120 را در مسائل ریاضی پشت سر میگذارد. در برنامهنویسی رقابتی هم بالاتر از مدلهای همحجم ظاهر شده است.
⚡ بهرهوری:
فقط ۱.۵B پارامتر — یعنی ۱۰۰ تا ۶۰۰ برابر کوچکتر از مدلهایی مثل Kimi K2 و DeepSeek R1.
💰 هزینه:
کل هزینهٔ پستمرین حدود ۷.۸ هزار دلار بوده؛ یعنی ۳۰ تا ۶۰ برابر ارزانتر از DeepSeek R1 یا MiniMax-M1.
این مدل بر پایهٔ Spectrum-to-Signal Principle (SSP) و فریمورک MGPO ساخته شده تا فرآیند استدلال را بهینه کند.
📦 Model:
hf.co/WeiboAI/VibeThinker-1.5B
💻 GitHub:
github.com/WeiboAI/VibeThinker
📄 Arxiv:
arxiv.org/abs/2511.06221
#AI #LLM #Reasoning #OpenSource #SmallModel @rss_ai_ir
این مدل ۱.۵ میلیارد پارامتری با وجود اندازهی بسیار کوچک، در آزمونهای استدلالی به نتایج SOTA رسیده است.
🚀 عملکرد:
در AIME24/25 و HMMT25 جزو بهترینهاست و حتی مدل DeepSeek R1-0120 را در مسائل ریاضی پشت سر میگذارد. در برنامهنویسی رقابتی هم بالاتر از مدلهای همحجم ظاهر شده است.
⚡ بهرهوری:
فقط ۱.۵B پارامتر — یعنی ۱۰۰ تا ۶۰۰ برابر کوچکتر از مدلهایی مثل Kimi K2 و DeepSeek R1.
💰 هزینه:
کل هزینهٔ پستمرین حدود ۷.۸ هزار دلار بوده؛ یعنی ۳۰ تا ۶۰ برابر ارزانتر از DeepSeek R1 یا MiniMax-M1.
این مدل بر پایهٔ Spectrum-to-Signal Principle (SSP) و فریمورک MGPO ساخته شده تا فرآیند استدلال را بهینه کند.
📦 Model:
hf.co/WeiboAI/VibeThinker-1.5B
💻 GitHub:
github.com/WeiboAI/VibeThinker
📄 Arxiv:
arxiv.org/abs/2511.06221
#AI #LLM #Reasoning #OpenSource #SmallModel @rss_ai_ir
🚀 یک موتور قدرتمند برای مدلهای چندمودالی (Multimodal Models)
اگر با مدلهای ترکیبی متن–تصویر–ویدیو کار میکنید، LMMs-Engine یکی از بهترین فریمورکهای جدید است.
این موتور فوقسبک و بسیار انعطافپذیر، مخصوص آموزش و توسعهی مدلهای چندمودالی طراحی شده و حتی در مقیاسهای بزرگ هم کارایی بسیار بالایی دارد.
💡 ویژگیهای برجسته:
🔥 پشتیبانی از ۱۹+ معماری مختلف برای متن، تصویر، ویدیو و مدلهای ترکیبی
⚙️ بهینهسازی برای آموزش توزیعشده با مصرف حافظه بسیار کم
🧩 شامل دهها نمونه آماده اجرا برای شروع سریع با مدلهای مختلف
⚡ مناسب برای پژوهشگران، توسعهدهندگان و کسانی که به دنبال ساخت LMM اختصاصی هستند
📌 گیتهاب:
https://github.com/EvolvingLMMs-Lab/lmms-engine
---
#AI #ML #Multimodal #LMM #DeepLearning #OpenSource #MachineLearning #AIDev #NeuralNetworks
@rss_ai_ir
اگر با مدلهای ترکیبی متن–تصویر–ویدیو کار میکنید، LMMs-Engine یکی از بهترین فریمورکهای جدید است.
این موتور فوقسبک و بسیار انعطافپذیر، مخصوص آموزش و توسعهی مدلهای چندمودالی طراحی شده و حتی در مقیاسهای بزرگ هم کارایی بسیار بالایی دارد.
💡 ویژگیهای برجسته:
🔥 پشتیبانی از ۱۹+ معماری مختلف برای متن، تصویر، ویدیو و مدلهای ترکیبی
⚙️ بهینهسازی برای آموزش توزیعشده با مصرف حافظه بسیار کم
🧩 شامل دهها نمونه آماده اجرا برای شروع سریع با مدلهای مختلف
⚡ مناسب برای پژوهشگران، توسعهدهندگان و کسانی که به دنبال ساخت LMM اختصاصی هستند
📌 گیتهاب:
https://github.com/EvolvingLMMs-Lab/lmms-engine
---
#AI #ML #Multimodal #LMM #DeepLearning #OpenSource #MachineLearning #AIDev #NeuralNetworks
@rss_ai_ir
😁19🔥17❤12🥰12🎉12👍10👏10🙏1
🎬 پروژه متنباز UniVA معرفی شد؛ عامل ویدئویی نسل جدید که میتواند ویدئو را درک، تحلیل و روی آن عمل کند. این مدل برای وظایف مختلف ویدیویی کاربرد دارد؛ از رباتیک و نظارت هوشمند تا تولید خودکار محتوا.
🔗 لینکها:
Hf:
https://huggingface.co/papers/2511.08521
Paper:
https://arxiv.org/pdf/2511.08521
GitHub:
https://github.com/univa-agent/univa
@rss_ai_ir
#هوش_مصنوعی #ویدئو #عامل_ویدئویی #UniVA #AI #OpenSource
🔗 لینکها:
Hf:
https://huggingface.co/papers/2511.08521
Paper:
https://arxiv.org/pdf/2511.08521
GitHub:
https://github.com/univa-agent/univa
@rss_ai_ir
#هوش_مصنوعی #ویدئو #عامل_ویدئویی #UniVA #AI #OpenSource
🔥15🎉13👏11😁11❤8👍8🥰5
🎬🤖 UniVA:
ایجنت هوشمند و متنباز برای پردازش و تولید ویدئو
ایجنت UniVA یک ایجنت ویدئویی چندعاملی (Multi-Agent) متنباز است که نسل جدیدی از هوش مصنوعی ویدئویی را هدف گرفته.
این سیستم میتواند کارهای پیچیده ویدئویی را در یک جریان واحد انجام دهد:
🟣 فهم و تحلیل ویدئو
🟣 ویرایش و Segmentation
🟣 ساخت و تولید ویدئو از متن/عکس/ویدئو
🟣 پردازش چندمرحلهای با برنامهریزی و اجرای خودکار (Plan-and-Act)
ایجنت UniVA با حافظه چندلایه و ارتباط بین ایجنتها میتواند فرآیندهای طولانی و پروژههای پیچیده ویدئویی را مدیریت کند.
📌 لینکها: 🔗 HuggingFace (پروژه):
https://huggingface.co/papers/2511.08521
📄 Paper:
https://arxiv.org/pdf/2511.08521
💻 GitHub:
https://github.com/univa-agent/univa
@rss_ai_ir
#هوش_مصنوعی #VideoAI #AgenticAI #UniVA #OpenSource #MultimodalAI
ایجنت هوشمند و متنباز برای پردازش و تولید ویدئو
ایجنت UniVA یک ایجنت ویدئویی چندعاملی (Multi-Agent) متنباز است که نسل جدیدی از هوش مصنوعی ویدئویی را هدف گرفته.
این سیستم میتواند کارهای پیچیده ویدئویی را در یک جریان واحد انجام دهد:
🟣 فهم و تحلیل ویدئو
🟣 ویرایش و Segmentation
🟣 ساخت و تولید ویدئو از متن/عکس/ویدئو
🟣 پردازش چندمرحلهای با برنامهریزی و اجرای خودکار (Plan-and-Act)
ایجنت UniVA با حافظه چندلایه و ارتباط بین ایجنتها میتواند فرآیندهای طولانی و پروژههای پیچیده ویدئویی را مدیریت کند.
📌 لینکها: 🔗 HuggingFace (پروژه):
https://huggingface.co/papers/2511.08521
📄 Paper:
https://arxiv.org/pdf/2511.08521
💻 GitHub:
https://github.com/univa-agent/univa
@rss_ai_ir
#هوش_مصنوعی #VideoAI #AgenticAI #UniVA #OpenSource #MultimodalAI
👍8😁7🎉6🔥5❤4🥰4👏2
⚡ Heretic —
ابزاری برای حذف سانسور (Alignment) از مدلهای زبانی
🛠 ابزار Heretic روشی ارائه میدهد که بدون دسترسی به وزنهای مدل و تنها از طریق API، محدودیتهای رفتاری و فیلترهای پاسخدهی مدل را کاهش دهد و آمادگی آن برای پاسخگویی گستردهتر را افزایش دهد.
🔍 این ابزار چه میکند؟
✅مدل را مانند جعبهسیاه (Black-box) در نظر میگیرد
✅مجموعهای از پرسشهای «ایمن» و «غیرایمن» را به مدل میدهد
✅یک دیسکریمیناتور آموزش میدهد تا تفاوت پاسخهای قبل و بعد از آزادسازی را تشخیص دهد
✅پارامترهایی پیدا میکند که باعث کاهش پاسخهای رد / انکار شود اما مدل را از حالت منطقی خارج نکند
✅در پایان میتوان نسخه تعدیلشده را ذخیره کرد یا در حالت چت تست نمود
🎯 کاربردها:
♻️فعالتر کردن مدلهای لوکال برای پاسخگویی به طیف وسیعتری از درخواستها
♻️مناسب برای تحقیقات درباره رفتار مدلها و آزمایش محدودیتها
♻️کاهش سانسور بدون افت شدید کیفیت یا تبدیل مدل به پاسخدهنده بیدقت
⚠️ نکات مهم:
✳️استفاده از این ابزار مسئولیت اخلاقی و حقوقی دارد
✳️هدف Heretic افزایش دقت یا توانایی مدل نیست؛
✳️هدف، برداشتن قفلهای رفتاری ناشی از Alignment است
✳️ممکن است در برخی حوزهها خطرناک باشد و نیازمند رویکرد مسئولانه است
📎 پروژه در GitHub:
github.com/p-e-w/heretic
---
#هوش_مصنوعی #مدل_زبان #LLM #Alignment #OpenSource
@rss_ai_ir
ابزاری برای حذف سانسور (Alignment) از مدلهای زبانی
🛠 ابزار Heretic روشی ارائه میدهد که بدون دسترسی به وزنهای مدل و تنها از طریق API، محدودیتهای رفتاری و فیلترهای پاسخدهی مدل را کاهش دهد و آمادگی آن برای پاسخگویی گستردهتر را افزایش دهد.
🔍 این ابزار چه میکند؟
✅مدل را مانند جعبهسیاه (Black-box) در نظر میگیرد
✅مجموعهای از پرسشهای «ایمن» و «غیرایمن» را به مدل میدهد
✅یک دیسکریمیناتور آموزش میدهد تا تفاوت پاسخهای قبل و بعد از آزادسازی را تشخیص دهد
✅پارامترهایی پیدا میکند که باعث کاهش پاسخهای رد / انکار شود اما مدل را از حالت منطقی خارج نکند
✅در پایان میتوان نسخه تعدیلشده را ذخیره کرد یا در حالت چت تست نمود
🎯 کاربردها:
♻️فعالتر کردن مدلهای لوکال برای پاسخگویی به طیف وسیعتری از درخواستها
♻️مناسب برای تحقیقات درباره رفتار مدلها و آزمایش محدودیتها
♻️کاهش سانسور بدون افت شدید کیفیت یا تبدیل مدل به پاسخدهنده بیدقت
⚠️ نکات مهم:
✳️استفاده از این ابزار مسئولیت اخلاقی و حقوقی دارد
✳️هدف Heretic افزایش دقت یا توانایی مدل نیست؛
✳️هدف، برداشتن قفلهای رفتاری ناشی از Alignment است
✳️ممکن است در برخی حوزهها خطرناک باشد و نیازمند رویکرد مسئولانه است
📎 پروژه در GitHub:
github.com/p-e-w/heretic
---
#هوش_مصنوعی #مدل_زبان #LLM #Alignment #OpenSource
@rss_ai_ir
👏8🔥7👍6🎉5❤4🥰4😁2
💡 شرکت DeepSeek پروژهی جدید خود با نام LPLB را بهصورت متنباز منتشر کرد؛ ابزاری آزمایشی برای مدیریت هوشمند بار در معماریهای MoE
🧠 در این سیستم چند نکتهٔ مهم وجود دارد:
الگوریتم بهصورت پویا بار بین «اکسپرتها» را بر اساس آمار استفاده جابهجا میکند ⚙️
ساخت و جایگذاری نسخههای تکراری (Replica) بر پایهٔ توپولوژی خوشه انجام میشود 🛰️
فرایند پیدا کردن توزیع بهینهٔ توکنها توسط حلکنندهٔ خطی (LP Solver) مستقیماً روی GPU انجام میگیرد، با استفاده از cuSolverDx و cuBLASDx ⚡️
معیارهای بارگذاری از طریق دو روش قابل دریافت است:
• استفادهٔ مستقیم از torch.distributed
• یا بهرهگیری از بافرهای Deep-EP 🔧
📚 در مخزن گیتهاب یک راهنمای کامل قرار دارد که نشان میدهد یک بالانسر دقیق و هوشمند برای مدلهای MoE چگونه باید طراحی شود.
🔗 GitHub:
https://github.com/deepseek-ai/LPLB
#DeepSeek #MoE #AIInfrastructure #OpenSource
🧠 در این سیستم چند نکتهٔ مهم وجود دارد:
الگوریتم بهصورت پویا بار بین «اکسپرتها» را بر اساس آمار استفاده جابهجا میکند ⚙️
ساخت و جایگذاری نسخههای تکراری (Replica) بر پایهٔ توپولوژی خوشه انجام میشود 🛰️
فرایند پیدا کردن توزیع بهینهٔ توکنها توسط حلکنندهٔ خطی (LP Solver) مستقیماً روی GPU انجام میگیرد، با استفاده از cuSolverDx و cuBLASDx ⚡️
معیارهای بارگذاری از طریق دو روش قابل دریافت است:
• استفادهٔ مستقیم از torch.distributed
• یا بهرهگیری از بافرهای Deep-EP 🔧
📚 در مخزن گیتهاب یک راهنمای کامل قرار دارد که نشان میدهد یک بالانسر دقیق و هوشمند برای مدلهای MoE چگونه باید طراحی شود.
🔗 GitHub:
https://github.com/deepseek-ai/LPLB
#DeepSeek #MoE #AIInfrastructure #OpenSource
🤖 استک GELab-Zero؛ نخستین استک کاملاً متنباز برای GUI-Agent ها
یک خبر مهم برای دنیای ایجنتها: استک GELab-Zero منتشر شد؛ ترکیبی کامل از مدل + زیرساخت که جایگزین متنباز برای سیستمهای سطح بالایی مثل GUI-Agent MCP محسوب میشود. نسخهای سبک، سریع و قابل اجرا بهصورت کامل روی سیستم شخصی شما 🚀
🔧 چه چیزهایی داخلش هست؟
مدل ۴B در سطح SOTA؛ سریع، کمهزینه و قابل اجرا روی GPUهای سبک
زیرساخت راهاندازی «تککلیک» بدون دردسرهای ADB
بنچمارک AndroidDaily بر اساس سناریوهای واقعی کاربران
📊 نتایج و عملکرد
دقت ۷۳.۴٪ روی AndroidDaily
عملکرد بهتر از مدلهای بزرگتری مثل GUI-Owl-32B
بالاتر از Gemini-2.5-pro-thinking و GPT-4o در تستهای GUI
برتری قابل توجه روی ScreenSpot، AndroidWorld و OSWorld
🎯 هدف استک مشخص است:
نصب کن، اجرا کن، شخصیسازی کن، و توسعه بده — بالاخره یک گزینهٔ متنباز واقعی برای GUI-Agent ها در دسترس است.
🔗 لینکها:
HuggingFace:
https://huggingface.co/stepfun-ai/GELab-Zero-4B-preview
GitHub:
https://github.com/stepfun-ai/gelab-zero
Blog:
https://opengelab.github.io/index.html
#GELabZero #AI #Agents #GUIAgents #MachineLearning #OpenSource #DeepLearning @rss_ai_ir
یک خبر مهم برای دنیای ایجنتها: استک GELab-Zero منتشر شد؛ ترکیبی کامل از مدل + زیرساخت که جایگزین متنباز برای سیستمهای سطح بالایی مثل GUI-Agent MCP محسوب میشود. نسخهای سبک، سریع و قابل اجرا بهصورت کامل روی سیستم شخصی شما 🚀
🔧 چه چیزهایی داخلش هست؟
مدل ۴B در سطح SOTA؛ سریع، کمهزینه و قابل اجرا روی GPUهای سبک
زیرساخت راهاندازی «تککلیک» بدون دردسرهای ADB
بنچمارک AndroidDaily بر اساس سناریوهای واقعی کاربران
📊 نتایج و عملکرد
دقت ۷۳.۴٪ روی AndroidDaily
عملکرد بهتر از مدلهای بزرگتری مثل GUI-Owl-32B
بالاتر از Gemini-2.5-pro-thinking و GPT-4o در تستهای GUI
برتری قابل توجه روی ScreenSpot، AndroidWorld و OSWorld
🎯 هدف استک مشخص است:
نصب کن، اجرا کن، شخصیسازی کن، و توسعه بده — بالاخره یک گزینهٔ متنباز واقعی برای GUI-Agent ها در دسترس است.
🔗 لینکها:
HuggingFace:
https://huggingface.co/stepfun-ai/GELab-Zero-4B-preview
GitHub:
https://github.com/stepfun-ai/gelab-zero
Blog:
https://opengelab.github.io/index.html
#GELabZero #AI #Agents #GUIAgents #MachineLearning #OpenSource #DeepLearning @rss_ai_ir
❤2
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 دست رباتیک Aero Hand با قیمت فقط ۳۱۴ دلار! 🤖🖐️
یک دست رباتیک فوقالعاده از TetherIA معرفی شده که هم اوپنسورس است، هم ارزان، هم فوقالعاده قدرتمند 👇
🔧 مشخصات کلیدی:
وزن فقط ۴۰۰ گرم
دارای ۷ موتور
۱۶ مفصل حرکتی
شست با ۳ درجه آزادی (3-DoF)
کاملاً Backdrivable
پشتیبانی از کنترل چندحالته (Multi-Modal Control)
💪 قدرت و دقت:
توانایی بلند کردن ۱۸ کیلوگرم!
قابلیت گرفتن اشیای سریع بدون خطا
در دموی اخیر، کارت بالایی از دسته کارت را برداشت و دوباره کاملاً دقیق سرجایش گذاشت—کاری که حتی برای بسیاری از رباتهای گرانقیمت سخت است.
این دست رباتیک نشان میدهد رباتیک دقیق و قدرتمند دیگر فقط برای آزمایشگاههای میلیونی نیست—به دست همه میرسد.
🪙 @rss_ai_ir
#Robotics #AI #AeroHand #TetherIA #RobotArm #OpenSource #TechInnovation
یک دست رباتیک فوقالعاده از TetherIA معرفی شده که هم اوپنسورس است، هم ارزان، هم فوقالعاده قدرتمند 👇
🔧 مشخصات کلیدی:
وزن فقط ۴۰۰ گرم
دارای ۷ موتور
۱۶ مفصل حرکتی
شست با ۳ درجه آزادی (3-DoF)
کاملاً Backdrivable
پشتیبانی از کنترل چندحالته (Multi-Modal Control)
💪 قدرت و دقت:
توانایی بلند کردن ۱۸ کیلوگرم!
قابلیت گرفتن اشیای سریع بدون خطا
در دموی اخیر، کارت بالایی از دسته کارت را برداشت و دوباره کاملاً دقیق سرجایش گذاشت—کاری که حتی برای بسیاری از رباتهای گرانقیمت سخت است.
این دست رباتیک نشان میدهد رباتیک دقیق و قدرتمند دیگر فقط برای آزمایشگاههای میلیونی نیست—به دست همه میرسد.
🪙 @rss_ai_ir
#Robotics #AI #AeroHand #TetherIA #RobotArm #OpenSource #TechInnovation
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🦾 شبیه ساز IR-SIM؛ شبیهساز پایتونیِ سبک و متنباز برای رباتیک و یادگیری تقویتی
اینکه IR-SIM یک راه ساده و کارآمد برای شبیهسازی رباتها، سنسورها و محیطهای مختلف فراهم میکند—بدون نیاز به زیرساخت پیچیده یا سختافزار گران. این ابزار برای آموزش، پژوهش، آزمایش سریع ایدهها و پروتوتایپسازی الگوریتمها عالی است.
قابلیتها:
• شبیهسازی رباتها با انواع مدلهای حرکتی، سنسورها و رفتارها
• ساخت سناریوها فقط با ویرایش فایلهای ساده YAML
• نمایش نتایج با ویژوالایزر داخلی مبتنی بر matplotlib؛ مناسب برای دیباگ و درک رفتار
• پشتیبانی از برخورد اشیاء و تعریف سیاستهای رفتاری سفارشی
• اجرای سناریوهای چندعاملی و پروژههای یادگیری تقویتی (RL)
این ابزار زمانی کاربردی است که بخواهید سریع یک الگوریتم ناوبری را تست کنید، دینامیک ربات را بررسی کنید، یا یک پروژه آموزشی بدون دردسر راهاندازی کنید.
مثالهای آمادهٔ IR-SIM شامل: ناوبری، تعامل اشیا، تجسمسازی و سناریوهای RL است—نقطه شروع عالی برای دانشجویان و توسعهدهندگان سیستمهای خودمختار.
🔗 https://github.com/hanruihua/ir-sim
#رباتیک 🤖 #پایتون 🐍 #شبیهسازی 🛰️ #یادگیری_تقویتی 💠 #AI #opensource
اینکه IR-SIM یک راه ساده و کارآمد برای شبیهسازی رباتها، سنسورها و محیطهای مختلف فراهم میکند—بدون نیاز به زیرساخت پیچیده یا سختافزار گران. این ابزار برای آموزش، پژوهش، آزمایش سریع ایدهها و پروتوتایپسازی الگوریتمها عالی است.
قابلیتها:
• شبیهسازی رباتها با انواع مدلهای حرکتی، سنسورها و رفتارها
• ساخت سناریوها فقط با ویرایش فایلهای ساده YAML
• نمایش نتایج با ویژوالایزر داخلی مبتنی بر matplotlib؛ مناسب برای دیباگ و درک رفتار
• پشتیبانی از برخورد اشیاء و تعریف سیاستهای رفتاری سفارشی
• اجرای سناریوهای چندعاملی و پروژههای یادگیری تقویتی (RL)
این ابزار زمانی کاربردی است که بخواهید سریع یک الگوریتم ناوبری را تست کنید، دینامیک ربات را بررسی کنید، یا یک پروژه آموزشی بدون دردسر راهاندازی کنید.
مثالهای آمادهٔ IR-SIM شامل: ناوبری، تعامل اشیا، تجسمسازی و سناریوهای RL است—نقطه شروع عالی برای دانشجویان و توسعهدهندگان سیستمهای خودمختار.
🔗 https://github.com/hanruihua/ir-sim
#رباتیک 🤖 #پایتون 🐍 #شبیهسازی 🛰️ #یادگیری_تقویتی 💠 #AI #opensource
❤3