This media is not supported in your browser
VIEW IN TELEGRAM
🌏 Hunyuan World 1.1 (WorldMirror) —
نسخهی جدید مدل متنباز تولید جهان سهبعدی از Tencent Hunyuan
در حالیکه نسخهی قبلی Hunyuan World 1.0 برای ساخت جهانهای سهبعدی از متن یا تصاویر تکزاویهای طراحی شده بود و روی GPUهای معمولی اجرا میشد، نسخهی جدید 1.1 حالا از ویدیوها و تصاویر چندزاویهای پشتیبانی میکند.
🎯 ویژگیهای کلیدی:
ورودی آزاد (Any Input): از ویدیو، تصویر، نقشه عمق و پارامترهای دوربین پشتیبانی میکند و ساختار سهبعدی دقیق و بدون اعوجاج میسازد.
خروجی آزاد (Any Output): تولید همزمان چندین نمای سهبعدی — از جمله نقشه عمق، ابر نقاط (Point Cloud)، نرمال سطوح و Gaussian Splatting.
سرعت بالا: مدل از نوع Feed-Forward است و تمام ویژگیهای سهبعدی را تنها در چند ثانیه و در یک GPU تولید میکند.
⚙️ این مدل بهنوعی ادامهی مسیر تکاملی مدلهای تولید ویدیو است — با این تفاوت که حالا میتواند جهانهای کامل را بازسازی کند.
در حالیکه گوگل با مدل GENIE-3 پاسخ داده، OpenAI هنوز هیچ معادل مستقیمی برای این فناوری ندارد.
💻 منابع:
🔹 کد: github.com/Tencent-Hunyuan/HunyuanWorld-Mirror
🔹 پروژه: 3d-models.hunyuan.tencent.com/world/
🔹 دمو: Hugging Face Space
🔹 مقاله: Tech Report PDF
@rss_ai_ir
#AI #3D #GenerativeAI #Hunyuan #Tencent #OpenSource #هوش_مصنوعی #سهبعدی #مدل_تولیدی
نسخهی جدید مدل متنباز تولید جهان سهبعدی از Tencent Hunyuan
در حالیکه نسخهی قبلی Hunyuan World 1.0 برای ساخت جهانهای سهبعدی از متن یا تصاویر تکزاویهای طراحی شده بود و روی GPUهای معمولی اجرا میشد، نسخهی جدید 1.1 حالا از ویدیوها و تصاویر چندزاویهای پشتیبانی میکند.
🎯 ویژگیهای کلیدی:
ورودی آزاد (Any Input): از ویدیو، تصویر، نقشه عمق و پارامترهای دوربین پشتیبانی میکند و ساختار سهبعدی دقیق و بدون اعوجاج میسازد.
خروجی آزاد (Any Output): تولید همزمان چندین نمای سهبعدی — از جمله نقشه عمق، ابر نقاط (Point Cloud)، نرمال سطوح و Gaussian Splatting.
سرعت بالا: مدل از نوع Feed-Forward است و تمام ویژگیهای سهبعدی را تنها در چند ثانیه و در یک GPU تولید میکند.
⚙️ این مدل بهنوعی ادامهی مسیر تکاملی مدلهای تولید ویدیو است — با این تفاوت که حالا میتواند جهانهای کامل را بازسازی کند.
در حالیکه گوگل با مدل GENIE-3 پاسخ داده، OpenAI هنوز هیچ معادل مستقیمی برای این فناوری ندارد.
💻 منابع:
🔹 کد: github.com/Tencent-Hunyuan/HunyuanWorld-Mirror
🔹 پروژه: 3d-models.hunyuan.tencent.com/world/
🔹 دمو: Hugging Face Space
🔹 مقاله: Tech Report PDF
@rss_ai_ir
#AI #3D #GenerativeAI #Hunyuan #Tencent #OpenSource #هوش_مصنوعی #سهبعدی #مدل_تولیدی
👍2🔥1👏1
⚡️ LMMs Engine –
موتور واحد برای آموزش مدلهای چندوجهی (Multimodal)
فریمورکی ساده، منعطف و قدرتمند از LMMs-Lab برای آموزش مدلهایی که همزمان میتوانند متن، تصویر، صدا و ویدیو را درک کنند — همه در یک محیط یکپارچه 🎛️
🎯 ویژگیها:
پشتیبانی از بیش از ۱۹ معماری مختلف:
🧠 Qwen3-VL:
پردازش تصویر با رزولوشن اصلی و کانتکست بیش از ۱۰٬۰۰۰ توکن
🎧 Qwen2.5-Omni:
مدل واحد برای متن، تصویر و صوت
🎥 WanVideo:
تولید ویدیو از متن، تصویر یا ویدیو (T2V, I2V, V2V)
🌫 dLLM:
مدلهای زبانی دیفیوژنی
🪄 LLaVA-OneVision، Bagel، SiT، RAE-SigLip و دیگر مدلهای پیشرفته
📜 لایسنس: Apache 2.0 — قابلاستفاده حتی در پروژههای تجاری
🔗 گیتهاب:
github.com/EvolvingLMMs-Lab/lmms-engine
@rss_ai_ir
#AI #Multimodal #OpenSource #DeepLearning #LLM #LMMsEngine
موتور واحد برای آموزش مدلهای چندوجهی (Multimodal)
فریمورکی ساده، منعطف و قدرتمند از LMMs-Lab برای آموزش مدلهایی که همزمان میتوانند متن، تصویر، صدا و ویدیو را درک کنند — همه در یک محیط یکپارچه 🎛️
🎯 ویژگیها:
پشتیبانی از بیش از ۱۹ معماری مختلف:
🧠 Qwen3-VL:
پردازش تصویر با رزولوشن اصلی و کانتکست بیش از ۱۰٬۰۰۰ توکن
🎧 Qwen2.5-Omni:
مدل واحد برای متن، تصویر و صوت
🎥 WanVideo:
تولید ویدیو از متن، تصویر یا ویدیو (T2V, I2V, V2V)
🌫 dLLM:
مدلهای زبانی دیفیوژنی
🪄 LLaVA-OneVision، Bagel، SiT، RAE-SigLip و دیگر مدلهای پیشرفته
📜 لایسنس: Apache 2.0 — قابلاستفاده حتی در پروژههای تجاری
🔗 گیتهاب:
github.com/EvolvingLMMs-Lab/lmms-engine
@rss_ai_ir
#AI #Multimodal #OpenSource #DeepLearning #LLM #LMMsEngine
❤2
This media is not supported in your browser
VIEW IN TELEGRAM
🦄 مدل چندوجهی «PixelRefer»؛ فهم ناحیهای دقیق در تصویر و ویدئو
🎯 چارچوب یکپارچهی MLLM که بهجای نگاه کلی به صحنه، روی ناحیههای مشخص تمرکز میکند؛ هم در تصاویر ثابت، هم در ویدئوهای پویا. نتیجه: دقت بالاتر در اشاره به ناحیهها، رفع سوگیری صحنهمحور، و رکوردهای SOTA.
چه میدهد؟
🎥🖼️ فهم ناحیهای دقیق در تصویر/ویدئو (region-level grounding)
🧠 رفع bias مدلهای قبلی که فقط صحنهی کلی را میدیدند
🚀 نتایج SOTA + دموی آنلاین، دیتاست و کد متنباز
لینکها:
Paper: arxiv.org/pdf/2510.23603
Project: circleradon.github.io/PixelRefer
Repo: https://github.com/alibaba-damo-academy/PixelRefer
@rss_ai_ir
#MLLM #Multimodal #VisionLanguage #Grounding #ReferringSegmentation #SOTA #OpenSource
🎯 چارچوب یکپارچهی MLLM که بهجای نگاه کلی به صحنه، روی ناحیههای مشخص تمرکز میکند؛ هم در تصاویر ثابت، هم در ویدئوهای پویا. نتیجه: دقت بالاتر در اشاره به ناحیهها، رفع سوگیری صحنهمحور، و رکوردهای SOTA.
چه میدهد؟
🎥🖼️ فهم ناحیهای دقیق در تصویر/ویدئو (region-level grounding)
🧠 رفع bias مدلهای قبلی که فقط صحنهی کلی را میدیدند
🚀 نتایج SOTA + دموی آنلاین، دیتاست و کد متنباز
لینکها:
Paper: arxiv.org/pdf/2510.23603
Project: circleradon.github.io/PixelRefer
Repo: https://github.com/alibaba-damo-academy/PixelRefer
@rss_ai_ir
#MLLM #Multimodal #VisionLanguage #Grounding #ReferringSegmentation #SOTA #OpenSource
🛠️📊 Dev3000 —
لاگگیری هوشمند با پشتیبانی از هوش مصنوعی
ابزار Dev3000 تمام رویدادهای توسعهی وباپلیکیشن شما را بهصورت زمانی ثبت میکند — از لاگهای سرور و رویدادهای مرورگر تا اسکرینشاتهای خودکار.
با این روش، ابزارهایی مثل Claude میتوانند تمام دادهها را یکجا تحلیل کنند و در عیبیابی به شما کمک کنند. 🤖
🚀 ویژگیهای کلیدی:
ذخیرهی لاگها با زمانبندی دقیق ⏱️
ثبت خودکار اسکرینشاتها هنگام خطا یا جابهجایی در صفحات 📸
پشتیبانی از تحلیل و دیباگ خودکار با هوش مصنوعی 🤖
جستجو و فیلتر سریع بین لاگها 🔍
رابط گرافیکی زیبا برای مرور آسان اطلاعات 💡
📎 GitHub:
github.com/vercel-labs/dev3000
@rss_ai_ir
#AI #DevTools #Debugging #JavaScript #WebDevelopment #Claude #OpenSource
لاگگیری هوشمند با پشتیبانی از هوش مصنوعی
ابزار Dev3000 تمام رویدادهای توسعهی وباپلیکیشن شما را بهصورت زمانی ثبت میکند — از لاگهای سرور و رویدادهای مرورگر تا اسکرینشاتهای خودکار.
با این روش، ابزارهایی مثل Claude میتوانند تمام دادهها را یکجا تحلیل کنند و در عیبیابی به شما کمک کنند. 🤖
🚀 ویژگیهای کلیدی:
ذخیرهی لاگها با زمانبندی دقیق ⏱️
ثبت خودکار اسکرینشاتها هنگام خطا یا جابهجایی در صفحات 📸
پشتیبانی از تحلیل و دیباگ خودکار با هوش مصنوعی 🤖
جستجو و فیلتر سریع بین لاگها 🔍
رابط گرافیکی زیبا برای مرور آسان اطلاعات 💡
📎 GitHub:
github.com/vercel-labs/dev3000
@rss_ai_ir
#AI #DevTools #Debugging #JavaScript #WebDevelopment #Claude #OpenSource
🤖 GaussGym:
انقلابی در آموزش رباتها از طریق پیکسلها — سریع، فتوواقعگرایانه و متنباز
فریمورک جدید GaussGym معرفی شد — اولین پلتفرم open-source که سرعت بسیار بالا را با بینایی فتوواقعی (Photorealistic Vision) در شبیهسازی رباتها ترکیب میکند. 🚀
این سیستم با استفاده از 3D Gaussian Splatting بهعنوان یک رندرکنندهی تعبیهشده در شبیهسازهای وکتوریزه (مانند IsaacGym)، قادر است سیاستهای بینایی-حرکتی (Visuomotor Policies) را تنها از تصاویر RGB با سرعتی بیش از ۱۰۰٬۰۰۰ گام در ثانیه آموزش دهد — حتی روی یک کارت RTX 4090! ⚡
🔹 ساخت دنیای تمرینی از ویدیوهای iPhone، دیتاستهای GrandTour و ARKit یا حتی ویدیوهای مولد (مثل Veo)
🔹 بازسازی خودکار صحنههای فیزیکی دقیق با کمک VGGT و NKSR بدون نیاز به مدلسازی دستی سهبعدی
🔹 آموزش سیاستهای حرکت و ناوبری مستقیم از پیکسلها و انتقال آنها به دنیای واقعی بدون هیچ تنظیم اضافی (Zero-Shot Sim2Real) — نمونهی آزمایشی شامل بالا رفتن ربات از پلههای ۱۷ سانتیمتری
🔹 پشتیبانی از عمق، motion blur، randomization دوربین و سایر افکتهای واقعگرایانه برای بهبود انتقال
تمامی کدها، دادهها، مدلها و دیتاستها بهصورت کاملاً متنباز در دسترس هستند 👇
🔗 دمو: escontrela.me/gauss_gym
📄 مقاله: arxiv.org/abs/2510.15352
💾 دادهها: huggingface.co/collections/escontra/gauss-gym-datasets
💻 کد: github.com/escontra/gauss_gym
✨مدل GaussGym مرز بین سرعت و واقعگرایی را در رباتیک از بین برده و مسیر آموزش رباتها از تصاویر را واقعاً مقیاسپذیر کرده است.
@rss_ai_ir
#AI #Robotics #Simulation #GaussGym #IsaacGym #3DGS #OpenSource
انقلابی در آموزش رباتها از طریق پیکسلها — سریع، فتوواقعگرایانه و متنباز
فریمورک جدید GaussGym معرفی شد — اولین پلتفرم open-source که سرعت بسیار بالا را با بینایی فتوواقعی (Photorealistic Vision) در شبیهسازی رباتها ترکیب میکند. 🚀
این سیستم با استفاده از 3D Gaussian Splatting بهعنوان یک رندرکنندهی تعبیهشده در شبیهسازهای وکتوریزه (مانند IsaacGym)، قادر است سیاستهای بینایی-حرکتی (Visuomotor Policies) را تنها از تصاویر RGB با سرعتی بیش از ۱۰۰٬۰۰۰ گام در ثانیه آموزش دهد — حتی روی یک کارت RTX 4090! ⚡
🔹 ساخت دنیای تمرینی از ویدیوهای iPhone، دیتاستهای GrandTour و ARKit یا حتی ویدیوهای مولد (مثل Veo)
🔹 بازسازی خودکار صحنههای فیزیکی دقیق با کمک VGGT و NKSR بدون نیاز به مدلسازی دستی سهبعدی
🔹 آموزش سیاستهای حرکت و ناوبری مستقیم از پیکسلها و انتقال آنها به دنیای واقعی بدون هیچ تنظیم اضافی (Zero-Shot Sim2Real) — نمونهی آزمایشی شامل بالا رفتن ربات از پلههای ۱۷ سانتیمتری
🔹 پشتیبانی از عمق، motion blur، randomization دوربین و سایر افکتهای واقعگرایانه برای بهبود انتقال
تمامی کدها، دادهها، مدلها و دیتاستها بهصورت کاملاً متنباز در دسترس هستند 👇
🔗 دمو: escontrela.me/gauss_gym
📄 مقاله: arxiv.org/abs/2510.15352
💾 دادهها: huggingface.co/collections/escontra/gauss-gym-datasets
💻 کد: github.com/escontra/gauss_gym
✨مدل GaussGym مرز بین سرعت و واقعگرایی را در رباتیک از بین برده و مسیر آموزش رباتها از تصاویر را واقعاً مقیاسپذیر کرده است.
@rss_ai_ir
#AI #Robotics #Simulation #GaussGym #IsaacGym #3DGS #OpenSource
🚀 استفاده از مدلهای زبانی در Go با کتابخانهی جدید yzma
کتابخانهی yzma امکان اجرای مدلهای زبانی (LLM)، مدلهای دید-زبان (VLM) و سایر معماریها را بهصورت بومی روی سختافزار خودتان فراهم میکند — با پشتیبانی کامل از شتاب سختافزاری و بدون نیاز به CGo! ⚙️
💡 ویژگیهای کلیدی:
🔹 پشتیبانی از VLM، LLM، SLM و TLM در یک پکیج واحد
🔹 بهرهگیری کامل از شتابدهندههای سختافزاری برای بیشترین سرعت
🔹 بدون نیاز به C compiler — نصب و اجرا تنها با Go
🔹 کاملاً سازگار با نسخههای جدید llama.cpp
🔹 همراه با نمونهکدهای آماده برای انواع مدلها
📦 سیستمعاملهای پشتیبانیشده:
Linux 🐧
macOS 🍎
Windows 💻
📌 سورسکد و مستندات:
github.com/hybridgroup/yzma
با yzma، زبان Go بالاخره ابزار قدرتمند و سادهای برای استفاده مستقیم از مدلهای هوش مصنوعی روی دستگاه محلی پیدا کرده است. 🚀
@rss_ai_ir
#Go #LLM #VLM #AI #yzma #MachineLearning #OpenSource
کتابخانهی yzma امکان اجرای مدلهای زبانی (LLM)، مدلهای دید-زبان (VLM) و سایر معماریها را بهصورت بومی روی سختافزار خودتان فراهم میکند — با پشتیبانی کامل از شتاب سختافزاری و بدون نیاز به CGo! ⚙️
💡 ویژگیهای کلیدی:
🔹 پشتیبانی از VLM، LLM، SLM و TLM در یک پکیج واحد
🔹 بهرهگیری کامل از شتابدهندههای سختافزاری برای بیشترین سرعت
🔹 بدون نیاز به C compiler — نصب و اجرا تنها با Go
🔹 کاملاً سازگار با نسخههای جدید llama.cpp
🔹 همراه با نمونهکدهای آماده برای انواع مدلها
📦 سیستمعاملهای پشتیبانیشده:
Linux 🐧
macOS 🍎
Windows 💻
📌 سورسکد و مستندات:
github.com/hybridgroup/yzma
با yzma، زبان Go بالاخره ابزار قدرتمند و سادهای برای استفاده مستقیم از مدلهای هوش مصنوعی روی دستگاه محلی پیدا کرده است. 🚀
@rss_ai_ir
#Go #LLM #VLM #AI #yzma #MachineLearning #OpenSource
👍2
🎉 مدل Qwen3-VL حالا در llama.cpp اجرا میشود! 🤖💥
خبر عالی برای عاشقان اجرای محلی مدلها —
حالا میتوانید Qwen3-VL را مستقیماً روی دستگاه خود اجرا کنید، بدون نیاز به ابر یا سرویسهای جانبی!
🚀 پشتیبانی کامل از:
✳️CPU
✳️CUDA
✳️Metal
✳️Vulkan
و سایر بکاندهای رایج.
📦 وزنهای GGUF برای همه نسخهها در دسترس است — از ۲B تا ۲۳۵B.
این یعنی از لپتاپ تا ایستگاه کاری قدرتمند، میتوانید نسخهای مناسب اجرا کنید.
---
🔗 منابع:
🤗 Hugging Face
🤖 ModelScope
📌 PR در llama.cpp
📡 @rss_ai_ir
#هوش_مصنوعی #LLM #Qwen3 #LlamaCpp #AI #OpenSource
خبر عالی برای عاشقان اجرای محلی مدلها —
حالا میتوانید Qwen3-VL را مستقیماً روی دستگاه خود اجرا کنید، بدون نیاز به ابر یا سرویسهای جانبی!
🚀 پشتیبانی کامل از:
✳️CPU
✳️CUDA
✳️Metal
✳️Vulkan
و سایر بکاندهای رایج.
📦 وزنهای GGUF برای همه نسخهها در دسترس است — از ۲B تا ۲۳۵B.
این یعنی از لپتاپ تا ایستگاه کاری قدرتمند، میتوانید نسخهای مناسب اجرا کنید.
---
🔗 منابع:
🤗 Hugging Face
🤖 ModelScope
📌 PR در llama.cpp
📡 @rss_ai_ir
#هوش_مصنوعی #LLM #Qwen3 #LlamaCpp #AI #OpenSource
❤5
This media is not supported in your browser
VIEW IN TELEGRAM
💻 در llama.cpp رابط وب شبیه Automatic1111 ساخته شد! 🤖⚙️
توسعهدهندگان llama.cpp حالا نسخهای از WebUI مخصوص خودشان را ارائه کردهاند — چیزی شبیه Automatic1111 برای Stable Diffusion، اما اینبار برای مدلهای زبانی (LLM)!
برخلاف ابزارهای تولید تصویر که صدها پارامتر دارند، این رابط سادهتر است و بیشتر شبیه ChatGPT یا Qwen Chat عمل میکند.
کافی است:
1️⃣ سرور محلی خود را اجرا کنید،
2️⃣ آدرس 127.0.0.1 را در مرورگر باز کنید،
3️⃣ و از طریق رابط وب به صدها مدل بازمتن دسترسی پیدا کنید.
📂 همچنین میتوانید تصاویر یا اسناد خود را آپلود کنید تا مدل مستقیماً با دادههای شما کار کند.
📘 دستورالعمل کامل در گیتهاب:
👉 github.com/ggml-org/llama.cpp#hot-topics
📡 @rss_ai_ir
#هوش_مصنوعی #llamaCpp #LLM #OpenSource #AI #WebUI
توسعهدهندگان llama.cpp حالا نسخهای از WebUI مخصوص خودشان را ارائه کردهاند — چیزی شبیه Automatic1111 برای Stable Diffusion، اما اینبار برای مدلهای زبانی (LLM)!
برخلاف ابزارهای تولید تصویر که صدها پارامتر دارند، این رابط سادهتر است و بیشتر شبیه ChatGPT یا Qwen Chat عمل میکند.
کافی است:
1️⃣ سرور محلی خود را اجرا کنید،
2️⃣ آدرس 127.0.0.1 را در مرورگر باز کنید،
3️⃣ و از طریق رابط وب به صدها مدل بازمتن دسترسی پیدا کنید.
📂 همچنین میتوانید تصاویر یا اسناد خود را آپلود کنید تا مدل مستقیماً با دادههای شما کار کند.
📘 دستورالعمل کامل در گیتهاب:
👉 github.com/ggml-org/llama.cpp#hot-topics
📡 @rss_ai_ir
#هوش_مصنوعی #llamaCpp #LLM #OpenSource #AI #WebUI
🔥4❤1
🔥 Kimi K2 Thinking —
عامل متنباز که واقعاً فکر میکند!
شرکت Moonshot AI مدل جدید خود با نام Kimi K2 Thinking را منتشر کرده است — عاملی متنباز برای استدلال خودکار و استفاده از ابزارها که در حال شکستن رکوردهای جدید است.
🔹 عملکرد:
• بهترین نتایج (SOTA) در HLE با ۴۴.۹٪ و BrowseComp با ۶۰.۲٪
• انجام ۲۰۰ تا ۳۰۰ فراخوان ابزاری بدون نیاز به دخالت انسان
• تخصص در استدلال، جستجوی عاملمحور و کدنویسی
• دارای پنجرهی زمینهی ۲۵۶K
🧠 طراحیشده برای “test-time scaling”:
همچنین K2 فقط برای پیشبینی توکنها آموزش ندیده، بلکه برای تفکر گامبهگام در حل مسائل ساخته شده — با مقیاسپذیری در عمق استدلال و تعداد گامهای ابزاری.
🌐 در دسترس:
• حالت گفتگو:
kimi.com
• API:
platform.moonshot.ai
• وبلاگ فنی:
moonshotai.github.io/Kimi-K2/thinking
• وزنها و کد:
huggingface.co/moonshotai
عاملهای متنباز با سرعتی باور نکردنی در حال پیشرفتاند.
چالش بعدی Kimi: تبدیل قدرت خام استدلال به خودمختاری واقعی در دنیای فیزیکی. 🤖
#هوش_مصنوعی #عامل_هوشمند #KimiK2 #MoonshotAI #AGI #AI #OpenSource #Neural
عامل متنباز که واقعاً فکر میکند!
شرکت Moonshot AI مدل جدید خود با نام Kimi K2 Thinking را منتشر کرده است — عاملی متنباز برای استدلال خودکار و استفاده از ابزارها که در حال شکستن رکوردهای جدید است.
🔹 عملکرد:
• بهترین نتایج (SOTA) در HLE با ۴۴.۹٪ و BrowseComp با ۶۰.۲٪
• انجام ۲۰۰ تا ۳۰۰ فراخوان ابزاری بدون نیاز به دخالت انسان
• تخصص در استدلال، جستجوی عاملمحور و کدنویسی
• دارای پنجرهی زمینهی ۲۵۶K
🧠 طراحیشده برای “test-time scaling”:
همچنین K2 فقط برای پیشبینی توکنها آموزش ندیده، بلکه برای تفکر گامبهگام در حل مسائل ساخته شده — با مقیاسپذیری در عمق استدلال و تعداد گامهای ابزاری.
🌐 در دسترس:
• حالت گفتگو:
kimi.com
• API:
platform.moonshot.ai
• وبلاگ فنی:
moonshotai.github.io/Kimi-K2/thinking
• وزنها و کد:
huggingface.co/moonshotai
عاملهای متنباز با سرعتی باور نکردنی در حال پیشرفتاند.
چالش بعدی Kimi: تبدیل قدرت خام استدلال به خودمختاری واقعی در دنیای فیزیکی. 🤖
#هوش_مصنوعی #عامل_هوشمند #KimiK2 #MoonshotAI #AGI #AI #OpenSource #Neural
❤1🔥1
⭐ مدل VibeThinker-1.5B؛ مدل کوچک اما رکوردشکن در استدلال
این مدل ۱.۵ میلیارد پارامتری با وجود اندازهی بسیار کوچک، در آزمونهای استدلالی به نتایج SOTA رسیده است.
🚀 عملکرد:
در AIME24/25 و HMMT25 جزو بهترینهاست و حتی مدل DeepSeek R1-0120 را در مسائل ریاضی پشت سر میگذارد. در برنامهنویسی رقابتی هم بالاتر از مدلهای همحجم ظاهر شده است.
⚡ بهرهوری:
فقط ۱.۵B پارامتر — یعنی ۱۰۰ تا ۶۰۰ برابر کوچکتر از مدلهایی مثل Kimi K2 و DeepSeek R1.
💰 هزینه:
کل هزینهٔ پستمرین حدود ۷.۸ هزار دلار بوده؛ یعنی ۳۰ تا ۶۰ برابر ارزانتر از DeepSeek R1 یا MiniMax-M1.
این مدل بر پایهٔ Spectrum-to-Signal Principle (SSP) و فریمورک MGPO ساخته شده تا فرآیند استدلال را بهینه کند.
📦 Model:
hf.co/WeiboAI/VibeThinker-1.5B
💻 GitHub:
github.com/WeiboAI/VibeThinker
📄 Arxiv:
arxiv.org/abs/2511.06221
#AI #LLM #Reasoning #OpenSource #SmallModel @rss_ai_ir
این مدل ۱.۵ میلیارد پارامتری با وجود اندازهی بسیار کوچک، در آزمونهای استدلالی به نتایج SOTA رسیده است.
🚀 عملکرد:
در AIME24/25 و HMMT25 جزو بهترینهاست و حتی مدل DeepSeek R1-0120 را در مسائل ریاضی پشت سر میگذارد. در برنامهنویسی رقابتی هم بالاتر از مدلهای همحجم ظاهر شده است.
⚡ بهرهوری:
فقط ۱.۵B پارامتر — یعنی ۱۰۰ تا ۶۰۰ برابر کوچکتر از مدلهایی مثل Kimi K2 و DeepSeek R1.
💰 هزینه:
کل هزینهٔ پستمرین حدود ۷.۸ هزار دلار بوده؛ یعنی ۳۰ تا ۶۰ برابر ارزانتر از DeepSeek R1 یا MiniMax-M1.
این مدل بر پایهٔ Spectrum-to-Signal Principle (SSP) و فریمورک MGPO ساخته شده تا فرآیند استدلال را بهینه کند.
📦 Model:
hf.co/WeiboAI/VibeThinker-1.5B
💻 GitHub:
github.com/WeiboAI/VibeThinker
📄 Arxiv:
arxiv.org/abs/2511.06221
#AI #LLM #Reasoning #OpenSource #SmallModel @rss_ai_ir
🚀 یک موتور قدرتمند برای مدلهای چندمودالی (Multimodal Models)
اگر با مدلهای ترکیبی متن–تصویر–ویدیو کار میکنید، LMMs-Engine یکی از بهترین فریمورکهای جدید است.
این موتور فوقسبک و بسیار انعطافپذیر، مخصوص آموزش و توسعهی مدلهای چندمودالی طراحی شده و حتی در مقیاسهای بزرگ هم کارایی بسیار بالایی دارد.
💡 ویژگیهای برجسته:
🔥 پشتیبانی از ۱۹+ معماری مختلف برای متن، تصویر، ویدیو و مدلهای ترکیبی
⚙️ بهینهسازی برای آموزش توزیعشده با مصرف حافظه بسیار کم
🧩 شامل دهها نمونه آماده اجرا برای شروع سریع با مدلهای مختلف
⚡ مناسب برای پژوهشگران، توسعهدهندگان و کسانی که به دنبال ساخت LMM اختصاصی هستند
📌 گیتهاب:
https://github.com/EvolvingLMMs-Lab/lmms-engine
---
#AI #ML #Multimodal #LMM #DeepLearning #OpenSource #MachineLearning #AIDev #NeuralNetworks
@rss_ai_ir
اگر با مدلهای ترکیبی متن–تصویر–ویدیو کار میکنید، LMMs-Engine یکی از بهترین فریمورکهای جدید است.
این موتور فوقسبک و بسیار انعطافپذیر، مخصوص آموزش و توسعهی مدلهای چندمودالی طراحی شده و حتی در مقیاسهای بزرگ هم کارایی بسیار بالایی دارد.
💡 ویژگیهای برجسته:
🔥 پشتیبانی از ۱۹+ معماری مختلف برای متن، تصویر، ویدیو و مدلهای ترکیبی
⚙️ بهینهسازی برای آموزش توزیعشده با مصرف حافظه بسیار کم
🧩 شامل دهها نمونه آماده اجرا برای شروع سریع با مدلهای مختلف
⚡ مناسب برای پژوهشگران، توسعهدهندگان و کسانی که به دنبال ساخت LMM اختصاصی هستند
📌 گیتهاب:
https://github.com/EvolvingLMMs-Lab/lmms-engine
---
#AI #ML #Multimodal #LMM #DeepLearning #OpenSource #MachineLearning #AIDev #NeuralNetworks
@rss_ai_ir
😁19🔥17❤12🥰12🎉12👍10👏10🙏1
🎬 پروژه متنباز UniVA معرفی شد؛ عامل ویدئویی نسل جدید که میتواند ویدئو را درک، تحلیل و روی آن عمل کند. این مدل برای وظایف مختلف ویدیویی کاربرد دارد؛ از رباتیک و نظارت هوشمند تا تولید خودکار محتوا.
🔗 لینکها:
Hf:
https://huggingface.co/papers/2511.08521
Paper:
https://arxiv.org/pdf/2511.08521
GitHub:
https://github.com/univa-agent/univa
@rss_ai_ir
#هوش_مصنوعی #ویدئو #عامل_ویدئویی #UniVA #AI #OpenSource
🔗 لینکها:
Hf:
https://huggingface.co/papers/2511.08521
Paper:
https://arxiv.org/pdf/2511.08521
GitHub:
https://github.com/univa-agent/univa
@rss_ai_ir
#هوش_مصنوعی #ویدئو #عامل_ویدئویی #UniVA #AI #OpenSource
🔥15🎉13👏11😁11❤8👍8🥰5
🎬🤖 UniVA:
ایجنت هوشمند و متنباز برای پردازش و تولید ویدئو
ایجنت UniVA یک ایجنت ویدئویی چندعاملی (Multi-Agent) متنباز است که نسل جدیدی از هوش مصنوعی ویدئویی را هدف گرفته.
این سیستم میتواند کارهای پیچیده ویدئویی را در یک جریان واحد انجام دهد:
🟣 فهم و تحلیل ویدئو
🟣 ویرایش و Segmentation
🟣 ساخت و تولید ویدئو از متن/عکس/ویدئو
🟣 پردازش چندمرحلهای با برنامهریزی و اجرای خودکار (Plan-and-Act)
ایجنت UniVA با حافظه چندلایه و ارتباط بین ایجنتها میتواند فرآیندهای طولانی و پروژههای پیچیده ویدئویی را مدیریت کند.
📌 لینکها: 🔗 HuggingFace (پروژه):
https://huggingface.co/papers/2511.08521
📄 Paper:
https://arxiv.org/pdf/2511.08521
💻 GitHub:
https://github.com/univa-agent/univa
@rss_ai_ir
#هوش_مصنوعی #VideoAI #AgenticAI #UniVA #OpenSource #MultimodalAI
ایجنت هوشمند و متنباز برای پردازش و تولید ویدئو
ایجنت UniVA یک ایجنت ویدئویی چندعاملی (Multi-Agent) متنباز است که نسل جدیدی از هوش مصنوعی ویدئویی را هدف گرفته.
این سیستم میتواند کارهای پیچیده ویدئویی را در یک جریان واحد انجام دهد:
🟣 فهم و تحلیل ویدئو
🟣 ویرایش و Segmentation
🟣 ساخت و تولید ویدئو از متن/عکس/ویدئو
🟣 پردازش چندمرحلهای با برنامهریزی و اجرای خودکار (Plan-and-Act)
ایجنت UniVA با حافظه چندلایه و ارتباط بین ایجنتها میتواند فرآیندهای طولانی و پروژههای پیچیده ویدئویی را مدیریت کند.
📌 لینکها: 🔗 HuggingFace (پروژه):
https://huggingface.co/papers/2511.08521
📄 Paper:
https://arxiv.org/pdf/2511.08521
💻 GitHub:
https://github.com/univa-agent/univa
@rss_ai_ir
#هوش_مصنوعی #VideoAI #AgenticAI #UniVA #OpenSource #MultimodalAI
👍8😁7🎉6🔥5❤4🥰4👏2
⚡ Heretic —
ابزاری برای حذف سانسور (Alignment) از مدلهای زبانی
🛠 ابزار Heretic روشی ارائه میدهد که بدون دسترسی به وزنهای مدل و تنها از طریق API، محدودیتهای رفتاری و فیلترهای پاسخدهی مدل را کاهش دهد و آمادگی آن برای پاسخگویی گستردهتر را افزایش دهد.
🔍 این ابزار چه میکند؟
✅مدل را مانند جعبهسیاه (Black-box) در نظر میگیرد
✅مجموعهای از پرسشهای «ایمن» و «غیرایمن» را به مدل میدهد
✅یک دیسکریمیناتور آموزش میدهد تا تفاوت پاسخهای قبل و بعد از آزادسازی را تشخیص دهد
✅پارامترهایی پیدا میکند که باعث کاهش پاسخهای رد / انکار شود اما مدل را از حالت منطقی خارج نکند
✅در پایان میتوان نسخه تعدیلشده را ذخیره کرد یا در حالت چت تست نمود
🎯 کاربردها:
♻️فعالتر کردن مدلهای لوکال برای پاسخگویی به طیف وسیعتری از درخواستها
♻️مناسب برای تحقیقات درباره رفتار مدلها و آزمایش محدودیتها
♻️کاهش سانسور بدون افت شدید کیفیت یا تبدیل مدل به پاسخدهنده بیدقت
⚠️ نکات مهم:
✳️استفاده از این ابزار مسئولیت اخلاقی و حقوقی دارد
✳️هدف Heretic افزایش دقت یا توانایی مدل نیست؛
✳️هدف، برداشتن قفلهای رفتاری ناشی از Alignment است
✳️ممکن است در برخی حوزهها خطرناک باشد و نیازمند رویکرد مسئولانه است
📎 پروژه در GitHub:
github.com/p-e-w/heretic
---
#هوش_مصنوعی #مدل_زبان #LLM #Alignment #OpenSource
@rss_ai_ir
ابزاری برای حذف سانسور (Alignment) از مدلهای زبانی
🛠 ابزار Heretic روشی ارائه میدهد که بدون دسترسی به وزنهای مدل و تنها از طریق API، محدودیتهای رفتاری و فیلترهای پاسخدهی مدل را کاهش دهد و آمادگی آن برای پاسخگویی گستردهتر را افزایش دهد.
🔍 این ابزار چه میکند؟
✅مدل را مانند جعبهسیاه (Black-box) در نظر میگیرد
✅مجموعهای از پرسشهای «ایمن» و «غیرایمن» را به مدل میدهد
✅یک دیسکریمیناتور آموزش میدهد تا تفاوت پاسخهای قبل و بعد از آزادسازی را تشخیص دهد
✅پارامترهایی پیدا میکند که باعث کاهش پاسخهای رد / انکار شود اما مدل را از حالت منطقی خارج نکند
✅در پایان میتوان نسخه تعدیلشده را ذخیره کرد یا در حالت چت تست نمود
🎯 کاربردها:
♻️فعالتر کردن مدلهای لوکال برای پاسخگویی به طیف وسیعتری از درخواستها
♻️مناسب برای تحقیقات درباره رفتار مدلها و آزمایش محدودیتها
♻️کاهش سانسور بدون افت شدید کیفیت یا تبدیل مدل به پاسخدهنده بیدقت
⚠️ نکات مهم:
✳️استفاده از این ابزار مسئولیت اخلاقی و حقوقی دارد
✳️هدف Heretic افزایش دقت یا توانایی مدل نیست؛
✳️هدف، برداشتن قفلهای رفتاری ناشی از Alignment است
✳️ممکن است در برخی حوزهها خطرناک باشد و نیازمند رویکرد مسئولانه است
📎 پروژه در GitHub:
github.com/p-e-w/heretic
---
#هوش_مصنوعی #مدل_زبان #LLM #Alignment #OpenSource
@rss_ai_ir
👏8🔥7👍6🎉5❤4🥰4😁2