VIRSUN
10.9K subscribers
1.12K photos
673 videos
5 files
745 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🌏 Hunyuan World 1.1 (WorldMirror) —
نسخه‌ی جدید مدل متن‌باز تولید جهان سه‌بعدی از Tencent Hunyuan

در حالی‌که نسخه‌ی قبلی Hunyuan World 1.0 برای ساخت جهان‌های سه‌بعدی از متن یا تصاویر تک‌زاویه‌ای طراحی شده بود و روی GPUهای معمولی اجرا می‌شد، نسخه‌ی جدید 1.1 حالا از ویدیوها و تصاویر چندزاویه‌ای پشتیبانی می‌کند.

🎯 ویژگی‌های کلیدی:

ورودی آزاد (Any Input): از ویدیو، تصویر، نقشه عمق و پارامترهای دوربین پشتیبانی می‌کند و ساختار سه‌بعدی دقیق و بدون اعوجاج می‌سازد.

خروجی آزاد (Any Output): تولید هم‌زمان چندین نمای سه‌بعدی — از جمله نقشه عمق، ابر نقاط (Point Cloud)، نرمال سطوح و Gaussian Splatting.

سرعت بالا: مدل از نوع Feed-Forward است و تمام ویژگی‌های سه‌بعدی را تنها در چند ثانیه و در یک GPU تولید می‌کند.


⚙️ این مدل به‌نوعی ادامه‌ی مسیر تکاملی مدل‌های تولید ویدیو است — با این تفاوت که حالا می‌تواند جهان‌های کامل را بازسازی کند.
در حالی‌که گوگل با مدل GENIE-3 پاسخ داده، OpenAI هنوز هیچ معادل مستقیمی برای این فناوری ندارد.

💻 منابع:
🔹 کد: github.com/Tencent-Hunyuan/HunyuanWorld-Mirror
🔹 پروژه: 3d-models.hunyuan.tencent.com/world/
🔹 دمو: Hugging Face Space
🔹 مقاله: Tech Report PDF

@rss_ai_ir
#AI #3D #GenerativeAI #Hunyuan #Tencent #OpenSource #هوش_مصنوعی #سه‌بعدی #مدل_تولیدی
👍2🔥1👏1
⚡️ LMMs Engine –
موتور واحد برای آموزش مدل‌های چندوجهی (Multimodal)

فریم‌ورکی ساده، منعطف و قدرتمند از LMMs-Lab برای آموزش مدل‌هایی که هم‌زمان می‌توانند متن، تصویر، صدا و ویدیو را درک کنند — همه در یک محیط یکپارچه 🎛️

🎯 ویژگی‌ها:

پشتیبانی از بیش از ۱۹ معماری مختلف:

🧠 Qwen3-VL:
پردازش تصویر با رزولوشن اصلی و کانتکست بیش از ۱۰٬۰۰۰ توکن

🎧 Qwen2.5-Omni:
مدل واحد برای متن، تصویر و صوت

🎥 WanVideo:
تولید ویدیو از متن، تصویر یا ویدیو (T2V, I2V, V2V)

🌫 dLLM:
مدل‌های زبانی دیفیوژنی

🪄 LLaVA-OneVision، Bagel، SiT، RAE-SigLip و دیگر مدل‌های پیشرفته



📜 لایسنس: Apache 2.0 — قابل‌استفاده حتی در پروژه‌های تجاری

🔗 گیت‌هاب:
github.com/EvolvingLMMs-Lab/lmms-engine

@rss_ai_ir
#AI #Multimodal #OpenSource #DeepLearning #LLM #LMMsEngine
2
This media is not supported in your browser
VIEW IN TELEGRAM
🦄 مدل چندوجهی «PixelRefer»؛ فهم ناحیه‌ای دقیق در تصویر و ویدئو

🎯 چارچوب یکپارچه‌ی MLLM که به‌جای نگاه کلی به صحنه، روی ناحیه‌های مشخص تمرکز می‌کند؛ هم در تصاویر ثابت، هم در ویدئوهای پویا. نتیجه: دقت بالاتر در اشاره به ناحیه‌ها، رفع سوگیری صحنه‌محور، و رکوردهای SOTA.

چه می‌دهد؟

🎥🖼️ فهم ناحیه‌ای دقیق در تصویر/ویدئو (region-level grounding)

🧠 رفع bias مدل‌های قبلی که فقط صحنه‌ی کلی را می‌دیدند

🚀 نتایج SOTA + دموی آنلاین، دیتاست و کد متن‌باز


لینک‌ها:

Paper: arxiv.org/pdf/2510.23603
Project: circleradon.github.io/PixelRefer
Repo: https://github.com/alibaba-damo-academy/PixelRefer

@rss_ai_ir
#MLLM #Multimodal #VisionLanguage #Grounding #ReferringSegmentation #SOTA #OpenSource
🛠️📊 Dev3000 —
لاگ‌گیری هوشمند با پشتیبانی از هوش مصنوعی

ابزار Dev3000 تمام رویدادهای توسعه‌ی وب‌اپلیکیشن شما را به‌صورت زمانی ثبت می‌کند — از لاگ‌های سرور و رویدادهای مرورگر تا اسکرین‌شات‌های خودکار.
با این روش، ابزارهایی مثل Claude می‌توانند تمام داده‌ها را یکجا تحلیل کنند و در عیب‌یابی به شما کمک کنند. 🤖

🚀 ویژگی‌های کلیدی:

ذخیره‌ی لاگ‌ها با زمان‌بندی دقیق ⏱️

ثبت خودکار اسکرین‌شات‌ها هنگام خطا یا جابه‌جایی در صفحات 📸

پشتیبانی از تحلیل و دیباگ خودکار با هوش مصنوعی 🤖

جستجو و فیلتر سریع بین لاگ‌ها 🔍

رابط گرافیکی زیبا برای مرور آسان اطلاعات 💡


📎 GitHub:
github.com/vercel-labs/dev3000

@rss_ai_ir
#AI #DevTools #Debugging #JavaScript #WebDevelopment #Claude #OpenSource
🤖 GaussGym:
انقلابی در آموزش ربات‌ها از طریق پیکسل‌ها — سریع، فتوواقع‌گرایانه و متن‌باز

فریم‌ورک جدید GaussGym معرفی شد — اولین پلتفرم open-source که سرعت بسیار بالا را با بینایی فتوواقعی (Photorealistic Vision) در شبیه‌سازی ربات‌ها ترکیب می‌کند. 🚀

این سیستم با استفاده از 3D Gaussian Splatting به‌عنوان یک رندرکننده‌ی تعبیه‌شده در شبیه‌سازهای وکتوریزه (مانند IsaacGym)، قادر است سیاست‌های بینایی-حرکتی (Visuomotor Policies) را تنها از تصاویر RGB با سرعتی بیش از ۱۰۰٬۰۰۰ گام در ثانیه آموزش دهد — حتی روی یک کارت RTX 4090!

🔹 ساخت دنیای تمرینی از ویدیوهای iPhone، دیتاست‌های GrandTour و ARKit یا حتی ویدیوهای مولد (مثل Veo)
🔹 بازسازی خودکار صحنه‌های فیزیکی دقیق با کمک VGGT و NKSR بدون نیاز به مدل‌سازی دستی سه‌بعدی
🔹 آموزش سیاست‌های حرکت و ناوبری مستقیم از پیکسل‌ها و انتقال آن‌ها به دنیای واقعی بدون هیچ تنظیم اضافی (Zero-Shot Sim2Real) — نمونه‌ی آزمایشی شامل بالا رفتن ربات از پله‌های ۱۷ سانتی‌متری
🔹 پشتیبانی از عمق، motion blur، randomization دوربین و سایر افکت‌های واقع‌گرایانه برای بهبود انتقال

تمامی کدها، داده‌ها، مدل‌ها و دیتاست‌ها به‌صورت کاملاً متن‌باز در دسترس هستند 👇
🔗 دمو: escontrela.me/gauss_gym
📄 مقاله: arxiv.org/abs/2510.15352
💾 داده‌ها: huggingface.co/collections/escontra/gauss-gym-datasets
💻 کد: github.com/escontra/gauss_gym

مدل GaussGym مرز بین سرعت و واقع‌گرایی را در رباتیک از بین برده و مسیر آموزش ربات‌ها از تصاویر را واقعاً مقیاس‌پذیر کرده است.

@rss_ai_ir
#AI #Robotics #Simulation #GaussGym #IsaacGym #3DGS #OpenSource
🚀 استفاده از مدل‌های زبانی در Go با کتابخانه‌ی جدید yzma

کتابخانه‌ی yzma امکان اجرای مدل‌های زبانی (LLM)، مدل‌های دید-زبان (VLM) و سایر معماری‌ها را به‌صورت بومی روی سخت‌افزار خودتان فراهم می‌کند — با پشتیبانی کامل از شتاب سخت‌افزاری و بدون نیاز به CGo! ⚙️

💡 ویژگی‌های کلیدی:
🔹 پشتیبانی از VLM، LLM، SLM و TLM در یک پکیج واحد
🔹 بهره‌گیری کامل از شتاب‌دهنده‌های سخت‌افزاری برای بیشترین سرعت
🔹 بدون نیاز به C compiler — نصب و اجرا تنها با Go
🔹 کاملاً سازگار با نسخه‌های جدید llama.cpp
🔹 همراه با نمونه‌کدهای آماده برای انواع مدل‌ها

📦 سیستم‌عامل‌های پشتیبانی‌شده:

Linux 🐧

macOS 🍎

Windows 💻


📌 سورس‌کد و مستندات:
github.com/hybridgroup/yzma

با yzma، زبان Go بالاخره ابزار قدرتمند و ساده‌ای برای استفاده مستقیم از مدل‌های هوش مصنوعی روی دستگاه محلی پیدا کرده است. 🚀

@rss_ai_ir
#Go #LLM #VLM #AI #yzma #MachineLearning #OpenSource
👍2
🎉 مدل Qwen3-VL حالا در llama.cpp اجرا می‌شود! 🤖💥

خبر عالی برای عاشقان اجرای محلی مدل‌ها —
حالا می‌توانید Qwen3-VL را مستقیماً روی دستگاه خود اجرا کنید، بدون نیاز به ابر یا سرویس‌های جانبی!

🚀 پشتیبانی کامل از:

✳️CPU
✳️CUDA
✳️Metal
✳️Vulkan
و سایر بک‌اندهای رایج.


📦 وزن‌های GGUF برای همه نسخه‌ها در دسترس است — از ۲B تا ۲۳۵B.
این یعنی از لپ‌تاپ تا ایستگاه کاری قدرتمند، می‌توانید نسخه‌ای مناسب اجرا کنید.


---

🔗 منابع:
🤗 Hugging Face
🤖 ModelScope
📌 PR در llama.cpp

📡 @rss_ai_ir
#هوش_مصنوعی #LLM #Qwen3 #LlamaCpp #AI #OpenSource
5
This media is not supported in your browser
VIEW IN TELEGRAM
💻 در llama.cpp رابط وب شبیه Automatic1111 ساخته شد! 🤖⚙️

توسعه‌دهندگان llama.cpp حالا نسخه‌ای از WebUI مخصوص خودشان را ارائه کرده‌اند — چیزی شبیه Automatic1111 برای Stable Diffusion، اما این‌بار برای مدل‌های زبانی (LLM)!

برخلاف ابزارهای تولید تصویر که صدها پارامتر دارند، این رابط ساده‌تر است و بیشتر شبیه ChatGPT یا Qwen Chat عمل می‌کند.
کافی است:
1️⃣ سرور محلی خود را اجرا کنید،
2️⃣ آدرس 127.0.0.1 را در مرورگر باز کنید،
3️⃣ و از طریق رابط وب به صدها مدل بازمتن دسترسی پیدا کنید.

📂 همچنین می‌توانید تصاویر یا اسناد خود را آپلود کنید تا مدل مستقیماً با داده‌های شما کار کند.

📘 دستورالعمل کامل در گیت‌هاب:
👉 github.com/ggml-org/llama.cpp#hot-topics

📡 @rss_ai_ir
#هوش_مصنوعی #llamaCpp #LLM #OpenSource #AI #WebUI
🔥41
🔥 Kimi K2 Thinking —
عامل متن‌باز که واقعاً فکر می‌کند!

شرکت Moonshot AI مدل جدید خود با نام Kimi K2 Thinking را منتشر کرده است — عاملی متن‌باز برای استدلال خودکار و استفاده از ابزارها که در حال شکستن رکوردهای جدید است.

🔹 عملکرد:
• بهترین نتایج (SOTA) در HLE با ۴۴.۹٪ و BrowseComp با ۶۰.۲٪
• انجام ۲۰۰ تا ۳۰۰ فراخوان ابزاری بدون نیاز به دخالت انسان
• تخصص در استدلال، جستجوی عامل‌محور و کدنویسی
• دارای پنجره‌ی زمینه‌ی ۲۵۶K

🧠 طراحی‌شده برای “test-time scaling”:
همچنین K2 فقط برای پیش‌بینی توکن‌ها آموزش ندیده، بلکه برای تفکر گام‌به‌گام در حل مسائل ساخته شده — با مقیاس‌پذیری در عمق استدلال و تعداد گام‌های ابزاری.

🌐 در دسترس:
• حالت گفتگو:
kimi.com
• API:
platform.moonshot.ai
• وبلاگ فنی:
moonshotai.github.io/Kimi-K2/thinking
• وزن‌ها و کد:
huggingface.co/moonshotai

عامل‌های متن‌باز با سرعتی باور نکردنی در حال پیشرفت‌اند.
چالش بعدی Kimi: تبدیل قدرت خام استدلال به خودمختاری واقعی در دنیای فیزیکی. 🤖

#هوش_مصنوعی #عامل_هوشمند #KimiK2 #MoonshotAI #AGI #AI #OpenSource #Neural
1🔥1
مدل VibeThinker-1.5B؛ مدل کوچک اما رکوردشکن در استدلال

این مدل ۱.۵ میلیارد پارامتری با وجود اندازه‌ی بسیار کوچک، در آزمون‌های استدلالی به نتایج SOTA رسیده است.

🚀 عملکرد:
در AIME24/25 و HMMT25 جزو بهترین‌هاست و حتی مدل DeepSeek R1-0120 را در مسائل ریاضی پشت سر می‌گذارد. در برنامه‌نویسی رقابتی هم بالاتر از مدل‌های هم‌حجم ظاهر شده است.

بهره‌وری:
فقط ۱.۵B پارامتر — یعنی ۱۰۰ تا ۶۰۰ برابر کوچک‌تر از مدل‌هایی مثل Kimi K2 و DeepSeek R1.

💰 هزینه:
کل هزینهٔ پس‌تمرین حدود ۷.۸ هزار دلار بوده؛ یعنی ۳۰ تا ۶۰ برابر ارزان‌تر از DeepSeek R1 یا MiniMax-M1.

این مدل بر پایهٔ Spectrum-to-Signal Principle (SSP) و فریم‌ورک MGPO ساخته شده تا فرآیند استدلال را بهینه کند.

📦 Model:
hf.co/WeiboAI/VibeThinker-1.5B
💻 GitHub:
github.com/WeiboAI/VibeThinker
📄 Arxiv:
arxiv.org/abs/2511.06221

#AI #LLM #Reasoning #OpenSource #SmallModel @rss_ai_ir
🚀 یک موتور قدرتمند برای مدل‌های چندمودالی (Multimodal Models)

اگر با مدل‌های ترکیبی متن–تصویر–ویدیو کار می‌کنید، LMMs-Engine یکی از بهترین فریم‌ورک‌های جدید است.
این موتور فوق‌سبک و بسیار انعطاف‌پذیر، مخصوص آموزش و توسعه‌ی مدل‌های چندمودالی طراحی شده و حتی در مقیاس‌های بزرگ هم کارایی بسیار بالایی دارد.

💡 ویژگی‌های برجسته:

🔥 پشتیبانی از ۱۹+ معماری مختلف برای متن، تصویر، ویدیو و مدل‌های ترکیبی

⚙️ بهینه‌سازی برای آموزش توزیع‌شده با مصرف حافظه بسیار کم

🧩 شامل ده‌ها نمونه آماده اجرا برای شروع سریع با مدل‌های مختلف

مناسب برای پژوهشگران، توسعه‌دهندگان و کسانی که به دنبال ساخت LMM اختصاصی هستند


📌 گیت‌هاب:
https://github.com/EvolvingLMMs-Lab/lmms-engine


---

#AI #ML #Multimodal #LMM #DeepLearning #OpenSource #MachineLearning #AIDev #NeuralNetworks
@rss_ai_ir
😁19🔥1712🥰12🎉12👍10👏10🙏1
🎬 پروژه متن‌باز UniVA معرفی شد؛ عامل ویدئویی نسل جدید که می‌تواند ویدئو را درک، تحلیل و روی آن عمل کند. این مدل برای وظایف مختلف ویدیویی کاربرد دارد؛ از رباتیک و نظارت هوشمند تا تولید خودکار محتوا.

🔗 لینک‌ها:
Hf:
https://huggingface.co/papers/2511.08521
Paper:
https://arxiv.org/pdf/2511.08521
GitHub:
https://github.com/univa-agent/univa

@rss_ai_ir

#هوش_مصنوعی #ویدئو #عامل_ویدئویی #UniVA #AI #OpenSource
🔥15🎉13👏11😁118👍8🥰5
🎬🤖 UniVA:
ایجنت هوشمند و متن‌باز برای پردازش و تولید ویدئو

ایجنت UniVA یک ایجنت ویدئویی چندعاملی (Multi-Agent) متن‌باز است که نسل جدیدی از هوش مصنوعی ویدئویی را هدف گرفته.
این سیستم می‌تواند کارهای پیچیده ویدئویی را در یک جریان واحد انجام دهد:

🟣 فهم و تحلیل ویدئو
🟣 ویرایش و Segmentation
🟣 ساخت و تولید ویدئو از متن/عکس/ویدئو
🟣 پردازش چندمرحله‌ای با برنامه‌ریزی و اجرای خودکار (Plan-and-Act)

ایجنت UniVA با حافظه چندلایه و ارتباط بین ایجنت‌ها می‌تواند فرآیندهای طولانی و پروژه‌های پیچیده ویدئویی را مدیریت کند.

📌 لینک‌ها: 🔗 HuggingFace (پروژه):
https://huggingface.co/papers/2511.08521

📄 Paper:
https://arxiv.org/pdf/2511.08521

💻 GitHub:
https://github.com/univa-agent/univa

@rss_ai_ir
#هوش_مصنوعی #VideoAI #AgenticAI #UniVA #OpenSource #MultimodalAI
👍8😁7🎉6🔥54🥰4👏2
Heretic —
ابزاری برای حذف سانسور (Alignment) از مدل‌های زبانی

🛠 ابزار Heretic روشی ارائه می‌دهد که بدون دسترسی به وزن‌های مدل و تنها از طریق API، محدودیت‌های رفتاری و فیلترهای پاسخ‌دهی مدل را کاهش دهد و آمادگی آن برای پاسخ‌گویی گسترده‌تر را افزایش دهد.

🔍 این ابزار چه می‌کند؟

مدل را مانند جعبه‌سیاه (Black-box) در نظر می‌گیرد

مجموعه‌ای از پرسش‌های «ایمن» و «غیرایمن» را به مدل می‌دهد

یک دیسکریمیناتور آموزش می‌دهد تا تفاوت پاسخ‌های قبل و بعد از آزادسازی را تشخیص دهد

پارامترهایی پیدا می‌کند که باعث کاهش پاسخ‌های رد / انکار شود اما مدل را از حالت منطقی خارج نکند

در پایان می‌توان نسخه تعدیل‌شده را ذخیره کرد یا در حالت چت تست نمود


🎯 کاربردها:

♻️فعال‌تر کردن مدل‌های لوکال برای پاسخ‌گویی به طیف وسیع‌تری از درخواست‌ها

♻️مناسب برای تحقیقات درباره رفتار مدل‌ها و آزمایش محدودیت‌ها

♻️کاهش سانسور بدون افت شدید کیفیت یا تبدیل مدل به پاسخ‌دهنده بی‌دقت


⚠️ نکات مهم:

✳️استفاده از این ابزار مسئولیت اخلاقی و حقوقی دارد

✳️هدف Heretic افزایش دقت یا توانایی مدل نیست؛
✳️هدف، برداشتن قفل‌های رفتاری ناشی از Alignment است

✳️ممکن است در برخی حوزه‌ها خطرناک باشد و نیازمند رویکرد مسئولانه است


📎 پروژه در GitHub:
github.com/p-e-w/heretic


---

#هوش_مصنوعی #مدل_زبان #LLM #Alignment #OpenSource
@rss_ai_ir
👏8🔥7👍6🎉54🥰4😁2