VIRSUN
13.4K subscribers
1.16K photos
693 videos
5 files
768 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
🧠 Qwen3-VL-2B-Thinking —
نسخه کوچک اما هوشمند مدل چندحالته‌ی Qwen، مخصوص استدلال و تحلیل منطقی

این نسخه‌ی فشرده از خانواده‌ی Qwen3-VL برای تفکر عمیق، تحلیل داده و کاربردهای عامل‌محور (Agent-based) طراحی شده است.

در سری Qwen-VL دو حالت کلیدی وجود دارد:
🔹 Instruct —
برای گفتگوها و پاسخ به دستورها
🔹 Thinking —
برای منطق، برنامه‌نویسی و حل مسائل پیچیده

ویژگی‌ها:

ساختار چندحالته (Multimodal): درک هم‌زمان متن و تصویر، تحلیل محتوا و کشف روابط علت و معلولی

بهینه‌شده برای وظایف استدلالی، جایی که تمرکز روی فرآیند تفکر و نتیجه‌گیری است، نه صرفاً تولید متن

تنها با ۲ میلیارد پارامتر، به‌راحتی روی GPUهای محلی یا محیط‌های ابری قابل اجراست

پشتیبانی از Tool Calling و ادغام با چارچوب‌های عامل‌محور (Agent Frameworks)


📘 نتیجه:
مدلی کوچک، سریع و درعین‌حال قدرتمند برای تفکر و تحلیل — گزینه‌ای عالی برای پروژه‌های سبک و هوشمند 💡

🔗 مشاهده در Hugging Face

@rss_ai_ir

#هوش_مصنوعی #Qwen #Qwen3VL #Reasoning #LLM #OpenSource #Multimodal #AI
👍1
🧠 DeepAnalyze:
مدل عامل‌محور برای علم داده‌ی خودکار (Autonomous Data Science)

پژوهشگران دانشگاه Renmin چین مدل جدیدی با نام DeepAnalyze معرفی کرده‌اند — چارچوبی مبتنی بر Agentic LLM که می‌تواند به‌صورت مستقل فرآیند کامل علم داده را انجام دهد: از تحلیل اولیه و پاک‌سازی داده‌ها تا مدل‌سازی و تفسیر نتایج. ⚙️📊

ویژگی‌ها:

✳️طراحی‌شده برای خودکارسازی کامل چرخه علم داده
✳️مجهز به عامل‌های تخصصی (agents) برای تحلیل، مدل‌سازی و ارزیابی
✳️توانایی استدلال چندمرحله‌ای و تصمیم‌گیری داده‌محور
✳️یکپارچه با LLM و ابزارهای داده مانند pandas و sklearn


🔗 منابع:
🖥 GitHub:
github.com/ruc-datalab/DeepAnalyze
📕 Paper:
huggingface.co/papers/2510.16872
🌐 Project Page:
ruc-deepanalyze.github.io

@rss_ai_ir
#AI #DataScience #LLM #AutonomousAI #DeepAnalyze #OpenSource
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🏜️ مدل ناوبری خودران OmniNWM — گامی تازه در دنیای رانندگی خودکار 🚗🤖

مدل OmniNWM یک سیستم یکپارچه‌ی جهان‌محور و پانورامیک است که آینده‌ی رانندگی خودکار را متحول می‌کند.
این مدل می‌تواند حالت‌های چندوجهی (multi-modal states) شامل تصویر RGB، نقشه‌های معنایی، عمق و اشغال سه‌بعدی (3D occupancy) را به‌صورت همزمان تولید کند.

ویژگی‌های کلیدی:

♻️تولید هم‌زمان داده‌های تصویری، عمقی و فضایی برای درک کامل محیط؛

♻️کنترل دقیق حرکات و تصمیم‌گیری‌ها در لحظه؛

♻️ارزیابی بسته (closed-loop) با پاداش‌های متراکم مبتنی بر اشغال فضا؛

♻️اجرای سریع و بهینه روی GPU.


📘 این مدل تحت مجوز Apache 2.0 منتشر شده و برای پژوهش و توسعه کاملاً آزاد است.

🔗 منابع:
👉 مقاله: arxiv.org/pdf/2510.17422
👉 پروژه: urbanverseproject.github.io
👉 ریپوی GitHub: lnkd.in/efCSvjtp

@rss_ai_ir
#AI #AutonomousDriving #Navigation #ComputerVision #OmniNWM #DeepLearning #OpenSource
This media is not supported in your browser
VIEW IN TELEGRAM
🌊 پروتکل جدید ردیابی دینامیکی — ITTO از Caltech 🐠

محققان دانشگاه Caltech مجموعه‌بنچ‌مارک جدیدی به نام ITTO معرفی کرده‌اند —
سیستمی برای ارزیابی و تحلیل روش‌های ردیابی در حرکات پیچیده و بلندمدت 🔍

💡 ویژگی‌ها:

♻️طراحی‌شده برای حرکات طولانی، پیچیده و غیرخطی

♻️تمرکز بر ارزیابی پایداری در فریم‌های زیاد

♻️مناسب برای آموزش و تست الگوریتم‌های بینایی ماشین در سناریوهای واقعی


📘 مجوز: CC BY-NC 4.0 — استفاده‌ی آزاد برای اهداف پژوهشی

🔗 لینک‌ها:
📄 مقاله
🌐 پروژه
💾 کد منبع

@rss_ai_ir
#AI #Tracking #ComputerVision #Caltech #Research #OpenSource
1
🚀 NVIDIA
دوباره صحنه رو آتیش زد!

روش جدیدشون به نام GenCluster باعث شد برای اولین بار یک مدل متن‌باز بتونه به سطح مدل‌های بسته‌ی شرکت‌های بزرگ برسه 💥

🧠 مدل gpt-oss-120b موفق شد در المپیاد بین‌المللی انفورماتیک (IOI 2025) مدال طلا بگیره —
اولین باریه در تاریخ که این افتخار نصیب یک مدل open-source شده! 🥇

📊 چطور کار می‌کنه؟
مدل هزاران راه‌حل برنامه‌نویسی تولید می‌کنه،
اون‌ها رو تست و گروه‌بندی می‌کنه،
و بین بهترین‌ها یک «تورنمنت هوش مصنوعی» برگزار می‌کنه،
که داوری‌اش هم با یک مدل هوش مصنوعی دیگه‌ست 😎

📈 نتیجه:
۴۴۶.۷۵ امتیاز و مدال طلای رسمی IOI
یک جهش بزرگ در سمت استدلال و حل مسئله‌ی سطح انسانی توسط مدل‌های باز

📄 جزئیات مقاله:

🔗 arxiv.org/abs/2510.14232v1

#NVIDIA #GenCluster #AI #OpenSource #LLM #Research #MachineLearning #IOI2025
1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🌏 Hunyuan World 1.1 (WorldMirror) —
نسخه‌ی جدید مدل متن‌باز تولید جهان سه‌بعدی از Tencent Hunyuan

در حالی‌که نسخه‌ی قبلی Hunyuan World 1.0 برای ساخت جهان‌های سه‌بعدی از متن یا تصاویر تک‌زاویه‌ای طراحی شده بود و روی GPUهای معمولی اجرا می‌شد، نسخه‌ی جدید 1.1 حالا از ویدیوها و تصاویر چندزاویه‌ای پشتیبانی می‌کند.

🎯 ویژگی‌های کلیدی:

ورودی آزاد (Any Input): از ویدیو، تصویر، نقشه عمق و پارامترهای دوربین پشتیبانی می‌کند و ساختار سه‌بعدی دقیق و بدون اعوجاج می‌سازد.

خروجی آزاد (Any Output): تولید هم‌زمان چندین نمای سه‌بعدی — از جمله نقشه عمق، ابر نقاط (Point Cloud)، نرمال سطوح و Gaussian Splatting.

سرعت بالا: مدل از نوع Feed-Forward است و تمام ویژگی‌های سه‌بعدی را تنها در چند ثانیه و در یک GPU تولید می‌کند.


⚙️ این مدل به‌نوعی ادامه‌ی مسیر تکاملی مدل‌های تولید ویدیو است — با این تفاوت که حالا می‌تواند جهان‌های کامل را بازسازی کند.
در حالی‌که گوگل با مدل GENIE-3 پاسخ داده، OpenAI هنوز هیچ معادل مستقیمی برای این فناوری ندارد.

💻 منابع:
🔹 کد: github.com/Tencent-Hunyuan/HunyuanWorld-Mirror
🔹 پروژه: 3d-models.hunyuan.tencent.com/world/
🔹 دمو: Hugging Face Space
🔹 مقاله: Tech Report PDF

@rss_ai_ir
#AI #3D #GenerativeAI #Hunyuan #Tencent #OpenSource #هوش_مصنوعی #سه‌بعدی #مدل_تولیدی
👍2🔥1👏1
⚡️ LMMs Engine –
موتور واحد برای آموزش مدل‌های چندوجهی (Multimodal)

فریم‌ورکی ساده، منعطف و قدرتمند از LMMs-Lab برای آموزش مدل‌هایی که هم‌زمان می‌توانند متن، تصویر، صدا و ویدیو را درک کنند — همه در یک محیط یکپارچه 🎛️

🎯 ویژگی‌ها:

پشتیبانی از بیش از ۱۹ معماری مختلف:

🧠 Qwen3-VL:
پردازش تصویر با رزولوشن اصلی و کانتکست بیش از ۱۰٬۰۰۰ توکن

🎧 Qwen2.5-Omni:
مدل واحد برای متن، تصویر و صوت

🎥 WanVideo:
تولید ویدیو از متن، تصویر یا ویدیو (T2V, I2V, V2V)

🌫 dLLM:
مدل‌های زبانی دیفیوژنی

🪄 LLaVA-OneVision، Bagel، SiT، RAE-SigLip و دیگر مدل‌های پیشرفته



📜 لایسنس: Apache 2.0 — قابل‌استفاده حتی در پروژه‌های تجاری

🔗 گیت‌هاب:
github.com/EvolvingLMMs-Lab/lmms-engine

@rss_ai_ir
#AI #Multimodal #OpenSource #DeepLearning #LLM #LMMsEngine
2
This media is not supported in your browser
VIEW IN TELEGRAM
🦄 مدل چندوجهی «PixelRefer»؛ فهم ناحیه‌ای دقیق در تصویر و ویدئو

🎯 چارچوب یکپارچه‌ی MLLM که به‌جای نگاه کلی به صحنه، روی ناحیه‌های مشخص تمرکز می‌کند؛ هم در تصاویر ثابت، هم در ویدئوهای پویا. نتیجه: دقت بالاتر در اشاره به ناحیه‌ها، رفع سوگیری صحنه‌محور، و رکوردهای SOTA.

چه می‌دهد؟

🎥🖼️ فهم ناحیه‌ای دقیق در تصویر/ویدئو (region-level grounding)

🧠 رفع bias مدل‌های قبلی که فقط صحنه‌ی کلی را می‌دیدند

🚀 نتایج SOTA + دموی آنلاین، دیتاست و کد متن‌باز


لینک‌ها:

Paper: arxiv.org/pdf/2510.23603
Project: circleradon.github.io/PixelRefer
Repo: https://github.com/alibaba-damo-academy/PixelRefer

@rss_ai_ir
#MLLM #Multimodal #VisionLanguage #Grounding #ReferringSegmentation #SOTA #OpenSource
🛠️📊 Dev3000 —
لاگ‌گیری هوشمند با پشتیبانی از هوش مصنوعی

ابزار Dev3000 تمام رویدادهای توسعه‌ی وب‌اپلیکیشن شما را به‌صورت زمانی ثبت می‌کند — از لاگ‌های سرور و رویدادهای مرورگر تا اسکرین‌شات‌های خودکار.
با این روش، ابزارهایی مثل Claude می‌توانند تمام داده‌ها را یکجا تحلیل کنند و در عیب‌یابی به شما کمک کنند. 🤖

🚀 ویژگی‌های کلیدی:

ذخیره‌ی لاگ‌ها با زمان‌بندی دقیق ⏱️

ثبت خودکار اسکرین‌شات‌ها هنگام خطا یا جابه‌جایی در صفحات 📸

پشتیبانی از تحلیل و دیباگ خودکار با هوش مصنوعی 🤖

جستجو و فیلتر سریع بین لاگ‌ها 🔍

رابط گرافیکی زیبا برای مرور آسان اطلاعات 💡


📎 GitHub:
github.com/vercel-labs/dev3000

@rss_ai_ir
#AI #DevTools #Debugging #JavaScript #WebDevelopment #Claude #OpenSource
🤖 GaussGym:
انقلابی در آموزش ربات‌ها از طریق پیکسل‌ها — سریع، فتوواقع‌گرایانه و متن‌باز

فریم‌ورک جدید GaussGym معرفی شد — اولین پلتفرم open-source که سرعت بسیار بالا را با بینایی فتوواقعی (Photorealistic Vision) در شبیه‌سازی ربات‌ها ترکیب می‌کند. 🚀

این سیستم با استفاده از 3D Gaussian Splatting به‌عنوان یک رندرکننده‌ی تعبیه‌شده در شبیه‌سازهای وکتوریزه (مانند IsaacGym)، قادر است سیاست‌های بینایی-حرکتی (Visuomotor Policies) را تنها از تصاویر RGB با سرعتی بیش از ۱۰۰٬۰۰۰ گام در ثانیه آموزش دهد — حتی روی یک کارت RTX 4090!

🔹 ساخت دنیای تمرینی از ویدیوهای iPhone، دیتاست‌های GrandTour و ARKit یا حتی ویدیوهای مولد (مثل Veo)
🔹 بازسازی خودکار صحنه‌های فیزیکی دقیق با کمک VGGT و NKSR بدون نیاز به مدل‌سازی دستی سه‌بعدی
🔹 آموزش سیاست‌های حرکت و ناوبری مستقیم از پیکسل‌ها و انتقال آن‌ها به دنیای واقعی بدون هیچ تنظیم اضافی (Zero-Shot Sim2Real) — نمونه‌ی آزمایشی شامل بالا رفتن ربات از پله‌های ۱۷ سانتی‌متری
🔹 پشتیبانی از عمق، motion blur، randomization دوربین و سایر افکت‌های واقع‌گرایانه برای بهبود انتقال

تمامی کدها، داده‌ها، مدل‌ها و دیتاست‌ها به‌صورت کاملاً متن‌باز در دسترس هستند 👇
🔗 دمو: escontrela.me/gauss_gym
📄 مقاله: arxiv.org/abs/2510.15352
💾 داده‌ها: huggingface.co/collections/escontra/gauss-gym-datasets
💻 کد: github.com/escontra/gauss_gym

مدل GaussGym مرز بین سرعت و واقع‌گرایی را در رباتیک از بین برده و مسیر آموزش ربات‌ها از تصاویر را واقعاً مقیاس‌پذیر کرده است.

@rss_ai_ir
#AI #Robotics #Simulation #GaussGym #IsaacGym #3DGS #OpenSource
🚀 استفاده از مدل‌های زبانی در Go با کتابخانه‌ی جدید yzma

کتابخانه‌ی yzma امکان اجرای مدل‌های زبانی (LLM)، مدل‌های دید-زبان (VLM) و سایر معماری‌ها را به‌صورت بومی روی سخت‌افزار خودتان فراهم می‌کند — با پشتیبانی کامل از شتاب سخت‌افزاری و بدون نیاز به CGo! ⚙️

💡 ویژگی‌های کلیدی:
🔹 پشتیبانی از VLM، LLM، SLM و TLM در یک پکیج واحد
🔹 بهره‌گیری کامل از شتاب‌دهنده‌های سخت‌افزاری برای بیشترین سرعت
🔹 بدون نیاز به C compiler — نصب و اجرا تنها با Go
🔹 کاملاً سازگار با نسخه‌های جدید llama.cpp
🔹 همراه با نمونه‌کدهای آماده برای انواع مدل‌ها

📦 سیستم‌عامل‌های پشتیبانی‌شده:

Linux 🐧

macOS 🍎

Windows 💻


📌 سورس‌کد و مستندات:
github.com/hybridgroup/yzma

با yzma، زبان Go بالاخره ابزار قدرتمند و ساده‌ای برای استفاده مستقیم از مدل‌های هوش مصنوعی روی دستگاه محلی پیدا کرده است. 🚀

@rss_ai_ir
#Go #LLM #VLM #AI #yzma #MachineLearning #OpenSource
👍2
🎉 مدل Qwen3-VL حالا در llama.cpp اجرا می‌شود! 🤖💥

خبر عالی برای عاشقان اجرای محلی مدل‌ها —
حالا می‌توانید Qwen3-VL را مستقیماً روی دستگاه خود اجرا کنید، بدون نیاز به ابر یا سرویس‌های جانبی!

🚀 پشتیبانی کامل از:

✳️CPU
✳️CUDA
✳️Metal
✳️Vulkan
و سایر بک‌اندهای رایج.


📦 وزن‌های GGUF برای همه نسخه‌ها در دسترس است — از ۲B تا ۲۳۵B.
این یعنی از لپ‌تاپ تا ایستگاه کاری قدرتمند، می‌توانید نسخه‌ای مناسب اجرا کنید.


---

🔗 منابع:
🤗 Hugging Face
🤖 ModelScope
📌 PR در llama.cpp

📡 @rss_ai_ir
#هوش_مصنوعی #LLM #Qwen3 #LlamaCpp #AI #OpenSource
5
This media is not supported in your browser
VIEW IN TELEGRAM
💻 در llama.cpp رابط وب شبیه Automatic1111 ساخته شد! 🤖⚙️

توسعه‌دهندگان llama.cpp حالا نسخه‌ای از WebUI مخصوص خودشان را ارائه کرده‌اند — چیزی شبیه Automatic1111 برای Stable Diffusion، اما این‌بار برای مدل‌های زبانی (LLM)!

برخلاف ابزارهای تولید تصویر که صدها پارامتر دارند، این رابط ساده‌تر است و بیشتر شبیه ChatGPT یا Qwen Chat عمل می‌کند.
کافی است:
1️⃣ سرور محلی خود را اجرا کنید،
2️⃣ آدرس 127.0.0.1 را در مرورگر باز کنید،
3️⃣ و از طریق رابط وب به صدها مدل بازمتن دسترسی پیدا کنید.

📂 همچنین می‌توانید تصاویر یا اسناد خود را آپلود کنید تا مدل مستقیماً با داده‌های شما کار کند.

📘 دستورالعمل کامل در گیت‌هاب:
👉 github.com/ggml-org/llama.cpp#hot-topics

📡 @rss_ai_ir
#هوش_مصنوعی #llamaCpp #LLM #OpenSource #AI #WebUI
🔥41
🔥 Kimi K2 Thinking —
عامل متن‌باز که واقعاً فکر می‌کند!

شرکت Moonshot AI مدل جدید خود با نام Kimi K2 Thinking را منتشر کرده است — عاملی متن‌باز برای استدلال خودکار و استفاده از ابزارها که در حال شکستن رکوردهای جدید است.

🔹 عملکرد:
• بهترین نتایج (SOTA) در HLE با ۴۴.۹٪ و BrowseComp با ۶۰.۲٪
• انجام ۲۰۰ تا ۳۰۰ فراخوان ابزاری بدون نیاز به دخالت انسان
• تخصص در استدلال، جستجوی عامل‌محور و کدنویسی
• دارای پنجره‌ی زمینه‌ی ۲۵۶K

🧠 طراحی‌شده برای “test-time scaling”:
همچنین K2 فقط برای پیش‌بینی توکن‌ها آموزش ندیده، بلکه برای تفکر گام‌به‌گام در حل مسائل ساخته شده — با مقیاس‌پذیری در عمق استدلال و تعداد گام‌های ابزاری.

🌐 در دسترس:
• حالت گفتگو:
kimi.com
• API:
platform.moonshot.ai
• وبلاگ فنی:
moonshotai.github.io/Kimi-K2/thinking
• وزن‌ها و کد:
huggingface.co/moonshotai

عامل‌های متن‌باز با سرعتی باور نکردنی در حال پیشرفت‌اند.
چالش بعدی Kimi: تبدیل قدرت خام استدلال به خودمختاری واقعی در دنیای فیزیکی. 🤖

#هوش_مصنوعی #عامل_هوشمند #KimiK2 #MoonshotAI #AGI #AI #OpenSource #Neural
1🔥1
مدل VibeThinker-1.5B؛ مدل کوچک اما رکوردشکن در استدلال

این مدل ۱.۵ میلیارد پارامتری با وجود اندازه‌ی بسیار کوچک، در آزمون‌های استدلالی به نتایج SOTA رسیده است.

🚀 عملکرد:
در AIME24/25 و HMMT25 جزو بهترین‌هاست و حتی مدل DeepSeek R1-0120 را در مسائل ریاضی پشت سر می‌گذارد. در برنامه‌نویسی رقابتی هم بالاتر از مدل‌های هم‌حجم ظاهر شده است.

بهره‌وری:
فقط ۱.۵B پارامتر — یعنی ۱۰۰ تا ۶۰۰ برابر کوچک‌تر از مدل‌هایی مثل Kimi K2 و DeepSeek R1.

💰 هزینه:
کل هزینهٔ پس‌تمرین حدود ۷.۸ هزار دلار بوده؛ یعنی ۳۰ تا ۶۰ برابر ارزان‌تر از DeepSeek R1 یا MiniMax-M1.

این مدل بر پایهٔ Spectrum-to-Signal Principle (SSP) و فریم‌ورک MGPO ساخته شده تا فرآیند استدلال را بهینه کند.

📦 Model:
hf.co/WeiboAI/VibeThinker-1.5B
💻 GitHub:
github.com/WeiboAI/VibeThinker
📄 Arxiv:
arxiv.org/abs/2511.06221

#AI #LLM #Reasoning #OpenSource #SmallModel @rss_ai_ir
🚀 یک موتور قدرتمند برای مدل‌های چندمودالی (Multimodal Models)

اگر با مدل‌های ترکیبی متن–تصویر–ویدیو کار می‌کنید، LMMs-Engine یکی از بهترین فریم‌ورک‌های جدید است.
این موتور فوق‌سبک و بسیار انعطاف‌پذیر، مخصوص آموزش و توسعه‌ی مدل‌های چندمودالی طراحی شده و حتی در مقیاس‌های بزرگ هم کارایی بسیار بالایی دارد.

💡 ویژگی‌های برجسته:

🔥 پشتیبانی از ۱۹+ معماری مختلف برای متن، تصویر، ویدیو و مدل‌های ترکیبی

⚙️ بهینه‌سازی برای آموزش توزیع‌شده با مصرف حافظه بسیار کم

🧩 شامل ده‌ها نمونه آماده اجرا برای شروع سریع با مدل‌های مختلف

مناسب برای پژوهشگران، توسعه‌دهندگان و کسانی که به دنبال ساخت LMM اختصاصی هستند


📌 گیت‌هاب:
https://github.com/EvolvingLMMs-Lab/lmms-engine


---

#AI #ML #Multimodal #LMM #DeepLearning #OpenSource #MachineLearning #AIDev #NeuralNetworks
@rss_ai_ir
😁19🔥1712🥰12🎉12👍10👏10🙏1
🎬 پروژه متن‌باز UniVA معرفی شد؛ عامل ویدئویی نسل جدید که می‌تواند ویدئو را درک، تحلیل و روی آن عمل کند. این مدل برای وظایف مختلف ویدیویی کاربرد دارد؛ از رباتیک و نظارت هوشمند تا تولید خودکار محتوا.

🔗 لینک‌ها:
Hf:
https://huggingface.co/papers/2511.08521
Paper:
https://arxiv.org/pdf/2511.08521
GitHub:
https://github.com/univa-agent/univa

@rss_ai_ir

#هوش_مصنوعی #ویدئو #عامل_ویدئویی #UniVA #AI #OpenSource
🔥15🎉13👏11😁118👍8🥰5
🎬🤖 UniVA:
ایجنت هوشمند و متن‌باز برای پردازش و تولید ویدئو

ایجنت UniVA یک ایجنت ویدئویی چندعاملی (Multi-Agent) متن‌باز است که نسل جدیدی از هوش مصنوعی ویدئویی را هدف گرفته.
این سیستم می‌تواند کارهای پیچیده ویدئویی را در یک جریان واحد انجام دهد:

🟣 فهم و تحلیل ویدئو
🟣 ویرایش و Segmentation
🟣 ساخت و تولید ویدئو از متن/عکس/ویدئو
🟣 پردازش چندمرحله‌ای با برنامه‌ریزی و اجرای خودکار (Plan-and-Act)

ایجنت UniVA با حافظه چندلایه و ارتباط بین ایجنت‌ها می‌تواند فرآیندهای طولانی و پروژه‌های پیچیده ویدئویی را مدیریت کند.

📌 لینک‌ها: 🔗 HuggingFace (پروژه):
https://huggingface.co/papers/2511.08521

📄 Paper:
https://arxiv.org/pdf/2511.08521

💻 GitHub:
https://github.com/univa-agent/univa

@rss_ai_ir
#هوش_مصنوعی #VideoAI #AgenticAI #UniVA #OpenSource #MultimodalAI
👍8😁7🎉6🔥54🥰4👏2
Heretic —
ابزاری برای حذف سانسور (Alignment) از مدل‌های زبانی

🛠 ابزار Heretic روشی ارائه می‌دهد که بدون دسترسی به وزن‌های مدل و تنها از طریق API، محدودیت‌های رفتاری و فیلترهای پاسخ‌دهی مدل را کاهش دهد و آمادگی آن برای پاسخ‌گویی گسترده‌تر را افزایش دهد.

🔍 این ابزار چه می‌کند؟

مدل را مانند جعبه‌سیاه (Black-box) در نظر می‌گیرد

مجموعه‌ای از پرسش‌های «ایمن» و «غیرایمن» را به مدل می‌دهد

یک دیسکریمیناتور آموزش می‌دهد تا تفاوت پاسخ‌های قبل و بعد از آزادسازی را تشخیص دهد

پارامترهایی پیدا می‌کند که باعث کاهش پاسخ‌های رد / انکار شود اما مدل را از حالت منطقی خارج نکند

در پایان می‌توان نسخه تعدیل‌شده را ذخیره کرد یا در حالت چت تست نمود


🎯 کاربردها:

♻️فعال‌تر کردن مدل‌های لوکال برای پاسخ‌گویی به طیف وسیع‌تری از درخواست‌ها

♻️مناسب برای تحقیقات درباره رفتار مدل‌ها و آزمایش محدودیت‌ها

♻️کاهش سانسور بدون افت شدید کیفیت یا تبدیل مدل به پاسخ‌دهنده بی‌دقت


⚠️ نکات مهم:

✳️استفاده از این ابزار مسئولیت اخلاقی و حقوقی دارد

✳️هدف Heretic افزایش دقت یا توانایی مدل نیست؛
✳️هدف، برداشتن قفل‌های رفتاری ناشی از Alignment است

✳️ممکن است در برخی حوزه‌ها خطرناک باشد و نیازمند رویکرد مسئولانه است


📎 پروژه در GitHub:
github.com/p-e-w/heretic


---

#هوش_مصنوعی #مدل_زبان #LLM #Alignment #OpenSource
@rss_ai_ir
👏8🔥7👍6🎉54🥰4😁2
💡 شرکت DeepSeek پروژه‌ی جدید خود با نام LPLB را به‌صورت متن‌باز منتشر کرد؛ ابزاری آزمایشی برای مدیریت هوشمند بار در معماری‌های MoE

🧠 در این سیستم چند نکتهٔ مهم وجود دارد:

الگوریتم به‌صورت پویا بار بین «اکسپرت‌ها» را بر اساس آمار استفاده جابه‌جا می‌کند ⚙️

ساخت و جایگذاری نسخه‌های تکراری (Replica) بر پایهٔ توپولوژی خوشه انجام می‌شود 🛰️

فرایند پیدا کردن توزیع بهینهٔ توکن‌ها توسط حل‌کنندهٔ خطی (LP Solver) مستقیماً روی GPU انجام می‌گیرد، با استفاده از cuSolverDx و cuBLASDx ⚡️

معیارهای بارگذاری از طریق دو روش قابل دریافت است:
• استفادهٔ مستقیم از torch.distributed
• یا بهره‌گیری از بافرهای Deep-EP 🔧


📚 در مخزن گیت‌هاب یک راهنمای کامل قرار دارد که نشان می‌دهد یک بالانسر دقیق و هوشمند برای مدل‌های MoE چگونه باید طراحی شود.

🔗 GitHub:
https://github.com/deepseek-ai/LPLB

#DeepSeek #MoE #AIInfrastructure #OpenSource