VIRSUN
6.11K subscribers
1.05K photos
608 videos
5 files
674 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
😏 نانابانانا به Recraft هم رسید!

🔥 در Recraft حالا Chat Mode معرفی شده — می‌توانید درست مثل نانابانانا با تصاویر خودتون چت کنید و گفت‌وگو داشته باشید.

🚧 فعلاً تست عمومی در دسترس نیست، اما می‌شه برای بتا ثبت‌نام کرد:
👉 لینک ثبت‌نام
https://www.recraft.ai/chat-beta#submit

به نظر می‌رسه همه دارند به سمت گفت‌وگوهای چندوجهی (متنی + تصویری) حرکت می‌کنند:

اولین بار: ChatGPT Image

بعدش: Flux Kontext

بعد: Qwen Edit

سپس: نانابانانا

بعدی‌ها: Seedream 4 و Reve آپدیت‌شده

و حالا: Recraft


🌍 روند روشنه: آینده تعامل با مدل‌ها نه فقط متن، بلکه دیالوگ تصویری-چندوجهی خواهد بود.
@rss_ai_ir
#Recraft #نانابانانا #AI #Multimodal #چت_با_تصویر
👏7😁7🥰6👍5🔥32🎉2
🚀 راهنمای جدید Qwen برای مدل چندوجهی Qwen3-VL منتشر شد!


شرکت Qwen (وابسته به Alibaba) مجموعه‌ای از دفترچه‌های تعاملی (Notebooks) منتشر کرده که کاربردهای قدرتمند مدل چندوجهی Qwen3-VL را به‌صورت گام‌به‌گام نشان می‌دهد — هم برای اجرا روی سیستم محلی و هم از طریق API.
📚 در این مجموعه، ده‌ها مثال واقعی با توضیحات دقیق وجود دارد، از جمله:

🔸 تحلیل و استدلال روی تصاویر
🔸 عامل تعاملی با رابط کاربری (Computer-Use Agent)
🔸 برنامه‌نویسی چندوجهی (Multimodal Programming)
🔸 تشخیص اشیاء و صحنه‌ها (Omni Recognition)
🔸 استخراج داده از اسناد و PDFها
🔸 تشخیص دقیق اشیاء در تصاویر
🔸 OCR
و استخراج اطلاعات کلیدی
🔸 تحلیل سه‌بعدی و لنگرگذاری اشیاء (3D Anchoring)
🔸 درک متون طولانی
🔸 استدلال فضایی (Spatial Reasoning)
🔸 عامل موبایل (Mobile Agent)
🔸 تحلیل و درک ویدیو 🎥


🔗 منابع رسمی:
🟠 گیت‌هاب:
github.com/QwenLM/Qwen3-VL/tree/main/cookbooks
🟠 مستندات
API: alibabacloud.com/help/en/model-studio/user-guide/vision
🟠 تجربه آنلاین:
chat.qwen.ai/?models=qwen3-vl-plus


📌 اگر به دنبال مدلی هستید که بینایی، زبان و منطق فضایی را هم‌زمان ترکیب کند، Qwen3-VL یکی از پیشرفته‌ترین گزینه‌های متن‌باز امروز است.

@rss_ai_ir
#Qwen #Qwen3VL #هوش_مصنوعی #LLM #Multimodal #VisionLanguage #AI
1
This media is not supported in your browser
VIEW IN TELEGRAM
😄 ظاهراً بایدنس هم تصمیم گرفته وارد رقابت مستقیم با OpenAI و Alibaba بشه!

🧠 DreamOmni2 —
مدل جدید چندوجهی (Multimodal) از ByteDance که هم تولید (Generation) و هم ویرایش (Editing) تصویر رو با دستور متنی انجام می‌ده.

در واقع یه چیزی بین Qwen-Edit و Nanabana با چاشنی شتاب چینی

📦 امکاناتش:

♻️تولید و ویرایش تصویر با دستور متنی یا تصویری 🎨

♻️پشتیبانی از ویرایش ناحیه‌ای و تنظیمات سبک

♻️عملکرد چشم‌گیر در مقایسه با Banana, Qwen, GPT-Image 1 و OmniGen

♻️کاملاً اوپن‌سورس با کد، مقاله و دموی آماده برای تست


📎 لینک‌ها:

🔹 GitHub:
github.com/dvlab-research/DreamOmni2
🔹 صفحه پروژه و مقایسه تصاویر:
pbihao.github.io/projects/DreamOmni2

به قول نویسنده پست: «برو تستش کن، من تا دوشنبه توی دیتاکسم» 😅

@rss_ai_ir
#هوش_مصنوعی #DreamOmni2 #ByteDance #AIimage #Multimodal #ویرایش_تصویر #تولید_تصویر #GenerativeAI #AItools #Qwen #Nanabana
1
This media is not supported in your browser
VIEW IN TELEGRAM
🫧 تشخیص هرچیز با مدل چندوجهی Rex-Omni 🫧

مدل Rex-Omni با ۳ میلیارد پارامتر، یک مدل چندوجهی (Multimodal) جدید است که طیف گسترده‌ای از وظایف بینایی را در یک چارچوب واحد ادغام می‌کند:

🔹 تشخیص اشیا (Object Detection)
🔹 تشخیص متن (OCR)
🔹 همچنین Pointing و Key-pointing
🔹 و Visual Prompting

همه‌ی این وظایف در قالب یک چارچوب واحد مبتنی بر پیش‌بینی نقطه بعدی (Next-Point Prediction) انجام می‌شوند — رویکردی که باعث شده مدل نتایج چشم‌گیری در دقت و سرعت به دست آورد ⚡️

📘 ویژگی‌ها:

پارامترها: ۳B

یکپارچه‌سازی تمام وظایف ادراکی در یک معماری ساده

مجوز: IDEA License 1.0 💙


🔗 لینک‌ها:
📄 Review
📘 Paper
🌐 Project Page
💻 GitHub Repo

@rss_ai_ir

#AI #RexOmni #Multimodal #MLLM #ComputerVision #OCR #Detection #هوش_مصنوعی
⚡️ Omni-Embed-Nemotron —
مدل چندوجهی جدید انویدیا برای جستجو در متن، تصویر، صدا و ویدیو

انویدیا از مدل Omni-Embed-Nemotron رونمایی کرد — سامانه‌ای یکپارچه برای تبدیل انواع داده‌ها به نمایش برداری مشترک (Unified Embedding).

🎯 ویژگی‌های کلیدی:

پشتیبانی از همه نوع داده: 📝 متن، 🖼 تصویر، 🔊 صدا، 🎥 ویدیو

مبتنی بر معماری Qwen Omni (ماژول Thinker، بدون تولید متن)

طول زمینه تا ۳۲٬۷۶۸ توکن

اندازه‌ی بردار نهائی (Embedding) برابر ۲۰۴۸

بهینه‌شده برای GPU و پشتیبانی از FlashAttention 2


🚀 کاربردها:

♻️جستجوی متقاطع بین مدیاها (مثلاً پیدا کردن ویدیو بر اساس متن یا تصویر)

♻️بهبود پروژه‌های RAG (Retrieval-Augmented Generation)

♻️توسعه سیستم‌های درک چندوجهی محتوا
♻️مدلی ساده، سریع و باز که مرز میان داده‌های متنی و دیداری را از میان برمی‌دارد.

🌐 مدل متن‌باز:
huggingface.co/nvidia/omni-embed-nemotron-3b

#NVIDIA #OmniEmbed #CrossModal #RAG #AI #OpenSource #Multimodal #هوش_مصنوعی #یادگیری_عمیق #جستجوی_هوشمند
🧠 Qwen3-VL-2B-Thinking —
نسخه کوچک اما هوشمند مدل چندحالته‌ی Qwen، مخصوص استدلال و تحلیل منطقی

این نسخه‌ی فشرده از خانواده‌ی Qwen3-VL برای تفکر عمیق، تحلیل داده و کاربردهای عامل‌محور (Agent-based) طراحی شده است.

در سری Qwen-VL دو حالت کلیدی وجود دارد:
🔹 Instruct —
برای گفتگوها و پاسخ به دستورها
🔹 Thinking —
برای منطق، برنامه‌نویسی و حل مسائل پیچیده

ویژگی‌ها:

ساختار چندحالته (Multimodal): درک هم‌زمان متن و تصویر، تحلیل محتوا و کشف روابط علت و معلولی

بهینه‌شده برای وظایف استدلالی، جایی که تمرکز روی فرآیند تفکر و نتیجه‌گیری است، نه صرفاً تولید متن

تنها با ۲ میلیارد پارامتر، به‌راحتی روی GPUهای محلی یا محیط‌های ابری قابل اجراست

پشتیبانی از Tool Calling و ادغام با چارچوب‌های عامل‌محور (Agent Frameworks)


📘 نتیجه:
مدلی کوچک، سریع و درعین‌حال قدرتمند برای تفکر و تحلیل — گزینه‌ای عالی برای پروژه‌های سبک و هوشمند 💡

🔗 مشاهده در Hugging Face

@rss_ai_ir

#هوش_مصنوعی #Qwen #Qwen3VL #Reasoning #LLM #OpenSource #Multimodal #AI
👍1
⚡️ LMMs Engine –
موتور واحد برای آموزش مدل‌های چندوجهی (Multimodal)

فریم‌ورکی ساده، منعطف و قدرتمند از LMMs-Lab برای آموزش مدل‌هایی که هم‌زمان می‌توانند متن، تصویر، صدا و ویدیو را درک کنند — همه در یک محیط یکپارچه 🎛️

🎯 ویژگی‌ها:

پشتیبانی از بیش از ۱۹ معماری مختلف:

🧠 Qwen3-VL:
پردازش تصویر با رزولوشن اصلی و کانتکست بیش از ۱۰٬۰۰۰ توکن

🎧 Qwen2.5-Omni:
مدل واحد برای متن، تصویر و صوت

🎥 WanVideo:
تولید ویدیو از متن، تصویر یا ویدیو (T2V, I2V, V2V)

🌫 dLLM:
مدل‌های زبانی دیفیوژنی

🪄 LLaVA-OneVision، Bagel، SiT، RAE-SigLip و دیگر مدل‌های پیشرفته



📜 لایسنس: Apache 2.0 — قابل‌استفاده حتی در پروژه‌های تجاری

🔗 گیت‌هاب:
github.com/EvolvingLMMs-Lab/lmms-engine

@rss_ai_ir
#AI #Multimodal #OpenSource #DeepLearning #LLM #LMMsEngine
2
⚡️ Glyph —
فشرده‌سازی بصری-متنی برای گسترش محدوده‌ی کانتکست در مدل‌های زبانی

ایده‌ی اصلی Glyph بسیار ساده اما نوآورانه است:
به‌جای آنکه مدل را با هزاران خط متن تغذیه کنیم، متن به‌صورت تصویر نمایش داده می‌شود و سپس توسط مدل‌های Vision-Language پردازش می‌گردد 🧠🖼️

🔹 مدل از یک الگوریتم ژنتیکی هدایت‌شده توسط LLM استفاده می‌کند تا بهترین ترکیب از ویژگی‌های بصری را پیدا کند — از جمله نوع فونت، چگالی، و چیدمان متن — و میان فشرده‌سازی و دقت معنایی تعادل برقرار کند.

💡 نتیجه؟

✳️هزینه محاسباتی به‌شدت کاهش می‌یابد.

✳️ساختار معنایی متن حفظ می‌شود.

✳️دقت مدل تقریباً هم‌سطح با مدل‌های قدرتمندی مثل Qwen3-8B باقی می‌ماند.


در تست‌های فشرده‌سازی افراطی، یک مدل VLM با کانتکست 128K می‌تواند وظایفی را حل کند که در مدل‌های متنی کلاسیک نیازمند بیش از ۱ میلیون توکن است!
به‌عبارت دیگر، درک کانتکست طولانی اکنون به یک مسئله‌ی چندوجهی (Multimodal) تبدیل شده است، نه صرفاً متنی.

📄 مقاله:
arxiv.org/abs/2510.17800
🧩 وزن‌ها:
huggingface.co/zai-org/Glyph
💻 کد منبع:
github.com/thu-coai/Glyph

@rss_ai_ir
#AI #LLM #Multimodal #DeepLearning #Compression #Glyph #Research
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🦄 مدل چندوجهی «PixelRefer»؛ فهم ناحیه‌ای دقیق در تصویر و ویدئو

🎯 چارچوب یکپارچه‌ی MLLM که به‌جای نگاه کلی به صحنه، روی ناحیه‌های مشخص تمرکز می‌کند؛ هم در تصاویر ثابت، هم در ویدئوهای پویا. نتیجه: دقت بالاتر در اشاره به ناحیه‌ها، رفع سوگیری صحنه‌محور، و رکوردهای SOTA.

چه می‌دهد؟

🎥🖼️ فهم ناحیه‌ای دقیق در تصویر/ویدئو (region-level grounding)

🧠 رفع bias مدل‌های قبلی که فقط صحنه‌ی کلی را می‌دیدند

🚀 نتایج SOTA + دموی آنلاین، دیتاست و کد متن‌باز


لینک‌ها:

Paper: arxiv.org/pdf/2510.23603
Project: circleradon.github.io/PixelRefer
Repo: https://github.com/alibaba-damo-academy/PixelRefer

@rss_ai_ir
#MLLM #Multimodal #VisionLanguage #Grounding #ReferringSegmentation #SOTA #OpenSource