This media is not supported in your browser
VIEW IN TELEGRAM
😏 نانابانانا به Recraft هم رسید!
🔥 در Recraft حالا Chat Mode معرفی شده — میتوانید درست مثل نانابانانا با تصاویر خودتون چت کنید و گفتوگو داشته باشید.
🚧 فعلاً تست عمومی در دسترس نیست، اما میشه برای بتا ثبتنام کرد:
👉 لینک ثبتنام
https://www.recraft.ai/chat-beta#submit
به نظر میرسه همه دارند به سمت گفتوگوهای چندوجهی (متنی + تصویری) حرکت میکنند:
اولین بار: ChatGPT Image
بعدش: Flux Kontext
بعد: Qwen Edit
سپس: نانابانانا
بعدیها: Seedream 4 و Reve آپدیتشده
و حالا: Recraft
🌍 روند روشنه: آینده تعامل با مدلها نه فقط متن، بلکه دیالوگ تصویری-چندوجهی خواهد بود.
@rss_ai_ir
#Recraft #نانابانانا #AI #Multimodal #چت_با_تصویر
🔥 در Recraft حالا Chat Mode معرفی شده — میتوانید درست مثل نانابانانا با تصاویر خودتون چت کنید و گفتوگو داشته باشید.
🚧 فعلاً تست عمومی در دسترس نیست، اما میشه برای بتا ثبتنام کرد:
👉 لینک ثبتنام
https://www.recraft.ai/chat-beta#submit
به نظر میرسه همه دارند به سمت گفتوگوهای چندوجهی (متنی + تصویری) حرکت میکنند:
اولین بار: ChatGPT Image
بعدش: Flux Kontext
بعد: Qwen Edit
سپس: نانابانانا
بعدیها: Seedream 4 و Reve آپدیتشده
و حالا: Recraft
🌍 روند روشنه: آینده تعامل با مدلها نه فقط متن، بلکه دیالوگ تصویری-چندوجهی خواهد بود.
@rss_ai_ir
#Recraft #نانابانانا #AI #Multimodal #چت_با_تصویر
👏7😁7🥰6👍5🔥3❤2🎉2
🚀 راهنمای جدید Qwen برای مدل چندوجهی Qwen3-VL منتشر شد!
شرکت Qwen (وابسته به Alibaba) مجموعهای از دفترچههای تعاملی (Notebooks) منتشر کرده که کاربردهای قدرتمند مدل چندوجهی Qwen3-VL را بهصورت گامبهگام نشان میدهد — هم برای اجرا روی سیستم محلی و هم از طریق API.
📚 در این مجموعه، دهها مثال واقعی با توضیحات دقیق وجود دارد، از جمله:
🔸 تحلیل و استدلال روی تصاویر
🔸 عامل تعاملی با رابط کاربری (Computer-Use Agent)
🔸 برنامهنویسی چندوجهی (Multimodal Programming)
🔸 تشخیص اشیاء و صحنهها (Omni Recognition)
🔸 استخراج داده از اسناد و PDFها
🔸 تشخیص دقیق اشیاء در تصاویر
🔸 OCR
و استخراج اطلاعات کلیدی
🔸 تحلیل سهبعدی و لنگرگذاری اشیاء (3D Anchoring)
🔸 درک متون طولانی
🔸 استدلال فضایی (Spatial Reasoning)
🔸 عامل موبایل (Mobile Agent)
🔸 تحلیل و درک ویدیو 🎥
🔗 منابع رسمی:
🟠 گیتهاب:
github.com/QwenLM/Qwen3-VL/tree/main/cookbooks
🟠 مستندات
API: alibabacloud.com/help/en/model-studio/user-guide/vision
🟠 تجربه آنلاین:
chat.qwen.ai/?models=qwen3-vl-plus
📌 اگر به دنبال مدلی هستید که بینایی، زبان و منطق فضایی را همزمان ترکیب کند، Qwen3-VL یکی از پیشرفتهترین گزینههای متنباز امروز است.
@rss_ai_ir
#Qwen #Qwen3VL #هوش_مصنوعی #LLM #Multimodal #VisionLanguage #AI
شرکت Qwen (وابسته به Alibaba) مجموعهای از دفترچههای تعاملی (Notebooks) منتشر کرده که کاربردهای قدرتمند مدل چندوجهی Qwen3-VL را بهصورت گامبهگام نشان میدهد — هم برای اجرا روی سیستم محلی و هم از طریق API.
📚 در این مجموعه، دهها مثال واقعی با توضیحات دقیق وجود دارد، از جمله:
🔸 تحلیل و استدلال روی تصاویر
🔸 عامل تعاملی با رابط کاربری (Computer-Use Agent)
🔸 برنامهنویسی چندوجهی (Multimodal Programming)
🔸 تشخیص اشیاء و صحنهها (Omni Recognition)
🔸 استخراج داده از اسناد و PDFها
🔸 تشخیص دقیق اشیاء در تصاویر
🔸 OCR
و استخراج اطلاعات کلیدی
🔸 تحلیل سهبعدی و لنگرگذاری اشیاء (3D Anchoring)
🔸 درک متون طولانی
🔸 استدلال فضایی (Spatial Reasoning)
🔸 عامل موبایل (Mobile Agent)
🔸 تحلیل و درک ویدیو 🎥
🔗 منابع رسمی:
🟠 گیتهاب:
github.com/QwenLM/Qwen3-VL/tree/main/cookbooks
🟠 مستندات
API: alibabacloud.com/help/en/model-studio/user-guide/vision
🟠 تجربه آنلاین:
chat.qwen.ai/?models=qwen3-vl-plus
📌 اگر به دنبال مدلی هستید که بینایی، زبان و منطق فضایی را همزمان ترکیب کند، Qwen3-VL یکی از پیشرفتهترین گزینههای متنباز امروز است.
@rss_ai_ir
#Qwen #Qwen3VL #هوش_مصنوعی #LLM #Multimodal #VisionLanguage #AI
❤1
This media is not supported in your browser
VIEW IN TELEGRAM
😄 ظاهراً بایدنس هم تصمیم گرفته وارد رقابت مستقیم با OpenAI و Alibaba بشه!
🧠 DreamOmni2 —
مدل جدید چندوجهی (Multimodal) از ByteDance که هم تولید (Generation) و هم ویرایش (Editing) تصویر رو با دستور متنی انجام میده.
در واقع یه چیزی بین Qwen-Edit و Nanabana با چاشنی شتاب چینی ⚡
📦 امکاناتش:
♻️تولید و ویرایش تصویر با دستور متنی یا تصویری 🎨
♻️پشتیبانی از ویرایش ناحیهای و تنظیمات سبک
♻️عملکرد چشمگیر در مقایسه با Banana, Qwen, GPT-Image 1 و OmniGen
♻️کاملاً اوپنسورس با کد، مقاله و دموی آماده برای تست
📎 لینکها:
🔹 GitHub:
github.com/dvlab-research/DreamOmni2
🔹 صفحه پروژه و مقایسه تصاویر:
pbihao.github.io/projects/DreamOmni2
به قول نویسنده پست: «برو تستش کن، من تا دوشنبه توی دیتاکسم» 😅
@rss_ai_ir
#هوش_مصنوعی #DreamOmni2 #ByteDance #AIimage #Multimodal #ویرایش_تصویر #تولید_تصویر #GenerativeAI #AItools #Qwen #Nanabana
🧠 DreamOmni2 —
مدل جدید چندوجهی (Multimodal) از ByteDance که هم تولید (Generation) و هم ویرایش (Editing) تصویر رو با دستور متنی انجام میده.
در واقع یه چیزی بین Qwen-Edit و Nanabana با چاشنی شتاب چینی ⚡
📦 امکاناتش:
♻️تولید و ویرایش تصویر با دستور متنی یا تصویری 🎨
♻️پشتیبانی از ویرایش ناحیهای و تنظیمات سبک
♻️عملکرد چشمگیر در مقایسه با Banana, Qwen, GPT-Image 1 و OmniGen
♻️کاملاً اوپنسورس با کد، مقاله و دموی آماده برای تست
📎 لینکها:
🔹 GitHub:
github.com/dvlab-research/DreamOmni2
🔹 صفحه پروژه و مقایسه تصاویر:
pbihao.github.io/projects/DreamOmni2
به قول نویسنده پست: «برو تستش کن، من تا دوشنبه توی دیتاکسم» 😅
@rss_ai_ir
#هوش_مصنوعی #DreamOmni2 #ByteDance #AIimage #Multimodal #ویرایش_تصویر #تولید_تصویر #GenerativeAI #AItools #Qwen #Nanabana
❤1
This media is not supported in your browser
VIEW IN TELEGRAM
🫧 تشخیص هرچیز با مدل چندوجهی Rex-Omni 🫧
مدل Rex-Omni با ۳ میلیارد پارامتر، یک مدل چندوجهی (Multimodal) جدید است که طیف گستردهای از وظایف بینایی را در یک چارچوب واحد ادغام میکند:
🔹 تشخیص اشیا (Object Detection)
🔹 تشخیص متن (OCR)
🔹 همچنین Pointing و Key-pointing
🔹 و Visual Prompting
همهی این وظایف در قالب یک چارچوب واحد مبتنی بر پیشبینی نقطه بعدی (Next-Point Prediction) انجام میشوند — رویکردی که باعث شده مدل نتایج چشمگیری در دقت و سرعت به دست آورد ⚡️
📘 ویژگیها:
پارامترها: ۳B
یکپارچهسازی تمام وظایف ادراکی در یک معماری ساده
مجوز: IDEA License 1.0 💙
🔗 لینکها:
📄 Review
📘 Paper
🌐 Project Page
💻 GitHub Repo
@rss_ai_ir
#AI #RexOmni #Multimodal #MLLM #ComputerVision #OCR #Detection #هوش_مصنوعی
مدل Rex-Omni با ۳ میلیارد پارامتر، یک مدل چندوجهی (Multimodal) جدید است که طیف گستردهای از وظایف بینایی را در یک چارچوب واحد ادغام میکند:
🔹 تشخیص اشیا (Object Detection)
🔹 تشخیص متن (OCR)
🔹 همچنین Pointing و Key-pointing
🔹 و Visual Prompting
همهی این وظایف در قالب یک چارچوب واحد مبتنی بر پیشبینی نقطه بعدی (Next-Point Prediction) انجام میشوند — رویکردی که باعث شده مدل نتایج چشمگیری در دقت و سرعت به دست آورد ⚡️
📘 ویژگیها:
پارامترها: ۳B
یکپارچهسازی تمام وظایف ادراکی در یک معماری ساده
مجوز: IDEA License 1.0 💙
🔗 لینکها:
📄 Review
📘 Paper
🌐 Project Page
💻 GitHub Repo
@rss_ai_ir
#AI #RexOmni #Multimodal #MLLM #ComputerVision #OCR #Detection #هوش_مصنوعی
⚡️ Omni-Embed-Nemotron —
مدل چندوجهی جدید انویدیا برای جستجو در متن، تصویر، صدا و ویدیو
انویدیا از مدل Omni-Embed-Nemotron رونمایی کرد — سامانهای یکپارچه برای تبدیل انواع دادهها به نمایش برداری مشترک (Unified Embedding).
🎯 ویژگیهای کلیدی:
پشتیبانی از همه نوع داده: 📝 متن، 🖼 تصویر، 🔊 صدا، 🎥 ویدیو
مبتنی بر معماری Qwen Omni (ماژول Thinker، بدون تولید متن)
طول زمینه تا ۳۲٬۷۶۸ توکن
اندازهی بردار نهائی (Embedding) برابر ۲۰۴۸
بهینهشده برای GPU و پشتیبانی از FlashAttention 2
🚀 کاربردها:
♻️جستجوی متقاطع بین مدیاها (مثلاً پیدا کردن ویدیو بر اساس متن یا تصویر)
♻️بهبود پروژههای RAG (Retrieval-Augmented Generation)
♻️توسعه سیستمهای درک چندوجهی محتوا
♻️مدلی ساده، سریع و باز که مرز میان دادههای متنی و دیداری را از میان برمیدارد.
🌐 مدل متنباز:
huggingface.co/nvidia/omni-embed-nemotron-3b
#NVIDIA #OmniEmbed #CrossModal #RAG #AI #OpenSource #Multimodal #هوش_مصنوعی #یادگیری_عمیق #جستجوی_هوشمند
مدل چندوجهی جدید انویدیا برای جستجو در متن، تصویر، صدا و ویدیو
انویدیا از مدل Omni-Embed-Nemotron رونمایی کرد — سامانهای یکپارچه برای تبدیل انواع دادهها به نمایش برداری مشترک (Unified Embedding).
🎯 ویژگیهای کلیدی:
پشتیبانی از همه نوع داده: 📝 متن، 🖼 تصویر، 🔊 صدا، 🎥 ویدیو
مبتنی بر معماری Qwen Omni (ماژول Thinker، بدون تولید متن)
طول زمینه تا ۳۲٬۷۶۸ توکن
اندازهی بردار نهائی (Embedding) برابر ۲۰۴۸
بهینهشده برای GPU و پشتیبانی از FlashAttention 2
🚀 کاربردها:
♻️جستجوی متقاطع بین مدیاها (مثلاً پیدا کردن ویدیو بر اساس متن یا تصویر)
♻️بهبود پروژههای RAG (Retrieval-Augmented Generation)
♻️توسعه سیستمهای درک چندوجهی محتوا
♻️مدلی ساده، سریع و باز که مرز میان دادههای متنی و دیداری را از میان برمیدارد.
🌐 مدل متنباز:
huggingface.co/nvidia/omni-embed-nemotron-3b
#NVIDIA #OmniEmbed #CrossModal #RAG #AI #OpenSource #Multimodal #هوش_مصنوعی #یادگیری_عمیق #جستجوی_هوشمند
🧠 Qwen3-VL-2B-Thinking —
نسخه کوچک اما هوشمند مدل چندحالتهی Qwen، مخصوص استدلال و تحلیل منطقی
این نسخهی فشرده از خانوادهی Qwen3-VL برای تفکر عمیق، تحلیل داده و کاربردهای عاملمحور (Agent-based) طراحی شده است.
در سری Qwen-VL دو حالت کلیدی وجود دارد:
🔹 Instruct —
برای گفتگوها و پاسخ به دستورها
🔹 Thinking —
برای منطق، برنامهنویسی و حل مسائل پیچیده
✨ ویژگیها:
ساختار چندحالته (Multimodal): درک همزمان متن و تصویر، تحلیل محتوا و کشف روابط علت و معلولی
بهینهشده برای وظایف استدلالی، جایی که تمرکز روی فرآیند تفکر و نتیجهگیری است، نه صرفاً تولید متن
تنها با ۲ میلیارد پارامتر، بهراحتی روی GPUهای محلی یا محیطهای ابری قابل اجراست
پشتیبانی از Tool Calling و ادغام با چارچوبهای عاملمحور (Agent Frameworks)
📘 نتیجه:
مدلی کوچک، سریع و درعینحال قدرتمند برای تفکر و تحلیل — گزینهای عالی برای پروژههای سبک و هوشمند 💡
🔗 مشاهده در Hugging Face
@rss_ai_ir
#هوش_مصنوعی #Qwen #Qwen3VL #Reasoning #LLM #OpenSource #Multimodal #AI
نسخه کوچک اما هوشمند مدل چندحالتهی Qwen، مخصوص استدلال و تحلیل منطقی
این نسخهی فشرده از خانوادهی Qwen3-VL برای تفکر عمیق، تحلیل داده و کاربردهای عاملمحور (Agent-based) طراحی شده است.
در سری Qwen-VL دو حالت کلیدی وجود دارد:
🔹 Instruct —
برای گفتگوها و پاسخ به دستورها
🔹 Thinking —
برای منطق، برنامهنویسی و حل مسائل پیچیده
✨ ویژگیها:
ساختار چندحالته (Multimodal): درک همزمان متن و تصویر، تحلیل محتوا و کشف روابط علت و معلولی
بهینهشده برای وظایف استدلالی، جایی که تمرکز روی فرآیند تفکر و نتیجهگیری است، نه صرفاً تولید متن
تنها با ۲ میلیارد پارامتر، بهراحتی روی GPUهای محلی یا محیطهای ابری قابل اجراست
پشتیبانی از Tool Calling و ادغام با چارچوبهای عاملمحور (Agent Frameworks)
📘 نتیجه:
مدلی کوچک، سریع و درعینحال قدرتمند برای تفکر و تحلیل — گزینهای عالی برای پروژههای سبک و هوشمند 💡
🔗 مشاهده در Hugging Face
@rss_ai_ir
#هوش_مصنوعی #Qwen #Qwen3VL #Reasoning #LLM #OpenSource #Multimodal #AI
👍1
⚡️ LMMs Engine –
موتور واحد برای آموزش مدلهای چندوجهی (Multimodal)
فریمورکی ساده، منعطف و قدرتمند از LMMs-Lab برای آموزش مدلهایی که همزمان میتوانند متن، تصویر، صدا و ویدیو را درک کنند — همه در یک محیط یکپارچه 🎛️
🎯 ویژگیها:
پشتیبانی از بیش از ۱۹ معماری مختلف:
🧠 Qwen3-VL:
پردازش تصویر با رزولوشن اصلی و کانتکست بیش از ۱۰٬۰۰۰ توکن
🎧 Qwen2.5-Omni:
مدل واحد برای متن، تصویر و صوت
🎥 WanVideo:
تولید ویدیو از متن، تصویر یا ویدیو (T2V, I2V, V2V)
🌫 dLLM:
مدلهای زبانی دیفیوژنی
🪄 LLaVA-OneVision، Bagel، SiT، RAE-SigLip و دیگر مدلهای پیشرفته
📜 لایسنس: Apache 2.0 — قابلاستفاده حتی در پروژههای تجاری
🔗 گیتهاب:
github.com/EvolvingLMMs-Lab/lmms-engine
@rss_ai_ir
#AI #Multimodal #OpenSource #DeepLearning #LLM #LMMsEngine
موتور واحد برای آموزش مدلهای چندوجهی (Multimodal)
فریمورکی ساده، منعطف و قدرتمند از LMMs-Lab برای آموزش مدلهایی که همزمان میتوانند متن، تصویر، صدا و ویدیو را درک کنند — همه در یک محیط یکپارچه 🎛️
🎯 ویژگیها:
پشتیبانی از بیش از ۱۹ معماری مختلف:
🧠 Qwen3-VL:
پردازش تصویر با رزولوشن اصلی و کانتکست بیش از ۱۰٬۰۰۰ توکن
🎧 Qwen2.5-Omni:
مدل واحد برای متن، تصویر و صوت
🎥 WanVideo:
تولید ویدیو از متن، تصویر یا ویدیو (T2V, I2V, V2V)
🌫 dLLM:
مدلهای زبانی دیفیوژنی
🪄 LLaVA-OneVision، Bagel، SiT، RAE-SigLip و دیگر مدلهای پیشرفته
📜 لایسنس: Apache 2.0 — قابلاستفاده حتی در پروژههای تجاری
🔗 گیتهاب:
github.com/EvolvingLMMs-Lab/lmms-engine
@rss_ai_ir
#AI #Multimodal #OpenSource #DeepLearning #LLM #LMMsEngine
❤2
⚡️ Glyph —
فشردهسازی بصری-متنی برای گسترش محدودهی کانتکست در مدلهای زبانی
ایدهی اصلی Glyph بسیار ساده اما نوآورانه است:
بهجای آنکه مدل را با هزاران خط متن تغذیه کنیم، متن بهصورت تصویر نمایش داده میشود و سپس توسط مدلهای Vision-Language پردازش میگردد 🧠🖼️
🔹 مدل از یک الگوریتم ژنتیکی هدایتشده توسط LLM استفاده میکند تا بهترین ترکیب از ویژگیهای بصری را پیدا کند — از جمله نوع فونت، چگالی، و چیدمان متن — و میان فشردهسازی و دقت معنایی تعادل برقرار کند.
💡 نتیجه؟
✳️هزینه محاسباتی بهشدت کاهش مییابد.
✳️ساختار معنایی متن حفظ میشود.
✳️دقت مدل تقریباً همسطح با مدلهای قدرتمندی مثل Qwen3-8B باقی میماند.
در تستهای فشردهسازی افراطی، یک مدل VLM با کانتکست 128K میتواند وظایفی را حل کند که در مدلهای متنی کلاسیک نیازمند بیش از ۱ میلیون توکن است!
بهعبارت دیگر، درک کانتکست طولانی اکنون به یک مسئلهی چندوجهی (Multimodal) تبدیل شده است، نه صرفاً متنی.
📄 مقاله:
arxiv.org/abs/2510.17800
🧩 وزنها:
huggingface.co/zai-org/Glyph
💻 کد منبع:
github.com/thu-coai/Glyph
@rss_ai_ir
#AI #LLM #Multimodal #DeepLearning #Compression #Glyph #Research
فشردهسازی بصری-متنی برای گسترش محدودهی کانتکست در مدلهای زبانی
ایدهی اصلی Glyph بسیار ساده اما نوآورانه است:
بهجای آنکه مدل را با هزاران خط متن تغذیه کنیم، متن بهصورت تصویر نمایش داده میشود و سپس توسط مدلهای Vision-Language پردازش میگردد 🧠🖼️
🔹 مدل از یک الگوریتم ژنتیکی هدایتشده توسط LLM استفاده میکند تا بهترین ترکیب از ویژگیهای بصری را پیدا کند — از جمله نوع فونت، چگالی، و چیدمان متن — و میان فشردهسازی و دقت معنایی تعادل برقرار کند.
💡 نتیجه؟
✳️هزینه محاسباتی بهشدت کاهش مییابد.
✳️ساختار معنایی متن حفظ میشود.
✳️دقت مدل تقریباً همسطح با مدلهای قدرتمندی مثل Qwen3-8B باقی میماند.
در تستهای فشردهسازی افراطی، یک مدل VLM با کانتکست 128K میتواند وظایفی را حل کند که در مدلهای متنی کلاسیک نیازمند بیش از ۱ میلیون توکن است!
بهعبارت دیگر، درک کانتکست طولانی اکنون به یک مسئلهی چندوجهی (Multimodal) تبدیل شده است، نه صرفاً متنی.
📄 مقاله:
arxiv.org/abs/2510.17800
🧩 وزنها:
huggingface.co/zai-org/Glyph
💻 کد منبع:
github.com/thu-coai/Glyph
@rss_ai_ir
#AI #LLM #Multimodal #DeepLearning #Compression #Glyph #Research
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🦄 مدل چندوجهی «PixelRefer»؛ فهم ناحیهای دقیق در تصویر و ویدئو
🎯 چارچوب یکپارچهی MLLM که بهجای نگاه کلی به صحنه، روی ناحیههای مشخص تمرکز میکند؛ هم در تصاویر ثابت، هم در ویدئوهای پویا. نتیجه: دقت بالاتر در اشاره به ناحیهها، رفع سوگیری صحنهمحور، و رکوردهای SOTA.
چه میدهد؟
🎥🖼️ فهم ناحیهای دقیق در تصویر/ویدئو (region-level grounding)
🧠 رفع bias مدلهای قبلی که فقط صحنهی کلی را میدیدند
🚀 نتایج SOTA + دموی آنلاین، دیتاست و کد متنباز
لینکها:
Paper: arxiv.org/pdf/2510.23603
Project: circleradon.github.io/PixelRefer
Repo: https://github.com/alibaba-damo-academy/PixelRefer
@rss_ai_ir
#MLLM #Multimodal #VisionLanguage #Grounding #ReferringSegmentation #SOTA #OpenSource
🎯 چارچوب یکپارچهی MLLM که بهجای نگاه کلی به صحنه، روی ناحیههای مشخص تمرکز میکند؛ هم در تصاویر ثابت، هم در ویدئوهای پویا. نتیجه: دقت بالاتر در اشاره به ناحیهها، رفع سوگیری صحنهمحور، و رکوردهای SOTA.
چه میدهد؟
🎥🖼️ فهم ناحیهای دقیق در تصویر/ویدئو (region-level grounding)
🧠 رفع bias مدلهای قبلی که فقط صحنهی کلی را میدیدند
🚀 نتایج SOTA + دموی آنلاین، دیتاست و کد متنباز
لینکها:
Paper: arxiv.org/pdf/2510.23603
Project: circleradon.github.io/PixelRefer
Repo: https://github.com/alibaba-damo-academy/PixelRefer
@rss_ai_ir
#MLLM #Multimodal #VisionLanguage #Grounding #ReferringSegmentation #SOTA #OpenSource