VIRSUN
7.17K subscribers
1.45K photos
819 videos
5 files
908 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
😏 نانابانانا به Recraft هم رسید!

🔥 در Recraft حالا Chat Mode معرفی شده — می‌توانید درست مثل نانابانانا با تصاویر خودتون چت کنید و گفت‌وگو داشته باشید.

🚧 فعلاً تست عمومی در دسترس نیست، اما می‌شه برای بتا ثبت‌نام کرد:
👉 لینک ثبت‌نام
https://www.recraft.ai/chat-beta#submit

به نظر می‌رسه همه دارند به سمت گفت‌وگوهای چندوجهی (متنی + تصویری) حرکت می‌کنند:

اولین بار: ChatGPT Image

بعدش: Flux Kontext

بعد: Qwen Edit

سپس: نانابانانا

بعدی‌ها: Seedream 4 و Reve آپدیت‌شده

و حالا: Recraft


🌍 روند روشنه: آینده تعامل با مدل‌ها نه فقط متن، بلکه دیالوگ تصویری-چندوجهی خواهد بود.
@rss_ai_ir
#Recraft #نانابانانا #AI #Multimodal #چت_با_تصویر
👏7😁7🥰6👍5🔥32🎉2
🚀 راهنمای جدید Qwen برای مدل چندوجهی Qwen3-VL منتشر شد!


شرکت Qwen (وابسته به Alibaba) مجموعه‌ای از دفترچه‌های تعاملی (Notebooks) منتشر کرده که کاربردهای قدرتمند مدل چندوجهی Qwen3-VL را به‌صورت گام‌به‌گام نشان می‌دهد — هم برای اجرا روی سیستم محلی و هم از طریق API.
📚 در این مجموعه، ده‌ها مثال واقعی با توضیحات دقیق وجود دارد، از جمله:

🔸 تحلیل و استدلال روی تصاویر
🔸 عامل تعاملی با رابط کاربری (Computer-Use Agent)
🔸 برنامه‌نویسی چندوجهی (Multimodal Programming)
🔸 تشخیص اشیاء و صحنه‌ها (Omni Recognition)
🔸 استخراج داده از اسناد و PDFها
🔸 تشخیص دقیق اشیاء در تصاویر
🔸 OCR
و استخراج اطلاعات کلیدی
🔸 تحلیل سه‌بعدی و لنگرگذاری اشیاء (3D Anchoring)
🔸 درک متون طولانی
🔸 استدلال فضایی (Spatial Reasoning)
🔸 عامل موبایل (Mobile Agent)
🔸 تحلیل و درک ویدیو 🎥


🔗 منابع رسمی:
🟠 گیت‌هاب:
github.com/QwenLM/Qwen3-VL/tree/main/cookbooks
🟠 مستندات
API: alibabacloud.com/help/en/model-studio/user-guide/vision
🟠 تجربه آنلاین:
chat.qwen.ai/?models=qwen3-vl-plus


📌 اگر به دنبال مدلی هستید که بینایی، زبان و منطق فضایی را هم‌زمان ترکیب کند، Qwen3-VL یکی از پیشرفته‌ترین گزینه‌های متن‌باز امروز است.

@rss_ai_ir
#Qwen #Qwen3VL #هوش_مصنوعی #LLM #Multimodal #VisionLanguage #AI
1
This media is not supported in your browser
VIEW IN TELEGRAM
😄 ظاهراً بایدنس هم تصمیم گرفته وارد رقابت مستقیم با OpenAI و Alibaba بشه!

🧠 DreamOmni2 —
مدل جدید چندوجهی (Multimodal) از ByteDance که هم تولید (Generation) و هم ویرایش (Editing) تصویر رو با دستور متنی انجام می‌ده.

در واقع یه چیزی بین Qwen-Edit و Nanabana با چاشنی شتاب چینی

📦 امکاناتش:

♻️تولید و ویرایش تصویر با دستور متنی یا تصویری 🎨

♻️پشتیبانی از ویرایش ناحیه‌ای و تنظیمات سبک

♻️عملکرد چشم‌گیر در مقایسه با Banana, Qwen, GPT-Image 1 و OmniGen

♻️کاملاً اوپن‌سورس با کد، مقاله و دموی آماده برای تست


📎 لینک‌ها:

🔹 GitHub:
github.com/dvlab-research/DreamOmni2
🔹 صفحه پروژه و مقایسه تصاویر:
pbihao.github.io/projects/DreamOmni2

به قول نویسنده پست: «برو تستش کن، من تا دوشنبه توی دیتاکسم» 😅

@rss_ai_ir
#هوش_مصنوعی #DreamOmni2 #ByteDance #AIimage #Multimodal #ویرایش_تصویر #تولید_تصویر #GenerativeAI #AItools #Qwen #Nanabana
1
This media is not supported in your browser
VIEW IN TELEGRAM
🫧 تشخیص هرچیز با مدل چندوجهی Rex-Omni 🫧

مدل Rex-Omni با ۳ میلیارد پارامتر، یک مدل چندوجهی (Multimodal) جدید است که طیف گسترده‌ای از وظایف بینایی را در یک چارچوب واحد ادغام می‌کند:

🔹 تشخیص اشیا (Object Detection)
🔹 تشخیص متن (OCR)
🔹 همچنین Pointing و Key-pointing
🔹 و Visual Prompting

همه‌ی این وظایف در قالب یک چارچوب واحد مبتنی بر پیش‌بینی نقطه بعدی (Next-Point Prediction) انجام می‌شوند — رویکردی که باعث شده مدل نتایج چشم‌گیری در دقت و سرعت به دست آورد ⚡️

📘 ویژگی‌ها:

پارامترها: ۳B

یکپارچه‌سازی تمام وظایف ادراکی در یک معماری ساده

مجوز: IDEA License 1.0 💙


🔗 لینک‌ها:
📄 Review
📘 Paper
🌐 Project Page
💻 GitHub Repo

@rss_ai_ir

#AI #RexOmni #Multimodal #MLLM #ComputerVision #OCR #Detection #هوش_مصنوعی
⚡️ Omni-Embed-Nemotron —
مدل چندوجهی جدید انویدیا برای جستجو در متن، تصویر، صدا و ویدیو

انویدیا از مدل Omni-Embed-Nemotron رونمایی کرد — سامانه‌ای یکپارچه برای تبدیل انواع داده‌ها به نمایش برداری مشترک (Unified Embedding).

🎯 ویژگی‌های کلیدی:

پشتیبانی از همه نوع داده: 📝 متن، 🖼 تصویر، 🔊 صدا، 🎥 ویدیو

مبتنی بر معماری Qwen Omni (ماژول Thinker، بدون تولید متن)

طول زمینه تا ۳۲٬۷۶۸ توکن

اندازه‌ی بردار نهائی (Embedding) برابر ۲۰۴۸

بهینه‌شده برای GPU و پشتیبانی از FlashAttention 2


🚀 کاربردها:

♻️جستجوی متقاطع بین مدیاها (مثلاً پیدا کردن ویدیو بر اساس متن یا تصویر)

♻️بهبود پروژه‌های RAG (Retrieval-Augmented Generation)

♻️توسعه سیستم‌های درک چندوجهی محتوا
♻️مدلی ساده، سریع و باز که مرز میان داده‌های متنی و دیداری را از میان برمی‌دارد.

🌐 مدل متن‌باز:
huggingface.co/nvidia/omni-embed-nemotron-3b

#NVIDIA #OmniEmbed #CrossModal #RAG #AI #OpenSource #Multimodal #هوش_مصنوعی #یادگیری_عمیق #جستجوی_هوشمند
🧠 Qwen3-VL-2B-Thinking —
نسخه کوچک اما هوشمند مدل چندحالته‌ی Qwen، مخصوص استدلال و تحلیل منطقی

این نسخه‌ی فشرده از خانواده‌ی Qwen3-VL برای تفکر عمیق، تحلیل داده و کاربردهای عامل‌محور (Agent-based) طراحی شده است.

در سری Qwen-VL دو حالت کلیدی وجود دارد:
🔹 Instruct —
برای گفتگوها و پاسخ به دستورها
🔹 Thinking —
برای منطق، برنامه‌نویسی و حل مسائل پیچیده

ویژگی‌ها:

ساختار چندحالته (Multimodal): درک هم‌زمان متن و تصویر، تحلیل محتوا و کشف روابط علت و معلولی

بهینه‌شده برای وظایف استدلالی، جایی که تمرکز روی فرآیند تفکر و نتیجه‌گیری است، نه صرفاً تولید متن

تنها با ۲ میلیارد پارامتر، به‌راحتی روی GPUهای محلی یا محیط‌های ابری قابل اجراست

پشتیبانی از Tool Calling و ادغام با چارچوب‌های عامل‌محور (Agent Frameworks)


📘 نتیجه:
مدلی کوچک، سریع و درعین‌حال قدرتمند برای تفکر و تحلیل — گزینه‌ای عالی برای پروژه‌های سبک و هوشمند 💡

🔗 مشاهده در Hugging Face

@rss_ai_ir

#هوش_مصنوعی #Qwen #Qwen3VL #Reasoning #LLM #OpenSource #Multimodal #AI
👍1
⚡️ LMMs Engine –
موتور واحد برای آموزش مدل‌های چندوجهی (Multimodal)

فریم‌ورکی ساده، منعطف و قدرتمند از LMMs-Lab برای آموزش مدل‌هایی که هم‌زمان می‌توانند متن، تصویر، صدا و ویدیو را درک کنند — همه در یک محیط یکپارچه 🎛️

🎯 ویژگی‌ها:

پشتیبانی از بیش از ۱۹ معماری مختلف:

🧠 Qwen3-VL:
پردازش تصویر با رزولوشن اصلی و کانتکست بیش از ۱۰٬۰۰۰ توکن

🎧 Qwen2.5-Omni:
مدل واحد برای متن، تصویر و صوت

🎥 WanVideo:
تولید ویدیو از متن، تصویر یا ویدیو (T2V, I2V, V2V)

🌫 dLLM:
مدل‌های زبانی دیفیوژنی

🪄 LLaVA-OneVision، Bagel، SiT، RAE-SigLip و دیگر مدل‌های پیشرفته



📜 لایسنس: Apache 2.0 — قابل‌استفاده حتی در پروژه‌های تجاری

🔗 گیت‌هاب:
github.com/EvolvingLMMs-Lab/lmms-engine

@rss_ai_ir
#AI #Multimodal #OpenSource #DeepLearning #LLM #LMMsEngine
2
⚡️ Glyph —
فشرده‌سازی بصری-متنی برای گسترش محدوده‌ی کانتکست در مدل‌های زبانی

ایده‌ی اصلی Glyph بسیار ساده اما نوآورانه است:
به‌جای آنکه مدل را با هزاران خط متن تغذیه کنیم، متن به‌صورت تصویر نمایش داده می‌شود و سپس توسط مدل‌های Vision-Language پردازش می‌گردد 🧠🖼️

🔹 مدل از یک الگوریتم ژنتیکی هدایت‌شده توسط LLM استفاده می‌کند تا بهترین ترکیب از ویژگی‌های بصری را پیدا کند — از جمله نوع فونت، چگالی، و چیدمان متن — و میان فشرده‌سازی و دقت معنایی تعادل برقرار کند.

💡 نتیجه؟

✳️هزینه محاسباتی به‌شدت کاهش می‌یابد.

✳️ساختار معنایی متن حفظ می‌شود.

✳️دقت مدل تقریباً هم‌سطح با مدل‌های قدرتمندی مثل Qwen3-8B باقی می‌ماند.


در تست‌های فشرده‌سازی افراطی، یک مدل VLM با کانتکست 128K می‌تواند وظایفی را حل کند که در مدل‌های متنی کلاسیک نیازمند بیش از ۱ میلیون توکن است!
به‌عبارت دیگر، درک کانتکست طولانی اکنون به یک مسئله‌ی چندوجهی (Multimodal) تبدیل شده است، نه صرفاً متنی.

📄 مقاله:
arxiv.org/abs/2510.17800
🧩 وزن‌ها:
huggingface.co/zai-org/Glyph
💻 کد منبع:
github.com/thu-coai/Glyph

@rss_ai_ir
#AI #LLM #Multimodal #DeepLearning #Compression #Glyph #Research
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🦄 مدل چندوجهی «PixelRefer»؛ فهم ناحیه‌ای دقیق در تصویر و ویدئو

🎯 چارچوب یکپارچه‌ی MLLM که به‌جای نگاه کلی به صحنه، روی ناحیه‌های مشخص تمرکز می‌کند؛ هم در تصاویر ثابت، هم در ویدئوهای پویا. نتیجه: دقت بالاتر در اشاره به ناحیه‌ها، رفع سوگیری صحنه‌محور، و رکوردهای SOTA.

چه می‌دهد؟

🎥🖼️ فهم ناحیه‌ای دقیق در تصویر/ویدئو (region-level grounding)

🧠 رفع bias مدل‌های قبلی که فقط صحنه‌ی کلی را می‌دیدند

🚀 نتایج SOTA + دموی آنلاین، دیتاست و کد متن‌باز


لینک‌ها:

Paper: arxiv.org/pdf/2510.23603
Project: circleradon.github.io/PixelRefer
Repo: https://github.com/alibaba-damo-academy/PixelRefer

@rss_ai_ir
#MLLM #Multimodal #VisionLanguage #Grounding #ReferringSegmentation #SOTA #OpenSource
🚀 یک موتور قدرتمند برای مدل‌های چندمودالی (Multimodal Models)

اگر با مدل‌های ترکیبی متن–تصویر–ویدیو کار می‌کنید، LMMs-Engine یکی از بهترین فریم‌ورک‌های جدید است.
این موتور فوق‌سبک و بسیار انعطاف‌پذیر، مخصوص آموزش و توسعه‌ی مدل‌های چندمودالی طراحی شده و حتی در مقیاس‌های بزرگ هم کارایی بسیار بالایی دارد.

💡 ویژگی‌های برجسته:

🔥 پشتیبانی از ۱۹+ معماری مختلف برای متن، تصویر، ویدیو و مدل‌های ترکیبی

⚙️ بهینه‌سازی برای آموزش توزیع‌شده با مصرف حافظه بسیار کم

🧩 شامل ده‌ها نمونه آماده اجرا برای شروع سریع با مدل‌های مختلف

مناسب برای پژوهشگران، توسعه‌دهندگان و کسانی که به دنبال ساخت LMM اختصاصی هستند


📌 گیت‌هاب:
https://github.com/EvolvingLMMs-Lab/lmms-engine


---

#AI #ML #Multimodal #LMM #DeepLearning #OpenSource #MachineLearning #AIDev #NeuralNetworks
@rss_ai_ir
😁19🔥1712🥰12🎉12👍10👏10🙏1
🧠 نسل تازه مدل‌های چندوجهی؛ معرفی Gemini 3 Pro

مدل Gemini 3 Pro تازه‌ترین عضو خانواده‌ی Gemini است؛ یک مدل استدلال‌محور و بومی‌چندوجهی که بدون وابستگی یا فاین‌تیون روی نسخه‌های قبلی ساخته شده است، نه ارتقاء، نه شاخه‌سازی — یک معماری کاملاً نو.

ورودی‌ها:

متن (سؤال، پرامپت، خلاصه‌سازی اسناد و …)

تصویر

صوت

ویدئو
🔹 با پنجره‌ی کانتکست خیره‌کننده‌ی ۱ میلیون توکن


خروجی‌ها:

متن با ظرفیت تولید تا ۶۴هزار توکن


🔗 مدل‌کارت آرشیوشده:
(وب‌آرشیو)
https://web.archive.org/web/20251118111103if_/https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-3-Pro-Model-Card.pdf

@rss_ai_ir

#Gemini #GoogleDeepMind #Multimodal #LLM #AI #هوش_مصنوعی #مدل_چندوجهی #استدلال #پرامپت #زبان_طبیعی #چت_بات
👍7🔥6🥰6😁5👏4🎉42
⚡️ مدل HunyuanOCR؛ کوچک، سریع و شکست‌دهندهٔ بنچمارک‌ها

تنسنت نسخهٔ متن‌باز مدل HunyuanOCR را منتشر کرده؛ مدلی فقط با ۱ میلیارد پارامتر که عملکرد آن در سطح مدل‌های چندین برابر بزرگ‌تر است. این سیستم به‌صورت End-to-End کار می‌کند و تقریباً همهٔ نیازهای OCR مدرن را پوشش می‌دهد.

برتری در بنچمارک‌ها

امتیاز 860 در OCRBench بین تمام مدل‌های کوچک‌تر از 3B

امتیاز 94.1 در OmniDocBench؛ بهترین عملکرد در پردازش اسناد پیچیده


🧠 قابلیت‌ها
مدل برای طیف گسترده‌ای از سناریوهای OCR بهینه شده است:

✳️متن محیطی: تابلو، ویترین، بنر، خیابان

✳️دست‌خط و فونت‌های هنری

✳️اسناد پیچیده: جدول، فرمول، HTML، LaTeX

✳️زیرنویس ویدیو

✳️ترجمهٔ مستقیم متن روی تصویر به ۱۴ زبان
این یک سامانهٔ چندمرحله‌ای نیست؛ فقط یک درخواست و یک پاس انفِرِنس.


🔗 لینک‌ها
• وب:
https://hunyuan.tencent.com/vision/zh?tabIndex=0
• نسخه موبایل:
https://hunyuan.tencent.com/open_source_mobile?tab=vision&tabIndex=0
• GitHub:
https://github.com/Tencent-Hunyuan/HunyuanOCR

• HuggingFace:
https://huggingface.co/tencent/HunyuanOCR
• گزارش فنی:
https://github.com/Tencent-Hunyuan/HunyuanOCR/blob/main/HunyuanOCR_Technical_Report.pdf

@rss_ai_ir
#OCR #مدل_متن‌باز #هوش_مصنوعی #بینایی_ماشینی #Tencent #HunyuanOCR #AI #DeepLearning #Multimodal
🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Smell Like Vision Spirit 🔥
@rss_ai_ir

👉 دیتاست New York Smells یک دیتاست بزرگ و جدید از ترکیب همزمان تصویر و داده‌های بویایی است که امکان یادگیری کراس‌مودال بین بو و بینایی را فراهم می‌کند.
👉 با چراغ خاموش هم شاید «کم‌خطرتر» باشد، اما حالا AI می‌تواند بو را هم بفهمد!
👉 دیتاست در دسترس است.


🔗 Paper:
https://arxiv.org/pdf/2511.20544
🔗 Project:
https://smell.cs.columbia.edu/

#AI #Multimodal #Dataset #SmellAI #DeepLearning @rss_ai_ir
👍3🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🦄 معرفی یک مدل چندوجهی یکپارچه از META

یک رویکرد نو به نام Native Unified Multimodal (UMM) معرفی شده که هدفش ساخت یک فضای بازنمایی یکپارچه و پیوسته برای تصویر و ویدیو است.

در این روش، یک VAE Encoder در کنار یک Representation Encoder قرار می‌گیرد و نتیجه آن یک فضای واحد است که اجازه می‌دهد مدل‌ها به‌صورت End-to-End هم برای درک تصویر/ویدیو و هم برای تولید آن‌ها عمل کنند — با کیفیت در حد مدل‌های SOTA.

کد فعلاً تحت بررسی حقوقی است، اما پروژه و مقاله منتشر شده‌اند و مسیر توسعه روشن است.


🔗 Paper: https://lnkd.in/djT4WGEU
🔗 Project: https://tuna-ai.org/
🔗 Repo: https://github.com/wren93/tuna

#AI #Multimodal #META #UMM #DeepLearning #VisionModels #GenerativeAI 🦄
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 گوگل یکی پس از دیگری سورپرایز می‌کند!

🎧 مدل Gemini 2.5 Flash Native Audio به‌روزرسانی بزرگی دریافت کرده و حالا مکالمه‌های زنده طبیعی‌تر، پیروی دقیق‌تر از دستورها و ترجمه گفتار‌به‌گفتار در لحظه را ارائه می‌دهد.

🗣️ تعامل صوتی روان‌تر
پاسخ‌دهی سریع‌تر در مکالمات زنده
🌍 ترجمه هم‌زمان بین زبان‌ها بدون وقفه
🤖 تجربه‌ای نزدیک‌تر به گفت‌وگوی انسانی

این آپدیت نشان می‌دهد گوگل به‌طور جدی روی آینده تعامل صوتی هوش مصنوعی سرمایه‌گذاری کرده است.

@rss_ai_ir

#Google #Gemini #AI #VoiceAI #SpeechToSpeech #Multimodal #ArtificialIntelligence
👍1🔥1