VIRSUN
11.6K subscribers
1.2K photos
711 videos
5 files
785 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
🔔 پیشرفت بزرگ در هوش مصنوعی الهام‌گرفته از مغز — کاهش ۹۹٪ مصرف انرژی بدون افت دقت! 🧠

پژوهشگران گروه NICE در دانشگاه Surrey روش جدیدی برای اتصال نورون‌های مصنوعی طراحی کرده‌اند که از ساختار مغز انسان الهام گرفته است.
این روش با نام Topographical Sparse Mapping (TSM) شناخته می‌شود و هدف آن ایجاد شبکه‌های عصبی کم‌مصرف اما دقیق است.


---

💡 ایده‌ی اصلی

✳️در شبکه‌های سنتی، هر نورون تقریباً به همه‌ی نورون‌های دیگر متصل است — کاری بسیار پرهزینه از نظر انرژی و زمان.
✳️در روش TSM، هر نورون فقط به نورون‌های نزدیک یا مرتبط متصل می‌شود، درست مانند مغز که اتصالاتش بهینه و موضعی است.

✳️نسخه‌ی پیشرفته‌تر، Enhanced TSM (ETSM)، حتی فرآیند هرس (pruning) در مغز را شبیه‌سازی می‌کند تا اتصالات غیرضروری در طول یادگیری حذف شوند.


---

⚙️ نتایج شگفت‌انگیز

♻️تا ۹۹٪ کاهش در تراکم اتصالات (sparsity)
♻️مصرف انرژی کمتر از ۱٪ در مقایسه با روش‌های استاندارد
♻️سرعت آموزش بسیار بالاتر
♻️دقتی برابر یا حتی بالاتر از شبکه‌های کلاسیک 💥

---

این دستاورد می‌تواند مسیر را برای نسل جدیدی از هوش مصنوعی‌های نورومورفیک (Neuromorphic AI) و تراشه‌های هوشمند فوق‌کم‌مصرف هموار کند — سامانه‌هایی که واقعاً مانند مغز فکر و یاد می‌گیرند، نه فقط شبیه آن عمل می‌کنند.
https://x.com/dr_singularity/status/1984618986043003058?s=12


📡 @rss_ai_ir
#هوش_مصنوعی #Neuroscience #Neuromorphic #TSM #AI #انرژی #BrainInspiredAI #DeepLearning #تکنولوژی
1👍1👏1👌1
🧠 مدل ThinkMorph — جهش جدید در تفکر چندوجهی (Multimodal Reasoning) 🚀🖼️

پژوهشگران مدلی به نام ThinkMorph معرفی کرده‌اند که گامی فراتر از مدل‌های چندوجهی (VLM) سنتی است —
مدلی که با تصویر و متن هم‌زمان فکر می‌کند و در طول فرایند استدلال، خود را تصحیح و تکامل می‌دهد 🤯


---

⚙️ آموزش و نوآوری

مدل ThinkMorph بر اساس ۲۴٬۰۰۰ مسیر استدلال درهم‌تنیده (interleaved reasoning traces) آموزش دیده است — داده‌هایی که در آن متن و تصویر به‌صورت مرحله‌به‌مرحله همدیگر را توضیح و تکمیل می‌کنند.

💡 نتیجه؟
♻️مدل در حین پاسخ دادن نه فقط توصیف می‌کند، بلکه به‌صورت چندمرحله‌ای می‌اندیشد:

♻️ابتدا تصویر را تحلیل می‌کند 🧩

♻️سپس توضیح متنی می‌نویسد ✍️

♻️بعد بر اساس آن توضیح، برداشت تصویری جدید می‌سازد 🎨

♻️و این چرخه را تکرار می‌کند تا استدلالش دقیق‌تر شود.


---

🚀 توانایی‌های کلیدی

🔹 رشد چشمگیر در مسائل دارای زمینه‌ی بصری پیچیده
🔹 استدلال مرحله‌به‌مرحله‌ی متن–تصویر به‌صورت پیشرونده
🔹 توانایی‌های تازه: منطق تطبیقی، دست‌کاری تصویری خلاقانه، و بازبینی خودکار نتایج


---

این یعنی ThinkMorph دیگر صرفاً Visual Language Model نیست، بلکه مکانیسمی برای تفکر ترکیبی بینایی–زبانی است — مدلی که با دیدن یاد می‌گیرد و با نوشتن، دید خود را اصلاح می‌کند.

📄 پژوهش کامل در:
🔗 huggingface.co/papers/2510.27492

📡 @rss_ai_ir
#هوش_مصنوعی #ThinkMorph #VLM #MultimodalAI #AI #DeepLearning #VisionLanguage #Reasoning
1
🚀 مدل زبانی با کانتکست ۶۴k+ روی GPU‌ مصرفی! 🤯💪

در پروژه‌ی جدید ModelScope SWIFT، محققان نشان دادند که می‌توان مدل‌های زبانی بزرگ (LLM) را با کانتکست‌های عظیم تا ۶۵٬۰۰۰ توکن حتی روی GPUهای غیرسروری آموزش داد —
آن‌هم با ترکیب خلاقانه‌ی دو تکنیک: Ulysses + Ring Attention ⚙️


---

🔹 چطور کار می‌کند:

Ulysses —
تقسیم توجه (attention) بر اساس headها، با مصرف بسیار کم پهنای باند.
⚠️ محدودیتش زمانی است که تعداد headها کم باشد.

Ring Attention —
مقیاس‌پذیرتر است؛ ارتباطات را به‌صورت حلقوی (P2P) بین GPUها برقرار می‌کند
و با الگوریتم "زیگ‌زاگ" برای مدل‌های causal، توازن بهتری ایجاد می‌کند.

💡 ترکیب این دو روش:
ابتدا Ulysses اجرا می‌شود، و وقتی دیگر کفایت نکند (مثل GQA یا خوشه‌های بالای ۸ GPU)، Ring به‌صورت خودکار فعال می‌شود.


---

🔥 نتیجه:

مدل Qwen2.5-3B با طول دنباله‌ی ۶۵k:
از ۷۵.۴ GiB → ۱۷.۹ GiB VRAM روی ۸× A100 کاهش مصرف حافظه! 🚀

پشتیبانی کامل از:

♻️SFT / DPO / GRPO
♻️ورودی‌های چندوجهی (multimodal)
♻️ساختار بدون padding
♻️سازگار با FlashAttention

📎 منابع:
🟠 توضیحات کامل
🟠 کد منبع

📡 @rss_ai_ir
#هوش_مصنوعی #LLM #Parallelism #AI #DeepLearning #ModelScope #Attention
1
This media is not supported in your browser
VIEW IN TELEGRAM
🎙️ دو برنامه‌نویس ۲۳ ساله از هند دومین مدل متن‌باز هوش مصنوعی گفتار در جهان را ساختند!

مدل آن‌ها با نام Maya1 اکنون در میان ۲۰ مدل برتر جهانی قرار دارد و حتی از بهترین راه‌حل‌های Google هم پیشی گرفته است.

🔹 مشخصات فنی:

♻️۳ میلیارد پارامتر
♻️قابل اجرا روی یک GPU
♻️تولید بیش از ۲۰ نوع احساس مختلف در صدا
♻️تأخیر کمتر از ۱۰۰ میلی‌ثانیه


💡 نتیجه واضح است:
امروز دیگر فقط غول‌های فناوری نیستند که می‌توانند مدل‌های پیشرفته بسازند — هرکسی با اراده و دانش کافی می‌تواند دستاورد جهانی خلق کند.

🔗 huggingface.co/maya-research/maya1

@rss_ai_ir
#هوش_مصنوعی #AI #VoiceAI #TextToSpeech #Maya1 #هند #DeepLearning
❤‍🔥51
🎸 Another BRIXEL in the Wall 🎸

🧠 پروژه‌ی BRIXEL به کاربران اجازه می‌دهد تا با استفاده از backbone مدل DINOv3، نقشه‌های ویژگی (feature maps) با وضوح بالا تولید کنند — بدون نیاز به منابع محاسباتی سنگین!

🔹 طراحی شده برای کارایی بالا در بینایی کامپیوتری
🔹 کاهش مصرف GPU بدون افت کیفیت
🔹 مناسب برای پژوهشگران و توسعه‌دهندگان در حوزه‌ی Vision Transformers

📄 مقاله:
arxiv.org/pdf/2511.05168
💙 مخزن GitHub:
github.com/alexanderlappe/BRIXEL

#AI #ComputerVision #DINOv3 #DeepLearning #BRIXEL

@rss_ai_ir
This media is not supported in your browser
VIEW IN TELEGRAM
🐼مدل Pixel-Dense Embedding در مدل FlowFeat 🐼

محققان دانشگاه مونیخ (TUM Vision) مدل جدیدی به نام FlowFeat معرفی کرده‌اند — یک نمایش ویژگی چندوظیفه‌ای و با وضوح بالا که قادر است توزیع حرکات ممکن در تصویر را به‌صورت بردارهای فشرده (Embedding) نمایش دهد.

🧠 ایده‌ی کلیدی:
به‌جای نمایش تنها یک حرکت برای هر پیکسل، FlowFeat چندین حرکت محتمل (motion profiles) را مدل می‌کند. این کار باعث افزایش دقت در وظایفی مانند Optical Flow، تخمین عمق، و درک صحنه‌های پویا می‌شود.

💡 ویژگی‌ها:

♻️دقت بالا در پیش‌بینی حرکات ظریف در ویدیو
♻️مناسب برای چندین وظیفه (multi-task representation)
♻️نیاز محاسباتی پایین با حفظ جزئیات
♻️مبتنی بر معماری DINOv3 Backbone


📄 مقاله:
arxiv.org/pdf/2511.07696
💻 پروژه:
tum-vision.github.io/flowfeat
📦 کد منبع:
github.com/tum-vision/flowfeat

#FlowFeat #ComputerVision #MotionEstimation #DeepLearning #Neural #AI
🤖 VITRA —
مدل VLA مقیاس‌پذیر مایکروسافت برای یادگیری مهارت‌های انسان از ویدیوهای واقعی

مایکروسافت پروژهٔ جدیدی به نام VITRA معرفی کرده که هدف آن انتقال مستقیم مهارت‌های انسان به ربات‌هاست — فقط با استفاده از ویدیوهای واقعی، بدون سناریو و کاملاً ایگو-سنتریک (از دید انسان).
این یعنی ربات مهارت‌ها را از مشاهدهٔ رفتار طبیعی انسان‌ها یاد می‌گیرد، نه با دیتاست‌های ساختگی یا دموهای دقیق آزمایشگاهی.

🔍 مدل VITRA دقیقاً چه می‌کند؟

ویدیوهای معمولی از دست انسان را به دیتاست کامل VLA تبدیل می‌کند

مدل Vision-Language-Action را برای حرکت دست انسان آموزش می‌دهد

همان مدل را روی داده‌های ربات فاین‌تیون می‌کند تا روی ربات واقعی کار کند


🧩 چطور دیتاست عظیم ساخته می‌شود؟

♻️بازسازی کامل حرکت ۳بعدی دست انسان

♻️تعیین دقیق پوز دوربین و هماهنگی فضا

♻️تبدیل حرکت پیوسته به اکشن‌های اتمی

♻️اضافه کردن توضیح متنی به هر بخش، مثل:
«چرخ را بگیر»، «دستگیره را بچرخان»، «شیء را بردار»


🧠 معماری مدل

مدل VLM بک‌اند برای درک بصری

دیفیوژن پالیسی برای تولید اکشن

توصیف اکشن با ۱۵ زاویهٔ مفصل + پوز و اورینتیشن دست (استاندارد MANO)
— مستقیماً قابل استفاده روی ربات‌های انسان‌نما


📈 نتایج کلیدی

پیش‌بینی zero-shot رفتار دست در محیط‌های جدید

مقیاس‌پذیری قوی — کیفیت با افزایش داده رشد می‌کند

عملکرد بهتر نسبت به SOTA مثل EgoDex

کنترل واقعی ربات با موفقیت بالا در کارهای دستکاری (manipulation)


📅 زمان انتشار عمومی

مایکروسافت قول داده کد، داده و مدل‌ها را تا ۳۰ نوامبر ۲۰۲۵ منتشر کند.

🔗 پروژه:
https://microsoft.github.io/VITRA/
🔗 مقاله:
https://arxiv.org/abs/2510.21571


#AI #Robotics #VLA #Microsoft #VITRA #MachineLearning
#ComputerVision #RobotLearning #ImitationLearning
#EgocentricVideo #Manipulation #DeepLearning
#HumanToRobot #EmbodiedAI #AutonomousSystems
👍1413🎉11😁10🔥9🥰8👏7
🔍 اگر با NanoBanana کار می‌کنید، این مطلب برای شماست!

خیلی‌ها مدل NanoBanana را می‌شناسند و حرفه‌ای از آن استفاده می‌کنند، اما پیدا کردن تمام تکنیک‌ها و قابلیت‌هایش در یک‌جا همیشه سخت بوده.
حالا یک مقالهٔ فوق‌العاده منتشر شده که همه چیز را یک‌جا و کامل توضیح می‌دهد — از اصول تا ترفندهای پیشرفته.

در این مقاله می‌بینید:

پرومت‌نویسی مثل مهندسی
🟣 ساخت تصاویر پیچیده مثل بچه‌گربه‌های هتروکرومیا با رنگ‌های HEX و ترکیب‌بندی سخت
🟣 رندر کامل یک صفحهٔ وب از صفر فقط با HTML + CSS + JS
🟣 تولید یک کاراکتر عجیب‌وغریب و دقیق با JSON (ترکیب Paladin + Pirate + Barista!)


---

🧩 مینی ریورس‌انجینیرینگ پرومت سیستم
نویسنده با تکنیک «magnet» تونسته بخشی از system prompt مدل را بیرون بکشد:

✳️سکشن‌های Markdown

✳️قوانین با MUST و SHOULD

✳️جلوگیری از استایل‌های قدیمی AI-Art

✳️و اینکه چطور مدل را وادار می‌کند دقیق‌تر و حرف‌گوش‌کن‌تر باشد


اگر در پرومت‌دیزاین، توسعه محصول یا ساخت اپ‌های مولتی‌مودال با NanoBanana/Gemini فعالیت دارید — این مقاله یک مرجع واقعی است.

📌 گیت‌هاب ابزارها و مثال‌ها:
https://github.com/minimaxir/gemimg


---

هشتگ‌ها:
#AI #NanoBanana #Gemini #PromptEngineering #AIGeneration #DeepLearning #AIArt #Tech
👍3936😁36🥰33👏33🎉30🔥24👌1
🚀 یک موتور قدرتمند برای مدل‌های چندمودالی (Multimodal Models)

اگر با مدل‌های ترکیبی متن–تصویر–ویدیو کار می‌کنید، LMMs-Engine یکی از بهترین فریم‌ورک‌های جدید است.
این موتور فوق‌سبک و بسیار انعطاف‌پذیر، مخصوص آموزش و توسعه‌ی مدل‌های چندمودالی طراحی شده و حتی در مقیاس‌های بزرگ هم کارایی بسیار بالایی دارد.

💡 ویژگی‌های برجسته:

🔥 پشتیبانی از ۱۹+ معماری مختلف برای متن، تصویر، ویدیو و مدل‌های ترکیبی

⚙️ بهینه‌سازی برای آموزش توزیع‌شده با مصرف حافظه بسیار کم

🧩 شامل ده‌ها نمونه آماده اجرا برای شروع سریع با مدل‌های مختلف

مناسب برای پژوهشگران، توسعه‌دهندگان و کسانی که به دنبال ساخت LMM اختصاصی هستند


📌 گیت‌هاب:
https://github.com/EvolvingLMMs-Lab/lmms-engine


---

#AI #ML #Multimodal #LMM #DeepLearning #OpenSource #MachineLearning #AIDev #NeuralNetworks
@rss_ai_ir
😁19🔥1712🥰12🎉12👍10👏10🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 مقایسه اندازه مدل‌های بزرگ هوش مصنوعی با مغز انسان!

در این کلیپ یک مقایسهٔ دیدنی بین ساختار «شبکه‌های عصبی» مدل‌های معروف هوش مصنوعی و مغز انسان نمایش داده می‌شود. هرچه پارامترهای یک مدل بیشتر باشد، تعداد ارتباطات عصبی آن بالاتر می‌رود و قدرت استدلال، خلاقیت و پردازش آن افزایش پیدا می‌کند.

مدل‌هایی که در این ویدئو مشاهده می‌کنید:

🔹 LLaMA 3 – 70B
🔹 Grok-3
🔹 GPT-4o
🔹 Claude 3 Opus
🔸 و در پایان: Human Brain 😍

با وجود این حجم عظیم از پارامترها، هیچ مدلی هنوز به پیچیدگی مغز انسان نزدیک نشده؛
اما سرعت پیشرفت هوش مصنوعی نشان می‌دهد که عصر‌های شگفت‌انگیزی در راه است… 🚀

@rss_ai_ir
#هوش_مصنوعی #شبکه_عصبی #Llama3 #GPT4o #Claude3 #Grok3 #AI #DeepLearning #مغز_انسان #مدل_زبان_بزرگ
6👍6🥰6🔥5🎉5😁3👏2🤯2👌2
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 ساخت ویدیو با LongCat-Video؛ غول ۱۳.۶ میلیارد پارامتری تولید ویدیو

مدل LongCat-Video یکی از قدرتمندترین سیستم‌های تولید ویدیو است که می‌تواند متن را به ویدیو، تصویر را به ویدیو و حتی ادامهٔ ویدیو تولید کند — آن هم با کیفیت بالا و بدون افت در ویدیوهای طولانی.

🚀 ویژگی‌های کلیدی:

✳️معماری یکپارچه برای تمام وظایف تولید ویدیو

✳️توانایی ساخت ویدیوهایی با مدت چند دقیقه

✳️تولید کارآمد با رزولوشن بالا

✳️کیفیت رقابتی در سطح مدل‌های تجاری مطرح


📌 گیت‌هاب:
https://github.com/meituan-longcat/LongCat-Video


---

#LongCatVideo #AIvideo #VideoGeneration #DeepLearning
@rss_ai_ir
1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
@rss_ai_ir

🔥 گوگل کولب بالاخره با VSCode یکپارچه شد!

از این به بعد می‌تونی نوت‌بوک‌های محلی VSCode رو مستقیم به Colab وصل کنی و داخل IDE خودت از GPU / TPU کولب استفاده کنی — بدون هیچ دردسری! 💥🧠

این یعنی:
سرعت بیشتر
محیط کدنویسی حرفه‌ای‌تر
اتصال بی‌واسطه VSCode → Colab Runtime

روش فعال‌سازی:
1️⃣ توی VSCode وارد Extensions شو و افزونه Google Colab رو نصب کن.
2️⃣ یک فایل ‎.ipynb‎ بساز یا وارد کن.
3️⃣ از گوشه بالا راست روی Select Kernel کلیک کن → گزینه Colab رو بزن → یک Runtime انتخاب کن.
4️⃣ وارد حساب گوگلت شو و تمام!

حالا به‌صورت مستقیم از VSCode داری روی Colab کار می‌کنی 😍
Happy coding 🐝

https://developers.googleblog.com/en/google-colab-is-coming-to-vs-code/


#هوش_مصنوعی #GoogleColab #VSCode #برنامه‌نویسی #DeepLearning
@rss_ai_ir
5🔥3👍1
سامانه تشخیص گفتار چندزبانه Omnilingual ASR 🌍🗣️
بیش از ۱۶۰۰ زبان (حتی زبان‌های کم‌منبع و محلی) را پشتیبانی می‌کند و سعی دارد شکاف زبانی در فناوری گفتار به متن را از بین ببرد.

ویژگی‌ها:

✳️پشتیبانی از زبان‌های بسیار متنوع، از رایج تا کاملاً نادر

✳️امکان اضافه کردن زبان‌های جدید با داده‌ی آموزشی بسیار کم (few-shot / zero-shot)

✳️طراحی‌شده برای دسترس‌پذیری و شمول جوامع مختلف زبانی

✳️قابل تست و استفاده روی Hugging Face و در دسترس روی گیت‌هاب


لینک گیت‌هاب 🔗
https://github.com/facebookresearch/omnilingual-asr

@rss_ai_ir
#هوش_مصنوعی #تشخیص_گفتار #ASR #Multilingual #DeepLearning #SpeechToText
1🔥1👏1
سینتتیک‌-دیتا که بهتر از داده‌های واقعی آموزش می‌دهد!

پژوهشگران MIT یک نتیجه عجیب اما فوق‌العاده مهم منتشر کرده‌اند:
گاهی چند تصویر کاملاً مصنوعی می‌توانند linear probe‌ ها را بهتر از هزاران تصویر واقعی آموزش دهند.

ایده با روش تازه‌ای به‌نام Linear Gradient Matching (LGM) اجرا شده است. روش کار چنین است:

1️⃣ مدل بینایی بزرگ (مثل DINO یا CLIP) را فریز می‌کنند.
2️⃣ بررسی می‌کنند که این مدل روی تصاویر واقعی چه گرادیان‌هایی تولید می‌کند.
3️⃣ مجموعه‌ای از تصاویر سینتتیک تولید می‌کنند که دقیقاً همین گرادیان‌ها را بازتولید کنند.
4️⃣ یک linear classifier روی این تصاویر آموزش می‌دهند — و نتیجه شگفت‌انگیز است:
عملکرد بهتر از آموزش روی داده‌های واقعی!

🔍 چرا این مهم است؟
• سازگار میان مدل‌هاست: سینتتیک‌دیتا تولیدشده برای DINO در CLIP هم به‌خوبی کار می‌کند.
• مخصوصاً روی classification‌ های ظریف عملکرد فوق‌العاده دارد.
• کمک می‌کند بفهمیم مدل واقعاً دنبال چه ویژگی‌هایی می‌گردد — کلاسترها، همبستگی‌های انحرافی، ساختار embedding-space و …

این یافته، تعریف «داده خوب» را عوض می‌کند.
🟩 گذشته: «برای آموزش باید میلیون‌ها تصویر جمع کنیم.»
🟩 اکنون: «کافی است چند تصویر درست و هدفمند بسازیم.»

@rss_ai_ir

لینک مقاله:
arxiv.org/abs/2511.16674
---
🏷 هشتگ‌ها
#داده #دیتاسینتتیک #هوش_مصنوعی #بینایی_ماشین #ML #CLIP #DINO #LGM #DeepLearning #AI
👍21👏1
🔥 بحران انرژیِ هوش مصنوعی جدی‌تر از همیشه شده است

گزارش‌های جدید نشان می‌دهند که مصرف انرژی OpenAI طی پنج سال آینده از بریتانیا یا آلمان بیشتر خواهد شد و طی هشت سال آینده حتی از هند فراتر می‌رود.
این فقط مصرف یک شرکت است — نه کل صنعت هوش مصنوعی.

در چنین شرایطی یک سؤال بنیادین مطرح می‌شود:
کشورهایی مانند بریتانیا و آلمان چطور قرار است «سیاره را نجات دهند»، وقتی رشد شتابان مدل‌های عظیم در حال مصرف انرژی در ابعادی فراتر از کل این کشورهاست؟

از سوی دیگر، تصمیم‌های سختگیرانه برای کاهش مصرف انرژی در اروپا منجر به:
• تضعیف صنایع محلی
• کاهش رقابت‌پذیری جهانی
• مهاجرت شرکت‌ها به مناطقی با انرژی ارزان‌تر
• از دست رفتن مشاغل و سرمایه‌گذاری صنعتی

واقعیت این است که بحران انرژیِ آینده دیگر فقط به صنایع فولاد، خودرو یا شیمی محدود نیست.
اکنون ابرمدل‌های هوش مصنوعی در حال بلعیدن منابع انرژی‌اند و بحث «توسعه پایدار» بدون درنظرگرفتن آن‌ها عملاً بی‌معناست.

⛔️این تناقض بزرگ سیاست‌گذاری جهانی را آشکار می‌کند:
کشورهایی که برای اقتصادشان محدودیت‌های سنگین وضع کرده‌اند، شاید در نهایت شاهد مصرف انرژیِ بسیار بیشتری از سمت شرکت‌های فناوری خارج از مرزهایشان باشند.

@rss_ai_ir
---

🏷 هشتگ‌ها

#هوش_مصنوعی #انرژی #سیاستگذاری #OpenAI #پایداری #اقتصاد #AI #DeepLearning #TechPolicy #Industry4_0
🔥2👍1👏1
⚡️ مدل HunyuanOCR؛ کوچک، سریع و شکست‌دهندهٔ بنچمارک‌ها

تنسنت نسخهٔ متن‌باز مدل HunyuanOCR را منتشر کرده؛ مدلی فقط با ۱ میلیارد پارامتر که عملکرد آن در سطح مدل‌های چندین برابر بزرگ‌تر است. این سیستم به‌صورت End-to-End کار می‌کند و تقریباً همهٔ نیازهای OCR مدرن را پوشش می‌دهد.

برتری در بنچمارک‌ها

امتیاز 860 در OCRBench بین تمام مدل‌های کوچک‌تر از 3B

امتیاز 94.1 در OmniDocBench؛ بهترین عملکرد در پردازش اسناد پیچیده


🧠 قابلیت‌ها
مدل برای طیف گسترده‌ای از سناریوهای OCR بهینه شده است:

✳️متن محیطی: تابلو، ویترین، بنر، خیابان

✳️دست‌خط و فونت‌های هنری

✳️اسناد پیچیده: جدول، فرمول، HTML، LaTeX

✳️زیرنویس ویدیو

✳️ترجمهٔ مستقیم متن روی تصویر به ۱۴ زبان
این یک سامانهٔ چندمرحله‌ای نیست؛ فقط یک درخواست و یک پاس انفِرِنس.


🔗 لینک‌ها
• وب:
https://hunyuan.tencent.com/vision/zh?tabIndex=0
• نسخه موبایل:
https://hunyuan.tencent.com/open_source_mobile?tab=vision&tabIndex=0
• GitHub:
https://github.com/Tencent-Hunyuan/HunyuanOCR

• HuggingFace:
https://huggingface.co/tencent/HunyuanOCR
• گزارش فنی:
https://github.com/Tencent-Hunyuan/HunyuanOCR/blob/main/HunyuanOCR_Technical_Report.pdf

@rss_ai_ir
#OCR #مدل_متن‌باز #هوش_مصنوعی #بینایی_ماشینی #Tencent #HunyuanOCR #AI #DeepLearning #Multimodal
مدل MSRNet؛ شبکهٔ چندمقیاسی بازگشتی برای آشکارسازی اشیای استتار‌شده
@rss_ai_ir

تشخیص اشیایی که عمداً در محیط «محو» شده‌اند همیشه یکی از سخت‌ترین چالش‌های بینایی ماشین بوده است.
مدل MSRNet با ترکیب Pyramid Vision Transformer و Recursive Feature Refinement توانسته یک جهش جدی ایجاد کند و در بنچمارک‌ها به State-of-the-Art برسد.

🔍 چرا MSRNet مهم است؟

✳️عملکرد عالی روی اجسام کوچک و چندگانه

✳️تقویت چندمرحله‌ای ویژگی‌ها با معماری بازگشتی

✳️یادگیری پایدارتر و دقت بالاتر نسبت به مدل‌های قبلی

✳️مناسب برای کاربردهایی مثل: نظارت، رباتیک، پزشکی و تحلیل حیات‌وحش


📅 تاریخ انتشار: ۱۶ نوامبر
📄 لینک مقاله:
arXiv: https://arxiv.org/abs/2511.12810
PDF: https://arxiv.org/pdf/2511.12810

🤗 مدل‌های منتشرشده:
https://huggingface.co/linaa98/MSRNet


---

#CamouflagedObjectDetection #MSRNet #ObjectDetection #ComputerVision #DeepLearning #VisionTransformer #AIResearch #NeuralNetworks