VIRSUN

💡⚡ انقلابی در پردازش تصویر با فوتون‌ها، نه الکترون‌ها!

پژوهشگران دانشگاه Tsinghua نخستین ماژول محاسبات نوری جهان را معرفی کرده‌اند:
🌀 OFE² — Optical Feature Extraction Engine

در این سیستم، به‌جای عبور جریان الکترونی، فوتون‌ها از میان عناصر دیفرکتیو و مدولاتورهای نوری عبور می‌کنند.
در این مسیر، فاز و دامنه‌ی نور طوری تنظیم می‌شود که محاسبات ریاضی مورد نظر (مثل convolutions یا فیلترهای ویژگی) به‌صورت کاملاً نوری انجام شود — بدون هیچ مدار الکترونیکی 💥

---

🔬 مزیت کلیدی:
از آن‌جا که نور با سرعت بسیار بالاتر حرکت می‌کند و گرما تولید نمی‌کند،
✅ فرکانس کاری بسیار بالاتر
✅ مصرف انرژی صدها برابر کمتر
✅ و زمان پردازش تا ۱۰۰۰ برابر سریع‌تر از تراشه‌های الکترونیکی معمولی به‌دست می‌آید!

---

📸 در مقاله‌ی منتشرشده، تیم نشان داده که OFE² می‌تواند روی وظیفه‌ی واقعی استخراج ویژگی تصویر (Image Feature Extraction) اجرا شود.
به عبارت دیگر، می‌شود روی این تراشه مستقیماً عملیات‌هایی مانند segmentation را انجام داد — کاملاً در دامنه‌ی نوری (Optical Domain)، بدون نیاز به محاسبات هیبریدی 🧠💡

---

⚙️ هنوز این فناوری در مرحله‌ی تحقیقاتی است، اما نتایج اولیه نشان می‌دهد که عملکرد آن قابل مقایسه با CNNهای الکترونیکی است — با کسری از انرژی و زمان.
اگر مقیاس‌پذیری آن تحقق یابد، این می‌تواند فصل تازه‌ای در پردازش نوری هوش مصنوعی باشد.

📄 [Paper — Tsinghua University, 2025]

📡 @rss_ai_ir
#هوش_مصنوعی #OpticalComputing #Tsinghua #OFE2 #Photonics #AI #DeepLearning #اپتوالکترونیک #CNN

🔥2❤1👏1👌1

287 views06:54

VIRSUN

📘🤖مجموعه Hugging Face منتشر کرد:
Smol Training Playbook

تازه‌ترین منبع آموزشی Hugging Face منتشر شده —
یک پلی‌بوک رایگان و عملی درباره‌ی نحوه‌ی ساخت مدل‌های SOTA از درون تیم‌های تحقیقاتی 💡

بدون حرف‌های کلی، فقط جزییات واقعی از تجربیات توسعه‌دهندگان در طراحی، آموزش و بهینه‌سازی LLMها.

---

📚 آنچه در پلی‌بوک می‌آموزید:
• منطق ساخت مدل: از «چرا» تا «چگونه»
• نحوه‌ی روشن و خاموش‌کردن یا تعویض ماژول‌ها در معماری
• طراحی معماری و توازن بین دقت، هزینه و سرعت
• انتخاب و پاک‌سازی هوشمند داده‌ها
• فرآیند آموزش، پس‌پردازش و RLHF در ۲۰۲۵
• ترفندهای بهینه‌سازی: RoPE، کوانتیزه‌سازی، attention approximation
• زیرساخت و مهندسی سیستم برای مدل‌های بزرگ

---

🔗 لینک مستقیم:
https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture

📡 @rss_ai_ir
#هوش_مصنوعی #HuggingFace #LLM #MachineLearning #DeepLearning #Training #AI #Playbook

🔥1👏1

285 views09:48

VIRSUN

This media is not supported in your browser

VIEW IN TELEGRAM

🧷 رهگیری نقطه‌ای مولد با Flow Matching (GenPT) 🧷

🔹 مدل Generative Point Tracker (GenPT) چارچوبی نوآورانه برای مدل‌سازی تراژکتوری‌های چندوجهی نقاط است
— یعنی قادر است مسیرهای مختلف و احتمالی حرکت یک نقطه را به‌صورت هم‌زمان بیاموزد و بازسازی کند 🎯

این مدل با استفاده از روش Flow Matching (FM)، یاد می‌گیرد تا الگوهای حرکت پیچیده را در داده‌های ویدئویی بازتولید کند و در نتیجه در رهگیری نقاطی که دچار انسداد (occlusion) یا تغییرات شدید صحنه می‌شوند عملکردی پایدار و دقیق دارد 🔍📸

---

📘 ویژگی‌های کلیدی:
• مدل مولد (Generative) برای پیش‌بینی چند مسیر ممکن از یک نقطه
• بازسازی دقیق مسیر حتی در شرایط ناپدید شدن یا پوشش جزئی شیء
• عملکرد در حد یا بالاتر از مدل‌های CNN سنتی در بنچمارک‌های PointOdyssey، Dynamic Replica و TAP-Vid
• پیاده‌سازی متن‌باز با مجوز MIT 🔵

---

🔗 لینک‌ها:
📘 مقاله:
arxiv.org/pdf/2510.20951

🌐 پروژه:
https://mtesfaldet.net/genpt_projpage/

💾 ریپازیتوری:
github.com/tesfaldet/genpt

📡 @rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #GenPT #FlowMatching #رهگیری_نقطه #AI #DeepLearning #ComputerVision

👍3🔥1

1.49K viewsedited 12:01

VIRSUN

🧨 مدل جدید Kimi معرفی شد — Kimi-Linear-48B-A3B-Base

مدل تازه‌ی Kimi با معماری Linear Attention آمده تا نشان دهد می‌شود با مصرف کمتر حافظه، همان سطح عملکرد مدل‌های بزرگ LLM را در متن‌های طولانی به‌دست آورد ⚡📜

---

💡 ویژگی‌های کلیدی:
• تا ۷۵٪ مصرف کمتر حافظه‌ی KV-cache
• تا ۶.۳ برابر سرعت بیشتر در decode طولانی‌ها
• معماری Hybrid: Kimi Delta Attention + MLA
• بهینه‌شده برای context طولانی و توان عبور بالا (throughput)

---

📊 نتایج بنچمارک:

در آزمون‌های reasoning، تولید طولانی (long-RL) و وظایف متنی با context بالا،
مدل Kimi-Linear-48B-A3B-Base از مدل‌های MLA و GDN-H پیشی گرفته است 🚀

این مدل نمونه‌ای از روندی است که در آن معماری‌های attention خطی نه‌تنها از نظر سرعت، بلکه از نظر کیفیت و دقت نیز به سطح مدل‌های کلاسیک نزدیک شده‌اند — یا حتی از آن‌ها جلو زده‌اند 🧠💬

---

🟠 GitHub:
github.com/MoonshotAI/Kimi-Linear
🟠 HuggingFace:
huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct

📡 @rss_ai_ir
#هوش_مصنوعی #Kimi #LLM #Transformer #Attention #AI #DeepLearning #MachineLearning

❤2👏1🙏1

1.52K views13:30

VIRSUN

🔔 پیشرفت بزرگ در هوش مصنوعی الهام‌گرفته از مغز — کاهش ۹۹٪ مصرف انرژی بدون افت دقت! ⚡🧠

❌پژوهشگران گروه NICE در دانشگاه Surrey روش جدیدی برای اتصال نورون‌های مصنوعی طراحی کرده‌اند که از ساختار مغز انسان الهام گرفته است.
این روش با نام Topographical Sparse Mapping (TSM) شناخته می‌شود و هدف آن ایجاد شبکه‌های عصبی کم‌مصرف اما دقیق است.

---

💡 ایده‌ی اصلی

✳️در شبکه‌های سنتی، هر نورون تقریباً به همه‌ی نورون‌های دیگر متصل است — کاری بسیار پرهزینه از نظر انرژی و زمان.
✳️در روش TSM، هر نورون فقط به نورون‌های نزدیک یا مرتبط متصل می‌شود، درست مانند مغز که اتصالاتش بهینه و موضعی است.

✳️نسخه‌ی پیشرفته‌تر، Enhanced TSM (ETSM)، حتی فرآیند هرس (pruning) در مغز را شبیه‌سازی می‌کند تا اتصالات غیرضروری در طول یادگیری حذف شوند.

---

⚙️ نتایج شگفت‌انگیز

♻️تا ۹۹٪ کاهش در تراکم اتصالات (sparsity)
♻️مصرف انرژی کمتر از ۱٪ در مقایسه با روش‌های استاندارد
♻️سرعت آموزش بسیار بالاتر
♻️دقتی برابر یا حتی بالاتر از شبکه‌های کلاسیک 💥

---

این دستاورد می‌تواند مسیر را برای نسل جدیدی از هوش مصنوعی‌های نورومورفیک (Neuromorphic AI) و تراشه‌های هوشمند فوق‌کم‌مصرف هموار کند — سامانه‌هایی که واقعاً مانند مغز فکر و یاد می‌گیرند، نه فقط شبیه آن عمل می‌کنند.
https://x.com/dr_singularity/status/1984618986043003058?s=12

📡 @rss_ai_ir
#هوش_مصنوعی #Neuroscience #Neuromorphic #TSM #AI #انرژی #BrainInspiredAI #DeepLearning #تکنولوژی

❤1👍1👏1👌1

1.5K views03:53

VIRSUN

🧠 مدل ThinkMorph — جهش جدید در تفکر چندوجهی (Multimodal Reasoning) 🚀🖼️

پژوهشگران مدلی به نام ThinkMorph معرفی کرده‌اند که گامی فراتر از مدل‌های چندوجهی (VLM) سنتی است —
مدلی که با تصویر و متن هم‌زمان فکر می‌کند و در طول فرایند استدلال، خود را تصحیح و تکامل می‌دهد 🤯

---

⚙️ آموزش و نوآوری

✅مدل ThinkMorph بر اساس ۲۴٬۰۰۰ مسیر استدلال درهم‌تنیده (interleaved reasoning traces) آموزش دیده است — داده‌هایی که در آن متن و تصویر به‌صورت مرحله‌به‌مرحله همدیگر را توضیح و تکمیل می‌کنند.

💡 نتیجه؟
♻️مدل در حین پاسخ دادن نه فقط توصیف می‌کند، بلکه به‌صورت چندمرحله‌ای می‌اندیشد:

♻️ابتدا تصویر را تحلیل می‌کند 🧩

♻️سپس توضیح متنی می‌نویسد ✍️

♻️بعد بر اساس آن توضیح، برداشت تصویری جدید می‌سازد 🎨

♻️و این چرخه را تکرار می‌کند تا استدلالش دقیق‌تر شود.

---

🚀 توانایی‌های کلیدی

🔹 رشد چشمگیر در مسائل دارای زمینه‌ی بصری پیچیده
🔹 استدلال مرحله‌به‌مرحله‌ی متن–تصویر به‌صورت پیشرونده
🔹 توانایی‌های تازه: منطق تطبیقی، دست‌کاری تصویری خلاقانه، و بازبینی خودکار نتایج

---

این یعنی ThinkMorph دیگر صرفاً Visual Language Model نیست، بلکه مکانیسمی برای تفکر ترکیبی بینایی–زبانی است — مدلی که با دیدن یاد می‌گیرد و با نوشتن، دید خود را اصلاح می‌کند.

📄 پژوهش کامل در:
🔗 huggingface.co/papers/2510.27492

📡 @rss_ai_ir
#هوش_مصنوعی #ThinkMorph #VLM #MultimodalAI #AI #DeepLearning #VisionLanguage #Reasoning

❤1

2.35K views12:39

VIRSUN

🚀 مدل زبانی با کانتکست ۶۴k+ روی GPU‌ مصرفی! 🤯💪

در پروژه‌ی جدید ModelScope SWIFT، محققان نشان دادند که می‌توان مدل‌های زبانی بزرگ (LLM) را با کانتکست‌های عظیم تا ۶۵٬۰۰۰ توکن حتی روی GPUهای غیرسروری آموزش داد —
آن‌هم با ترکیب خلاقانه‌ی دو تکنیک: Ulysses + Ring Attention ⚙️

---

🔹 چطور کار می‌کند:

✅ Ulysses —
تقسیم توجه (attention) بر اساس headها، با مصرف بسیار کم پهنای باند.
⚠️ محدودیتش زمانی است که تعداد headها کم باشد.

✅ Ring Attention —
مقیاس‌پذیرتر است؛ ارتباطات را به‌صورت حلقوی (P2P) بین GPUها برقرار می‌کند
و با الگوریتم "زیگ‌زاگ" برای مدل‌های causal، توازن بهتری ایجاد می‌کند.

💡 ترکیب این دو روش:
ابتدا Ulysses اجرا می‌شود، و وقتی دیگر کفایت نکند (مثل GQA یا خوشه‌های بالای ۸ GPU)، Ring به‌صورت خودکار فعال می‌شود.

---

🔥 نتیجه:

مدل Qwen2.5-3B با طول دنباله‌ی ۶۵k:
از ۷۵.۴ GiB → ۱۷.۹ GiB VRAM روی ۸× A100 کاهش مصرف حافظه! 🚀

پشتیبانی کامل از:

♻️SFT / DPO / GRPO
♻️ورودی‌های چندوجهی (multimodal)
♻️ساختار بدون padding
♻️سازگار با FlashAttention

📎 منابع:
🟠 توضیحات کامل
🟠 کد منبع

📡 @rss_ai_ir
#هوش_مصنوعی #LLM #Parallelism #AI #DeepLearning #ModelScope #Attention

❤1

1.18K views14:18

VIRSUN

0:16

This media is not supported in your browser

VIEW IN TELEGRAM

🎙️ دو برنامه‌نویس ۲۳ ساله از هند دومین مدل متن‌باز هوش مصنوعی گفتار در جهان را ساختند!

مدل آن‌ها با نام Maya1 اکنون در میان ۲۰ مدل برتر جهانی قرار دارد و حتی از بهترین راه‌حل‌های Google هم پیشی گرفته است.

🔹 مشخصات فنی:

♻️۳ میلیارد پارامتر
♻️قابل اجرا روی یک GPU
♻️تولید بیش از ۲۰ نوع احساس مختلف در صدا
♻️تأخیر کمتر از ۱۰۰ میلی‌ثانیه

💡 نتیجه واضح است:
امروز دیگر فقط غول‌های فناوری نیستند که می‌توانند مدل‌های پیشرفته بسازند — هرکسی با اراده و دانش کافی می‌تواند دستاورد جهانی خلق کند.

🔗 huggingface.co/maya-research/maya1

@rss_ai_ir
#هوش_مصنوعی #AI #VoiceAI #TextToSpeech #Maya1 #هند #DeepLearning

❤‍🔥5❤1

1.14K views15:02

VIRSUN

🎸 Another BRIXEL in the Wall 🎸

🧠 پروژه‌ی BRIXEL به کاربران اجازه می‌دهد تا با استفاده از backbone مدل DINOv3، نقشه‌های ویژگی (feature maps) با وضوح بالا تولید کنند — بدون نیاز به منابع محاسباتی سنگین!

🔹 طراحی شده برای کارایی بالا در بینایی کامپیوتری
🔹 کاهش مصرف GPU بدون افت کیفیت
🔹 مناسب برای پژوهشگران و توسعه‌دهندگان در حوزه‌ی Vision Transformers

📄 مقاله:
arxiv.org/pdf/2511.05168
💙 مخزن GitHub:
github.com/alexanderlappe/BRIXEL

#AI #ComputerVision #DINOv3 #DeepLearning #BRIXEL

@rss_ai_ir

1.99K views15:15

VIRSUN

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

🐼مدل Pixel-Dense Embedding در مدل FlowFeat 🐼

محققان دانشگاه مونیخ (TUM Vision) مدل جدیدی به نام FlowFeat معرفی کرده‌اند — یک نمایش ویژگی چندوظیفه‌ای و با وضوح بالا که قادر است توزیع حرکات ممکن در تصویر را به‌صورت بردارهای فشرده (Embedding) نمایش دهد.

🧠 ایده‌ی کلیدی:
به‌جای نمایش تنها یک حرکت برای هر پیکسل، FlowFeat چندین حرکت محتمل (motion profiles) را مدل می‌کند. این کار باعث افزایش دقت در وظایفی مانند Optical Flow، تخمین عمق، و درک صحنه‌های پویا می‌شود.

💡 ویژگی‌ها:

♻️دقت بالا در پیش‌بینی حرکات ظریف در ویدیو
♻️مناسب برای چندین وظیفه (multi-task representation)
♻️نیاز محاسباتی پایین با حفظ جزئیات
♻️مبتنی بر معماری DINOv3 Backbone

📄 مقاله:
arxiv.org/pdf/2511.07696
💻 پروژه:
tum-vision.github.io/flowfeat
📦 کد منبع:
github.com/tum-vision/flowfeat

#FlowFeat #ComputerVision #MotionEstimation #DeepLearning #Neural #AI

1.07K views11:24

About

Blog

Apps

Platform