💡⚡ انقلابی در پردازش تصویر با فوتونها، نه الکترونها!
پژوهشگران دانشگاه Tsinghua نخستین ماژول محاسبات نوری جهان را معرفی کردهاند:
🌀 OFE² — Optical Feature Extraction Engine
در این سیستم، بهجای عبور جریان الکترونی، فوتونها از میان عناصر دیفرکتیو و مدولاتورهای نوری عبور میکنند.
در این مسیر، فاز و دامنهی نور طوری تنظیم میشود که محاسبات ریاضی مورد نظر (مثل convolutions یا فیلترهای ویژگی) بهصورت کاملاً نوری انجام شود — بدون هیچ مدار الکترونیکی 💥
---
🔬 مزیت کلیدی:
از آنجا که نور با سرعت بسیار بالاتر حرکت میکند و گرما تولید نمیکند،
✅ فرکانس کاری بسیار بالاتر
✅ مصرف انرژی صدها برابر کمتر
✅ و زمان پردازش تا ۱۰۰۰ برابر سریعتر از تراشههای الکترونیکی معمولی بهدست میآید!
---
📸 در مقالهی منتشرشده، تیم نشان داده که OFE² میتواند روی وظیفهی واقعی استخراج ویژگی تصویر (Image Feature Extraction) اجرا شود.
به عبارت دیگر، میشود روی این تراشه مستقیماً عملیاتهایی مانند segmentation را انجام داد — کاملاً در دامنهی نوری (Optical Domain)، بدون نیاز به محاسبات هیبریدی 🧠💡
---
⚙️ هنوز این فناوری در مرحلهی تحقیقاتی است، اما نتایج اولیه نشان میدهد که عملکرد آن قابل مقایسه با CNNهای الکترونیکی است — با کسری از انرژی و زمان.
اگر مقیاسپذیری آن تحقق یابد، این میتواند فصل تازهای در پردازش نوری هوش مصنوعی باشد.
📄 [Paper — Tsinghua University, 2025]
📡 @rss_ai_ir
#هوش_مصنوعی #OpticalComputing #Tsinghua #OFE2 #Photonics #AI #DeepLearning #اپتوالکترونیک #CNN
پژوهشگران دانشگاه Tsinghua نخستین ماژول محاسبات نوری جهان را معرفی کردهاند:
🌀 OFE² — Optical Feature Extraction Engine
در این سیستم، بهجای عبور جریان الکترونی، فوتونها از میان عناصر دیفرکتیو و مدولاتورهای نوری عبور میکنند.
در این مسیر، فاز و دامنهی نور طوری تنظیم میشود که محاسبات ریاضی مورد نظر (مثل convolutions یا فیلترهای ویژگی) بهصورت کاملاً نوری انجام شود — بدون هیچ مدار الکترونیکی 💥
---
🔬 مزیت کلیدی:
از آنجا که نور با سرعت بسیار بالاتر حرکت میکند و گرما تولید نمیکند،
✅ فرکانس کاری بسیار بالاتر
✅ مصرف انرژی صدها برابر کمتر
✅ و زمان پردازش تا ۱۰۰۰ برابر سریعتر از تراشههای الکترونیکی معمولی بهدست میآید!
---
📸 در مقالهی منتشرشده، تیم نشان داده که OFE² میتواند روی وظیفهی واقعی استخراج ویژگی تصویر (Image Feature Extraction) اجرا شود.
به عبارت دیگر، میشود روی این تراشه مستقیماً عملیاتهایی مانند segmentation را انجام داد — کاملاً در دامنهی نوری (Optical Domain)، بدون نیاز به محاسبات هیبریدی 🧠💡
---
⚙️ هنوز این فناوری در مرحلهی تحقیقاتی است، اما نتایج اولیه نشان میدهد که عملکرد آن قابل مقایسه با CNNهای الکترونیکی است — با کسری از انرژی و زمان.
اگر مقیاسپذیری آن تحقق یابد، این میتواند فصل تازهای در پردازش نوری هوش مصنوعی باشد.
📄 [Paper — Tsinghua University, 2025]
📡 @rss_ai_ir
#هوش_مصنوعی #OpticalComputing #Tsinghua #OFE2 #Photonics #AI #DeepLearning #اپتوالکترونیک #CNN
🔥2❤1👏1👌1
📘🤖مجموعه Hugging Face منتشر کرد:
Smol Training Playbook
تازهترین منبع آموزشی Hugging Face منتشر شده —
یک پلیبوک رایگان و عملی دربارهی نحوهی ساخت مدلهای SOTA از درون تیمهای تحقیقاتی 💡
بدون حرفهای کلی، فقط جزییات واقعی از تجربیات توسعهدهندگان در طراحی، آموزش و بهینهسازی LLMها.
---
📚 آنچه در پلیبوک میآموزید:
• منطق ساخت مدل: از «چرا» تا «چگونه»
• نحوهی روشن و خاموشکردن یا تعویض ماژولها در معماری
• طراحی معماری و توازن بین دقت، هزینه و سرعت
• انتخاب و پاکسازی هوشمند دادهها
• فرآیند آموزش، پسپردازش و RLHF در ۲۰۲۵
• ترفندهای بهینهسازی: RoPE، کوانتیزهسازی، attention approximation
• زیرساخت و مهندسی سیستم برای مدلهای بزرگ
---
🔗 لینک مستقیم:
https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture
📡 @rss_ai_ir
#هوش_مصنوعی #HuggingFace #LLM #MachineLearning #DeepLearning #Training #AI #Playbook
Smol Training Playbook
تازهترین منبع آموزشی Hugging Face منتشر شده —
یک پلیبوک رایگان و عملی دربارهی نحوهی ساخت مدلهای SOTA از درون تیمهای تحقیقاتی 💡
بدون حرفهای کلی، فقط جزییات واقعی از تجربیات توسعهدهندگان در طراحی، آموزش و بهینهسازی LLMها.
---
📚 آنچه در پلیبوک میآموزید:
• منطق ساخت مدل: از «چرا» تا «چگونه»
• نحوهی روشن و خاموشکردن یا تعویض ماژولها در معماری
• طراحی معماری و توازن بین دقت، هزینه و سرعت
• انتخاب و پاکسازی هوشمند دادهها
• فرآیند آموزش، پسپردازش و RLHF در ۲۰۲۵
• ترفندهای بهینهسازی: RoPE، کوانتیزهسازی، attention approximation
• زیرساخت و مهندسی سیستم برای مدلهای بزرگ
---
🔗 لینک مستقیم:
https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture
📡 @rss_ai_ir
#هوش_مصنوعی #HuggingFace #LLM #MachineLearning #DeepLearning #Training #AI #Playbook
🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🧷 رهگیری نقطهای مولد با Flow Matching (GenPT) 🧷
🔹 مدل Generative Point Tracker (GenPT) چارچوبی نوآورانه برای مدلسازی تراژکتوریهای چندوجهی نقاط است
— یعنی قادر است مسیرهای مختلف و احتمالی حرکت یک نقطه را بهصورت همزمان بیاموزد و بازسازی کند 🎯
این مدل با استفاده از روش Flow Matching (FM)، یاد میگیرد تا الگوهای حرکت پیچیده را در دادههای ویدئویی بازتولید کند و در نتیجه در رهگیری نقاطی که دچار انسداد (occlusion) یا تغییرات شدید صحنه میشوند عملکردی پایدار و دقیق دارد 🔍📸
---
📘 ویژگیهای کلیدی:
• مدل مولد (Generative) برای پیشبینی چند مسیر ممکن از یک نقطه
• بازسازی دقیق مسیر حتی در شرایط ناپدید شدن یا پوشش جزئی شیء
• عملکرد در حد یا بالاتر از مدلهای CNN سنتی در بنچمارکهای PointOdyssey، Dynamic Replica و TAP-Vid
• پیادهسازی متنباز با مجوز MIT 🔵
---
🔗 لینکها:
📘 مقاله:
arxiv.org/pdf/2510.20951
🌐 پروژه:
https://mtesfaldet.net/genpt_projpage/
💾 ریپازیتوری:
github.com/tesfaldet/genpt
📡 @rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #GenPT #FlowMatching #رهگیری_نقطه #AI #DeepLearning #ComputerVision
🔹 مدل Generative Point Tracker (GenPT) چارچوبی نوآورانه برای مدلسازی تراژکتوریهای چندوجهی نقاط است
— یعنی قادر است مسیرهای مختلف و احتمالی حرکت یک نقطه را بهصورت همزمان بیاموزد و بازسازی کند 🎯
این مدل با استفاده از روش Flow Matching (FM)، یاد میگیرد تا الگوهای حرکت پیچیده را در دادههای ویدئویی بازتولید کند و در نتیجه در رهگیری نقاطی که دچار انسداد (occlusion) یا تغییرات شدید صحنه میشوند عملکردی پایدار و دقیق دارد 🔍📸
---
📘 ویژگیهای کلیدی:
• مدل مولد (Generative) برای پیشبینی چند مسیر ممکن از یک نقطه
• بازسازی دقیق مسیر حتی در شرایط ناپدید شدن یا پوشش جزئی شیء
• عملکرد در حد یا بالاتر از مدلهای CNN سنتی در بنچمارکهای PointOdyssey، Dynamic Replica و TAP-Vid
• پیادهسازی متنباز با مجوز MIT 🔵
---
🔗 لینکها:
📘 مقاله:
arxiv.org/pdf/2510.20951
🌐 پروژه:
https://mtesfaldet.net/genpt_projpage/
💾 ریپازیتوری:
github.com/tesfaldet/genpt
📡 @rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #GenPT #FlowMatching #رهگیری_نقطه #AI #DeepLearning #ComputerVision
👍3🔥1
🧨 مدل جدید Kimi معرفی شد — Kimi-Linear-48B-A3B-Base
مدل تازهی Kimi با معماری Linear Attention آمده تا نشان دهد میشود با مصرف کمتر حافظه، همان سطح عملکرد مدلهای بزرگ LLM را در متنهای طولانی بهدست آورد ⚡📜
---
💡 ویژگیهای کلیدی:
• تا ۷۵٪ مصرف کمتر حافظهی KV-cache
• تا ۶.۳ برابر سرعت بیشتر در decode طولانیها
• معماری Hybrid: Kimi Delta Attention + MLA
• بهینهشده برای context طولانی و توان عبور بالا (throughput)
---
📊 نتایج بنچمارک:
در آزمونهای reasoning، تولید طولانی (long-RL) و وظایف متنی با context بالا،
مدل Kimi-Linear-48B-A3B-Base از مدلهای MLA و GDN-H پیشی گرفته است 🚀
این مدل نمونهای از روندی است که در آن معماریهای attention خطی نهتنها از نظر سرعت، بلکه از نظر کیفیت و دقت نیز به سطح مدلهای کلاسیک نزدیک شدهاند — یا حتی از آنها جلو زدهاند 🧠💬
---
🟠 GitHub:
github.com/MoonshotAI/Kimi-Linear
🟠 HuggingFace:
huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct
📡 @rss_ai_ir
#هوش_مصنوعی #Kimi #LLM #Transformer #Attention #AI #DeepLearning #MachineLearning
مدل تازهی Kimi با معماری Linear Attention آمده تا نشان دهد میشود با مصرف کمتر حافظه، همان سطح عملکرد مدلهای بزرگ LLM را در متنهای طولانی بهدست آورد ⚡📜
---
💡 ویژگیهای کلیدی:
• تا ۷۵٪ مصرف کمتر حافظهی KV-cache
• تا ۶.۳ برابر سرعت بیشتر در decode طولانیها
• معماری Hybrid: Kimi Delta Attention + MLA
• بهینهشده برای context طولانی و توان عبور بالا (throughput)
---
📊 نتایج بنچمارک:
در آزمونهای reasoning، تولید طولانی (long-RL) و وظایف متنی با context بالا،
مدل Kimi-Linear-48B-A3B-Base از مدلهای MLA و GDN-H پیشی گرفته است 🚀
این مدل نمونهای از روندی است که در آن معماریهای attention خطی نهتنها از نظر سرعت، بلکه از نظر کیفیت و دقت نیز به سطح مدلهای کلاسیک نزدیک شدهاند — یا حتی از آنها جلو زدهاند 🧠💬
---
🟠 GitHub:
github.com/MoonshotAI/Kimi-Linear
🟠 HuggingFace:
huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct
📡 @rss_ai_ir
#هوش_مصنوعی #Kimi #LLM #Transformer #Attention #AI #DeepLearning #MachineLearning
❤2👏1🙏1
🔔 پیشرفت بزرگ در هوش مصنوعی الهامگرفته از مغز — کاهش ۹۹٪ مصرف انرژی بدون افت دقت! ⚡🧠
❌پژوهشگران گروه NICE در دانشگاه Surrey روش جدیدی برای اتصال نورونهای مصنوعی طراحی کردهاند که از ساختار مغز انسان الهام گرفته است.
این روش با نام Topographical Sparse Mapping (TSM) شناخته میشود و هدف آن ایجاد شبکههای عصبی کممصرف اما دقیق است.
---
💡 ایدهی اصلی
✳️در شبکههای سنتی، هر نورون تقریباً به همهی نورونهای دیگر متصل است — کاری بسیار پرهزینه از نظر انرژی و زمان.
✳️در روش TSM، هر نورون فقط به نورونهای نزدیک یا مرتبط متصل میشود، درست مانند مغز که اتصالاتش بهینه و موضعی است.
✳️نسخهی پیشرفتهتر، Enhanced TSM (ETSM)، حتی فرآیند هرس (pruning) در مغز را شبیهسازی میکند تا اتصالات غیرضروری در طول یادگیری حذف شوند.
---
⚙️ نتایج شگفتانگیز
♻️تا ۹۹٪ کاهش در تراکم اتصالات (sparsity)
♻️مصرف انرژی کمتر از ۱٪ در مقایسه با روشهای استاندارد
♻️سرعت آموزش بسیار بالاتر
♻️دقتی برابر یا حتی بالاتر از شبکههای کلاسیک 💥
---
این دستاورد میتواند مسیر را برای نسل جدیدی از هوش مصنوعیهای نورومورفیک (Neuromorphic AI) و تراشههای هوشمند فوقکممصرف هموار کند — سامانههایی که واقعاً مانند مغز فکر و یاد میگیرند، نه فقط شبیه آن عمل میکنند.
https://x.com/dr_singularity/status/1984618986043003058?s=12
📡 @rss_ai_ir
#هوش_مصنوعی #Neuroscience #Neuromorphic #TSM #AI #انرژی #BrainInspiredAI #DeepLearning #تکنولوژی
❌پژوهشگران گروه NICE در دانشگاه Surrey روش جدیدی برای اتصال نورونهای مصنوعی طراحی کردهاند که از ساختار مغز انسان الهام گرفته است.
این روش با نام Topographical Sparse Mapping (TSM) شناخته میشود و هدف آن ایجاد شبکههای عصبی کممصرف اما دقیق است.
---
💡 ایدهی اصلی
✳️در شبکههای سنتی، هر نورون تقریباً به همهی نورونهای دیگر متصل است — کاری بسیار پرهزینه از نظر انرژی و زمان.
✳️در روش TSM، هر نورون فقط به نورونهای نزدیک یا مرتبط متصل میشود، درست مانند مغز که اتصالاتش بهینه و موضعی است.
✳️نسخهی پیشرفتهتر، Enhanced TSM (ETSM)، حتی فرآیند هرس (pruning) در مغز را شبیهسازی میکند تا اتصالات غیرضروری در طول یادگیری حذف شوند.
---
⚙️ نتایج شگفتانگیز
♻️تا ۹۹٪ کاهش در تراکم اتصالات (sparsity)
♻️مصرف انرژی کمتر از ۱٪ در مقایسه با روشهای استاندارد
♻️سرعت آموزش بسیار بالاتر
♻️دقتی برابر یا حتی بالاتر از شبکههای کلاسیک 💥
---
این دستاورد میتواند مسیر را برای نسل جدیدی از هوش مصنوعیهای نورومورفیک (Neuromorphic AI) و تراشههای هوشمند فوقکممصرف هموار کند — سامانههایی که واقعاً مانند مغز فکر و یاد میگیرند، نه فقط شبیه آن عمل میکنند.
https://x.com/dr_singularity/status/1984618986043003058?s=12
📡 @rss_ai_ir
#هوش_مصنوعی #Neuroscience #Neuromorphic #TSM #AI #انرژی #BrainInspiredAI #DeepLearning #تکنولوژی
❤1👍1👏1👌1
🧠 مدل ThinkMorph — جهش جدید در تفکر چندوجهی (Multimodal Reasoning) 🚀🖼️
پژوهشگران مدلی به نام ThinkMorph معرفی کردهاند که گامی فراتر از مدلهای چندوجهی (VLM) سنتی است —
مدلی که با تصویر و متن همزمان فکر میکند و در طول فرایند استدلال، خود را تصحیح و تکامل میدهد 🤯
---
⚙️ آموزش و نوآوری
✅مدل ThinkMorph بر اساس ۲۴٬۰۰۰ مسیر استدلال درهمتنیده (interleaved reasoning traces) آموزش دیده است — دادههایی که در آن متن و تصویر بهصورت مرحلهبهمرحله همدیگر را توضیح و تکمیل میکنند.
💡 نتیجه؟
♻️مدل در حین پاسخ دادن نه فقط توصیف میکند، بلکه بهصورت چندمرحلهای میاندیشد:
♻️ابتدا تصویر را تحلیل میکند 🧩
♻️سپس توضیح متنی مینویسد ✍️
♻️بعد بر اساس آن توضیح، برداشت تصویری جدید میسازد 🎨
♻️و این چرخه را تکرار میکند تا استدلالش دقیقتر شود.
---
🚀 تواناییهای کلیدی
🔹 رشد چشمگیر در مسائل دارای زمینهی بصری پیچیده
🔹 استدلال مرحلهبهمرحلهی متن–تصویر بهصورت پیشرونده
🔹 تواناییهای تازه: منطق تطبیقی، دستکاری تصویری خلاقانه، و بازبینی خودکار نتایج
---
این یعنی ThinkMorph دیگر صرفاً Visual Language Model نیست، بلکه مکانیسمی برای تفکر ترکیبی بینایی–زبانی است — مدلی که با دیدن یاد میگیرد و با نوشتن، دید خود را اصلاح میکند.
📄 پژوهش کامل در:
🔗 huggingface.co/papers/2510.27492
📡 @rss_ai_ir
#هوش_مصنوعی #ThinkMorph #VLM #MultimodalAI #AI #DeepLearning #VisionLanguage #Reasoning
پژوهشگران مدلی به نام ThinkMorph معرفی کردهاند که گامی فراتر از مدلهای چندوجهی (VLM) سنتی است —
مدلی که با تصویر و متن همزمان فکر میکند و در طول فرایند استدلال، خود را تصحیح و تکامل میدهد 🤯
---
⚙️ آموزش و نوآوری
✅مدل ThinkMorph بر اساس ۲۴٬۰۰۰ مسیر استدلال درهمتنیده (interleaved reasoning traces) آموزش دیده است — دادههایی که در آن متن و تصویر بهصورت مرحلهبهمرحله همدیگر را توضیح و تکمیل میکنند.
💡 نتیجه؟
♻️مدل در حین پاسخ دادن نه فقط توصیف میکند، بلکه بهصورت چندمرحلهای میاندیشد:
♻️ابتدا تصویر را تحلیل میکند 🧩
♻️سپس توضیح متنی مینویسد ✍️
♻️بعد بر اساس آن توضیح، برداشت تصویری جدید میسازد 🎨
♻️و این چرخه را تکرار میکند تا استدلالش دقیقتر شود.
---
🚀 تواناییهای کلیدی
🔹 رشد چشمگیر در مسائل دارای زمینهی بصری پیچیده
🔹 استدلال مرحلهبهمرحلهی متن–تصویر بهصورت پیشرونده
🔹 تواناییهای تازه: منطق تطبیقی، دستکاری تصویری خلاقانه، و بازبینی خودکار نتایج
---
این یعنی ThinkMorph دیگر صرفاً Visual Language Model نیست، بلکه مکانیسمی برای تفکر ترکیبی بینایی–زبانی است — مدلی که با دیدن یاد میگیرد و با نوشتن، دید خود را اصلاح میکند.
📄 پژوهش کامل در:
🔗 huggingface.co/papers/2510.27492
📡 @rss_ai_ir
#هوش_مصنوعی #ThinkMorph #VLM #MultimodalAI #AI #DeepLearning #VisionLanguage #Reasoning
❤1
🚀 مدل زبانی با کانتکست ۶۴k+ روی GPU مصرفی! 🤯💪
در پروژهی جدید ModelScope SWIFT، محققان نشان دادند که میتوان مدلهای زبانی بزرگ (LLM) را با کانتکستهای عظیم تا ۶۵٬۰۰۰ توکن حتی روی GPUهای غیرسروری آموزش داد —
آنهم با ترکیب خلاقانهی دو تکنیک: Ulysses + Ring Attention ⚙️
---
🔹 چطور کار میکند:
✅ Ulysses —
تقسیم توجه (attention) بر اساس headها، با مصرف بسیار کم پهنای باند.
⚠️ محدودیتش زمانی است که تعداد headها کم باشد.
✅ Ring Attention —
مقیاسپذیرتر است؛ ارتباطات را بهصورت حلقوی (P2P) بین GPUها برقرار میکند
و با الگوریتم "زیگزاگ" برای مدلهای causal، توازن بهتری ایجاد میکند.
💡 ترکیب این دو روش:
ابتدا Ulysses اجرا میشود، و وقتی دیگر کفایت نکند (مثل GQA یا خوشههای بالای ۸ GPU)، Ring بهصورت خودکار فعال میشود.
---
🔥 نتیجه:
مدل Qwen2.5-3B با طول دنبالهی ۶۵k:
از ۷۵.۴ GiB → ۱۷.۹ GiB VRAM روی ۸× A100 کاهش مصرف حافظه! 🚀
پشتیبانی کامل از:
♻️SFT / DPO / GRPO
♻️ورودیهای چندوجهی (multimodal)
♻️ساختار بدون padding
♻️سازگار با FlashAttention
📎 منابع:
🟠 توضیحات کامل
🟠 کد منبع
📡 @rss_ai_ir
#هوش_مصنوعی #LLM #Parallelism #AI #DeepLearning #ModelScope #Attention
در پروژهی جدید ModelScope SWIFT، محققان نشان دادند که میتوان مدلهای زبانی بزرگ (LLM) را با کانتکستهای عظیم تا ۶۵٬۰۰۰ توکن حتی روی GPUهای غیرسروری آموزش داد —
آنهم با ترکیب خلاقانهی دو تکنیک: Ulysses + Ring Attention ⚙️
---
🔹 چطور کار میکند:
✅ Ulysses —
تقسیم توجه (attention) بر اساس headها، با مصرف بسیار کم پهنای باند.
⚠️ محدودیتش زمانی است که تعداد headها کم باشد.
✅ Ring Attention —
مقیاسپذیرتر است؛ ارتباطات را بهصورت حلقوی (P2P) بین GPUها برقرار میکند
و با الگوریتم "زیگزاگ" برای مدلهای causal، توازن بهتری ایجاد میکند.
💡 ترکیب این دو روش:
ابتدا Ulysses اجرا میشود، و وقتی دیگر کفایت نکند (مثل GQA یا خوشههای بالای ۸ GPU)، Ring بهصورت خودکار فعال میشود.
---
🔥 نتیجه:
مدل Qwen2.5-3B با طول دنبالهی ۶۵k:
از ۷۵.۴ GiB → ۱۷.۹ GiB VRAM روی ۸× A100 کاهش مصرف حافظه! 🚀
پشتیبانی کامل از:
♻️SFT / DPO / GRPO
♻️ورودیهای چندوجهی (multimodal)
♻️ساختار بدون padding
♻️سازگار با FlashAttention
📎 منابع:
🟠 توضیحات کامل
🟠 کد منبع
📡 @rss_ai_ir
#هوش_مصنوعی #LLM #Parallelism #AI #DeepLearning #ModelScope #Attention
❤1
This media is not supported in your browser
VIEW IN TELEGRAM
🎙️ دو برنامهنویس ۲۳ ساله از هند دومین مدل متنباز هوش مصنوعی گفتار در جهان را ساختند!
مدل آنها با نام Maya1 اکنون در میان ۲۰ مدل برتر جهانی قرار دارد و حتی از بهترین راهحلهای Google هم پیشی گرفته است.
🔹 مشخصات فنی:
♻️۳ میلیارد پارامتر
♻️قابل اجرا روی یک GPU
♻️تولید بیش از ۲۰ نوع احساس مختلف در صدا
♻️تأخیر کمتر از ۱۰۰ میلیثانیه
💡 نتیجه واضح است:
امروز دیگر فقط غولهای فناوری نیستند که میتوانند مدلهای پیشرفته بسازند — هرکسی با اراده و دانش کافی میتواند دستاورد جهانی خلق کند.
🔗 huggingface.co/maya-research/maya1
@rss_ai_ir
#هوش_مصنوعی #AI #VoiceAI #TextToSpeech #Maya1 #هند #DeepLearning
مدل آنها با نام Maya1 اکنون در میان ۲۰ مدل برتر جهانی قرار دارد و حتی از بهترین راهحلهای Google هم پیشی گرفته است.
🔹 مشخصات فنی:
♻️۳ میلیارد پارامتر
♻️قابل اجرا روی یک GPU
♻️تولید بیش از ۲۰ نوع احساس مختلف در صدا
♻️تأخیر کمتر از ۱۰۰ میلیثانیه
💡 نتیجه واضح است:
امروز دیگر فقط غولهای فناوری نیستند که میتوانند مدلهای پیشرفته بسازند — هرکسی با اراده و دانش کافی میتواند دستاورد جهانی خلق کند.
🔗 huggingface.co/maya-research/maya1
@rss_ai_ir
#هوش_مصنوعی #AI #VoiceAI #TextToSpeech #Maya1 #هند #DeepLearning
❤🔥5❤1
🎸 Another BRIXEL in the Wall 🎸
🧠 پروژهی BRIXEL به کاربران اجازه میدهد تا با استفاده از backbone مدل DINOv3، نقشههای ویژگی (feature maps) با وضوح بالا تولید کنند — بدون نیاز به منابع محاسباتی سنگین!
🔹 طراحی شده برای کارایی بالا در بینایی کامپیوتری
🔹 کاهش مصرف GPU بدون افت کیفیت
🔹 مناسب برای پژوهشگران و توسعهدهندگان در حوزهی Vision Transformers
📄 مقاله:
arxiv.org/pdf/2511.05168
💙 مخزن GitHub:
github.com/alexanderlappe/BRIXEL
#AI #ComputerVision #DINOv3 #DeepLearning #BRIXEL
@rss_ai_ir
🧠 پروژهی BRIXEL به کاربران اجازه میدهد تا با استفاده از backbone مدل DINOv3، نقشههای ویژگی (feature maps) با وضوح بالا تولید کنند — بدون نیاز به منابع محاسباتی سنگین!
🔹 طراحی شده برای کارایی بالا در بینایی کامپیوتری
🔹 کاهش مصرف GPU بدون افت کیفیت
🔹 مناسب برای پژوهشگران و توسعهدهندگان در حوزهی Vision Transformers
📄 مقاله:
arxiv.org/pdf/2511.05168
💙 مخزن GitHub:
github.com/alexanderlappe/BRIXEL
#AI #ComputerVision #DINOv3 #DeepLearning #BRIXEL
@rss_ai_ir
This media is not supported in your browser
VIEW IN TELEGRAM
🐼مدل Pixel-Dense Embedding در مدل FlowFeat 🐼
محققان دانشگاه مونیخ (TUM Vision) مدل جدیدی به نام FlowFeat معرفی کردهاند — یک نمایش ویژگی چندوظیفهای و با وضوح بالا که قادر است توزیع حرکات ممکن در تصویر را بهصورت بردارهای فشرده (Embedding) نمایش دهد.
🧠 ایدهی کلیدی:
بهجای نمایش تنها یک حرکت برای هر پیکسل، FlowFeat چندین حرکت محتمل (motion profiles) را مدل میکند. این کار باعث افزایش دقت در وظایفی مانند Optical Flow، تخمین عمق، و درک صحنههای پویا میشود.
💡 ویژگیها:
♻️دقت بالا در پیشبینی حرکات ظریف در ویدیو
♻️مناسب برای چندین وظیفه (multi-task representation)
♻️نیاز محاسباتی پایین با حفظ جزئیات
♻️مبتنی بر معماری DINOv3 Backbone
📄 مقاله:
arxiv.org/pdf/2511.07696
💻 پروژه:
tum-vision.github.io/flowfeat
📦 کد منبع:
github.com/tum-vision/flowfeat
#FlowFeat #ComputerVision #MotionEstimation #DeepLearning #Neural #AI
محققان دانشگاه مونیخ (TUM Vision) مدل جدیدی به نام FlowFeat معرفی کردهاند — یک نمایش ویژگی چندوظیفهای و با وضوح بالا که قادر است توزیع حرکات ممکن در تصویر را بهصورت بردارهای فشرده (Embedding) نمایش دهد.
🧠 ایدهی کلیدی:
بهجای نمایش تنها یک حرکت برای هر پیکسل، FlowFeat چندین حرکت محتمل (motion profiles) را مدل میکند. این کار باعث افزایش دقت در وظایفی مانند Optical Flow، تخمین عمق، و درک صحنههای پویا میشود.
💡 ویژگیها:
♻️دقت بالا در پیشبینی حرکات ظریف در ویدیو
♻️مناسب برای چندین وظیفه (multi-task representation)
♻️نیاز محاسباتی پایین با حفظ جزئیات
♻️مبتنی بر معماری DINOv3 Backbone
📄 مقاله:
arxiv.org/pdf/2511.07696
💻 پروژه:
tum-vision.github.io/flowfeat
📦 کد منبع:
github.com/tum-vision/flowfeat
#FlowFeat #ComputerVision #MotionEstimation #DeepLearning #Neural #AI
🤖 VITRA —
مدل VLA مقیاسپذیر مایکروسافت برای یادگیری مهارتهای انسان از ویدیوهای واقعی
مایکروسافت پروژهٔ جدیدی به نام VITRA معرفی کرده که هدف آن انتقال مستقیم مهارتهای انسان به رباتهاست — فقط با استفاده از ویدیوهای واقعی، بدون سناریو و کاملاً ایگو-سنتریک (از دید انسان).
این یعنی ربات مهارتها را از مشاهدهٔ رفتار طبیعی انسانها یاد میگیرد، نه با دیتاستهای ساختگی یا دموهای دقیق آزمایشگاهی.
🔍 مدل VITRA دقیقاً چه میکند؟
ویدیوهای معمولی از دست انسان را به دیتاست کامل VLA تبدیل میکند
مدل Vision-Language-Action را برای حرکت دست انسان آموزش میدهد
همان مدل را روی دادههای ربات فاینتیون میکند تا روی ربات واقعی کار کند
🧩 چطور دیتاست عظیم ساخته میشود؟
♻️بازسازی کامل حرکت ۳بعدی دست انسان
♻️تعیین دقیق پوز دوربین و هماهنگی فضا
♻️تبدیل حرکت پیوسته به اکشنهای اتمی
♻️اضافه کردن توضیح متنی به هر بخش، مثل:
«چرخ را بگیر»، «دستگیره را بچرخان»، «شیء را بردار»
🧠 معماری مدل
مدل VLM بکاند برای درک بصری
دیفیوژن پالیسی برای تولید اکشن
توصیف اکشن با ۱۵ زاویهٔ مفصل + پوز و اورینتیشن دست (استاندارد MANO)
— مستقیماً قابل استفاده روی رباتهای انساننما
📈 نتایج کلیدی
پیشبینی zero-shot رفتار دست در محیطهای جدید
مقیاسپذیری قوی — کیفیت با افزایش داده رشد میکند
عملکرد بهتر نسبت به SOTA مثل EgoDex
کنترل واقعی ربات با موفقیت بالا در کارهای دستکاری (manipulation)
📅 زمان انتشار عمومی
مایکروسافت قول داده کد، داده و مدلها را تا ۳۰ نوامبر ۲۰۲۵ منتشر کند.
🔗 پروژه:
https://microsoft.github.io/VITRA/
🔗 مقاله:
https://arxiv.org/abs/2510.21571
#AI #Robotics #VLA #Microsoft #VITRA #MachineLearning
#ComputerVision #RobotLearning #ImitationLearning
#EgocentricVideo #Manipulation #DeepLearning
#HumanToRobot #EmbodiedAI #AutonomousSystems
مدل VLA مقیاسپذیر مایکروسافت برای یادگیری مهارتهای انسان از ویدیوهای واقعی
مایکروسافت پروژهٔ جدیدی به نام VITRA معرفی کرده که هدف آن انتقال مستقیم مهارتهای انسان به رباتهاست — فقط با استفاده از ویدیوهای واقعی، بدون سناریو و کاملاً ایگو-سنتریک (از دید انسان).
این یعنی ربات مهارتها را از مشاهدهٔ رفتار طبیعی انسانها یاد میگیرد، نه با دیتاستهای ساختگی یا دموهای دقیق آزمایشگاهی.
🔍 مدل VITRA دقیقاً چه میکند؟
ویدیوهای معمولی از دست انسان را به دیتاست کامل VLA تبدیل میکند
مدل Vision-Language-Action را برای حرکت دست انسان آموزش میدهد
همان مدل را روی دادههای ربات فاینتیون میکند تا روی ربات واقعی کار کند
🧩 چطور دیتاست عظیم ساخته میشود؟
♻️بازسازی کامل حرکت ۳بعدی دست انسان
♻️تعیین دقیق پوز دوربین و هماهنگی فضا
♻️تبدیل حرکت پیوسته به اکشنهای اتمی
♻️اضافه کردن توضیح متنی به هر بخش، مثل:
«چرخ را بگیر»، «دستگیره را بچرخان»، «شیء را بردار»
🧠 معماری مدل
مدل VLM بکاند برای درک بصری
دیفیوژن پالیسی برای تولید اکشن
توصیف اکشن با ۱۵ زاویهٔ مفصل + پوز و اورینتیشن دست (استاندارد MANO)
— مستقیماً قابل استفاده روی رباتهای انساننما
📈 نتایج کلیدی
پیشبینی zero-shot رفتار دست در محیطهای جدید
مقیاسپذیری قوی — کیفیت با افزایش داده رشد میکند
عملکرد بهتر نسبت به SOTA مثل EgoDex
کنترل واقعی ربات با موفقیت بالا در کارهای دستکاری (manipulation)
📅 زمان انتشار عمومی
مایکروسافت قول داده کد، داده و مدلها را تا ۳۰ نوامبر ۲۰۲۵ منتشر کند.
🔗 پروژه:
https://microsoft.github.io/VITRA/
🔗 مقاله:
https://arxiv.org/abs/2510.21571
#AI #Robotics #VLA #Microsoft #VITRA #MachineLearning
#ComputerVision #RobotLearning #ImitationLearning
#EgocentricVideo #Manipulation #DeepLearning
#HumanToRobot #EmbodiedAI #AutonomousSystems
👍1🔥1👏1
🔍 اگر با NanoBanana کار میکنید، این مطلب برای شماست!
خیلیها مدل NanoBanana را میشناسند و حرفهای از آن استفاده میکنند، اما پیدا کردن تمام تکنیکها و قابلیتهایش در یکجا همیشه سخت بوده.
حالا یک مقالهٔ فوقالعاده منتشر شده که همه چیز را یکجا و کامل توضیح میدهد — از اصول تا ترفندهای پیشرفته.
در این مقاله میبینید:
✨ پرومتنویسی مثل مهندسی
🟣 ساخت تصاویر پیچیده مثل بچهگربههای هتروکرومیا با رنگهای HEX و ترکیببندی سخت
🟣 رندر کامل یک صفحهٔ وب از صفر فقط با HTML + CSS + JS
🟣 تولید یک کاراکتر عجیبوغریب و دقیق با JSON (ترکیب Paladin + Pirate + Barista!)
---
🧩 مینی ریورسانجینیرینگ پرومت سیستم
نویسنده با تکنیک «magnet» تونسته بخشی از system prompt مدل را بیرون بکشد:
✳️سکشنهای Markdown
✳️قوانین با MUST و SHOULD
✳️جلوگیری از استایلهای قدیمی AI-Art
✳️و اینکه چطور مدل را وادار میکند دقیقتر و حرفگوشکنتر باشد
اگر در پرومتدیزاین، توسعه محصول یا ساخت اپهای مولتیمودال با NanoBanana/Gemini فعالیت دارید — این مقاله یک مرجع واقعی است.
📌 گیتهاب ابزارها و مثالها:
https://github.com/minimaxir/gemimg
---
هشتگها:
#AI #NanoBanana #Gemini #PromptEngineering #AIGeneration #DeepLearning #AIArt #Tech
خیلیها مدل NanoBanana را میشناسند و حرفهای از آن استفاده میکنند، اما پیدا کردن تمام تکنیکها و قابلیتهایش در یکجا همیشه سخت بوده.
حالا یک مقالهٔ فوقالعاده منتشر شده که همه چیز را یکجا و کامل توضیح میدهد — از اصول تا ترفندهای پیشرفته.
در این مقاله میبینید:
✨ پرومتنویسی مثل مهندسی
🟣 ساخت تصاویر پیچیده مثل بچهگربههای هتروکرومیا با رنگهای HEX و ترکیببندی سخت
🟣 رندر کامل یک صفحهٔ وب از صفر فقط با HTML + CSS + JS
🟣 تولید یک کاراکتر عجیبوغریب و دقیق با JSON (ترکیب Paladin + Pirate + Barista!)
---
🧩 مینی ریورسانجینیرینگ پرومت سیستم
نویسنده با تکنیک «magnet» تونسته بخشی از system prompt مدل را بیرون بکشد:
✳️سکشنهای Markdown
✳️قوانین با MUST و SHOULD
✳️جلوگیری از استایلهای قدیمی AI-Art
✳️و اینکه چطور مدل را وادار میکند دقیقتر و حرفگوشکنتر باشد
اگر در پرومتدیزاین، توسعه محصول یا ساخت اپهای مولتیمودال با NanoBanana/Gemini فعالیت دارید — این مقاله یک مرجع واقعی است.
📌 گیتهاب ابزارها و مثالها:
https://github.com/minimaxir/gemimg
---
هشتگها:
#AI #NanoBanana #Gemini #PromptEngineering #AIGeneration #DeepLearning #AIArt #Tech
👍2🔥1👌1
🚀 یک موتور قدرتمند برای مدلهای چندمودالی (Multimodal Models)
اگر با مدلهای ترکیبی متن–تصویر–ویدیو کار میکنید، LMMs-Engine یکی از بهترین فریمورکهای جدید است.
این موتور فوقسبک و بسیار انعطافپذیر، مخصوص آموزش و توسعهی مدلهای چندمودالی طراحی شده و حتی در مقیاسهای بزرگ هم کارایی بسیار بالایی دارد.
💡 ویژگیهای برجسته:
🔥 پشتیبانی از ۱۹+ معماری مختلف برای متن، تصویر، ویدیو و مدلهای ترکیبی
⚙️ بهینهسازی برای آموزش توزیعشده با مصرف حافظه بسیار کم
🧩 شامل دهها نمونه آماده اجرا برای شروع سریع با مدلهای مختلف
⚡ مناسب برای پژوهشگران، توسعهدهندگان و کسانی که به دنبال ساخت LMM اختصاصی هستند
📌 گیتهاب:
https://github.com/EvolvingLMMs-Lab/lmms-engine
---
#AI #ML #Multimodal #LMM #DeepLearning #OpenSource #MachineLearning #AIDev #NeuralNetworks
@rss_ai_ir
اگر با مدلهای ترکیبی متن–تصویر–ویدیو کار میکنید، LMMs-Engine یکی از بهترین فریمورکهای جدید است.
این موتور فوقسبک و بسیار انعطافپذیر، مخصوص آموزش و توسعهی مدلهای چندمودالی طراحی شده و حتی در مقیاسهای بزرگ هم کارایی بسیار بالایی دارد.
💡 ویژگیهای برجسته:
🔥 پشتیبانی از ۱۹+ معماری مختلف برای متن، تصویر، ویدیو و مدلهای ترکیبی
⚙️ بهینهسازی برای آموزش توزیعشده با مصرف حافظه بسیار کم
🧩 شامل دهها نمونه آماده اجرا برای شروع سریع با مدلهای مختلف
⚡ مناسب برای پژوهشگران، توسعهدهندگان و کسانی که به دنبال ساخت LMM اختصاصی هستند
📌 گیتهاب:
https://github.com/EvolvingLMMs-Lab/lmms-engine
---
#AI #ML #Multimodal #LMM #DeepLearning #OpenSource #MachineLearning #AIDev #NeuralNetworks
@rss_ai_ir
👍1🔥1🙏1