💡⚡ انقلابی در پردازش تصویر با فوتونها، نه الکترونها!
پژوهشگران دانشگاه Tsinghua نخستین ماژول محاسبات نوری جهان را معرفی کردهاند:
🌀 OFE² — Optical Feature Extraction Engine
در این سیستم، بهجای عبور جریان الکترونی، فوتونها از میان عناصر دیفرکتیو و مدولاتورهای نوری عبور میکنند.
در این مسیر، فاز و دامنهی نور طوری تنظیم میشود که محاسبات ریاضی مورد نظر (مثل convolutions یا فیلترهای ویژگی) بهصورت کاملاً نوری انجام شود — بدون هیچ مدار الکترونیکی 💥
---
🔬 مزیت کلیدی:
از آنجا که نور با سرعت بسیار بالاتر حرکت میکند و گرما تولید نمیکند،
✅ فرکانس کاری بسیار بالاتر
✅ مصرف انرژی صدها برابر کمتر
✅ و زمان پردازش تا ۱۰۰۰ برابر سریعتر از تراشههای الکترونیکی معمولی بهدست میآید!
---
📸 در مقالهی منتشرشده، تیم نشان داده که OFE² میتواند روی وظیفهی واقعی استخراج ویژگی تصویر (Image Feature Extraction) اجرا شود.
به عبارت دیگر، میشود روی این تراشه مستقیماً عملیاتهایی مانند segmentation را انجام داد — کاملاً در دامنهی نوری (Optical Domain)، بدون نیاز به محاسبات هیبریدی 🧠💡
---
⚙️ هنوز این فناوری در مرحلهی تحقیقاتی است، اما نتایج اولیه نشان میدهد که عملکرد آن قابل مقایسه با CNNهای الکترونیکی است — با کسری از انرژی و زمان.
اگر مقیاسپذیری آن تحقق یابد، این میتواند فصل تازهای در پردازش نوری هوش مصنوعی باشد.
📄 [Paper — Tsinghua University, 2025]
📡 @rss_ai_ir
#هوش_مصنوعی #OpticalComputing #Tsinghua #OFE2 #Photonics #AI #DeepLearning #اپتوالکترونیک #CNN
پژوهشگران دانشگاه Tsinghua نخستین ماژول محاسبات نوری جهان را معرفی کردهاند:
🌀 OFE² — Optical Feature Extraction Engine
در این سیستم، بهجای عبور جریان الکترونی، فوتونها از میان عناصر دیفرکتیو و مدولاتورهای نوری عبور میکنند.
در این مسیر، فاز و دامنهی نور طوری تنظیم میشود که محاسبات ریاضی مورد نظر (مثل convolutions یا فیلترهای ویژگی) بهصورت کاملاً نوری انجام شود — بدون هیچ مدار الکترونیکی 💥
---
🔬 مزیت کلیدی:
از آنجا که نور با سرعت بسیار بالاتر حرکت میکند و گرما تولید نمیکند،
✅ فرکانس کاری بسیار بالاتر
✅ مصرف انرژی صدها برابر کمتر
✅ و زمان پردازش تا ۱۰۰۰ برابر سریعتر از تراشههای الکترونیکی معمولی بهدست میآید!
---
📸 در مقالهی منتشرشده، تیم نشان داده که OFE² میتواند روی وظیفهی واقعی استخراج ویژگی تصویر (Image Feature Extraction) اجرا شود.
به عبارت دیگر، میشود روی این تراشه مستقیماً عملیاتهایی مانند segmentation را انجام داد — کاملاً در دامنهی نوری (Optical Domain)، بدون نیاز به محاسبات هیبریدی 🧠💡
---
⚙️ هنوز این فناوری در مرحلهی تحقیقاتی است، اما نتایج اولیه نشان میدهد که عملکرد آن قابل مقایسه با CNNهای الکترونیکی است — با کسری از انرژی و زمان.
اگر مقیاسپذیری آن تحقق یابد، این میتواند فصل تازهای در پردازش نوری هوش مصنوعی باشد.
📄 [Paper — Tsinghua University, 2025]
📡 @rss_ai_ir
#هوش_مصنوعی #OpticalComputing #Tsinghua #OFE2 #Photonics #AI #DeepLearning #اپتوالکترونیک #CNN
🔥2❤1👏1👌1
📘🤖مجموعه Hugging Face منتشر کرد:
Smol Training Playbook
تازهترین منبع آموزشی Hugging Face منتشر شده —
یک پلیبوک رایگان و عملی دربارهی نحوهی ساخت مدلهای SOTA از درون تیمهای تحقیقاتی 💡
بدون حرفهای کلی، فقط جزییات واقعی از تجربیات توسعهدهندگان در طراحی، آموزش و بهینهسازی LLMها.
---
📚 آنچه در پلیبوک میآموزید:
• منطق ساخت مدل: از «چرا» تا «چگونه»
• نحوهی روشن و خاموشکردن یا تعویض ماژولها در معماری
• طراحی معماری و توازن بین دقت، هزینه و سرعت
• انتخاب و پاکسازی هوشمند دادهها
• فرآیند آموزش، پسپردازش و RLHF در ۲۰۲۵
• ترفندهای بهینهسازی: RoPE، کوانتیزهسازی، attention approximation
• زیرساخت و مهندسی سیستم برای مدلهای بزرگ
---
🔗 لینک مستقیم:
https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture
📡 @rss_ai_ir
#هوش_مصنوعی #HuggingFace #LLM #MachineLearning #DeepLearning #Training #AI #Playbook
Smol Training Playbook
تازهترین منبع آموزشی Hugging Face منتشر شده —
یک پلیبوک رایگان و عملی دربارهی نحوهی ساخت مدلهای SOTA از درون تیمهای تحقیقاتی 💡
بدون حرفهای کلی، فقط جزییات واقعی از تجربیات توسعهدهندگان در طراحی، آموزش و بهینهسازی LLMها.
---
📚 آنچه در پلیبوک میآموزید:
• منطق ساخت مدل: از «چرا» تا «چگونه»
• نحوهی روشن و خاموشکردن یا تعویض ماژولها در معماری
• طراحی معماری و توازن بین دقت، هزینه و سرعت
• انتخاب و پاکسازی هوشمند دادهها
• فرآیند آموزش، پسپردازش و RLHF در ۲۰۲۵
• ترفندهای بهینهسازی: RoPE، کوانتیزهسازی، attention approximation
• زیرساخت و مهندسی سیستم برای مدلهای بزرگ
---
🔗 لینک مستقیم:
https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture
📡 @rss_ai_ir
#هوش_مصنوعی #HuggingFace #LLM #MachineLearning #DeepLearning #Training #AI #Playbook
🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🧷 رهگیری نقطهای مولد با Flow Matching (GenPT) 🧷
🔹 مدل Generative Point Tracker (GenPT) چارچوبی نوآورانه برای مدلسازی تراژکتوریهای چندوجهی نقاط است
— یعنی قادر است مسیرهای مختلف و احتمالی حرکت یک نقطه را بهصورت همزمان بیاموزد و بازسازی کند 🎯
این مدل با استفاده از روش Flow Matching (FM)، یاد میگیرد تا الگوهای حرکت پیچیده را در دادههای ویدئویی بازتولید کند و در نتیجه در رهگیری نقاطی که دچار انسداد (occlusion) یا تغییرات شدید صحنه میشوند عملکردی پایدار و دقیق دارد 🔍📸
---
📘 ویژگیهای کلیدی:
• مدل مولد (Generative) برای پیشبینی چند مسیر ممکن از یک نقطه
• بازسازی دقیق مسیر حتی در شرایط ناپدید شدن یا پوشش جزئی شیء
• عملکرد در حد یا بالاتر از مدلهای CNN سنتی در بنچمارکهای PointOdyssey، Dynamic Replica و TAP-Vid
• پیادهسازی متنباز با مجوز MIT 🔵
---
🔗 لینکها:
📘 مقاله:
arxiv.org/pdf/2510.20951
🌐 پروژه:
https://mtesfaldet.net/genpt_projpage/
💾 ریپازیتوری:
github.com/tesfaldet/genpt
📡 @rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #GenPT #FlowMatching #رهگیری_نقطه #AI #DeepLearning #ComputerVision
🔹 مدل Generative Point Tracker (GenPT) چارچوبی نوآورانه برای مدلسازی تراژکتوریهای چندوجهی نقاط است
— یعنی قادر است مسیرهای مختلف و احتمالی حرکت یک نقطه را بهصورت همزمان بیاموزد و بازسازی کند 🎯
این مدل با استفاده از روش Flow Matching (FM)، یاد میگیرد تا الگوهای حرکت پیچیده را در دادههای ویدئویی بازتولید کند و در نتیجه در رهگیری نقاطی که دچار انسداد (occlusion) یا تغییرات شدید صحنه میشوند عملکردی پایدار و دقیق دارد 🔍📸
---
📘 ویژگیهای کلیدی:
• مدل مولد (Generative) برای پیشبینی چند مسیر ممکن از یک نقطه
• بازسازی دقیق مسیر حتی در شرایط ناپدید شدن یا پوشش جزئی شیء
• عملکرد در حد یا بالاتر از مدلهای CNN سنتی در بنچمارکهای PointOdyssey، Dynamic Replica و TAP-Vid
• پیادهسازی متنباز با مجوز MIT 🔵
---
🔗 لینکها:
📘 مقاله:
arxiv.org/pdf/2510.20951
🌐 پروژه:
https://mtesfaldet.net/genpt_projpage/
💾 ریپازیتوری:
github.com/tesfaldet/genpt
📡 @rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #GenPT #FlowMatching #رهگیری_نقطه #AI #DeepLearning #ComputerVision
👍3🔥1
🧨 مدل جدید Kimi معرفی شد — Kimi-Linear-48B-A3B-Base
مدل تازهی Kimi با معماری Linear Attention آمده تا نشان دهد میشود با مصرف کمتر حافظه، همان سطح عملکرد مدلهای بزرگ LLM را در متنهای طولانی بهدست آورد ⚡📜
---
💡 ویژگیهای کلیدی:
• تا ۷۵٪ مصرف کمتر حافظهی KV-cache
• تا ۶.۳ برابر سرعت بیشتر در decode طولانیها
• معماری Hybrid: Kimi Delta Attention + MLA
• بهینهشده برای context طولانی و توان عبور بالا (throughput)
---
📊 نتایج بنچمارک:
در آزمونهای reasoning، تولید طولانی (long-RL) و وظایف متنی با context بالا،
مدل Kimi-Linear-48B-A3B-Base از مدلهای MLA و GDN-H پیشی گرفته است 🚀
این مدل نمونهای از روندی است که در آن معماریهای attention خطی نهتنها از نظر سرعت، بلکه از نظر کیفیت و دقت نیز به سطح مدلهای کلاسیک نزدیک شدهاند — یا حتی از آنها جلو زدهاند 🧠💬
---
🟠 GitHub:
github.com/MoonshotAI/Kimi-Linear
🟠 HuggingFace:
huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct
📡 @rss_ai_ir
#هوش_مصنوعی #Kimi #LLM #Transformer #Attention #AI #DeepLearning #MachineLearning
مدل تازهی Kimi با معماری Linear Attention آمده تا نشان دهد میشود با مصرف کمتر حافظه، همان سطح عملکرد مدلهای بزرگ LLM را در متنهای طولانی بهدست آورد ⚡📜
---
💡 ویژگیهای کلیدی:
• تا ۷۵٪ مصرف کمتر حافظهی KV-cache
• تا ۶.۳ برابر سرعت بیشتر در decode طولانیها
• معماری Hybrid: Kimi Delta Attention + MLA
• بهینهشده برای context طولانی و توان عبور بالا (throughput)
---
📊 نتایج بنچمارک:
در آزمونهای reasoning، تولید طولانی (long-RL) و وظایف متنی با context بالا،
مدل Kimi-Linear-48B-A3B-Base از مدلهای MLA و GDN-H پیشی گرفته است 🚀
این مدل نمونهای از روندی است که در آن معماریهای attention خطی نهتنها از نظر سرعت، بلکه از نظر کیفیت و دقت نیز به سطح مدلهای کلاسیک نزدیک شدهاند — یا حتی از آنها جلو زدهاند 🧠💬
---
🟠 GitHub:
github.com/MoonshotAI/Kimi-Linear
🟠 HuggingFace:
huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct
📡 @rss_ai_ir
#هوش_مصنوعی #Kimi #LLM #Transformer #Attention #AI #DeepLearning #MachineLearning
❤2👏1🙏1
🔔 پیشرفت بزرگ در هوش مصنوعی الهامگرفته از مغز — کاهش ۹۹٪ مصرف انرژی بدون افت دقت! ⚡🧠
❌پژوهشگران گروه NICE در دانشگاه Surrey روش جدیدی برای اتصال نورونهای مصنوعی طراحی کردهاند که از ساختار مغز انسان الهام گرفته است.
این روش با نام Topographical Sparse Mapping (TSM) شناخته میشود و هدف آن ایجاد شبکههای عصبی کممصرف اما دقیق است.
---
💡 ایدهی اصلی
✳️در شبکههای سنتی، هر نورون تقریباً به همهی نورونهای دیگر متصل است — کاری بسیار پرهزینه از نظر انرژی و زمان.
✳️در روش TSM، هر نورون فقط به نورونهای نزدیک یا مرتبط متصل میشود، درست مانند مغز که اتصالاتش بهینه و موضعی است.
✳️نسخهی پیشرفتهتر، Enhanced TSM (ETSM)، حتی فرآیند هرس (pruning) در مغز را شبیهسازی میکند تا اتصالات غیرضروری در طول یادگیری حذف شوند.
---
⚙️ نتایج شگفتانگیز
♻️تا ۹۹٪ کاهش در تراکم اتصالات (sparsity)
♻️مصرف انرژی کمتر از ۱٪ در مقایسه با روشهای استاندارد
♻️سرعت آموزش بسیار بالاتر
♻️دقتی برابر یا حتی بالاتر از شبکههای کلاسیک 💥
---
این دستاورد میتواند مسیر را برای نسل جدیدی از هوش مصنوعیهای نورومورفیک (Neuromorphic AI) و تراشههای هوشمند فوقکممصرف هموار کند — سامانههایی که واقعاً مانند مغز فکر و یاد میگیرند، نه فقط شبیه آن عمل میکنند.
https://x.com/dr_singularity/status/1984618986043003058?s=12
📡 @rss_ai_ir
#هوش_مصنوعی #Neuroscience #Neuromorphic #TSM #AI #انرژی #BrainInspiredAI #DeepLearning #تکنولوژی
❌پژوهشگران گروه NICE در دانشگاه Surrey روش جدیدی برای اتصال نورونهای مصنوعی طراحی کردهاند که از ساختار مغز انسان الهام گرفته است.
این روش با نام Topographical Sparse Mapping (TSM) شناخته میشود و هدف آن ایجاد شبکههای عصبی کممصرف اما دقیق است.
---
💡 ایدهی اصلی
✳️در شبکههای سنتی، هر نورون تقریباً به همهی نورونهای دیگر متصل است — کاری بسیار پرهزینه از نظر انرژی و زمان.
✳️در روش TSM، هر نورون فقط به نورونهای نزدیک یا مرتبط متصل میشود، درست مانند مغز که اتصالاتش بهینه و موضعی است.
✳️نسخهی پیشرفتهتر، Enhanced TSM (ETSM)، حتی فرآیند هرس (pruning) در مغز را شبیهسازی میکند تا اتصالات غیرضروری در طول یادگیری حذف شوند.
---
⚙️ نتایج شگفتانگیز
♻️تا ۹۹٪ کاهش در تراکم اتصالات (sparsity)
♻️مصرف انرژی کمتر از ۱٪ در مقایسه با روشهای استاندارد
♻️سرعت آموزش بسیار بالاتر
♻️دقتی برابر یا حتی بالاتر از شبکههای کلاسیک 💥
---
این دستاورد میتواند مسیر را برای نسل جدیدی از هوش مصنوعیهای نورومورفیک (Neuromorphic AI) و تراشههای هوشمند فوقکممصرف هموار کند — سامانههایی که واقعاً مانند مغز فکر و یاد میگیرند، نه فقط شبیه آن عمل میکنند.
https://x.com/dr_singularity/status/1984618986043003058?s=12
📡 @rss_ai_ir
#هوش_مصنوعی #Neuroscience #Neuromorphic #TSM #AI #انرژی #BrainInspiredAI #DeepLearning #تکنولوژی
❤1👍1👏1👌1
🧠 مدل ThinkMorph — جهش جدید در تفکر چندوجهی (Multimodal Reasoning) 🚀🖼️
پژوهشگران مدلی به نام ThinkMorph معرفی کردهاند که گامی فراتر از مدلهای چندوجهی (VLM) سنتی است —
مدلی که با تصویر و متن همزمان فکر میکند و در طول فرایند استدلال، خود را تصحیح و تکامل میدهد 🤯
---
⚙️ آموزش و نوآوری
✅مدل ThinkMorph بر اساس ۲۴٬۰۰۰ مسیر استدلال درهمتنیده (interleaved reasoning traces) آموزش دیده است — دادههایی که در آن متن و تصویر بهصورت مرحلهبهمرحله همدیگر را توضیح و تکمیل میکنند.
💡 نتیجه؟
♻️مدل در حین پاسخ دادن نه فقط توصیف میکند، بلکه بهصورت چندمرحلهای میاندیشد:
♻️ابتدا تصویر را تحلیل میکند 🧩
♻️سپس توضیح متنی مینویسد ✍️
♻️بعد بر اساس آن توضیح، برداشت تصویری جدید میسازد 🎨
♻️و این چرخه را تکرار میکند تا استدلالش دقیقتر شود.
---
🚀 تواناییهای کلیدی
🔹 رشد چشمگیر در مسائل دارای زمینهی بصری پیچیده
🔹 استدلال مرحلهبهمرحلهی متن–تصویر بهصورت پیشرونده
🔹 تواناییهای تازه: منطق تطبیقی، دستکاری تصویری خلاقانه، و بازبینی خودکار نتایج
---
این یعنی ThinkMorph دیگر صرفاً Visual Language Model نیست، بلکه مکانیسمی برای تفکر ترکیبی بینایی–زبانی است — مدلی که با دیدن یاد میگیرد و با نوشتن، دید خود را اصلاح میکند.
📄 پژوهش کامل در:
🔗 huggingface.co/papers/2510.27492
📡 @rss_ai_ir
#هوش_مصنوعی #ThinkMorph #VLM #MultimodalAI #AI #DeepLearning #VisionLanguage #Reasoning
پژوهشگران مدلی به نام ThinkMorph معرفی کردهاند که گامی فراتر از مدلهای چندوجهی (VLM) سنتی است —
مدلی که با تصویر و متن همزمان فکر میکند و در طول فرایند استدلال، خود را تصحیح و تکامل میدهد 🤯
---
⚙️ آموزش و نوآوری
✅مدل ThinkMorph بر اساس ۲۴٬۰۰۰ مسیر استدلال درهمتنیده (interleaved reasoning traces) آموزش دیده است — دادههایی که در آن متن و تصویر بهصورت مرحلهبهمرحله همدیگر را توضیح و تکمیل میکنند.
💡 نتیجه؟
♻️مدل در حین پاسخ دادن نه فقط توصیف میکند، بلکه بهصورت چندمرحلهای میاندیشد:
♻️ابتدا تصویر را تحلیل میکند 🧩
♻️سپس توضیح متنی مینویسد ✍️
♻️بعد بر اساس آن توضیح، برداشت تصویری جدید میسازد 🎨
♻️و این چرخه را تکرار میکند تا استدلالش دقیقتر شود.
---
🚀 تواناییهای کلیدی
🔹 رشد چشمگیر در مسائل دارای زمینهی بصری پیچیده
🔹 استدلال مرحلهبهمرحلهی متن–تصویر بهصورت پیشرونده
🔹 تواناییهای تازه: منطق تطبیقی، دستکاری تصویری خلاقانه، و بازبینی خودکار نتایج
---
این یعنی ThinkMorph دیگر صرفاً Visual Language Model نیست، بلکه مکانیسمی برای تفکر ترکیبی بینایی–زبانی است — مدلی که با دیدن یاد میگیرد و با نوشتن، دید خود را اصلاح میکند.
📄 پژوهش کامل در:
🔗 huggingface.co/papers/2510.27492
📡 @rss_ai_ir
#هوش_مصنوعی #ThinkMorph #VLM #MultimodalAI #AI #DeepLearning #VisionLanguage #Reasoning
❤1
🚀 مدل زبانی با کانتکست ۶۴k+ روی GPU مصرفی! 🤯💪
در پروژهی جدید ModelScope SWIFT، محققان نشان دادند که میتوان مدلهای زبانی بزرگ (LLM) را با کانتکستهای عظیم تا ۶۵٬۰۰۰ توکن حتی روی GPUهای غیرسروری آموزش داد —
آنهم با ترکیب خلاقانهی دو تکنیک: Ulysses + Ring Attention ⚙️
---
🔹 چطور کار میکند:
✅ Ulysses —
تقسیم توجه (attention) بر اساس headها، با مصرف بسیار کم پهنای باند.
⚠️ محدودیتش زمانی است که تعداد headها کم باشد.
✅ Ring Attention —
مقیاسپذیرتر است؛ ارتباطات را بهصورت حلقوی (P2P) بین GPUها برقرار میکند
و با الگوریتم "زیگزاگ" برای مدلهای causal، توازن بهتری ایجاد میکند.
💡 ترکیب این دو روش:
ابتدا Ulysses اجرا میشود، و وقتی دیگر کفایت نکند (مثل GQA یا خوشههای بالای ۸ GPU)، Ring بهصورت خودکار فعال میشود.
---
🔥 نتیجه:
مدل Qwen2.5-3B با طول دنبالهی ۶۵k:
از ۷۵.۴ GiB → ۱۷.۹ GiB VRAM روی ۸× A100 کاهش مصرف حافظه! 🚀
پشتیبانی کامل از:
♻️SFT / DPO / GRPO
♻️ورودیهای چندوجهی (multimodal)
♻️ساختار بدون padding
♻️سازگار با FlashAttention
📎 منابع:
🟠 توضیحات کامل
🟠 کد منبع
📡 @rss_ai_ir
#هوش_مصنوعی #LLM #Parallelism #AI #DeepLearning #ModelScope #Attention
در پروژهی جدید ModelScope SWIFT، محققان نشان دادند که میتوان مدلهای زبانی بزرگ (LLM) را با کانتکستهای عظیم تا ۶۵٬۰۰۰ توکن حتی روی GPUهای غیرسروری آموزش داد —
آنهم با ترکیب خلاقانهی دو تکنیک: Ulysses + Ring Attention ⚙️
---
🔹 چطور کار میکند:
✅ Ulysses —
تقسیم توجه (attention) بر اساس headها، با مصرف بسیار کم پهنای باند.
⚠️ محدودیتش زمانی است که تعداد headها کم باشد.
✅ Ring Attention —
مقیاسپذیرتر است؛ ارتباطات را بهصورت حلقوی (P2P) بین GPUها برقرار میکند
و با الگوریتم "زیگزاگ" برای مدلهای causal، توازن بهتری ایجاد میکند.
💡 ترکیب این دو روش:
ابتدا Ulysses اجرا میشود، و وقتی دیگر کفایت نکند (مثل GQA یا خوشههای بالای ۸ GPU)، Ring بهصورت خودکار فعال میشود.
---
🔥 نتیجه:
مدل Qwen2.5-3B با طول دنبالهی ۶۵k:
از ۷۵.۴ GiB → ۱۷.۹ GiB VRAM روی ۸× A100 کاهش مصرف حافظه! 🚀
پشتیبانی کامل از:
♻️SFT / DPO / GRPO
♻️ورودیهای چندوجهی (multimodal)
♻️ساختار بدون padding
♻️سازگار با FlashAttention
📎 منابع:
🟠 توضیحات کامل
🟠 کد منبع
📡 @rss_ai_ir
#هوش_مصنوعی #LLM #Parallelism #AI #DeepLearning #ModelScope #Attention
❤1
This media is not supported in your browser
VIEW IN TELEGRAM
🎙️ دو برنامهنویس ۲۳ ساله از هند دومین مدل متنباز هوش مصنوعی گفتار در جهان را ساختند!
مدل آنها با نام Maya1 اکنون در میان ۲۰ مدل برتر جهانی قرار دارد و حتی از بهترین راهحلهای Google هم پیشی گرفته است.
🔹 مشخصات فنی:
♻️۳ میلیارد پارامتر
♻️قابل اجرا روی یک GPU
♻️تولید بیش از ۲۰ نوع احساس مختلف در صدا
♻️تأخیر کمتر از ۱۰۰ میلیثانیه
💡 نتیجه واضح است:
امروز دیگر فقط غولهای فناوری نیستند که میتوانند مدلهای پیشرفته بسازند — هرکسی با اراده و دانش کافی میتواند دستاورد جهانی خلق کند.
🔗 huggingface.co/maya-research/maya1
@rss_ai_ir
#هوش_مصنوعی #AI #VoiceAI #TextToSpeech #Maya1 #هند #DeepLearning
مدل آنها با نام Maya1 اکنون در میان ۲۰ مدل برتر جهانی قرار دارد و حتی از بهترین راهحلهای Google هم پیشی گرفته است.
🔹 مشخصات فنی:
♻️۳ میلیارد پارامتر
♻️قابل اجرا روی یک GPU
♻️تولید بیش از ۲۰ نوع احساس مختلف در صدا
♻️تأخیر کمتر از ۱۰۰ میلیثانیه
💡 نتیجه واضح است:
امروز دیگر فقط غولهای فناوری نیستند که میتوانند مدلهای پیشرفته بسازند — هرکسی با اراده و دانش کافی میتواند دستاورد جهانی خلق کند.
🔗 huggingface.co/maya-research/maya1
@rss_ai_ir
#هوش_مصنوعی #AI #VoiceAI #TextToSpeech #Maya1 #هند #DeepLearning
❤🔥5❤1
🎸 Another BRIXEL in the Wall 🎸
🧠 پروژهی BRIXEL به کاربران اجازه میدهد تا با استفاده از backbone مدل DINOv3، نقشههای ویژگی (feature maps) با وضوح بالا تولید کنند — بدون نیاز به منابع محاسباتی سنگین!
🔹 طراحی شده برای کارایی بالا در بینایی کامپیوتری
🔹 کاهش مصرف GPU بدون افت کیفیت
🔹 مناسب برای پژوهشگران و توسعهدهندگان در حوزهی Vision Transformers
📄 مقاله:
arxiv.org/pdf/2511.05168
💙 مخزن GitHub:
github.com/alexanderlappe/BRIXEL
#AI #ComputerVision #DINOv3 #DeepLearning #BRIXEL
@rss_ai_ir
🧠 پروژهی BRIXEL به کاربران اجازه میدهد تا با استفاده از backbone مدل DINOv3، نقشههای ویژگی (feature maps) با وضوح بالا تولید کنند — بدون نیاز به منابع محاسباتی سنگین!
🔹 طراحی شده برای کارایی بالا در بینایی کامپیوتری
🔹 کاهش مصرف GPU بدون افت کیفیت
🔹 مناسب برای پژوهشگران و توسعهدهندگان در حوزهی Vision Transformers
📄 مقاله:
arxiv.org/pdf/2511.05168
💙 مخزن GitHub:
github.com/alexanderlappe/BRIXEL
#AI #ComputerVision #DINOv3 #DeepLearning #BRIXEL
@rss_ai_ir
This media is not supported in your browser
VIEW IN TELEGRAM
🐼مدل Pixel-Dense Embedding در مدل FlowFeat 🐼
محققان دانشگاه مونیخ (TUM Vision) مدل جدیدی به نام FlowFeat معرفی کردهاند — یک نمایش ویژگی چندوظیفهای و با وضوح بالا که قادر است توزیع حرکات ممکن در تصویر را بهصورت بردارهای فشرده (Embedding) نمایش دهد.
🧠 ایدهی کلیدی:
بهجای نمایش تنها یک حرکت برای هر پیکسل، FlowFeat چندین حرکت محتمل (motion profiles) را مدل میکند. این کار باعث افزایش دقت در وظایفی مانند Optical Flow، تخمین عمق، و درک صحنههای پویا میشود.
💡 ویژگیها:
♻️دقت بالا در پیشبینی حرکات ظریف در ویدیو
♻️مناسب برای چندین وظیفه (multi-task representation)
♻️نیاز محاسباتی پایین با حفظ جزئیات
♻️مبتنی بر معماری DINOv3 Backbone
📄 مقاله:
arxiv.org/pdf/2511.07696
💻 پروژه:
tum-vision.github.io/flowfeat
📦 کد منبع:
github.com/tum-vision/flowfeat
#FlowFeat #ComputerVision #MotionEstimation #DeepLearning #Neural #AI
محققان دانشگاه مونیخ (TUM Vision) مدل جدیدی به نام FlowFeat معرفی کردهاند — یک نمایش ویژگی چندوظیفهای و با وضوح بالا که قادر است توزیع حرکات ممکن در تصویر را بهصورت بردارهای فشرده (Embedding) نمایش دهد.
🧠 ایدهی کلیدی:
بهجای نمایش تنها یک حرکت برای هر پیکسل، FlowFeat چندین حرکت محتمل (motion profiles) را مدل میکند. این کار باعث افزایش دقت در وظایفی مانند Optical Flow، تخمین عمق، و درک صحنههای پویا میشود.
💡 ویژگیها:
♻️دقت بالا در پیشبینی حرکات ظریف در ویدیو
♻️مناسب برای چندین وظیفه (multi-task representation)
♻️نیاز محاسباتی پایین با حفظ جزئیات
♻️مبتنی بر معماری DINOv3 Backbone
📄 مقاله:
arxiv.org/pdf/2511.07696
💻 پروژه:
tum-vision.github.io/flowfeat
📦 کد منبع:
github.com/tum-vision/flowfeat
#FlowFeat #ComputerVision #MotionEstimation #DeepLearning #Neural #AI