🪄 معرفی MagicTryOn؛ نسل تازهی ویدئو-پروبار مجازی 👗🎥
🔹 پروژهی MagicTryOn با بهرهگیری از Diffusion Transformer، امکان تغییر پوشاک روی ویدئو را فراهم میکند، بدون آنکه جزئیات لباس از بین برود.
✨ اجزای کلیدی:
✅مبتنی بر VideoX-Fun / Wan2.1-I2V-14B برای تولید ویدئو.
✅توصیف دقیق لباسها با کمک Qwen2.5-VL-7B-Instruct.
✅استفاده از ابزارهای مکمل مانند openpose و densepose برای هماهنگی بدن و لباس.
⚡️ دستاورد:
اگر به دنبال فاینتیون کردن WAN 2.1 برای پروبار مجازی بودید، این پروژه همان چیزی است که نیاز دارید.
📌 کد و جزئیات: GitHub
📖 پروژه: MagicTryOn
@rss_ai_ir
#هوش_مصنوعی #VirtualTryOn #Image2Video #Diffusion #Transformers #AIfashion
🔹 پروژهی MagicTryOn با بهرهگیری از Diffusion Transformer، امکان تغییر پوشاک روی ویدئو را فراهم میکند، بدون آنکه جزئیات لباس از بین برود.
✨ اجزای کلیدی:
✅مبتنی بر VideoX-Fun / Wan2.1-I2V-14B برای تولید ویدئو.
✅توصیف دقیق لباسها با کمک Qwen2.5-VL-7B-Instruct.
✅استفاده از ابزارهای مکمل مانند openpose و densepose برای هماهنگی بدن و لباس.
⚡️ دستاورد:
اگر به دنبال فاینتیون کردن WAN 2.1 برای پروبار مجازی بودید، این پروژه همان چیزی است که نیاز دارید.
📌 کد و جزئیات: GitHub
📖 پروژه: MagicTryOn
@rss_ai_ir
#هوش_مصنوعی #VirtualTryOn #Image2Video #Diffusion #Transformers #AIfashion
🥰104👍101🎉89❤87🔥86😁59👏56❤🔥19💯17🤩15😍12
🔥 RenderFormer
؛ آیندهی رندرینگ سهبعدی با هوش مصنوعی
مایکروسافت ریسرچ از مدل جدیدی به نام RenderFormer رونمایی کرده که میتواند جایگزین روشهای کلاسیک رندرینگ مثل Ray Tracing و Rasterization شود. این مدل فقط با یادگیری ماشین قادر است صحنههای سهبعدی واقعی با سایهها، بازتابها و نورپردازی جهانی تولید کند.
🔹 چطور کار میکند؟
✳️صحنه به صورت توکنهای مثلثی شامل موقعیت، نرمال و جنس ماده نمایش داده میشود.
✳️منابع نوری هم با مثلثها مدلسازی میشوند.
دو ترنسفورمر اصلی دارد:
1. مستقل از زاویه دید → برای سایهها و نور غیرمستقیم
2. وابسته به زاویه دید → برای بازتابها و افکتهای پرسپکتیوی
🔹 آموزش و نتایج
✅دیتاست: Objaverse با صدها هزار شیء سهبعدی
✅آموزش دو مرحلهای: ابتدا کیفیت پایینتر، سپس رندر با جزئیات بالا
✅خروجی: تصاویر واقعگرایانه با بازتابها و نورپردازی دقیق
🔹 محدودیتها و آینده
♻️در صحنههای بسیار پیچیده هنوز مقیاسپذیری سخت است
♻️نیازمند منابع محاسباتی سنگین
⛔️اما راه را برای نسل جدیدی از فناوریها باز میکند: از ویدیوهای واقعگرایانه تا کاربردهای رباتیک
📎 جزییات بیشتر:
🔗 RenderFormer - Microsoft Research
@rss_ai_ir
#RenderFormer #مایکروسافت #NeuralRendering #3DGraphics #هوش_مصنوعی #Transformers #GlobalIllumination
؛ آیندهی رندرینگ سهبعدی با هوش مصنوعی
مایکروسافت ریسرچ از مدل جدیدی به نام RenderFormer رونمایی کرده که میتواند جایگزین روشهای کلاسیک رندرینگ مثل Ray Tracing و Rasterization شود. این مدل فقط با یادگیری ماشین قادر است صحنههای سهبعدی واقعی با سایهها، بازتابها و نورپردازی جهانی تولید کند.
🔹 چطور کار میکند؟
✳️صحنه به صورت توکنهای مثلثی شامل موقعیت، نرمال و جنس ماده نمایش داده میشود.
✳️منابع نوری هم با مثلثها مدلسازی میشوند.
دو ترنسفورمر اصلی دارد:
1. مستقل از زاویه دید → برای سایهها و نور غیرمستقیم
2. وابسته به زاویه دید → برای بازتابها و افکتهای پرسپکتیوی
🔹 آموزش و نتایج
✅دیتاست: Objaverse با صدها هزار شیء سهبعدی
✅آموزش دو مرحلهای: ابتدا کیفیت پایینتر، سپس رندر با جزئیات بالا
✅خروجی: تصاویر واقعگرایانه با بازتابها و نورپردازی دقیق
🔹 محدودیتها و آینده
♻️در صحنههای بسیار پیچیده هنوز مقیاسپذیری سخت است
♻️نیازمند منابع محاسباتی سنگین
⛔️اما راه را برای نسل جدیدی از فناوریها باز میکند: از ویدیوهای واقعگرایانه تا کاربردهای رباتیک
📎 جزییات بیشتر:
🔗 RenderFormer - Microsoft Research
@rss_ai_ir
#RenderFormer #مایکروسافت #NeuralRendering #3DGraphics #هوش_مصنوعی #Transformers #GlobalIllumination
🥰41👍34🎉33👏32❤31🔥29😁28🤩6💯4❤🔥3😍2
🦀 RustGPT —
زبانمدل از صفر با Rust
این پروژه یک پیادهسازی کامل از مدل ترنسفورمر روی زبان Rust هست که بدون استفاده از هیچ فریمورک آمادهی ML ساخته شده.
🚀 ویژگیها:
آموزش پیشین (Pretraining) و فاینتیونینگ کامل برای دیالوگ 🤖
معماری ماژولار با جداسازی شفاف وظایف ⚡
استفاده از ndarray برای محاسبات ماتریسی 📊
پشتیبانی از گرادیاندسنت و Gradient Clipping 🎯
حالت تعاملی برای تست و گفتگو با مدل 💬
📌 سورس کد در گیتهاب:
👉 github.com/tekaratzas/RustGPT
—
#Rust #LLM #Transformers #هوش_مصنوعی #برنامهنویسی
زبانمدل از صفر با Rust
این پروژه یک پیادهسازی کامل از مدل ترنسفورمر روی زبان Rust هست که بدون استفاده از هیچ فریمورک آمادهی ML ساخته شده.
🚀 ویژگیها:
آموزش پیشین (Pretraining) و فاینتیونینگ کامل برای دیالوگ 🤖
معماری ماژولار با جداسازی شفاف وظایف ⚡
استفاده از ndarray برای محاسبات ماتریسی 📊
پشتیبانی از گرادیاندسنت و Gradient Clipping 🎯
حالت تعاملی برای تست و گفتگو با مدل 💬
📌 سورس کد در گیتهاب:
👉 github.com/tekaratzas/RustGPT
—
#Rust #LLM #Transformers #هوش_مصنوعی #برنامهنویسی
GitHub
GitHub - tekaratzas/RustGPT: An transformer based LLM. Written completely in Rust
An transformer based LLM. Written completely in Rust - tekaratzas/RustGPT
🎉19🔥18😁18👍13❤11👏9🥰8
🇵🇱 استارتاپ لهستانی Pathway معماری جدیدی از شبکههای عصبی معرفی کرد —
🧬 Biological Dragon Hatchling (BDH)
هدف از این پروژه، ترکیب دو مسیر اصلی تکامل هوش مصنوعی است: ترنسفورمرها و مدلهای الهامگرفته از مغز انسان.
مطالعات (از جمله پژوهش اخیر DeepMind) نشان دادهاند که بین ساختار مغز و معماری ترنسفورمر شباهتهای عمیقی وجود دارد — اما مدلهای زبانی امروزی هنوز فاقد چند ویژگی کلیدی مغز هستند.
در BDH، پژوهشگران Pathway تصمیم گرفتند این شکاف را پر کنند و برخی ویژگیهای واقعی مغز را درون ترنسفورمر «پیوند» دهند.
نتیجه، یک شبکه گرافی است که در آن:
نورونها → رأسها (nodes)
سیناپسها → یالهای وزندار (weighted edges) هستند.
هر نورون فقط با همسایگان خود ارتباط دارد — درست مثل مغز انسان 🧠
---
⚙️ روش یادگیری:
در این مدل از قانون هب (Hebb’s Rule) استفاده شده است — همان قانونی که در مغز واقعی هم برقرار است:
> «نورونهایی که با هم فعال میشوند، ارتباطشان قویتر میشود.»
اگر دو نورون A و B بارها همزمان فعال شوند، وزن سیناپس بین آنها افزایش مییابد.
در عمل، این مکانیزم مشابه نوعی توجه (attention) است.
---
🧠 حافظه کوتاهمدت و بلندمدت:
وزنها در این مدل به دو بخش تقسیم میشوند:
ثابت (Fixed weights): حافظه بلندمدت؛ فقط در مرحله آموزش بهروز میشوند.
پویا (Dynamic weights): حافظه کوتاهمدت؛ در طول فرایند استدلال تغییر میکنند.
هر گام استدلال، در واقع نوعی «بهروزرسانی محلی» در شبکه سیناپسی است.
---
💻 نسخهی تانسوری (BDH-GPU):
✳️برای آموزش سریعتر، نسخهای از BDH بهصورت تانسوری بازنویسی شده که با ماتریسها و وکتورها کار میکند — یعنی میتوان آن را مثل ترنسفورمر معمولی آموزش داد.
✳️ساختار شامل لایههای Attention، MLP، ReLU و اکتیواسیونهای اختصاصی است.
---
📊 نتایج جالب:
1️⃣ قابلیت تفسیر بالا:
هر جفت نورون (i, j) سیناپس مخصوص به خود را دارد و وضعیت آن قابل مشاهده است.
هر نورون معنای مشخصی دارد — واقعاً یک مفهوم واحد را نمایش میدهد.
2️⃣ ادغام ساده مدلها:
دو مدل BDH را میتوان با یک کنکات ساده (concatenation) به هم متصل کرد — فوقالعاده برای مقیاسپذیری.
3️⃣ قانون مقیاس (Scaling Laws):
همچنین BDH همان رفتار مقیاسپذیری GPT-2 را نشان میدهد، و در تعداد پارامتر برابر، به دقت مشابهی در چندین وظیفه دست یافته است.
این یعنی هسته اصلی توان ترنسفورمر حفظ شده است ⚡
---
🔗 کد منبع در GitHub
📄 مقاله در arXiv
@rss_ai_ir
#هوش_مصنوعی #شبکه_عصبی #Pathway #BDH #AI #DeepLearning #Neuroscience #Transformers
🧬 Biological Dragon Hatchling (BDH)
هدف از این پروژه، ترکیب دو مسیر اصلی تکامل هوش مصنوعی است: ترنسفورمرها و مدلهای الهامگرفته از مغز انسان.
مطالعات (از جمله پژوهش اخیر DeepMind) نشان دادهاند که بین ساختار مغز و معماری ترنسفورمر شباهتهای عمیقی وجود دارد — اما مدلهای زبانی امروزی هنوز فاقد چند ویژگی کلیدی مغز هستند.
در BDH، پژوهشگران Pathway تصمیم گرفتند این شکاف را پر کنند و برخی ویژگیهای واقعی مغز را درون ترنسفورمر «پیوند» دهند.
نتیجه، یک شبکه گرافی است که در آن:
نورونها → رأسها (nodes)
سیناپسها → یالهای وزندار (weighted edges) هستند.
هر نورون فقط با همسایگان خود ارتباط دارد — درست مثل مغز انسان 🧠
---
⚙️ روش یادگیری:
در این مدل از قانون هب (Hebb’s Rule) استفاده شده است — همان قانونی که در مغز واقعی هم برقرار است:
> «نورونهایی که با هم فعال میشوند، ارتباطشان قویتر میشود.»
اگر دو نورون A و B بارها همزمان فعال شوند، وزن سیناپس بین آنها افزایش مییابد.
در عمل، این مکانیزم مشابه نوعی توجه (attention) است.
---
🧠 حافظه کوتاهمدت و بلندمدت:
وزنها در این مدل به دو بخش تقسیم میشوند:
ثابت (Fixed weights): حافظه بلندمدت؛ فقط در مرحله آموزش بهروز میشوند.
پویا (Dynamic weights): حافظه کوتاهمدت؛ در طول فرایند استدلال تغییر میکنند.
هر گام استدلال، در واقع نوعی «بهروزرسانی محلی» در شبکه سیناپسی است.
---
💻 نسخهی تانسوری (BDH-GPU):
✳️برای آموزش سریعتر، نسخهای از BDH بهصورت تانسوری بازنویسی شده که با ماتریسها و وکتورها کار میکند — یعنی میتوان آن را مثل ترنسفورمر معمولی آموزش داد.
✳️ساختار شامل لایههای Attention، MLP، ReLU و اکتیواسیونهای اختصاصی است.
---
📊 نتایج جالب:
1️⃣ قابلیت تفسیر بالا:
هر جفت نورون (i, j) سیناپس مخصوص به خود را دارد و وضعیت آن قابل مشاهده است.
هر نورون معنای مشخصی دارد — واقعاً یک مفهوم واحد را نمایش میدهد.
2️⃣ ادغام ساده مدلها:
دو مدل BDH را میتوان با یک کنکات ساده (concatenation) به هم متصل کرد — فوقالعاده برای مقیاسپذیری.
3️⃣ قانون مقیاس (Scaling Laws):
همچنین BDH همان رفتار مقیاسپذیری GPT-2 را نشان میدهد، و در تعداد پارامتر برابر، به دقت مشابهی در چندین وظیفه دست یافته است.
این یعنی هسته اصلی توان ترنسفورمر حفظ شده است ⚡
---
🔗 کد منبع در GitHub
📄 مقاله در arXiv
@rss_ai_ir
#هوش_مصنوعی #شبکه_عصبی #Pathway #BDH #AI #DeepLearning #Neuroscience #Transformers
👏2🙏1👌1
🤖 WorldVLA —
ترکیب VLA و World Model در یک هستهی خودمولد (Autoregressive Core)
شرکت Alibaba از مدل جدیدی به نام WorldVLA رونمایی کرده است — گامی بزرگ بهسوی ساخت مدل خودبازگشتی جهانِ کنشها، جایی که یک معماری واحد همزمان میتواند فریمهای بعدی و اقدامات عامل (agent) را پیشبینی کند.
🧠 ایدهی اصلی:
مدل WorldVLA مدلهای Vision-Language-Action (VLA) و World Model را درون یک ترنسفورمر یکپارچه میکند:
ورودی: (image + language + action)
خروجی: (image + language + action)
یعنی مدل نهتنها دنیای فیزیکی را «درک» میکند، بلکه یاد میگیرد چگونه در آن «عمل» کند.
⚙️ نحوهی عملکرد:
معماری: یک ترنسفورمر واحد که بهطور همزمان روی دادههای مربوط به مدلهای کنش و مدلهای جهان آموزش میبیند.
تابع هزینه (Loss): ترکیبی از پیشبینی وضعیت محیط و پیشبینی کنشها.
ترفند کلیدی در Attention Mask: پنهانسازی کنشهای قبلی در هنگام تولید کنش فعلی — که باعث بهبود چشمگیر در کیفیت بخش «action-chunk» میشود.
📊 نتایج:
در آزمون LIBERO benchmark، مدل WorldVLA از مدلهایی که بهطور جداگانه برای کنش یا شبیهسازی جهان آموزش دیده بودند، بهتر عمل کرده است.
💬 بهطور خلاصه، Alibaba گام بعدی را بهسوی عاملهای AGI با درک واقعی از فیزیک جهان برداشته است —
جایی که یک هستهی واحد میتواند ادراک، پیشبینی و عمل را همزمان انجام دهد.
📄 مقاله:
arxiv.org/abs/2506.21539
💻 کد:
github.com/alibaba-damo-academy/WorldVLA
@rss_ai_ir
#هوش_مصنوعی #WorldModel #VLA #Alibaba #DeepLearning #Transformers #AGI
ترکیب VLA و World Model در یک هستهی خودمولد (Autoregressive Core)
شرکت Alibaba از مدل جدیدی به نام WorldVLA رونمایی کرده است — گامی بزرگ بهسوی ساخت مدل خودبازگشتی جهانِ کنشها، جایی که یک معماری واحد همزمان میتواند فریمهای بعدی و اقدامات عامل (agent) را پیشبینی کند.
🧠 ایدهی اصلی:
مدل WorldVLA مدلهای Vision-Language-Action (VLA) و World Model را درون یک ترنسفورمر یکپارچه میکند:
ورودی: (image + language + action)
خروجی: (image + language + action)
یعنی مدل نهتنها دنیای فیزیکی را «درک» میکند، بلکه یاد میگیرد چگونه در آن «عمل» کند.
⚙️ نحوهی عملکرد:
معماری: یک ترنسفورمر واحد که بهطور همزمان روی دادههای مربوط به مدلهای کنش و مدلهای جهان آموزش میبیند.
تابع هزینه (Loss): ترکیبی از پیشبینی وضعیت محیط و پیشبینی کنشها.
ترفند کلیدی در Attention Mask: پنهانسازی کنشهای قبلی در هنگام تولید کنش فعلی — که باعث بهبود چشمگیر در کیفیت بخش «action-chunk» میشود.
📊 نتایج:
در آزمون LIBERO benchmark، مدل WorldVLA از مدلهایی که بهطور جداگانه برای کنش یا شبیهسازی جهان آموزش دیده بودند، بهتر عمل کرده است.
💬 بهطور خلاصه، Alibaba گام بعدی را بهسوی عاملهای AGI با درک واقعی از فیزیک جهان برداشته است —
جایی که یک هستهی واحد میتواند ادراک، پیشبینی و عمل را همزمان انجام دهد.
📄 مقاله:
arxiv.org/abs/2506.21539
💻 کد:
github.com/alibaba-damo-academy/WorldVLA
@rss_ai_ir
#هوش_مصنوعی #WorldModel #VLA #Alibaba #DeepLearning #Transformers #AGI
👏2👍1🔥1