VIRSUN

🪄 معرفی MagicTryOn؛ نسل تازه‌ی ویدئو-پروبار مجازی 👗🎥

🔹 پروژه‌ی MagicTryOn با بهره‌گیری از Diffusion Transformer، امکان تغییر پوشاک روی ویدئو را فراهم می‌کند، بدون آنکه جزئیات لباس از بین برود.

✨ اجزای کلیدی:

✅مبتنی بر VideoX-Fun / Wan2.1-I2V-14B برای تولید ویدئو.
✅توصیف دقیق لباس‌ها با کمک Qwen2.5-VL-7B-Instruct.
✅استفاده از ابزارهای مکمل مانند openpose و densepose برای هماهنگی بدن و لباس.

⚡️ دستاورد:
اگر به دنبال فاین‌تیون کردن WAN 2.1 برای پروبار مجازی بودید، این پروژه همان چیزی است که نیاز دارید.

📌 کد و جزئیات: GitHub
📖 پروژه: MagicTryOn

@rss_ai_ir

#هوش_مصنوعی #VirtualTryOn #Image2Video #Diffusion #Transformers #AIfashion

🥰104👍101🎉89❤87🔥86😁59👏56❤‍🔥19💯17🤩15😍12

1.53K views15:44

VIRSUN

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

🔥 RenderFormer
؛ آینده‌ی رندرینگ سه‌بعدی با هوش مصنوعی

مایکروسافت ریسرچ از مدل جدیدی به نام RenderFormer رونمایی کرده که می‌تواند جایگزین روش‌های کلاسیک رندرینگ مثل Ray Tracing و Rasterization شود. این مدل فقط با یادگیری ماشین قادر است صحنه‌های سه‌بعدی واقعی با سایه‌ها، بازتاب‌ها و نورپردازی جهانی تولید کند.

🔹 چطور کار می‌کند؟

✳️صحنه به صورت توکن‌های مثلثی شامل موقعیت، نرمال و جنس ماده نمایش داده می‌شود.
✳️منابع نوری هم با مثلث‌ها مدل‌سازی می‌شوند.

دو ترنسفورمر اصلی دارد:

1. مستقل از زاویه دید → برای سایه‌ها و نور غیرمستقیم
2. وابسته به زاویه دید → برای بازتاب‌ها و افکت‌های پرسپکتیوی

🔹 آموزش و نتایج

✅دیتاست: Objaverse با صدها هزار شیء سه‌بعدی
✅آموزش دو مرحله‌ای: ابتدا کیفیت پایین‌تر، سپس رندر با جزئیات بالا
✅خروجی: تصاویر واقع‌گرایانه با بازتاب‌ها و نورپردازی دقیق

🔹 محدودیت‌ها و آینده

♻️در صحنه‌های بسیار پیچیده هنوز مقیاس‌پذیری سخت است
♻️نیازمند منابع محاسباتی سنگین

⛔️اما راه را برای نسل جدیدی از فناوری‌ها باز می‌کند: از ویدیوهای واقع‌گرایانه تا کاربردهای رباتیک

📎 جزییات بیشتر:
🔗 RenderFormer - Microsoft Research

@rss_ai_ir

#RenderFormer #مایکروسافت #NeuralRendering #3DGraphics #هوش_مصنوعی #Transformers #GlobalIllumination

🥰41👍34🎉33👏32❤31🔥29😁28🤩6💯4❤‍🔥3😍2

1.33K views16:01

VIRSUN

🦀 RustGPT —
زبان‌مدل از صفر با Rust

این پروژه یک پیاده‌سازی کامل از مدل ترنسفورمر روی زبان Rust هست که بدون استفاده از هیچ فریم‌ورک آماده‌ی ML ساخته شده.

🚀 ویژگی‌ها:

آموزش پیشین (Pretraining) و فاین‌تیونینگ کامل برای دیالوگ 🤖

معماری ماژولار با جداسازی شفاف وظایف ⚡

استفاده از ndarray برای محاسبات ماتریسی 📊

پشتیبانی از گرادیان‌دسنت و Gradient Clipping 🎯

حالت تعاملی برای تست و گفتگو با مدل 💬

📌 سورس کد در گیت‌هاب:
👉 github.com/tekaratzas/RustGPT

—
#Rust #LLM #Transformers #هوش_مصنوعی #برنامه‌نویسی

GitHub

GitHub - tekaratzas/RustGPT: An transformer based LLM. Written completely in Rust

An transformer based LLM. Written completely in Rust - tekaratzas/RustGPT

🎉19🔥18😁18👍13❤11👏9🥰8

1.25K views13:57

VIRSUN

🇵🇱 استارتاپ لهستانی Pathway معماری جدیدی از شبکه‌های عصبی معرفی کرد —

🧬 Biological Dragon Hatchling (BDH)

هدف از این پروژه، ترکیب دو مسیر اصلی تکامل هوش مصنوعی است: ترنسفورمرها و مدل‌های الهام‌گرفته از مغز انسان.
مطالعات (از جمله پژوهش اخیر DeepMind) نشان داده‌اند که بین ساختار مغز و معماری ترنسفورمر شباهت‌های عمیقی وجود دارد — اما مدل‌های زبانی امروزی هنوز فاقد چند ویژگی کلیدی مغز هستند.

در BDH، پژوهشگران Pathway تصمیم گرفتند این شکاف را پر کنند و برخی ویژگی‌های واقعی مغز را درون ترنسفورمر «پیوند» دهند.
نتیجه، یک شبکه گرافی است که در آن:

نورون‌ها → رأس‌ها (nodes)

سیناپس‌ها → یال‌های وزن‌دار (weighted edges) هستند.
هر نورون فقط با همسایگان خود ارتباط دارد — درست مثل مغز انسان 🧠

---

⚙️ روش یادگیری:

در این مدل از قانون هب (Hebb’s Rule) استفاده شده است — همان قانونی که در مغز واقعی هم برقرار است:

> «نورون‌هایی که با هم فعال می‌شوند، ارتباط‌شان قوی‌تر می‌شود.»

اگر دو نورون A و B بارها همزمان فعال شوند، وزن سیناپس بین آنها افزایش می‌یابد.
در عمل، این مکانیزم مشابه نوعی توجه (attention) است.

---

🧠 حافظه کوتاه‌مدت و بلندمدت:

وزن‌ها در این مدل به دو بخش تقسیم می‌شوند:

ثابت (Fixed weights): حافظه بلندمدت؛ فقط در مرحله آموزش به‌روز می‌شوند.

پویا (Dynamic weights): حافظه کوتاه‌مدت؛ در طول فرایند استدلال تغییر می‌کنند.
هر گام استدلال، در واقع نوعی «به‌روزرسانی محلی» در شبکه سیناپسی است.

---

💻 نسخه‌ی تانسوری (BDH-GPU):

✳️برای آموزش سریع‌تر، نسخه‌ای از BDH به‌صورت تانسوری بازنویسی شده که با ماتریس‌ها و وکتورها کار می‌کند — یعنی می‌توان آن را مثل ترنسفورمر معمولی آموزش داد.
✳️ساختار شامل لایه‌های Attention، MLP، ReLU و اکتیواسیون‌های اختصاصی است.

---

📊 نتایج جالب:

1️⃣ قابلیت تفسیر بالا:
هر جفت نورون (i, j) سیناپس مخصوص به خود را دارد و وضعیت آن قابل مشاهده است.
هر نورون معنای مشخصی دارد — واقعاً یک مفهوم واحد را نمایش می‌دهد.

2️⃣ ادغام ساده مدل‌ها:
دو مدل BDH را می‌توان با یک کنکات ساده (concatenation) به هم متصل کرد — فوق‌العاده برای مقیاس‌پذیری.

3️⃣ قانون مقیاس (Scaling Laws):
همچنین BDH همان رفتار مقیاس‌پذیری GPT-2 را نشان می‌دهد، و در تعداد پارامتر برابر، به دقت مشابهی در چندین وظیفه دست یافته است.
این یعنی هسته اصلی توان ترنسفورمر حفظ شده است ⚡

---

🔗 کد منبع در GitHub
📄 مقاله در arXiv

@rss_ai_ir
#هوش_مصنوعی #شبکه_عصبی #Pathway #BDH #AI #DeepLearning #Neuroscience #Transformers

👏2🙏1👌1

4.09K views03:40

VIRSUN

🤖 WorldVLA —
ترکیب VLA و World Model در یک هسته‌ی خودمولد (Autoregressive Core)

شرکت Alibaba از مدل جدیدی به نام WorldVLA رونمایی کرده است — گامی بزرگ به‌سوی ساخت مدل خودبازگشتی جهانِ کنش‌ها، جایی که یک معماری واحد همزمان می‌تواند فریم‌های بعدی و اقدامات عامل (agent) را پیش‌بینی کند.

🧠 ایده‌ی اصلی:
مدل WorldVLA مدل‌های Vision-Language-Action (VLA) و World Model را درون یک ترنسفورمر یکپارچه می‌کند:

ورودی: (image + language + action)

خروجی: (image + language + action)

یعنی مدل نه‌تنها دنیای فیزیکی را «درک» می‌کند، بلکه یاد می‌گیرد چگونه در آن «عمل» کند.

⚙️ نحوه‌ی عملکرد:

معماری: یک ترنسفورمر واحد که به‌طور هم‌زمان روی داده‌های مربوط به مدل‌های کنش و مدل‌های جهان آموزش می‌بیند.

تابع هزینه (Loss): ترکیبی از پیش‌بینی وضعیت محیط و پیش‌بینی کنش‌ها.

ترفند کلیدی در Attention Mask: پنهان‌سازی کنش‌های قبلی در هنگام تولید کنش فعلی — که باعث بهبود چشمگیر در کیفیت بخش «action-chunk» می‌شود.

📊 نتایج:
در آزمون LIBERO benchmark، مدل WorldVLA از مدل‌هایی که به‌طور جداگانه برای کنش یا شبیه‌سازی جهان آموزش دیده بودند، بهتر عمل کرده است.

💬 به‌طور خلاصه، Alibaba گام بعدی را به‌سوی عامل‌های AGI با درک واقعی از فیزیک جهان برداشته است —
جایی که یک هسته‌ی واحد می‌تواند ادراک، پیش‌بینی و عمل را هم‌زمان انجام دهد.

📄 مقاله:
arxiv.org/abs/2506.21539
💻 کد:
github.com/alibaba-damo-academy/WorldVLA

@rss_ai_ir
#هوش_مصنوعی #WorldModel #VLA #Alibaba #DeepLearning #Transformers #AGI

👏2👍1🔥1

289 views04:46

About

Blog

Apps

Platform