This media is not supported in your browser
VIEW IN TELEGRAM
✨ STARFlow-V:
نسل تازه مدلهای ویدئو با Normalizing Flow
@rss_ai_ir 🎥⚡
مدل STARFlow-V یک مدل کاملاً End-to-End برای تولید ویدئو است که بر پایهی Normalizing Flow ساخته شده — رویکردی که معمولاً کمتر در ویدئو استفاده میشود، اما حالا نتایج فوقالعادهای نشان داده است.
🔹 کیفیت بصری بالا + پیوستگی زمانی عالی
🔹 پیشبینی علّی (causal prediction) پایدار
🔹 معماری Global–Local Latent
🔹 استفاده از Flow-Score Matching
🔹 قدمی مهم برای ورود Flow Models به دنیای Video Gen
📄 Paper: arxiv.org/abs/2511.20462
🌐 Project: starflow-v.github.io
💻 Code: github.com/apple/ml-starflow
#VideoGeneration #NormalizingFlow #GenerativeAI #DeepLearning #ML @rss_ai_ir
نسل تازه مدلهای ویدئو با Normalizing Flow
@rss_ai_ir 🎥⚡
مدل STARFlow-V یک مدل کاملاً End-to-End برای تولید ویدئو است که بر پایهی Normalizing Flow ساخته شده — رویکردی که معمولاً کمتر در ویدئو استفاده میشود، اما حالا نتایج فوقالعادهای نشان داده است.
🔹 کیفیت بصری بالا + پیوستگی زمانی عالی
🔹 پیشبینی علّی (causal prediction) پایدار
🔹 معماری Global–Local Latent
🔹 استفاده از Flow-Score Matching
🔹 قدمی مهم برای ورود Flow Models به دنیای Video Gen
📄 Paper: arxiv.org/abs/2511.20462
🌐 Project: starflow-v.github.io
💻 Code: github.com/apple/ml-starflow
#VideoGeneration #NormalizingFlow #GenerativeAI #DeepLearning #ML @rss_ai_ir
🥰1
🔥 بهترین راهنمای فاینتیونینگ که امسال در arXiv میبینید!
اگر با مدلهای زبانی کار میکنید—چه مبتدی باشید چه حرفهای—این مقاله دقیقاً همان چیزی است که لازم دارید. یک راهنمای کامل، مرحلهبهمرحله و فوقالعاده منظم برای تسلط بر Fine-Tuning مدرن.
📘 مباحثی که پوشش میدهد:
🧠 مبانی NLP (برای اینکه بدانید زیرساخت مدل چه میگوید)
⚙️ روشهای PEFT / LoRA / QLoRA (تکنیکهای سبک برای آموزش مدلهای بزرگ روی GPUهای معمولی)
🔀اینکه Mixture of Experts (MoE) و نکات ریز مربوط به آموزش کارآمد
🧩 پایپلاین ۷ مرحلهای برای فاینتیونینگ حرفهای
🎯 توصیههای عملی، چکلیستها و اشتباهاتی که باید از آنها دوری کرد
📄 منبع:
https://arxiv.org/pdf/2408.13296v1
#AI #ML #FineTuning #LoRA #QLoRA #MoE #NLP #DeepLearning #arXiv
@rss_ai_ir
اگر با مدلهای زبانی کار میکنید—چه مبتدی باشید چه حرفهای—این مقاله دقیقاً همان چیزی است که لازم دارید. یک راهنمای کامل، مرحلهبهمرحله و فوقالعاده منظم برای تسلط بر Fine-Tuning مدرن.
📘 مباحثی که پوشش میدهد:
🧠 مبانی NLP (برای اینکه بدانید زیرساخت مدل چه میگوید)
⚙️ روشهای PEFT / LoRA / QLoRA (تکنیکهای سبک برای آموزش مدلهای بزرگ روی GPUهای معمولی)
🔀اینکه Mixture of Experts (MoE) و نکات ریز مربوط به آموزش کارآمد
🧩 پایپلاین ۷ مرحلهای برای فاینتیونینگ حرفهای
🎯 توصیههای عملی، چکلیستها و اشتباهاتی که باید از آنها دوری کرد
📄 منبع:
https://arxiv.org/pdf/2408.13296v1
#AI #ML #FineTuning #LoRA #QLoRA #MoE #NLP #DeepLearning #arXiv
@rss_ai_ir
👍2🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
✨ NAF: Zero-Shot Feature Upsampling via Neighborhood Attention Filtering ✨
📝 خلاصه کوتاه:
روش NAF یک تکنیک جدید برای Upsampling ویژگیها در مدلهای پایه بینایی (Vision Foundation Models) است — کاملاً بهصورت Zero-Shot و بدون هیچگونه بازآموزی.
این روش با یادگیری وزنهای تطبیقی بر اساس فضا + محتوا، دقت بالاتر و کارایی بهتر از آپسمپلرهای سنتی ارائه میدهد.
🔹 ویژگیهای کلیدی:
♻️آپسمپل کردن ویژگیهای VFM بدون نیاز به فاینتیون
♻️عملکرد SOTA در طیف گستردهای از وظایف بینایی
♻️کارایی بالا و مناسب برای استفاده در سیستمهای real-time
♻️قابل استفاده برای مدلهای مختلف بدون وابستگی به معماری خاص
🔗 Paper & Code:
• arXiv: https://arxiv.org/abs/2511.18452
• PDF: https://arxiv.org/pdf/2511.18452
• GitHub: https://github.com/valeoai/NAF
#ZeroShotLearning #ComputerVision #FeatureUpsampling #DeepLearning #AIResearch @rss_ai_ir
📝 خلاصه کوتاه:
روش NAF یک تکنیک جدید برای Upsampling ویژگیها در مدلهای پایه بینایی (Vision Foundation Models) است — کاملاً بهصورت Zero-Shot و بدون هیچگونه بازآموزی.
این روش با یادگیری وزنهای تطبیقی بر اساس فضا + محتوا، دقت بالاتر و کارایی بهتر از آپسمپلرهای سنتی ارائه میدهد.
🔹 ویژگیهای کلیدی:
♻️آپسمپل کردن ویژگیهای VFM بدون نیاز به فاینتیون
♻️عملکرد SOTA در طیف گستردهای از وظایف بینایی
♻️کارایی بالا و مناسب برای استفاده در سیستمهای real-time
♻️قابل استفاده برای مدلهای مختلف بدون وابستگی به معماری خاص
🔗 Paper & Code:
• arXiv: https://arxiv.org/abs/2511.18452
• PDF: https://arxiv.org/pdf/2511.18452
• GitHub: https://github.com/valeoai/NAF
#ZeroShotLearning #ComputerVision #FeatureUpsampling #DeepLearning #AIResearch @rss_ai_ir
❤1👍1🔥1🥰1
✨ مدل Step-Audio-R1؛ اولین مدل صوتی که ریزونینگِ مقیاسپذیر را به دنیای صدا آورد 🎧🤖
مدل Step-Audio-R1 نقطهعطفی در هوش مصنوعی صوتی است. برای اولین بار یک Audio-LLM توانسته همان الگوی «عمقِ ریزونینگ با افزایش کامپیوتر» (مثل R1 در متن) را در صوتِ زنده پیادهسازی کند.
---
🔥 ویژگیهای کلیدی
✳️درک عمیق سیگنال صوتی
✳️واکنش در زمان واقعی
✳️زنجیره استدلال مقیاسپذیر روی داده صوتی
✳️کاهش شدید خطا و حذف «حدسزدنهای بدون پشتوانه»
---
⚡ عملکرد
بهتر از Gemini 2.5 Pro و قابلمقایسه با Gemini 3 در بنچمارکهای پیچیده صوتی
دقت ۹۶٪ در دیالوگ بلادرنگ — بالاتر از GPT Realtime و Gemini 2.5 Flash
Time To First Token = فقط 0.92 ثانیه ⏱️
---
🎯 چرا متفاوت است؟
مدل از روش MGRD — Modality-Grounded Reasoning Distillation استفاده میکند.
یعنی ریزونینگ به نشانههای واقعی صوتی متصل میشود، نه به تخیلات مدل.
بهصورت ساده:
👉 مدل براساس «آنچه واقعاً شنیده میشود» فکر میکند، نه براساس متن.
این یعنی:
♻️خطای کمتر
♻️ریزونینگ قابلگسترش
♻️کاربردهای جدید برای صدا
---
🔗 لینکها
🎧 دمو:
https://stepaudiollm.github.io/step-audio-r1/
📄 مقاله:
https://arxiv.org/abs/2511.15848
🐙 گیتهاب:
https://github.com/stepfun-ai/Step-Audio-R1
---
#هوش_مصنوعی #AudioLLM #مدل_صوتی #ریزانینگ #AI #MachineLearning #DeepLearning
مدل Step-Audio-R1 نقطهعطفی در هوش مصنوعی صوتی است. برای اولین بار یک Audio-LLM توانسته همان الگوی «عمقِ ریزونینگ با افزایش کامپیوتر» (مثل R1 در متن) را در صوتِ زنده پیادهسازی کند.
---
🔥 ویژگیهای کلیدی
✳️درک عمیق سیگنال صوتی
✳️واکنش در زمان واقعی
✳️زنجیره استدلال مقیاسپذیر روی داده صوتی
✳️کاهش شدید خطا و حذف «حدسزدنهای بدون پشتوانه»
---
⚡ عملکرد
بهتر از Gemini 2.5 Pro و قابلمقایسه با Gemini 3 در بنچمارکهای پیچیده صوتی
دقت ۹۶٪ در دیالوگ بلادرنگ — بالاتر از GPT Realtime و Gemini 2.5 Flash
Time To First Token = فقط 0.92 ثانیه ⏱️
---
🎯 چرا متفاوت است؟
مدل از روش MGRD — Modality-Grounded Reasoning Distillation استفاده میکند.
یعنی ریزونینگ به نشانههای واقعی صوتی متصل میشود، نه به تخیلات مدل.
بهصورت ساده:
👉 مدل براساس «آنچه واقعاً شنیده میشود» فکر میکند، نه براساس متن.
این یعنی:
♻️خطای کمتر
♻️ریزونینگ قابلگسترش
♻️کاربردهای جدید برای صدا
---
🔗 لینکها
🎧 دمو:
https://stepaudiollm.github.io/step-audio-r1/
📄 مقاله:
https://arxiv.org/abs/2511.15848
🐙 گیتهاب:
https://github.com/stepfun-ai/Step-Audio-R1
---
#هوش_مصنوعی #AudioLLM #مدل_صوتی #ریزانینگ #AI #MachineLearning #DeepLearning
❤2👍2🔥1
🌟 مدل MedSAM-3؛ نسخهی پزشکیشدهی SAM 3 با درک زبان طبیعی
🧠 مدل MedSAM-3 تلاش میکند قابلیتهای قدرتمند سگمنتیشن مبتنی بر متن را از دنیای عمومی به حوزهٔ حساس پزشکی بیاورد.
در حالی که SAM 3 در تصاویر روزمره عالی عمل میکند، اما روی دادههای پزشکی مشکلات جدی داشت — از جمله اشتباهگرفتن ساختارهای آناتومیکی و ناتوانی در فهم اصطلاحات تخصصی.
مدل MedSAM-3 دقیقاً همین شکاف را پر میکند:
💬 پزشک فقط مینویسد: «توده پستان را سگمنت کن»
و مدل ناحیهٔ صحیح را در MRI، CT، سونوگرافی و پاتولوژی جدا میکند.
---
🔧 نحوهٔ آموزش مدل
برای دقت بالا در پزشکی، چنین کاری انجام شده:
انکودرهای تصویر و متن منجمد شدهاند تا توان اصلی SAM 3 حفظ شود
قسمتهای مربوط به دیتکتور با SFT روی دیتاستهای پزشکی آموزش دیدهاند
نتیجه: مدل هویت اصلی SAM 3 را حفظ میکند، اما زبان و ساختار پزشکی را هم میفهمد
---
📊 نتایج و عملکرد
بهترین نسخه، پیکربندی MedSAM-3 T+I (ترکیب متن + باکس محدودکننده) بوده و توانسته:
جلو بزند از U-Net
جلو بزند از MedSAM نسخه اول
دستیابی به:
Dice = 0.7772 روی BUSI
Dice = 0.8064 با کمک Agent و Gemini 3 Pro
این نتایج در پزشکی خیلی قوی محسوب میشوند.
---
🤖 مدل Agent هوشمند MedSAM-3
یک ابزار جذاب همراه مدل عرضه شده:
✳️برنامهریز هوشمند با Gemini 3 Pro
✳️تبدیل درخواست پزشک به زنجیرهٔ اقدامات
✳️اجرای چند مرحلهٔ بهبود برای سگمنتیشن دقیقتر
✳️افزایش محسوس دقت (Dice)
✳️این یعنی ورود جدی مدلهای Vision-Language-Agent به پزشکی.
---
📌 وضعیت انتشار
مدل فعلاً در قالب Tech Report منتشر شده، اما توسعهدهندگان قول دادهاند کد و وزنها را منتشر کنند.
برای فعالان حوزهٔ AI پزشکی بسیار مهم است.
https://arxiv.org/pdf/2511.19046
https://github.com/Joey-S-Liu/MedSAM3
---
@rss_ai_ir
#هوش_مصنوعی #پزشکی #Segmentation #MedSAM3 #SAM3 #ComputerVision #DeepLearning #MedicalAI
🧠 مدل MedSAM-3 تلاش میکند قابلیتهای قدرتمند سگمنتیشن مبتنی بر متن را از دنیای عمومی به حوزهٔ حساس پزشکی بیاورد.
در حالی که SAM 3 در تصاویر روزمره عالی عمل میکند، اما روی دادههای پزشکی مشکلات جدی داشت — از جمله اشتباهگرفتن ساختارهای آناتومیکی و ناتوانی در فهم اصطلاحات تخصصی.
مدل MedSAM-3 دقیقاً همین شکاف را پر میکند:
💬 پزشک فقط مینویسد: «توده پستان را سگمنت کن»
و مدل ناحیهٔ صحیح را در MRI، CT، سونوگرافی و پاتولوژی جدا میکند.
---
🔧 نحوهٔ آموزش مدل
برای دقت بالا در پزشکی، چنین کاری انجام شده:
انکودرهای تصویر و متن منجمد شدهاند تا توان اصلی SAM 3 حفظ شود
قسمتهای مربوط به دیتکتور با SFT روی دیتاستهای پزشکی آموزش دیدهاند
نتیجه: مدل هویت اصلی SAM 3 را حفظ میکند، اما زبان و ساختار پزشکی را هم میفهمد
---
📊 نتایج و عملکرد
بهترین نسخه، پیکربندی MedSAM-3 T+I (ترکیب متن + باکس محدودکننده) بوده و توانسته:
جلو بزند از U-Net
جلو بزند از MedSAM نسخه اول
دستیابی به:
Dice = 0.7772 روی BUSI
Dice = 0.8064 با کمک Agent و Gemini 3 Pro
این نتایج در پزشکی خیلی قوی محسوب میشوند.
---
🤖 مدل Agent هوشمند MedSAM-3
یک ابزار جذاب همراه مدل عرضه شده:
✳️برنامهریز هوشمند با Gemini 3 Pro
✳️تبدیل درخواست پزشک به زنجیرهٔ اقدامات
✳️اجرای چند مرحلهٔ بهبود برای سگمنتیشن دقیقتر
✳️افزایش محسوس دقت (Dice)
✳️این یعنی ورود جدی مدلهای Vision-Language-Agent به پزشکی.
---
📌 وضعیت انتشار
مدل فعلاً در قالب Tech Report منتشر شده، اما توسعهدهندگان قول دادهاند کد و وزنها را منتشر کنند.
برای فعالان حوزهٔ AI پزشکی بسیار مهم است.
https://arxiv.org/pdf/2511.19046
https://github.com/Joey-S-Liu/MedSAM3
---
@rss_ai_ir
#هوش_مصنوعی #پزشکی #Segmentation #MedSAM3 #SAM3 #ComputerVision #DeepLearning #MedicalAI
👍1🔥1👏1
🤖 استک GELab-Zero؛ نخستین استک کاملاً متنباز برای GUI-Agent ها
یک خبر مهم برای دنیای ایجنتها: استک GELab-Zero منتشر شد؛ ترکیبی کامل از مدل + زیرساخت که جایگزین متنباز برای سیستمهای سطح بالایی مثل GUI-Agent MCP محسوب میشود. نسخهای سبک، سریع و قابل اجرا بهصورت کامل روی سیستم شخصی شما 🚀
🔧 چه چیزهایی داخلش هست؟
مدل ۴B در سطح SOTA؛ سریع، کمهزینه و قابل اجرا روی GPUهای سبک
زیرساخت راهاندازی «تککلیک» بدون دردسرهای ADB
بنچمارک AndroidDaily بر اساس سناریوهای واقعی کاربران
📊 نتایج و عملکرد
دقت ۷۳.۴٪ روی AndroidDaily
عملکرد بهتر از مدلهای بزرگتری مثل GUI-Owl-32B
بالاتر از Gemini-2.5-pro-thinking و GPT-4o در تستهای GUI
برتری قابل توجه روی ScreenSpot، AndroidWorld و OSWorld
🎯 هدف استک مشخص است:
نصب کن، اجرا کن، شخصیسازی کن، و توسعه بده — بالاخره یک گزینهٔ متنباز واقعی برای GUI-Agent ها در دسترس است.
🔗 لینکها:
HuggingFace:
https://huggingface.co/stepfun-ai/GELab-Zero-4B-preview
GitHub:
https://github.com/stepfun-ai/gelab-zero
Blog:
https://opengelab.github.io/index.html
#GELabZero #AI #Agents #GUIAgents #MachineLearning #OpenSource #DeepLearning @rss_ai_ir
یک خبر مهم برای دنیای ایجنتها: استک GELab-Zero منتشر شد؛ ترکیبی کامل از مدل + زیرساخت که جایگزین متنباز برای سیستمهای سطح بالایی مثل GUI-Agent MCP محسوب میشود. نسخهای سبک، سریع و قابل اجرا بهصورت کامل روی سیستم شخصی شما 🚀
🔧 چه چیزهایی داخلش هست؟
مدل ۴B در سطح SOTA؛ سریع، کمهزینه و قابل اجرا روی GPUهای سبک
زیرساخت راهاندازی «تککلیک» بدون دردسرهای ADB
بنچمارک AndroidDaily بر اساس سناریوهای واقعی کاربران
📊 نتایج و عملکرد
دقت ۷۳.۴٪ روی AndroidDaily
عملکرد بهتر از مدلهای بزرگتری مثل GUI-Owl-32B
بالاتر از Gemini-2.5-pro-thinking و GPT-4o در تستهای GUI
برتری قابل توجه روی ScreenSpot، AndroidWorld و OSWorld
🎯 هدف استک مشخص است:
نصب کن، اجرا کن، شخصیسازی کن، و توسعه بده — بالاخره یک گزینهٔ متنباز واقعی برای GUI-Agent ها در دسترس است.
🔗 لینکها:
HuggingFace:
https://huggingface.co/stepfun-ai/GELab-Zero-4B-preview
GitHub:
https://github.com/stepfun-ai/gelab-zero
Blog:
https://opengelab.github.io/index.html
#GELabZero #AI #Agents #GUIAgents #MachineLearning #OpenSource #DeepLearning @rss_ai_ir
❤2
This media is not supported in your browser
VIEW IN TELEGRAM
🥭 ویرایش حرکت سهبعدی در ویدئو با Edit-by-Track 🥭
@rss_ai_ir
یک روش تازه برای کنترل دقیق حرکت در ویدئو معرفی شده است: Edit-by-Track.
در این روش، مسیر حرکت نقطههای سهبعدی مشخص میشود و مدل میتواند بر اساس همین مسیر:
✨ حرکت دوربین و سوژه را همزمان کنترل کند
✨ اشیای ناخواسته را حذف کند
✨ حرکت یک ویدئو را به ویدئوی دیگر منتقل کند
✨ ویرایش حرکتی بسیار طبیعی و تمیز ایجاد کند
مزیت اصلی این کار: کنترل مستقیم و شهودی روی مسیرهای سهبعدی بدون نیاز به ویرایش پیچیدهٔ فریمبهفریم.
🔗 Paper: https://arxiv.org/pdf/2512.02015
🔗 Project: https://edit-by-track.github.io/
#AI #VideoEditing #3DMotion #ComputerVision #DeepLearning
@rss_ai_ir
یک روش تازه برای کنترل دقیق حرکت در ویدئو معرفی شده است: Edit-by-Track.
در این روش، مسیر حرکت نقطههای سهبعدی مشخص میشود و مدل میتواند بر اساس همین مسیر:
✨ حرکت دوربین و سوژه را همزمان کنترل کند
✨ اشیای ناخواسته را حذف کند
✨ حرکت یک ویدئو را به ویدئوی دیگر منتقل کند
✨ ویرایش حرکتی بسیار طبیعی و تمیز ایجاد کند
مزیت اصلی این کار: کنترل مستقیم و شهودی روی مسیرهای سهبعدی بدون نیاز به ویرایش پیچیدهٔ فریمبهفریم.
🔗 Paper: https://arxiv.org/pdf/2512.02015
🔗 Project: https://edit-by-track.github.io/
#AI #VideoEditing #3DMotion #ComputerVision #DeepLearning
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 نسخه جدید نسلساز ویدیو Runway — مدل قدرتمند Gen-4.5 معرفی شد
🚀 ارتقای مهمی در کیفیت و کنترلپذیری ویدیوهای تولیدی ثبت شده است.
مدل Gen-4.5 اکنون تصاویر شفافتر، حرکت واقعگرایانهتر و انطباق دقیقتری با متن ایجاد میکند.
✨ بهبودهای کلیدی:
♻️جزئیات تصویری بسیار تمیزتر و واضحتر
♻️حرکتهای طبیعیتر انسان و اشیا
♻️نورپردازی و فیزیک بهتر، بدون artifacts
♻️هماهنگی عالی با پرامپت، حتی در صحنههای پیچیده و سریع
♻️کنترلهای پیشرفته برای دوربین، حرکت، ترکیببندی و صدا
🎞️ قابلیتها:
Image-to-Video
Video-to-Video
Keyframes
کنترل کامل حرکت دوربین
📊 رکورد کیفیت:
اینکه Gen-4.5 در رتبهبندی Artificial Analysis Text-to-Video امتیاز ۱۲۴۷ Elo را ثبت کرده و بالاتر از تمام مدلهای ویدیویی فعلی قرار گرفته است.
🔗 لینک اعلام رسمی:
https://app.runwayml.com/video-tools/
@rss_ai_ir
#Runway #Gen45 #VideoGeneration #AI #AIGeneration #DeepLearning #TechNews
🚀 ارتقای مهمی در کیفیت و کنترلپذیری ویدیوهای تولیدی ثبت شده است.
مدل Gen-4.5 اکنون تصاویر شفافتر، حرکت واقعگرایانهتر و انطباق دقیقتری با متن ایجاد میکند.
✨ بهبودهای کلیدی:
♻️جزئیات تصویری بسیار تمیزتر و واضحتر
♻️حرکتهای طبیعیتر انسان و اشیا
♻️نورپردازی و فیزیک بهتر، بدون artifacts
♻️هماهنگی عالی با پرامپت، حتی در صحنههای پیچیده و سریع
♻️کنترلهای پیشرفته برای دوربین، حرکت، ترکیببندی و صدا
🎞️ قابلیتها:
Image-to-Video
Video-to-Video
Keyframes
کنترل کامل حرکت دوربین
📊 رکورد کیفیت:
اینکه Gen-4.5 در رتبهبندی Artificial Analysis Text-to-Video امتیاز ۱۲۴۷ Elo را ثبت کرده و بالاتر از تمام مدلهای ویدیویی فعلی قرار گرفته است.
🔗 لینک اعلام رسمی:
https://app.runwayml.com/video-tools/
@rss_ai_ir
#Runway #Gen45 #VideoGeneration #AI #AIGeneration #DeepLearning #TechNews
❤1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 زیباترین تصویری که تا امروز از «درون ذهن یک مدل زبانی» دیدهایم!
در پاسخ به این سؤال همیشگی که «هوش مصنوعی دقیقاً چطور فکر میکند؟» — این بهترین و دقیقترین بصریسازی از فرایند محاسباتی یک LLM است. یک پرواز سهبعدی تعاملی از داخل شبکه Llama؛ اما اصول آن برای تمام ترنسفورمرها صادق است.
✨ چه چیزی را میبینیم؟
هر صفحه یک تنسور است؛ یک فریم از «فیلم ذهنی» مدل در لحظهٔ پردازش.
هر لایه دقیقاً نشان میدهد که چه عملی انجام میشود:
Attention, Projection, Normalization, MLP
با کلیک روی پنل سمت راست میتوانید توضیح واضح هر مرحله را ببینید و اینکه چرا مدل از آن حالت به حالت بعدی میرود.
تجربهاش مثل این است که داخل یک فکر قدم میزنید.
❓ و بالاخره پاسخ به سؤال بزرگ:
«روح» یک مدل زبانی کجاست؟
اینجاست—در همین تبدیلهای پیدرپی، تنسورها و لایههایی که معنا را شکل میدهند.
⚪️ @rss_ai_ir
#AI #LLM #DeepLearning #Transformers #Visualization #NeuralNetworks #AIMind
در پاسخ به این سؤال همیشگی که «هوش مصنوعی دقیقاً چطور فکر میکند؟» — این بهترین و دقیقترین بصریسازی از فرایند محاسباتی یک LLM است. یک پرواز سهبعدی تعاملی از داخل شبکه Llama؛ اما اصول آن برای تمام ترنسفورمرها صادق است.
✨ چه چیزی را میبینیم؟
هر صفحه یک تنسور است؛ یک فریم از «فیلم ذهنی» مدل در لحظهٔ پردازش.
هر لایه دقیقاً نشان میدهد که چه عملی انجام میشود:
Attention, Projection, Normalization, MLP
با کلیک روی پنل سمت راست میتوانید توضیح واضح هر مرحله را ببینید و اینکه چرا مدل از آن حالت به حالت بعدی میرود.
تجربهاش مثل این است که داخل یک فکر قدم میزنید.
❓ و بالاخره پاسخ به سؤال بزرگ:
«روح» یک مدل زبانی کجاست؟
اینجاست—در همین تبدیلهای پیدرپی، تنسورها و لایههایی که معنا را شکل میدهند.
⚪️ @rss_ai_ir
#AI #LLM #DeepLearning #Transformers #Visualization #NeuralNetworks #AIMind
👍4👎1🔥1
✨ مدل CauSight؛ مدل نوینی که علّیت را در تصویر کشف میکند 🧠📸
مدل CauSight نسل جدیدی از VLMهاست که میتواند رابطه علت و معلول را مستقیماً از داخل تصاویر استخراج کند.
این مدل بر پایه دیتاست VCG-32K و رویکردی جدید به نام Tree-of-Causal-Thought ساخته شده و توانسته عملکردی سهبرابر بهتر از GPT-4.1 در وظایف کشف علّیت بصری ثبت کند.
🔍 قابلیتها
استخراج روابط علّی بین اشیاء و رویدادها
استنتاج دلیل رخدادها، نه فقط توصیف تصویر
پشتیبانی کامل از وظایف visual causal reasoning
📄 لینکها:
• arXiv:
https://arxiv.org/abs/2512.01827
• PDF:
https://arxiv.org/pdf/2512.01827
• GitHub:
https://github.com/OpenCausaLab/CauSight
• مدل:
https://huggingface.co/OpenCausaLab/CauSight
• دیتاست:
https://huggingface.co/datasets/OpenCausaLab/VCG-32K
@rss_ai_ir
#CausalInference #VisualCausalDiscovery #AI #DeepLearning #VisionLanguageModels
مدل CauSight نسل جدیدی از VLMهاست که میتواند رابطه علت و معلول را مستقیماً از داخل تصاویر استخراج کند.
این مدل بر پایه دیتاست VCG-32K و رویکردی جدید به نام Tree-of-Causal-Thought ساخته شده و توانسته عملکردی سهبرابر بهتر از GPT-4.1 در وظایف کشف علّیت بصری ثبت کند.
🔍 قابلیتها
استخراج روابط علّی بین اشیاء و رویدادها
استنتاج دلیل رخدادها، نه فقط توصیف تصویر
پشتیبانی کامل از وظایف visual causal reasoning
📄 لینکها:
• arXiv:
https://arxiv.org/abs/2512.01827
• PDF:
https://arxiv.org/pdf/2512.01827
• GitHub:
https://github.com/OpenCausaLab/CauSight
• مدل:
https://huggingface.co/OpenCausaLab/CauSight
• دیتاست:
https://huggingface.co/datasets/OpenCausaLab/VCG-32K
@rss_ai_ir
#CausalInference #VisualCausalDiscovery #AI #DeepLearning #VisionLanguageModels
✨ مایسترال ۳ معرفی شد — نسل تازهای از مدلهای متنباز که روی هر سختافزاری اجرا میشوند!
شرکت Mistral AI خانوادهی جدید مدلهای هوش مصنوعی خود را منتشر کرد؛ مدلهایی که از لپتاپ و موبایل تا سرورهای ابری و سیستمهای Edge بدون محدودیت قابل استفادهاند.
تمام نسخهها—چه Mistral Large 3 و چه مدلهای سبک Ministral—با لایسنس Apache 2.0 ارائه شدهاند، یعنی استفادهی تجاری کاملاً آزاد است.
🔥 نکات مهم:
♻️اینکه Mistral Small 3 به امتیاز بیش از ۸۱٪ در MMLU رسیده؛ برای یک مدل کوچک عددی فوقالعاده است.
♻️حال Mistral Medium 3.1 در LM Arena رتبههای برتر را کسب کرده:
♻️مقام اول در دسته English (بدون کنترل سبک)
♻️مقام دوم در رتبهبندی کلی
♻️حضور در جمع سه مدل برتر در کدنویسی و پردازش درخواستهای طولانی
♻️نسخه Medium به حدود ۹۰٪ کیفیت مدلهای سنگین میرسد، اما با مصرف سختافزاری بسیار کمتر — یکی از بهترین نسبتهای هزینه/کارایی در بازار فعلی.
📎 جزئیات بیشتر:
https://mistral.ai/news/mistral-3
@rss_ai_ir
#Mistral #هوش_مصنوعی #مدل_متن_باز #ML #AI #DeepLearning
شرکت Mistral AI خانوادهی جدید مدلهای هوش مصنوعی خود را منتشر کرد؛ مدلهایی که از لپتاپ و موبایل تا سرورهای ابری و سیستمهای Edge بدون محدودیت قابل استفادهاند.
تمام نسخهها—چه Mistral Large 3 و چه مدلهای سبک Ministral—با لایسنس Apache 2.0 ارائه شدهاند، یعنی استفادهی تجاری کاملاً آزاد است.
🔥 نکات مهم:
♻️اینکه Mistral Small 3 به امتیاز بیش از ۸۱٪ در MMLU رسیده؛ برای یک مدل کوچک عددی فوقالعاده است.
♻️حال Mistral Medium 3.1 در LM Arena رتبههای برتر را کسب کرده:
♻️مقام اول در دسته English (بدون کنترل سبک)
♻️مقام دوم در رتبهبندی کلی
♻️حضور در جمع سه مدل برتر در کدنویسی و پردازش درخواستهای طولانی
♻️نسخه Medium به حدود ۹۰٪ کیفیت مدلهای سنگین میرسد، اما با مصرف سختافزاری بسیار کمتر — یکی از بهترین نسبتهای هزینه/کارایی در بازار فعلی.
📎 جزئیات بیشتر:
https://mistral.ai/news/mistral-3
@rss_ai_ir
#Mistral #هوش_مصنوعی #مدل_متن_باز #ML #AI #DeepLearning
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
✨ Vision Bridge Transformer at Scale —
خلاصه و معرفی
📌مدل Vision Bridge Transformer (ViBT) یک مدل بزرگمقیاس برای تولید شرطی (Conditional Generation) است.
این مدل برخلاف دیفیوژنها که فرآیند چندمرحلهای دارند، ورودی را بهصورت مستقیم به خروجی ترجمه میکند و به همین دلیل سریع، پایدار و مقیاسپذیر است.
🔍 ویژگیهای کلیدی:
♻️معماری جدید برای مدلسازی «trajectory» بین ورودی و خروجی
♻️مناسب برای ویرایش تصویر و ویدیو، تغییر سبک، بازسازی و تبدیلهای پیچیده
♻️مقیاسپذیر تا میلیاردها پارامتر
♻️کیفیت بالا در ویرایش صحنههای چندلایه و حفظ یکپارچگی بصری
📄 لینکها:
arXiv: https://arxiv.org/abs/2511.23199
PDF: https://arxiv.org/pdf/2511.23199
Project: https://yuanshi9815.github.io/ViBT_homepage/
GitHub: https://github.com/Yuanshi9815/ViBT
Demo Space: https://huggingface.co/spaces/Yuanshi/ViBT
==============================
@rss_ai_ir
#VisionTransformer #GenerativeAI #ComputerVision #DeepLearning #AI 🌟
خلاصه و معرفی
📌مدل Vision Bridge Transformer (ViBT) یک مدل بزرگمقیاس برای تولید شرطی (Conditional Generation) است.
این مدل برخلاف دیفیوژنها که فرآیند چندمرحلهای دارند، ورودی را بهصورت مستقیم به خروجی ترجمه میکند و به همین دلیل سریع، پایدار و مقیاسپذیر است.
🔍 ویژگیهای کلیدی:
♻️معماری جدید برای مدلسازی «trajectory» بین ورودی و خروجی
♻️مناسب برای ویرایش تصویر و ویدیو، تغییر سبک، بازسازی و تبدیلهای پیچیده
♻️مقیاسپذیر تا میلیاردها پارامتر
♻️کیفیت بالا در ویرایش صحنههای چندلایه و حفظ یکپارچگی بصری
📄 لینکها:
arXiv: https://arxiv.org/abs/2511.23199
PDF: https://arxiv.org/pdf/2511.23199
Project: https://yuanshi9815.github.io/ViBT_homepage/
GitHub: https://github.com/Yuanshi9815/ViBT
Demo Space: https://huggingface.co/spaces/Yuanshi/ViBT
==============================
@rss_ai_ir
#VisionTransformer #GenerativeAI #ComputerVision #DeepLearning #AI 🌟
This media is not supported in your browser
VIEW IN TELEGRAM
✌️ مدل جدید و پیشرفته برای تولید زبان اشاره ✌️
مدل Stable Signer بهعنوان یک SOTA در حوزه Sign Language Production (SLP) معرفی شده و ساختار این وظیفه را کاملاً بازتعریف میکند.
این مدل فرایند SLP را به یک سیستم سلسلهمراتبی end-to-end تبدیل کرده که تنها شامل سه بخش کلیدی است:
♻️درک متن (Prompt2Gloss و Text2Gloss)
♻️تولید حرکت بدن
♻️تبدیل پوژ به ویدیو (Pose2Vid)
✅این معماری باعث شده تولید زبان اشاره بسیار دقیقتر، یکپارچهتر و طبیعیتر انجام شود.
✅همچنین مخزن دادهها و ابزارها نیز بهصورت کامل ارائه شده است 💙
🔗 Paper: arxiv.org/pdf/2512.04048
🔗 Project: stablesigner.github.io/
🔗 Data: github.com/SignLLM/Prompt2Sign/tree/main/tools-new-2025
#AI #SLP #SignLanguage #GenerativeModels #DeepLearning @rss_ai_ir
مدل Stable Signer بهعنوان یک SOTA در حوزه Sign Language Production (SLP) معرفی شده و ساختار این وظیفه را کاملاً بازتعریف میکند.
این مدل فرایند SLP را به یک سیستم سلسلهمراتبی end-to-end تبدیل کرده که تنها شامل سه بخش کلیدی است:
♻️درک متن (Prompt2Gloss و Text2Gloss)
♻️تولید حرکت بدن
♻️تبدیل پوژ به ویدیو (Pose2Vid)
✅این معماری باعث شده تولید زبان اشاره بسیار دقیقتر، یکپارچهتر و طبیعیتر انجام شود.
✅همچنین مخزن دادهها و ابزارها نیز بهصورت کامل ارائه شده است 💙
🔗 Paper: arxiv.org/pdf/2512.04048
🔗 Project: stablesigner.github.io/
🔗 Data: github.com/SignLLM/Prompt2Sign/tree/main/tools-new-2025
#AI #SLP #SignLanguage #GenerativeModels #DeepLearning @rss_ai_ir
This media is not supported in your browser
VIEW IN TELEGRAM
🦄 معرفی یک مدل چندوجهی یکپارچه از META
یک رویکرد نو به نام Native Unified Multimodal (UMM) معرفی شده که هدفش ساخت یک فضای بازنمایی یکپارچه و پیوسته برای تصویر و ویدیو است.
در این روش، یک VAE Encoder در کنار یک Representation Encoder قرار میگیرد و نتیجه آن یک فضای واحد است که اجازه میدهد مدلها بهصورت End-to-End هم برای درک تصویر/ویدیو و هم برای تولید آنها عمل کنند — با کیفیت در حد مدلهای SOTA.
کد فعلاً تحت بررسی حقوقی است، اما پروژه و مقاله منتشر شدهاند و مسیر توسعه روشن است.
🔗 Paper: https://lnkd.in/djT4WGEU
🔗 Project: https://tuna-ai.org/
🔗 Repo: https://github.com/wren93/tuna
#AI #Multimodal #META #UMM #DeepLearning #VisionModels #GenerativeAI 🦄
یک رویکرد نو به نام Native Unified Multimodal (UMM) معرفی شده که هدفش ساخت یک فضای بازنمایی یکپارچه و پیوسته برای تصویر و ویدیو است.
در این روش، یک VAE Encoder در کنار یک Representation Encoder قرار میگیرد و نتیجه آن یک فضای واحد است که اجازه میدهد مدلها بهصورت End-to-End هم برای درک تصویر/ویدیو و هم برای تولید آنها عمل کنند — با کیفیت در حد مدلهای SOTA.
کد فعلاً تحت بررسی حقوقی است، اما پروژه و مقاله منتشر شدهاند و مسیر توسعه روشن است.
🔗 Paper: https://lnkd.in/djT4WGEU
🔗 Project: https://tuna-ai.org/
🔗 Repo: https://github.com/wren93/tuna
#AI #Multimodal #META #UMM #DeepLearning #VisionModels #GenerativeAI 🦄
🔥 نسخه Transformers v5 منتشر شد!
جامعهٔ هوش مصنوعی امروز شاهد یک جهش بزرگ بود. نسخهٔ جدید Transformers v5 از Hugging Face رسماً عرضه شد و حالا تبدیل به ستون اصلی اکوسیستم متنباز در مدلهای بزرگ شده است.
📈 رشد اکوسیستم در چند سال اخیر واقعاً خیرهکننده بوده:
📦 از ۲۰هزار به ۳ میلیون نصب روزانه
🧠 از ۴۰ معماری پشتیبانیشده به ۴۰۰+
🗃️ بیش از ۷۵۰هزار چکپوینت
🌍 بیش از ۱.۲ میلیارد نصب تجمعی
✨ مهمترین تغییرات نسخهٔ جدید:
♻️معماری کاملاً مبتنی بر PyTorch
♻️طراحی ماژولار و قابلگسترش
♻️رویکرد «quantization-first» برای کارایی بالاتر
♻️همچنین Transformers Serve سازگار با APIهای OpenAI
این نسخه آغاز یک مرحلهٔ تازه در آیندهٔ مدلهای متنباز است.
https://huggingface.co/blog/transformers-v5
#Transformers #HuggingFace #AI #DeepLearning #ML #PyTorch #LLM 🚀
جامعهٔ هوش مصنوعی امروز شاهد یک جهش بزرگ بود. نسخهٔ جدید Transformers v5 از Hugging Face رسماً عرضه شد و حالا تبدیل به ستون اصلی اکوسیستم متنباز در مدلهای بزرگ شده است.
📈 رشد اکوسیستم در چند سال اخیر واقعاً خیرهکننده بوده:
📦 از ۲۰هزار به ۳ میلیون نصب روزانه
🧠 از ۴۰ معماری پشتیبانیشده به ۴۰۰+
🗃️ بیش از ۷۵۰هزار چکپوینت
🌍 بیش از ۱.۲ میلیارد نصب تجمعی
✨ مهمترین تغییرات نسخهٔ جدید:
♻️معماری کاملاً مبتنی بر PyTorch
♻️طراحی ماژولار و قابلگسترش
♻️رویکرد «quantization-first» برای کارایی بالاتر
♻️همچنین Transformers Serve سازگار با APIهای OpenAI
این نسخه آغاز یک مرحلهٔ تازه در آیندهٔ مدلهای متنباز است.
https://huggingface.co/blog/transformers-v5
#Transformers #HuggingFace #AI #DeepLearning #ML #PyTorch #LLM 🚀
❤4👍2👏1
This media is not supported in your browser
VIEW IN TELEGRAM
✨ World Models That Know When They Don't Know
@rss_ai_ir
در دنیای مدلسازی ویدیو، یکی از بزرگترین مشکلات توهمزایی (Hallucination) و ناتوانی مدل در تشخیص نقاطی است که مطمئن نیست. پژوهش جدیدی با نام C3 راهکاری ارائه میدهد که مدل بتواند عدم قطعیت خود را تشخیص دهد و وقتی نمیداند، بداند که نمیداند! 🤯🎥
---
🔍 حال C3 چیست؟
اینکه C3 یک روش کمیسازی عدمقطعیت (Uncertainty Quantification) برای مدلهای تولید ویدیو است. این روش کمک میکند مدل:
🎯 اعتمادپذیری پیکسلبهپیکسل ارائه دهد (Dense Confidence Estimation)
🚨 ورودیهای خارج از توزیع (OOD) را تشخیص دهد
🛑 توهمات ویدئویی را کاهش دهد
🎮 تولید ویدیو را تحت کنترل دقیقتری قرار دهد
به بیان ساده:
مدل فقط تولید نمیکند؛ به شما میگوید کجا احتمال اشتباه دارد! 🤝
---
💡 چرا مهم است؟
در کاربردهایی مثل خودرانها، پزشکی، و رباتیک، مدل باید علاوه بر خروجی، درجه اطمینان را هم اعلام کند.
همچنین C3 کمک میکند که مدلهای ویدیویی به جای تولید بیمحابا، رفتار مسئولانهتری داشته باشند.
---
🔗 لینکها
📄 Arxiv:
https://arxiv.org/abs/2512.05927
📘 PDF:
https://arxiv.org/pdf/2512.05927
🌐 Project Page:
https://c-cubed-uq.github.io/
---
🧠 هشتگها
#AI #DeepLearning #VideoGeneration #Uncertainty #MachineLearning #MultimodalAI
@rss_ai_ir
در دنیای مدلسازی ویدیو، یکی از بزرگترین مشکلات توهمزایی (Hallucination) و ناتوانی مدل در تشخیص نقاطی است که مطمئن نیست. پژوهش جدیدی با نام C3 راهکاری ارائه میدهد که مدل بتواند عدم قطعیت خود را تشخیص دهد و وقتی نمیداند، بداند که نمیداند! 🤯🎥
---
🔍 حال C3 چیست؟
اینکه C3 یک روش کمیسازی عدمقطعیت (Uncertainty Quantification) برای مدلهای تولید ویدیو است. این روش کمک میکند مدل:
🎯 اعتمادپذیری پیکسلبهپیکسل ارائه دهد (Dense Confidence Estimation)
🚨 ورودیهای خارج از توزیع (OOD) را تشخیص دهد
🛑 توهمات ویدئویی را کاهش دهد
🎮 تولید ویدیو را تحت کنترل دقیقتری قرار دهد
به بیان ساده:
مدل فقط تولید نمیکند؛ به شما میگوید کجا احتمال اشتباه دارد! 🤝
---
💡 چرا مهم است؟
در کاربردهایی مثل خودرانها، پزشکی، و رباتیک، مدل باید علاوه بر خروجی، درجه اطمینان را هم اعلام کند.
همچنین C3 کمک میکند که مدلهای ویدیویی به جای تولید بیمحابا، رفتار مسئولانهتری داشته باشند.
---
🔗 لینکها
📄 Arxiv:
https://arxiv.org/abs/2512.05927
📘 PDF:
https://arxiv.org/pdf/2512.05927
🌐 Project Page:
https://c-cubed-uq.github.io/
---
🧠 هشتگها
#AI #DeepLearning #VideoGeneration #Uncertainty #MachineLearning #MultimodalAI
🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
✨ مدل SCAIL: گام تازهای به سوی انیمیشن شخصیت در سطح استودیو ✨
@rss_ai_ir
📝 خلاصه:
چارچوب SCAIL کیفیت انیمیشن شخصیت را تا سطح استودیو ارتقا میدهد. این مدل با استفاده از یک نمایش نوین برای پوز سهبعدی و یک دیفیوشن-ترنسفورمر با تزریق کامل کانتکست پوز، به واقعگرایی و پایداری بیسابقهای میرسد.
🔹 تاریخ انتشار: ۵ دسامبر
🔹 لینکها:
• arXiv:
https://arxiv.org/abs/2512.05905
• PDF:
https://arxiv.org/pdf/2512.05905
• مدل مربوطه:
https://huggingface.co/zai-org/SCAIL-Preview
#CharacterAnimation #AI #3DAnimation #DeepLearning #ComputerGraphics
@rss_ai_ir
📝 خلاصه:
چارچوب SCAIL کیفیت انیمیشن شخصیت را تا سطح استودیو ارتقا میدهد. این مدل با استفاده از یک نمایش نوین برای پوز سهبعدی و یک دیفیوشن-ترنسفورمر با تزریق کامل کانتکست پوز، به واقعگرایی و پایداری بیسابقهای میرسد.
🔹 تاریخ انتشار: ۵ دسامبر
🔹 لینکها:
• arXiv:
https://arxiv.org/abs/2512.05905
• PDF:
https://arxiv.org/pdf/2512.05905
• مدل مربوطه:
https://huggingface.co/zai-org/SCAIL-Preview
#CharacterAnimation #AI #3DAnimation #DeepLearning #ComputerGraphics
🔥1