This media is not supported in your browser
VIEW IN TELEGRAM
✨ STARFlow-V:
نسل تازه مدلهای ویدئو با Normalizing Flow
@rss_ai_ir 🎥⚡
مدل STARFlow-V یک مدل کاملاً End-to-End برای تولید ویدئو است که بر پایهی Normalizing Flow ساخته شده — رویکردی که معمولاً کمتر در ویدئو استفاده میشود، اما حالا نتایج فوقالعادهای نشان داده است.
🔹 کیفیت بصری بالا + پیوستگی زمانی عالی
🔹 پیشبینی علّی (causal prediction) پایدار
🔹 معماری Global–Local Latent
🔹 استفاده از Flow-Score Matching
🔹 قدمی مهم برای ورود Flow Models به دنیای Video Gen
📄 Paper: arxiv.org/abs/2511.20462
🌐 Project: starflow-v.github.io
💻 Code: github.com/apple/ml-starflow
#VideoGeneration #NormalizingFlow #GenerativeAI #DeepLearning #ML @rss_ai_ir
نسل تازه مدلهای ویدئو با Normalizing Flow
@rss_ai_ir 🎥⚡
مدل STARFlow-V یک مدل کاملاً End-to-End برای تولید ویدئو است که بر پایهی Normalizing Flow ساخته شده — رویکردی که معمولاً کمتر در ویدئو استفاده میشود، اما حالا نتایج فوقالعادهای نشان داده است.
🔹 کیفیت بصری بالا + پیوستگی زمانی عالی
🔹 پیشبینی علّی (causal prediction) پایدار
🔹 معماری Global–Local Latent
🔹 استفاده از Flow-Score Matching
🔹 قدمی مهم برای ورود Flow Models به دنیای Video Gen
📄 Paper: arxiv.org/abs/2511.20462
🌐 Project: starflow-v.github.io
💻 Code: github.com/apple/ml-starflow
#VideoGeneration #NormalizingFlow #GenerativeAI #DeepLearning #ML @rss_ai_ir
🥰1
🔥 بهترین راهنمای فاینتیونینگ که امسال در arXiv میبینید!
اگر با مدلهای زبانی کار میکنید—چه مبتدی باشید چه حرفهای—این مقاله دقیقاً همان چیزی است که لازم دارید. یک راهنمای کامل، مرحلهبهمرحله و فوقالعاده منظم برای تسلط بر Fine-Tuning مدرن.
📘 مباحثی که پوشش میدهد:
🧠 مبانی NLP (برای اینکه بدانید زیرساخت مدل چه میگوید)
⚙️ روشهای PEFT / LoRA / QLoRA (تکنیکهای سبک برای آموزش مدلهای بزرگ روی GPUهای معمولی)
🔀اینکه Mixture of Experts (MoE) و نکات ریز مربوط به آموزش کارآمد
🧩 پایپلاین ۷ مرحلهای برای فاینتیونینگ حرفهای
🎯 توصیههای عملی، چکلیستها و اشتباهاتی که باید از آنها دوری کرد
📄 منبع:
https://arxiv.org/pdf/2408.13296v1
#AI #ML #FineTuning #LoRA #QLoRA #MoE #NLP #DeepLearning #arXiv
@rss_ai_ir
اگر با مدلهای زبانی کار میکنید—چه مبتدی باشید چه حرفهای—این مقاله دقیقاً همان چیزی است که لازم دارید. یک راهنمای کامل، مرحلهبهمرحله و فوقالعاده منظم برای تسلط بر Fine-Tuning مدرن.
📘 مباحثی که پوشش میدهد:
🧠 مبانی NLP (برای اینکه بدانید زیرساخت مدل چه میگوید)
⚙️ روشهای PEFT / LoRA / QLoRA (تکنیکهای سبک برای آموزش مدلهای بزرگ روی GPUهای معمولی)
🔀اینکه Mixture of Experts (MoE) و نکات ریز مربوط به آموزش کارآمد
🧩 پایپلاین ۷ مرحلهای برای فاینتیونینگ حرفهای
🎯 توصیههای عملی، چکلیستها و اشتباهاتی که باید از آنها دوری کرد
📄 منبع:
https://arxiv.org/pdf/2408.13296v1
#AI #ML #FineTuning #LoRA #QLoRA #MoE #NLP #DeepLearning #arXiv
@rss_ai_ir
👍2🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
✨ NAF: Zero-Shot Feature Upsampling via Neighborhood Attention Filtering ✨
📝 خلاصه کوتاه:
روش NAF یک تکنیک جدید برای Upsampling ویژگیها در مدلهای پایه بینایی (Vision Foundation Models) است — کاملاً بهصورت Zero-Shot و بدون هیچگونه بازآموزی.
این روش با یادگیری وزنهای تطبیقی بر اساس فضا + محتوا، دقت بالاتر و کارایی بهتر از آپسمپلرهای سنتی ارائه میدهد.
🔹 ویژگیهای کلیدی:
♻️آپسمپل کردن ویژگیهای VFM بدون نیاز به فاینتیون
♻️عملکرد SOTA در طیف گستردهای از وظایف بینایی
♻️کارایی بالا و مناسب برای استفاده در سیستمهای real-time
♻️قابل استفاده برای مدلهای مختلف بدون وابستگی به معماری خاص
🔗 Paper & Code:
• arXiv: https://arxiv.org/abs/2511.18452
• PDF: https://arxiv.org/pdf/2511.18452
• GitHub: https://github.com/valeoai/NAF
#ZeroShotLearning #ComputerVision #FeatureUpsampling #DeepLearning #AIResearch @rss_ai_ir
📝 خلاصه کوتاه:
روش NAF یک تکنیک جدید برای Upsampling ویژگیها در مدلهای پایه بینایی (Vision Foundation Models) است — کاملاً بهصورت Zero-Shot و بدون هیچگونه بازآموزی.
این روش با یادگیری وزنهای تطبیقی بر اساس فضا + محتوا، دقت بالاتر و کارایی بهتر از آپسمپلرهای سنتی ارائه میدهد.
🔹 ویژگیهای کلیدی:
♻️آپسمپل کردن ویژگیهای VFM بدون نیاز به فاینتیون
♻️عملکرد SOTA در طیف گستردهای از وظایف بینایی
♻️کارایی بالا و مناسب برای استفاده در سیستمهای real-time
♻️قابل استفاده برای مدلهای مختلف بدون وابستگی به معماری خاص
🔗 Paper & Code:
• arXiv: https://arxiv.org/abs/2511.18452
• PDF: https://arxiv.org/pdf/2511.18452
• GitHub: https://github.com/valeoai/NAF
#ZeroShotLearning #ComputerVision #FeatureUpsampling #DeepLearning #AIResearch @rss_ai_ir
❤1👍1🔥1🥰1
✨ مدل Step-Audio-R1؛ اولین مدل صوتی که ریزونینگِ مقیاسپذیر را به دنیای صدا آورد 🎧🤖
مدل Step-Audio-R1 نقطهعطفی در هوش مصنوعی صوتی است. برای اولین بار یک Audio-LLM توانسته همان الگوی «عمقِ ریزونینگ با افزایش کامپیوتر» (مثل R1 در متن) را در صوتِ زنده پیادهسازی کند.
---
🔥 ویژگیهای کلیدی
✳️درک عمیق سیگنال صوتی
✳️واکنش در زمان واقعی
✳️زنجیره استدلال مقیاسپذیر روی داده صوتی
✳️کاهش شدید خطا و حذف «حدسزدنهای بدون پشتوانه»
---
⚡ عملکرد
بهتر از Gemini 2.5 Pro و قابلمقایسه با Gemini 3 در بنچمارکهای پیچیده صوتی
دقت ۹۶٪ در دیالوگ بلادرنگ — بالاتر از GPT Realtime و Gemini 2.5 Flash
Time To First Token = فقط 0.92 ثانیه ⏱️
---
🎯 چرا متفاوت است؟
مدل از روش MGRD — Modality-Grounded Reasoning Distillation استفاده میکند.
یعنی ریزونینگ به نشانههای واقعی صوتی متصل میشود، نه به تخیلات مدل.
بهصورت ساده:
👉 مدل براساس «آنچه واقعاً شنیده میشود» فکر میکند، نه براساس متن.
این یعنی:
♻️خطای کمتر
♻️ریزونینگ قابلگسترش
♻️کاربردهای جدید برای صدا
---
🔗 لینکها
🎧 دمو:
https://stepaudiollm.github.io/step-audio-r1/
📄 مقاله:
https://arxiv.org/abs/2511.15848
🐙 گیتهاب:
https://github.com/stepfun-ai/Step-Audio-R1
---
#هوش_مصنوعی #AudioLLM #مدل_صوتی #ریزانینگ #AI #MachineLearning #DeepLearning
مدل Step-Audio-R1 نقطهعطفی در هوش مصنوعی صوتی است. برای اولین بار یک Audio-LLM توانسته همان الگوی «عمقِ ریزونینگ با افزایش کامپیوتر» (مثل R1 در متن) را در صوتِ زنده پیادهسازی کند.
---
🔥 ویژگیهای کلیدی
✳️درک عمیق سیگنال صوتی
✳️واکنش در زمان واقعی
✳️زنجیره استدلال مقیاسپذیر روی داده صوتی
✳️کاهش شدید خطا و حذف «حدسزدنهای بدون پشتوانه»
---
⚡ عملکرد
بهتر از Gemini 2.5 Pro و قابلمقایسه با Gemini 3 در بنچمارکهای پیچیده صوتی
دقت ۹۶٪ در دیالوگ بلادرنگ — بالاتر از GPT Realtime و Gemini 2.5 Flash
Time To First Token = فقط 0.92 ثانیه ⏱️
---
🎯 چرا متفاوت است؟
مدل از روش MGRD — Modality-Grounded Reasoning Distillation استفاده میکند.
یعنی ریزونینگ به نشانههای واقعی صوتی متصل میشود، نه به تخیلات مدل.
بهصورت ساده:
👉 مدل براساس «آنچه واقعاً شنیده میشود» فکر میکند، نه براساس متن.
این یعنی:
♻️خطای کمتر
♻️ریزونینگ قابلگسترش
♻️کاربردهای جدید برای صدا
---
🔗 لینکها
🎧 دمو:
https://stepaudiollm.github.io/step-audio-r1/
📄 مقاله:
https://arxiv.org/abs/2511.15848
🐙 گیتهاب:
https://github.com/stepfun-ai/Step-Audio-R1
---
#هوش_مصنوعی #AudioLLM #مدل_صوتی #ریزانینگ #AI #MachineLearning #DeepLearning
❤2👍2🔥1
🌟 مدل MedSAM-3؛ نسخهی پزشکیشدهی SAM 3 با درک زبان طبیعی
🧠 مدل MedSAM-3 تلاش میکند قابلیتهای قدرتمند سگمنتیشن مبتنی بر متن را از دنیای عمومی به حوزهٔ حساس پزشکی بیاورد.
در حالی که SAM 3 در تصاویر روزمره عالی عمل میکند، اما روی دادههای پزشکی مشکلات جدی داشت — از جمله اشتباهگرفتن ساختارهای آناتومیکی و ناتوانی در فهم اصطلاحات تخصصی.
مدل MedSAM-3 دقیقاً همین شکاف را پر میکند:
💬 پزشک فقط مینویسد: «توده پستان را سگمنت کن»
و مدل ناحیهٔ صحیح را در MRI، CT، سونوگرافی و پاتولوژی جدا میکند.
---
🔧 نحوهٔ آموزش مدل
برای دقت بالا در پزشکی، چنین کاری انجام شده:
انکودرهای تصویر و متن منجمد شدهاند تا توان اصلی SAM 3 حفظ شود
قسمتهای مربوط به دیتکتور با SFT روی دیتاستهای پزشکی آموزش دیدهاند
نتیجه: مدل هویت اصلی SAM 3 را حفظ میکند، اما زبان و ساختار پزشکی را هم میفهمد
---
📊 نتایج و عملکرد
بهترین نسخه، پیکربندی MedSAM-3 T+I (ترکیب متن + باکس محدودکننده) بوده و توانسته:
جلو بزند از U-Net
جلو بزند از MedSAM نسخه اول
دستیابی به:
Dice = 0.7772 روی BUSI
Dice = 0.8064 با کمک Agent و Gemini 3 Pro
این نتایج در پزشکی خیلی قوی محسوب میشوند.
---
🤖 مدل Agent هوشمند MedSAM-3
یک ابزار جذاب همراه مدل عرضه شده:
✳️برنامهریز هوشمند با Gemini 3 Pro
✳️تبدیل درخواست پزشک به زنجیرهٔ اقدامات
✳️اجرای چند مرحلهٔ بهبود برای سگمنتیشن دقیقتر
✳️افزایش محسوس دقت (Dice)
✳️این یعنی ورود جدی مدلهای Vision-Language-Agent به پزشکی.
---
📌 وضعیت انتشار
مدل فعلاً در قالب Tech Report منتشر شده، اما توسعهدهندگان قول دادهاند کد و وزنها را منتشر کنند.
برای فعالان حوزهٔ AI پزشکی بسیار مهم است.
https://arxiv.org/pdf/2511.19046
https://github.com/Joey-S-Liu/MedSAM3
---
@rss_ai_ir
#هوش_مصنوعی #پزشکی #Segmentation #MedSAM3 #SAM3 #ComputerVision #DeepLearning #MedicalAI
🧠 مدل MedSAM-3 تلاش میکند قابلیتهای قدرتمند سگمنتیشن مبتنی بر متن را از دنیای عمومی به حوزهٔ حساس پزشکی بیاورد.
در حالی که SAM 3 در تصاویر روزمره عالی عمل میکند، اما روی دادههای پزشکی مشکلات جدی داشت — از جمله اشتباهگرفتن ساختارهای آناتومیکی و ناتوانی در فهم اصطلاحات تخصصی.
مدل MedSAM-3 دقیقاً همین شکاف را پر میکند:
💬 پزشک فقط مینویسد: «توده پستان را سگمنت کن»
و مدل ناحیهٔ صحیح را در MRI، CT، سونوگرافی و پاتولوژی جدا میکند.
---
🔧 نحوهٔ آموزش مدل
برای دقت بالا در پزشکی، چنین کاری انجام شده:
انکودرهای تصویر و متن منجمد شدهاند تا توان اصلی SAM 3 حفظ شود
قسمتهای مربوط به دیتکتور با SFT روی دیتاستهای پزشکی آموزش دیدهاند
نتیجه: مدل هویت اصلی SAM 3 را حفظ میکند، اما زبان و ساختار پزشکی را هم میفهمد
---
📊 نتایج و عملکرد
بهترین نسخه، پیکربندی MedSAM-3 T+I (ترکیب متن + باکس محدودکننده) بوده و توانسته:
جلو بزند از U-Net
جلو بزند از MedSAM نسخه اول
دستیابی به:
Dice = 0.7772 روی BUSI
Dice = 0.8064 با کمک Agent و Gemini 3 Pro
این نتایج در پزشکی خیلی قوی محسوب میشوند.
---
🤖 مدل Agent هوشمند MedSAM-3
یک ابزار جذاب همراه مدل عرضه شده:
✳️برنامهریز هوشمند با Gemini 3 Pro
✳️تبدیل درخواست پزشک به زنجیرهٔ اقدامات
✳️اجرای چند مرحلهٔ بهبود برای سگمنتیشن دقیقتر
✳️افزایش محسوس دقت (Dice)
✳️این یعنی ورود جدی مدلهای Vision-Language-Agent به پزشکی.
---
📌 وضعیت انتشار
مدل فعلاً در قالب Tech Report منتشر شده، اما توسعهدهندگان قول دادهاند کد و وزنها را منتشر کنند.
برای فعالان حوزهٔ AI پزشکی بسیار مهم است.
https://arxiv.org/pdf/2511.19046
https://github.com/Joey-S-Liu/MedSAM3
---
@rss_ai_ir
#هوش_مصنوعی #پزشکی #Segmentation #MedSAM3 #SAM3 #ComputerVision #DeepLearning #MedicalAI
👍1🔥1👏1
🤖 استک GELab-Zero؛ نخستین استک کاملاً متنباز برای GUI-Agent ها
یک خبر مهم برای دنیای ایجنتها: استک GELab-Zero منتشر شد؛ ترکیبی کامل از مدل + زیرساخت که جایگزین متنباز برای سیستمهای سطح بالایی مثل GUI-Agent MCP محسوب میشود. نسخهای سبک، سریع و قابل اجرا بهصورت کامل روی سیستم شخصی شما 🚀
🔧 چه چیزهایی داخلش هست؟
مدل ۴B در سطح SOTA؛ سریع، کمهزینه و قابل اجرا روی GPUهای سبک
زیرساخت راهاندازی «تککلیک» بدون دردسرهای ADB
بنچمارک AndroidDaily بر اساس سناریوهای واقعی کاربران
📊 نتایج و عملکرد
دقت ۷۳.۴٪ روی AndroidDaily
عملکرد بهتر از مدلهای بزرگتری مثل GUI-Owl-32B
بالاتر از Gemini-2.5-pro-thinking و GPT-4o در تستهای GUI
برتری قابل توجه روی ScreenSpot، AndroidWorld و OSWorld
🎯 هدف استک مشخص است:
نصب کن، اجرا کن، شخصیسازی کن، و توسعه بده — بالاخره یک گزینهٔ متنباز واقعی برای GUI-Agent ها در دسترس است.
🔗 لینکها:
HuggingFace:
https://huggingface.co/stepfun-ai/GELab-Zero-4B-preview
GitHub:
https://github.com/stepfun-ai/gelab-zero
Blog:
https://opengelab.github.io/index.html
#GELabZero #AI #Agents #GUIAgents #MachineLearning #OpenSource #DeepLearning @rss_ai_ir
یک خبر مهم برای دنیای ایجنتها: استک GELab-Zero منتشر شد؛ ترکیبی کامل از مدل + زیرساخت که جایگزین متنباز برای سیستمهای سطح بالایی مثل GUI-Agent MCP محسوب میشود. نسخهای سبک، سریع و قابل اجرا بهصورت کامل روی سیستم شخصی شما 🚀
🔧 چه چیزهایی داخلش هست؟
مدل ۴B در سطح SOTA؛ سریع، کمهزینه و قابل اجرا روی GPUهای سبک
زیرساخت راهاندازی «تککلیک» بدون دردسرهای ADB
بنچمارک AndroidDaily بر اساس سناریوهای واقعی کاربران
📊 نتایج و عملکرد
دقت ۷۳.۴٪ روی AndroidDaily
عملکرد بهتر از مدلهای بزرگتری مثل GUI-Owl-32B
بالاتر از Gemini-2.5-pro-thinking و GPT-4o در تستهای GUI
برتری قابل توجه روی ScreenSpot، AndroidWorld و OSWorld
🎯 هدف استک مشخص است:
نصب کن، اجرا کن، شخصیسازی کن، و توسعه بده — بالاخره یک گزینهٔ متنباز واقعی برای GUI-Agent ها در دسترس است.
🔗 لینکها:
HuggingFace:
https://huggingface.co/stepfun-ai/GELab-Zero-4B-preview
GitHub:
https://github.com/stepfun-ai/gelab-zero
Blog:
https://opengelab.github.io/index.html
#GELabZero #AI #Agents #GUIAgents #MachineLearning #OpenSource #DeepLearning @rss_ai_ir
❤2
This media is not supported in your browser
VIEW IN TELEGRAM
🥭 ویرایش حرکت سهبعدی در ویدئو با Edit-by-Track 🥭
@rss_ai_ir
یک روش تازه برای کنترل دقیق حرکت در ویدئو معرفی شده است: Edit-by-Track.
در این روش، مسیر حرکت نقطههای سهبعدی مشخص میشود و مدل میتواند بر اساس همین مسیر:
✨ حرکت دوربین و سوژه را همزمان کنترل کند
✨ اشیای ناخواسته را حذف کند
✨ حرکت یک ویدئو را به ویدئوی دیگر منتقل کند
✨ ویرایش حرکتی بسیار طبیعی و تمیز ایجاد کند
مزیت اصلی این کار: کنترل مستقیم و شهودی روی مسیرهای سهبعدی بدون نیاز به ویرایش پیچیدهٔ فریمبهفریم.
🔗 Paper: https://arxiv.org/pdf/2512.02015
🔗 Project: https://edit-by-track.github.io/
#AI #VideoEditing #3DMotion #ComputerVision #DeepLearning
@rss_ai_ir
یک روش تازه برای کنترل دقیق حرکت در ویدئو معرفی شده است: Edit-by-Track.
در این روش، مسیر حرکت نقطههای سهبعدی مشخص میشود و مدل میتواند بر اساس همین مسیر:
✨ حرکت دوربین و سوژه را همزمان کنترل کند
✨ اشیای ناخواسته را حذف کند
✨ حرکت یک ویدئو را به ویدئوی دیگر منتقل کند
✨ ویرایش حرکتی بسیار طبیعی و تمیز ایجاد کند
مزیت اصلی این کار: کنترل مستقیم و شهودی روی مسیرهای سهبعدی بدون نیاز به ویرایش پیچیدهٔ فریمبهفریم.
🔗 Paper: https://arxiv.org/pdf/2512.02015
🔗 Project: https://edit-by-track.github.io/
#AI #VideoEditing #3DMotion #ComputerVision #DeepLearning
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 نسخه جدید نسلساز ویدیو Runway — مدل قدرتمند Gen-4.5 معرفی شد
🚀 ارتقای مهمی در کیفیت و کنترلپذیری ویدیوهای تولیدی ثبت شده است.
مدل Gen-4.5 اکنون تصاویر شفافتر، حرکت واقعگرایانهتر و انطباق دقیقتری با متن ایجاد میکند.
✨ بهبودهای کلیدی:
♻️جزئیات تصویری بسیار تمیزتر و واضحتر
♻️حرکتهای طبیعیتر انسان و اشیا
♻️نورپردازی و فیزیک بهتر، بدون artifacts
♻️هماهنگی عالی با پرامپت، حتی در صحنههای پیچیده و سریع
♻️کنترلهای پیشرفته برای دوربین، حرکت، ترکیببندی و صدا
🎞️ قابلیتها:
Image-to-Video
Video-to-Video
Keyframes
کنترل کامل حرکت دوربین
📊 رکورد کیفیت:
اینکه Gen-4.5 در رتبهبندی Artificial Analysis Text-to-Video امتیاز ۱۲۴۷ Elo را ثبت کرده و بالاتر از تمام مدلهای ویدیویی فعلی قرار گرفته است.
🔗 لینک اعلام رسمی:
https://app.runwayml.com/video-tools/
@rss_ai_ir
#Runway #Gen45 #VideoGeneration #AI #AIGeneration #DeepLearning #TechNews
🚀 ارتقای مهمی در کیفیت و کنترلپذیری ویدیوهای تولیدی ثبت شده است.
مدل Gen-4.5 اکنون تصاویر شفافتر، حرکت واقعگرایانهتر و انطباق دقیقتری با متن ایجاد میکند.
✨ بهبودهای کلیدی:
♻️جزئیات تصویری بسیار تمیزتر و واضحتر
♻️حرکتهای طبیعیتر انسان و اشیا
♻️نورپردازی و فیزیک بهتر، بدون artifacts
♻️هماهنگی عالی با پرامپت، حتی در صحنههای پیچیده و سریع
♻️کنترلهای پیشرفته برای دوربین، حرکت، ترکیببندی و صدا
🎞️ قابلیتها:
Image-to-Video
Video-to-Video
Keyframes
کنترل کامل حرکت دوربین
📊 رکورد کیفیت:
اینکه Gen-4.5 در رتبهبندی Artificial Analysis Text-to-Video امتیاز ۱۲۴۷ Elo را ثبت کرده و بالاتر از تمام مدلهای ویدیویی فعلی قرار گرفته است.
🔗 لینک اعلام رسمی:
https://app.runwayml.com/video-tools/
@rss_ai_ir
#Runway #Gen45 #VideoGeneration #AI #AIGeneration #DeepLearning #TechNews
❤1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 زیباترین تصویری که تا امروز از «درون ذهن یک مدل زبانی» دیدهایم!
در پاسخ به این سؤال همیشگی که «هوش مصنوعی دقیقاً چطور فکر میکند؟» — این بهترین و دقیقترین بصریسازی از فرایند محاسباتی یک LLM است. یک پرواز سهبعدی تعاملی از داخل شبکه Llama؛ اما اصول آن برای تمام ترنسفورمرها صادق است.
✨ چه چیزی را میبینیم؟
هر صفحه یک تنسور است؛ یک فریم از «فیلم ذهنی» مدل در لحظهٔ پردازش.
هر لایه دقیقاً نشان میدهد که چه عملی انجام میشود:
Attention, Projection, Normalization, MLP
با کلیک روی پنل سمت راست میتوانید توضیح واضح هر مرحله را ببینید و اینکه چرا مدل از آن حالت به حالت بعدی میرود.
تجربهاش مثل این است که داخل یک فکر قدم میزنید.
❓ و بالاخره پاسخ به سؤال بزرگ:
«روح» یک مدل زبانی کجاست؟
اینجاست—در همین تبدیلهای پیدرپی، تنسورها و لایههایی که معنا را شکل میدهند.
⚪️ @rss_ai_ir
#AI #LLM #DeepLearning #Transformers #Visualization #NeuralNetworks #AIMind
در پاسخ به این سؤال همیشگی که «هوش مصنوعی دقیقاً چطور فکر میکند؟» — این بهترین و دقیقترین بصریسازی از فرایند محاسباتی یک LLM است. یک پرواز سهبعدی تعاملی از داخل شبکه Llama؛ اما اصول آن برای تمام ترنسفورمرها صادق است.
✨ چه چیزی را میبینیم؟
هر صفحه یک تنسور است؛ یک فریم از «فیلم ذهنی» مدل در لحظهٔ پردازش.
هر لایه دقیقاً نشان میدهد که چه عملی انجام میشود:
Attention, Projection, Normalization, MLP
با کلیک روی پنل سمت راست میتوانید توضیح واضح هر مرحله را ببینید و اینکه چرا مدل از آن حالت به حالت بعدی میرود.
تجربهاش مثل این است که داخل یک فکر قدم میزنید.
❓ و بالاخره پاسخ به سؤال بزرگ:
«روح» یک مدل زبانی کجاست؟
اینجاست—در همین تبدیلهای پیدرپی، تنسورها و لایههایی که معنا را شکل میدهند.
⚪️ @rss_ai_ir
#AI #LLM #DeepLearning #Transformers #Visualization #NeuralNetworks #AIMind
👍4👎1🔥1
✨ مدل CauSight؛ مدل نوینی که علّیت را در تصویر کشف میکند 🧠📸
مدل CauSight نسل جدیدی از VLMهاست که میتواند رابطه علت و معلول را مستقیماً از داخل تصاویر استخراج کند.
این مدل بر پایه دیتاست VCG-32K و رویکردی جدید به نام Tree-of-Causal-Thought ساخته شده و توانسته عملکردی سهبرابر بهتر از GPT-4.1 در وظایف کشف علّیت بصری ثبت کند.
🔍 قابلیتها
استخراج روابط علّی بین اشیاء و رویدادها
استنتاج دلیل رخدادها، نه فقط توصیف تصویر
پشتیبانی کامل از وظایف visual causal reasoning
📄 لینکها:
• arXiv:
https://arxiv.org/abs/2512.01827
• PDF:
https://arxiv.org/pdf/2512.01827
• GitHub:
https://github.com/OpenCausaLab/CauSight
• مدل:
https://huggingface.co/OpenCausaLab/CauSight
• دیتاست:
https://huggingface.co/datasets/OpenCausaLab/VCG-32K
@rss_ai_ir
#CausalInference #VisualCausalDiscovery #AI #DeepLearning #VisionLanguageModels
مدل CauSight نسل جدیدی از VLMهاست که میتواند رابطه علت و معلول را مستقیماً از داخل تصاویر استخراج کند.
این مدل بر پایه دیتاست VCG-32K و رویکردی جدید به نام Tree-of-Causal-Thought ساخته شده و توانسته عملکردی سهبرابر بهتر از GPT-4.1 در وظایف کشف علّیت بصری ثبت کند.
🔍 قابلیتها
استخراج روابط علّی بین اشیاء و رویدادها
استنتاج دلیل رخدادها، نه فقط توصیف تصویر
پشتیبانی کامل از وظایف visual causal reasoning
📄 لینکها:
• arXiv:
https://arxiv.org/abs/2512.01827
• PDF:
https://arxiv.org/pdf/2512.01827
• GitHub:
https://github.com/OpenCausaLab/CauSight
• مدل:
https://huggingface.co/OpenCausaLab/CauSight
• دیتاست:
https://huggingface.co/datasets/OpenCausaLab/VCG-32K
@rss_ai_ir
#CausalInference #VisualCausalDiscovery #AI #DeepLearning #VisionLanguageModels