🔥 بحران انرژیِ هوش مصنوعی جدیتر از همیشه شده است
گزارشهای جدید نشان میدهند که مصرف انرژی OpenAI طی پنج سال آینده از بریتانیا یا آلمان بیشتر خواهد شد و طی هشت سال آینده حتی از هند فراتر میرود.
این فقط مصرف یک شرکت است — نه کل صنعت هوش مصنوعی.
در چنین شرایطی یک سؤال بنیادین مطرح میشود:
⚡ کشورهایی مانند بریتانیا و آلمان چطور قرار است «سیاره را نجات دهند»، وقتی رشد شتابان مدلهای عظیم در حال مصرف انرژی در ابعادی فراتر از کل این کشورهاست؟
از سوی دیگر، تصمیمهای سختگیرانه برای کاهش مصرف انرژی در اروپا منجر به:
• تضعیف صنایع محلی
• کاهش رقابتپذیری جهانی
• مهاجرت شرکتها به مناطقی با انرژی ارزانتر
• از دست رفتن مشاغل و سرمایهگذاری صنعتی
واقعیت این است که بحران انرژیِ آینده دیگر فقط به صنایع فولاد، خودرو یا شیمی محدود نیست.
اکنون ابرمدلهای هوش مصنوعی در حال بلعیدن منابع انرژیاند و بحث «توسعه پایدار» بدون درنظرگرفتن آنها عملاً بیمعناست.
⛔️این تناقض بزرگ سیاستگذاری جهانی را آشکار میکند:
❌کشورهایی که برای اقتصادشان محدودیتهای سنگین وضع کردهاند، شاید در نهایت شاهد مصرف انرژیِ بسیار بیشتری از سمت شرکتهای فناوری خارج از مرزهایشان باشند.
@rss_ai_ir
---
🏷 هشتگها
#هوش_مصنوعی #انرژی #سیاستگذاری #OpenAI #پایداری #اقتصاد #AI #DeepLearning #TechPolicy #Industry4_0
گزارشهای جدید نشان میدهند که مصرف انرژی OpenAI طی پنج سال آینده از بریتانیا یا آلمان بیشتر خواهد شد و طی هشت سال آینده حتی از هند فراتر میرود.
این فقط مصرف یک شرکت است — نه کل صنعت هوش مصنوعی.
در چنین شرایطی یک سؤال بنیادین مطرح میشود:
⚡ کشورهایی مانند بریتانیا و آلمان چطور قرار است «سیاره را نجات دهند»، وقتی رشد شتابان مدلهای عظیم در حال مصرف انرژی در ابعادی فراتر از کل این کشورهاست؟
از سوی دیگر، تصمیمهای سختگیرانه برای کاهش مصرف انرژی در اروپا منجر به:
• تضعیف صنایع محلی
• کاهش رقابتپذیری جهانی
• مهاجرت شرکتها به مناطقی با انرژی ارزانتر
• از دست رفتن مشاغل و سرمایهگذاری صنعتی
واقعیت این است که بحران انرژیِ آینده دیگر فقط به صنایع فولاد، خودرو یا شیمی محدود نیست.
اکنون ابرمدلهای هوش مصنوعی در حال بلعیدن منابع انرژیاند و بحث «توسعه پایدار» بدون درنظرگرفتن آنها عملاً بیمعناست.
⛔️این تناقض بزرگ سیاستگذاری جهانی را آشکار میکند:
❌کشورهایی که برای اقتصادشان محدودیتهای سنگین وضع کردهاند، شاید در نهایت شاهد مصرف انرژیِ بسیار بیشتری از سمت شرکتهای فناوری خارج از مرزهایشان باشند.
@rss_ai_ir
---
🏷 هشتگها
#هوش_مصنوعی #انرژی #سیاستگذاری #OpenAI #پایداری #اقتصاد #AI #DeepLearning #TechPolicy #Industry4_0
🔥2👍1👏1
⚡️ مدل HunyuanOCR؛ کوچک، سریع و شکستدهندهٔ بنچمارکها
تنسنت نسخهٔ متنباز مدل HunyuanOCR را منتشر کرده؛ مدلی فقط با ۱ میلیارد پارامتر که عملکرد آن در سطح مدلهای چندین برابر بزرگتر است. این سیستم بهصورت End-to-End کار میکند و تقریباً همهٔ نیازهای OCR مدرن را پوشش میدهد.
✨ برتری در بنچمارکها
امتیاز 860 در OCRBench بین تمام مدلهای کوچکتر از 3B
امتیاز 94.1 در OmniDocBench؛ بهترین عملکرد در پردازش اسناد پیچیده
🧠 قابلیتها
مدل برای طیف گستردهای از سناریوهای OCR بهینه شده است:
✳️متن محیطی: تابلو، ویترین، بنر، خیابان
✳️دستخط و فونتهای هنری
✳️اسناد پیچیده: جدول، فرمول، HTML، LaTeX
✳️زیرنویس ویدیو
✳️ترجمهٔ مستقیم متن روی تصویر به ۱۴ زبان
این یک سامانهٔ چندمرحلهای نیست؛ فقط یک درخواست و یک پاس انفِرِنس.
🔗 لینکها
• وب:
https://hunyuan.tencent.com/vision/zh?tabIndex=0
• نسخه موبایل:
https://hunyuan.tencent.com/open_source_mobile?tab=vision&tabIndex=0
• GitHub:
https://github.com/Tencent-Hunyuan/HunyuanOCR
• HuggingFace:
https://huggingface.co/tencent/HunyuanOCR
• گزارش فنی:
https://github.com/Tencent-Hunyuan/HunyuanOCR/blob/main/HunyuanOCR_Technical_Report.pdf
@rss_ai_ir
#OCR #مدل_متنباز #هوش_مصنوعی #بینایی_ماشینی #Tencent #HunyuanOCR #AI #DeepLearning #Multimodal
تنسنت نسخهٔ متنباز مدل HunyuanOCR را منتشر کرده؛ مدلی فقط با ۱ میلیارد پارامتر که عملکرد آن در سطح مدلهای چندین برابر بزرگتر است. این سیستم بهصورت End-to-End کار میکند و تقریباً همهٔ نیازهای OCR مدرن را پوشش میدهد.
✨ برتری در بنچمارکها
امتیاز 860 در OCRBench بین تمام مدلهای کوچکتر از 3B
امتیاز 94.1 در OmniDocBench؛ بهترین عملکرد در پردازش اسناد پیچیده
🧠 قابلیتها
مدل برای طیف گستردهای از سناریوهای OCR بهینه شده است:
✳️متن محیطی: تابلو، ویترین، بنر، خیابان
✳️دستخط و فونتهای هنری
✳️اسناد پیچیده: جدول، فرمول، HTML، LaTeX
✳️زیرنویس ویدیو
✳️ترجمهٔ مستقیم متن روی تصویر به ۱۴ زبان
این یک سامانهٔ چندمرحلهای نیست؛ فقط یک درخواست و یک پاس انفِرِنس.
🔗 لینکها
• وب:
https://hunyuan.tencent.com/vision/zh?tabIndex=0
• نسخه موبایل:
https://hunyuan.tencent.com/open_source_mobile?tab=vision&tabIndex=0
• GitHub:
https://github.com/Tencent-Hunyuan/HunyuanOCR
• HuggingFace:
https://huggingface.co/tencent/HunyuanOCR
• گزارش فنی:
https://github.com/Tencent-Hunyuan/HunyuanOCR/blob/main/HunyuanOCR_Technical_Report.pdf
@rss_ai_ir
#OCR #مدل_متنباز #هوش_مصنوعی #بینایی_ماشینی #Tencent #HunyuanOCR #AI #DeepLearning #Multimodal
🔥1
✨ مدل MSRNet؛ شبکهٔ چندمقیاسی بازگشتی برای آشکارسازی اشیای استتارشده
@rss_ai_ir
تشخیص اشیایی که عمداً در محیط «محو» شدهاند همیشه یکی از سختترین چالشهای بینایی ماشین بوده است.
مدل MSRNet با ترکیب Pyramid Vision Transformer و Recursive Feature Refinement توانسته یک جهش جدی ایجاد کند و در بنچمارکها به State-of-the-Art برسد.
🔍 چرا MSRNet مهم است؟
✳️عملکرد عالی روی اجسام کوچک و چندگانه
✳️تقویت چندمرحلهای ویژگیها با معماری بازگشتی
✳️یادگیری پایدارتر و دقت بالاتر نسبت به مدلهای قبلی
✳️مناسب برای کاربردهایی مثل: نظارت، رباتیک، پزشکی و تحلیل حیاتوحش
📅 تاریخ انتشار: ۱۶ نوامبر
📄 لینک مقاله:
arXiv: https://arxiv.org/abs/2511.12810
PDF: https://arxiv.org/pdf/2511.12810
🤗 مدلهای منتشرشده:
https://huggingface.co/linaa98/MSRNet
---
#CamouflagedObjectDetection #MSRNet #ObjectDetection #ComputerVision #DeepLearning #VisionTransformer #AIResearch #NeuralNetworks
@rss_ai_ir
تشخیص اشیایی که عمداً در محیط «محو» شدهاند همیشه یکی از سختترین چالشهای بینایی ماشین بوده است.
مدل MSRNet با ترکیب Pyramid Vision Transformer و Recursive Feature Refinement توانسته یک جهش جدی ایجاد کند و در بنچمارکها به State-of-the-Art برسد.
🔍 چرا MSRNet مهم است؟
✳️عملکرد عالی روی اجسام کوچک و چندگانه
✳️تقویت چندمرحلهای ویژگیها با معماری بازگشتی
✳️یادگیری پایدارتر و دقت بالاتر نسبت به مدلهای قبلی
✳️مناسب برای کاربردهایی مثل: نظارت، رباتیک، پزشکی و تحلیل حیاتوحش
📅 تاریخ انتشار: ۱۶ نوامبر
📄 لینک مقاله:
arXiv: https://arxiv.org/abs/2511.12810
PDF: https://arxiv.org/pdf/2511.12810
🤗 مدلهای منتشرشده:
https://huggingface.co/linaa98/MSRNet
---
#CamouflagedObjectDetection #MSRNet #ObjectDetection #ComputerVision #DeepLearning #VisionTransformer #AIResearch #NeuralNetworks
🔥1🙏1👌1
This media is not supported in your browser
VIEW IN TELEGRAM
@rss_ai_ir
🍓 مدل MotionV2V — ویرایش حرکت در ویدئو با دقت بیسابقه 🍓
گوگل سیستم MotionV2V را معرفی کرد؛ روشی نوین برای ویرایش حرکت در ویدئو که بهجای تغییر کل فریم، مستقیماً تفاوت حرکت بین ویدئوی اصلی و نسخه ویرایششده را کنترل میکند.
این مدل بر پایه دیفیوشن کار میکند و امکان میدهد که:
✨ حرکت یک فرد تغییر کند، بدون تغییر ظاهر
✨ سرعت، جهت، یا شدت حرکت اصلاح شود
✨ حرکت کاملاً جدید روی ویدئو اعمال شود
✨ ویدئوهای ادیتشده، طبیعی و منسجم باقی بمانند
نتیجه؟
ویدئوهایی با حرکتهای کاملاً کنترلشده، بدون artifacts و بدون پرشهای عجیب.
🔗 لینکها:
👉 Paper:
https://arxiv.org/pdf/2511.20640
👉 Project Page:
https://ryanndagreat.github.io/MotionV2V/
👉 GitHub (بهزودی):
https://github.com/RyannDaGreat/MotionV2V
#MotionEditing #VideoAI #DiffusionModels #GoogleAI #GenerativeAI #DeepLearning
🍓 مدل MotionV2V — ویرایش حرکت در ویدئو با دقت بیسابقه 🍓
گوگل سیستم MotionV2V را معرفی کرد؛ روشی نوین برای ویرایش حرکت در ویدئو که بهجای تغییر کل فریم، مستقیماً تفاوت حرکت بین ویدئوی اصلی و نسخه ویرایششده را کنترل میکند.
این مدل بر پایه دیفیوشن کار میکند و امکان میدهد که:
✨ حرکت یک فرد تغییر کند، بدون تغییر ظاهر
✨ سرعت، جهت، یا شدت حرکت اصلاح شود
✨ حرکت کاملاً جدید روی ویدئو اعمال شود
✨ ویدئوهای ادیتشده، طبیعی و منسجم باقی بمانند
نتیجه؟
ویدئوهایی با حرکتهای کاملاً کنترلشده، بدون artifacts و بدون پرشهای عجیب.
🔗 لینکها:
👉 Paper:
https://arxiv.org/pdf/2511.20640
👉 Project Page:
https://ryanndagreat.github.io/MotionV2V/
👉 GitHub (بهزودی):
https://github.com/RyannDaGreat/MotionV2V
#MotionEditing #VideoAI #DiffusionModels #GoogleAI #GenerativeAI #DeepLearning
👍1🔥1
@rss_ai_ir
✨ تشخیص تصاویر مصنوعی با گرادیانفیلدها — یک روش ساده و شگفتانگیز! 💡
در دنیایی که مدلهای دیفیوشن هر روز واقعیتر میشوند، پیدا کردن یک روش ساده، سبک و قابلتوضیح برای تشخیص عکس واقعی از مصنوعی واقعاً طلاست. این تکنیک دقیقاً همین کار را میکند 👇
🔍 ایده اصلی
با انجام یک تحلیل ساده روی گرادیان روشنایی تصویر و سپس استفاده از PCA، یک جداسازی پایدار بین:
📸 عکسهای واقعی
🎨 تصاویر ساختهشده با دیفیوشن
بهدست میآید.
🧠 چرا جواب میدهد؟
تصاویر واقعی، گرادیانهایی دارند که با نورپردازی فیزیکی و رفتار سنسور دوربین سازگار است؛ منسجم و طبیعی.
تصاویر دیفیوشن بهدلیل فرآیند denoising دارای جزئیات ناپایدار و بافتهای فرکانسبالا هستند که ساختگی بودن را لو میدهد.
🧮 مراحل کار (فقط چند قدم ساده):
1. تبدیل RGB → luminance
2. محاسبه spatial gradients
3. تبدیل گرادیانها به ماتریس فلتشده
4. محاسبه covariance
5. انجام PCA و مشاهده جداسازی واضح در یک تصویر
🎯 نتیجه
بدون مدل طبقهبندی، بدون متادیتا، بدون شبکه عصبی — فقط با ریاضی پایه و تحلیل گرادیانها میتوان بهراحتی تشخیص داد تصویر واقعی است یا مصنوعی. یک ابزار عالی برای پژوهشگران بیناییماشین و متخصصان امنیت داده.
#SyntheticDetection #GradientFields #PCA #ComputerVision #DeepLearning #AIForensics @rss_ai_ir
✨ تشخیص تصاویر مصنوعی با گرادیانفیلدها — یک روش ساده و شگفتانگیز! 💡
در دنیایی که مدلهای دیفیوشن هر روز واقعیتر میشوند، پیدا کردن یک روش ساده، سبک و قابلتوضیح برای تشخیص عکس واقعی از مصنوعی واقعاً طلاست. این تکنیک دقیقاً همین کار را میکند 👇
🔍 ایده اصلی
با انجام یک تحلیل ساده روی گرادیان روشنایی تصویر و سپس استفاده از PCA، یک جداسازی پایدار بین:
📸 عکسهای واقعی
🎨 تصاویر ساختهشده با دیفیوشن
بهدست میآید.
🧠 چرا جواب میدهد؟
تصاویر واقعی، گرادیانهایی دارند که با نورپردازی فیزیکی و رفتار سنسور دوربین سازگار است؛ منسجم و طبیعی.
تصاویر دیفیوشن بهدلیل فرآیند denoising دارای جزئیات ناپایدار و بافتهای فرکانسبالا هستند که ساختگی بودن را لو میدهد.
🧮 مراحل کار (فقط چند قدم ساده):
1. تبدیل RGB → luminance
2. محاسبه spatial gradients
3. تبدیل گرادیانها به ماتریس فلتشده
4. محاسبه covariance
5. انجام PCA و مشاهده جداسازی واضح در یک تصویر
🎯 نتیجه
بدون مدل طبقهبندی، بدون متادیتا، بدون شبکه عصبی — فقط با ریاضی پایه و تحلیل گرادیانها میتوان بهراحتی تشخیص داد تصویر واقعی است یا مصنوعی. یک ابزار عالی برای پژوهشگران بیناییماشین و متخصصان امنیت داده.
#SyntheticDetection #GradientFields #PCA #ComputerVision #DeepLearning #AIForensics @rss_ai_ir
❤5👍1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Smell Like Vision Spirit 🔥
@rss_ai_ir
👉 دیتاست New York Smells یک دیتاست بزرگ و جدید از ترکیب همزمان تصویر و دادههای بویایی است که امکان یادگیری کراسمودال بین بو و بینایی را فراهم میکند.
👉 با چراغ خاموش هم شاید «کمخطرتر» باشد، اما حالا AI میتواند بو را هم بفهمد!
👉 دیتاست در دسترس است.
🔗 Paper:
https://arxiv.org/pdf/2511.20544
🔗 Project:
https://smell.cs.columbia.edu/
#AI #Multimodal #Dataset #SmellAI #DeepLearning @rss_ai_ir
@rss_ai_ir
👉 دیتاست New York Smells یک دیتاست بزرگ و جدید از ترکیب همزمان تصویر و دادههای بویایی است که امکان یادگیری کراسمودال بین بو و بینایی را فراهم میکند.
👉 با چراغ خاموش هم شاید «کمخطرتر» باشد، اما حالا AI میتواند بو را هم بفهمد!
👉 دیتاست در دسترس است.
🔗 Paper:
https://arxiv.org/pdf/2511.20544
🔗 Project:
https://smell.cs.columbia.edu/
#AI #Multimodal #Dataset #SmellAI #DeepLearning @rss_ai_ir
👍3🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
✨ STARFlow-V:
نسل تازه مدلهای ویدئو با Normalizing Flow
@rss_ai_ir 🎥⚡
مدل STARFlow-V یک مدل کاملاً End-to-End برای تولید ویدئو است که بر پایهی Normalizing Flow ساخته شده — رویکردی که معمولاً کمتر در ویدئو استفاده میشود، اما حالا نتایج فوقالعادهای نشان داده است.
🔹 کیفیت بصری بالا + پیوستگی زمانی عالی
🔹 پیشبینی علّی (causal prediction) پایدار
🔹 معماری Global–Local Latent
🔹 استفاده از Flow-Score Matching
🔹 قدمی مهم برای ورود Flow Models به دنیای Video Gen
📄 Paper: arxiv.org/abs/2511.20462
🌐 Project: starflow-v.github.io
💻 Code: github.com/apple/ml-starflow
#VideoGeneration #NormalizingFlow #GenerativeAI #DeepLearning #ML @rss_ai_ir
نسل تازه مدلهای ویدئو با Normalizing Flow
@rss_ai_ir 🎥⚡
مدل STARFlow-V یک مدل کاملاً End-to-End برای تولید ویدئو است که بر پایهی Normalizing Flow ساخته شده — رویکردی که معمولاً کمتر در ویدئو استفاده میشود، اما حالا نتایج فوقالعادهای نشان داده است.
🔹 کیفیت بصری بالا + پیوستگی زمانی عالی
🔹 پیشبینی علّی (causal prediction) پایدار
🔹 معماری Global–Local Latent
🔹 استفاده از Flow-Score Matching
🔹 قدمی مهم برای ورود Flow Models به دنیای Video Gen
📄 Paper: arxiv.org/abs/2511.20462
🌐 Project: starflow-v.github.io
💻 Code: github.com/apple/ml-starflow
#VideoGeneration #NormalizingFlow #GenerativeAI #DeepLearning #ML @rss_ai_ir
🥰1
🔥 بهترین راهنمای فاینتیونینگ که امسال در arXiv میبینید!
اگر با مدلهای زبانی کار میکنید—چه مبتدی باشید چه حرفهای—این مقاله دقیقاً همان چیزی است که لازم دارید. یک راهنمای کامل، مرحلهبهمرحله و فوقالعاده منظم برای تسلط بر Fine-Tuning مدرن.
📘 مباحثی که پوشش میدهد:
🧠 مبانی NLP (برای اینکه بدانید زیرساخت مدل چه میگوید)
⚙️ روشهای PEFT / LoRA / QLoRA (تکنیکهای سبک برای آموزش مدلهای بزرگ روی GPUهای معمولی)
🔀اینکه Mixture of Experts (MoE) و نکات ریز مربوط به آموزش کارآمد
🧩 پایپلاین ۷ مرحلهای برای فاینتیونینگ حرفهای
🎯 توصیههای عملی، چکلیستها و اشتباهاتی که باید از آنها دوری کرد
📄 منبع:
https://arxiv.org/pdf/2408.13296v1
#AI #ML #FineTuning #LoRA #QLoRA #MoE #NLP #DeepLearning #arXiv
@rss_ai_ir
اگر با مدلهای زبانی کار میکنید—چه مبتدی باشید چه حرفهای—این مقاله دقیقاً همان چیزی است که لازم دارید. یک راهنمای کامل، مرحلهبهمرحله و فوقالعاده منظم برای تسلط بر Fine-Tuning مدرن.
📘 مباحثی که پوشش میدهد:
🧠 مبانی NLP (برای اینکه بدانید زیرساخت مدل چه میگوید)
⚙️ روشهای PEFT / LoRA / QLoRA (تکنیکهای سبک برای آموزش مدلهای بزرگ روی GPUهای معمولی)
🔀اینکه Mixture of Experts (MoE) و نکات ریز مربوط به آموزش کارآمد
🧩 پایپلاین ۷ مرحلهای برای فاینتیونینگ حرفهای
🎯 توصیههای عملی، چکلیستها و اشتباهاتی که باید از آنها دوری کرد
📄 منبع:
https://arxiv.org/pdf/2408.13296v1
#AI #ML #FineTuning #LoRA #QLoRA #MoE #NLP #DeepLearning #arXiv
@rss_ai_ir
👍2🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
✨ NAF: Zero-Shot Feature Upsampling via Neighborhood Attention Filtering ✨
📝 خلاصه کوتاه:
روش NAF یک تکنیک جدید برای Upsampling ویژگیها در مدلهای پایه بینایی (Vision Foundation Models) است — کاملاً بهصورت Zero-Shot و بدون هیچگونه بازآموزی.
این روش با یادگیری وزنهای تطبیقی بر اساس فضا + محتوا، دقت بالاتر و کارایی بهتر از آپسمپلرهای سنتی ارائه میدهد.
🔹 ویژگیهای کلیدی:
♻️آپسمپل کردن ویژگیهای VFM بدون نیاز به فاینتیون
♻️عملکرد SOTA در طیف گستردهای از وظایف بینایی
♻️کارایی بالا و مناسب برای استفاده در سیستمهای real-time
♻️قابل استفاده برای مدلهای مختلف بدون وابستگی به معماری خاص
🔗 Paper & Code:
• arXiv: https://arxiv.org/abs/2511.18452
• PDF: https://arxiv.org/pdf/2511.18452
• GitHub: https://github.com/valeoai/NAF
#ZeroShotLearning #ComputerVision #FeatureUpsampling #DeepLearning #AIResearch @rss_ai_ir
📝 خلاصه کوتاه:
روش NAF یک تکنیک جدید برای Upsampling ویژگیها در مدلهای پایه بینایی (Vision Foundation Models) است — کاملاً بهصورت Zero-Shot و بدون هیچگونه بازآموزی.
این روش با یادگیری وزنهای تطبیقی بر اساس فضا + محتوا، دقت بالاتر و کارایی بهتر از آپسمپلرهای سنتی ارائه میدهد.
🔹 ویژگیهای کلیدی:
♻️آپسمپل کردن ویژگیهای VFM بدون نیاز به فاینتیون
♻️عملکرد SOTA در طیف گستردهای از وظایف بینایی
♻️کارایی بالا و مناسب برای استفاده در سیستمهای real-time
♻️قابل استفاده برای مدلهای مختلف بدون وابستگی به معماری خاص
🔗 Paper & Code:
• arXiv: https://arxiv.org/abs/2511.18452
• PDF: https://arxiv.org/pdf/2511.18452
• GitHub: https://github.com/valeoai/NAF
#ZeroShotLearning #ComputerVision #FeatureUpsampling #DeepLearning #AIResearch @rss_ai_ir
❤1👍1🔥1🥰1
✨ مدل Step-Audio-R1؛ اولین مدل صوتی که ریزونینگِ مقیاسپذیر را به دنیای صدا آورد 🎧🤖
مدل Step-Audio-R1 نقطهعطفی در هوش مصنوعی صوتی است. برای اولین بار یک Audio-LLM توانسته همان الگوی «عمقِ ریزونینگ با افزایش کامپیوتر» (مثل R1 در متن) را در صوتِ زنده پیادهسازی کند.
---
🔥 ویژگیهای کلیدی
✳️درک عمیق سیگنال صوتی
✳️واکنش در زمان واقعی
✳️زنجیره استدلال مقیاسپذیر روی داده صوتی
✳️کاهش شدید خطا و حذف «حدسزدنهای بدون پشتوانه»
---
⚡ عملکرد
بهتر از Gemini 2.5 Pro و قابلمقایسه با Gemini 3 در بنچمارکهای پیچیده صوتی
دقت ۹۶٪ در دیالوگ بلادرنگ — بالاتر از GPT Realtime و Gemini 2.5 Flash
Time To First Token = فقط 0.92 ثانیه ⏱️
---
🎯 چرا متفاوت است؟
مدل از روش MGRD — Modality-Grounded Reasoning Distillation استفاده میکند.
یعنی ریزونینگ به نشانههای واقعی صوتی متصل میشود، نه به تخیلات مدل.
بهصورت ساده:
👉 مدل براساس «آنچه واقعاً شنیده میشود» فکر میکند، نه براساس متن.
این یعنی:
♻️خطای کمتر
♻️ریزونینگ قابلگسترش
♻️کاربردهای جدید برای صدا
---
🔗 لینکها
🎧 دمو:
https://stepaudiollm.github.io/step-audio-r1/
📄 مقاله:
https://arxiv.org/abs/2511.15848
🐙 گیتهاب:
https://github.com/stepfun-ai/Step-Audio-R1
---
#هوش_مصنوعی #AudioLLM #مدل_صوتی #ریزانینگ #AI #MachineLearning #DeepLearning
مدل Step-Audio-R1 نقطهعطفی در هوش مصنوعی صوتی است. برای اولین بار یک Audio-LLM توانسته همان الگوی «عمقِ ریزونینگ با افزایش کامپیوتر» (مثل R1 در متن) را در صوتِ زنده پیادهسازی کند.
---
🔥 ویژگیهای کلیدی
✳️درک عمیق سیگنال صوتی
✳️واکنش در زمان واقعی
✳️زنجیره استدلال مقیاسپذیر روی داده صوتی
✳️کاهش شدید خطا و حذف «حدسزدنهای بدون پشتوانه»
---
⚡ عملکرد
بهتر از Gemini 2.5 Pro و قابلمقایسه با Gemini 3 در بنچمارکهای پیچیده صوتی
دقت ۹۶٪ در دیالوگ بلادرنگ — بالاتر از GPT Realtime و Gemini 2.5 Flash
Time To First Token = فقط 0.92 ثانیه ⏱️
---
🎯 چرا متفاوت است؟
مدل از روش MGRD — Modality-Grounded Reasoning Distillation استفاده میکند.
یعنی ریزونینگ به نشانههای واقعی صوتی متصل میشود، نه به تخیلات مدل.
بهصورت ساده:
👉 مدل براساس «آنچه واقعاً شنیده میشود» فکر میکند، نه براساس متن.
این یعنی:
♻️خطای کمتر
♻️ریزونینگ قابلگسترش
♻️کاربردهای جدید برای صدا
---
🔗 لینکها
🎧 دمو:
https://stepaudiollm.github.io/step-audio-r1/
📄 مقاله:
https://arxiv.org/abs/2511.15848
🐙 گیتهاب:
https://github.com/stepfun-ai/Step-Audio-R1
---
#هوش_مصنوعی #AudioLLM #مدل_صوتی #ریزانینگ #AI #MachineLearning #DeepLearning
👍2❤1🔥1
🌟 مدل MedSAM-3؛ نسخهی پزشکیشدهی SAM 3 با درک زبان طبیعی
🧠 مدل MedSAM-3 تلاش میکند قابلیتهای قدرتمند سگمنتیشن مبتنی بر متن را از دنیای عمومی به حوزهٔ حساس پزشکی بیاورد.
در حالی که SAM 3 در تصاویر روزمره عالی عمل میکند، اما روی دادههای پزشکی مشکلات جدی داشت — از جمله اشتباهگرفتن ساختارهای آناتومیکی و ناتوانی در فهم اصطلاحات تخصصی.
مدل MedSAM-3 دقیقاً همین شکاف را پر میکند:
💬 پزشک فقط مینویسد: «توده پستان را سگمنت کن»
و مدل ناحیهٔ صحیح را در MRI، CT، سونوگرافی و پاتولوژی جدا میکند.
---
🔧 نحوهٔ آموزش مدل
برای دقت بالا در پزشکی، چنین کاری انجام شده:
انکودرهای تصویر و متن منجمد شدهاند تا توان اصلی SAM 3 حفظ شود
قسمتهای مربوط به دیتکتور با SFT روی دیتاستهای پزشکی آموزش دیدهاند
نتیجه: مدل هویت اصلی SAM 3 را حفظ میکند، اما زبان و ساختار پزشکی را هم میفهمد
---
📊 نتایج و عملکرد
بهترین نسخه، پیکربندی MedSAM-3 T+I (ترکیب متن + باکس محدودکننده) بوده و توانسته:
جلو بزند از U-Net
جلو بزند از MedSAM نسخه اول
دستیابی به:
Dice = 0.7772 روی BUSI
Dice = 0.8064 با کمک Agent و Gemini 3 Pro
این نتایج در پزشکی خیلی قوی محسوب میشوند.
---
🤖 مدل Agent هوشمند MedSAM-3
یک ابزار جذاب همراه مدل عرضه شده:
✳️برنامهریز هوشمند با Gemini 3 Pro
✳️تبدیل درخواست پزشک به زنجیرهٔ اقدامات
✳️اجرای چند مرحلهٔ بهبود برای سگمنتیشن دقیقتر
✳️افزایش محسوس دقت (Dice)
✳️این یعنی ورود جدی مدلهای Vision-Language-Agent به پزشکی.
---
📌 وضعیت انتشار
مدل فعلاً در قالب Tech Report منتشر شده، اما توسعهدهندگان قول دادهاند کد و وزنها را منتشر کنند.
برای فعالان حوزهٔ AI پزشکی بسیار مهم است.
https://arxiv.org/pdf/2511.19046
https://github.com/Joey-S-Liu/MedSAM3
---
@rss_ai_ir
#هوش_مصنوعی #پزشکی #Segmentation #MedSAM3 #SAM3 #ComputerVision #DeepLearning #MedicalAI
🧠 مدل MedSAM-3 تلاش میکند قابلیتهای قدرتمند سگمنتیشن مبتنی بر متن را از دنیای عمومی به حوزهٔ حساس پزشکی بیاورد.
در حالی که SAM 3 در تصاویر روزمره عالی عمل میکند، اما روی دادههای پزشکی مشکلات جدی داشت — از جمله اشتباهگرفتن ساختارهای آناتومیکی و ناتوانی در فهم اصطلاحات تخصصی.
مدل MedSAM-3 دقیقاً همین شکاف را پر میکند:
💬 پزشک فقط مینویسد: «توده پستان را سگمنت کن»
و مدل ناحیهٔ صحیح را در MRI، CT، سونوگرافی و پاتولوژی جدا میکند.
---
🔧 نحوهٔ آموزش مدل
برای دقت بالا در پزشکی، چنین کاری انجام شده:
انکودرهای تصویر و متن منجمد شدهاند تا توان اصلی SAM 3 حفظ شود
قسمتهای مربوط به دیتکتور با SFT روی دیتاستهای پزشکی آموزش دیدهاند
نتیجه: مدل هویت اصلی SAM 3 را حفظ میکند، اما زبان و ساختار پزشکی را هم میفهمد
---
📊 نتایج و عملکرد
بهترین نسخه، پیکربندی MedSAM-3 T+I (ترکیب متن + باکس محدودکننده) بوده و توانسته:
جلو بزند از U-Net
جلو بزند از MedSAM نسخه اول
دستیابی به:
Dice = 0.7772 روی BUSI
Dice = 0.8064 با کمک Agent و Gemini 3 Pro
این نتایج در پزشکی خیلی قوی محسوب میشوند.
---
🤖 مدل Agent هوشمند MedSAM-3
یک ابزار جذاب همراه مدل عرضه شده:
✳️برنامهریز هوشمند با Gemini 3 Pro
✳️تبدیل درخواست پزشک به زنجیرهٔ اقدامات
✳️اجرای چند مرحلهٔ بهبود برای سگمنتیشن دقیقتر
✳️افزایش محسوس دقت (Dice)
✳️این یعنی ورود جدی مدلهای Vision-Language-Agent به پزشکی.
---
📌 وضعیت انتشار
مدل فعلاً در قالب Tech Report منتشر شده، اما توسعهدهندگان قول دادهاند کد و وزنها را منتشر کنند.
برای فعالان حوزهٔ AI پزشکی بسیار مهم است.
https://arxiv.org/pdf/2511.19046
https://github.com/Joey-S-Liu/MedSAM3
---
@rss_ai_ir
#هوش_مصنوعی #پزشکی #Segmentation #MedSAM3 #SAM3 #ComputerVision #DeepLearning #MedicalAI
👍1🔥1👏1
🤖 استک GELab-Zero؛ نخستین استک کاملاً متنباز برای GUI-Agent ها
یک خبر مهم برای دنیای ایجنتها: استک GELab-Zero منتشر شد؛ ترکیبی کامل از مدل + زیرساخت که جایگزین متنباز برای سیستمهای سطح بالایی مثل GUI-Agent MCP محسوب میشود. نسخهای سبک، سریع و قابل اجرا بهصورت کامل روی سیستم شخصی شما 🚀
🔧 چه چیزهایی داخلش هست؟
مدل ۴B در سطح SOTA؛ سریع، کمهزینه و قابل اجرا روی GPUهای سبک
زیرساخت راهاندازی «تککلیک» بدون دردسرهای ADB
بنچمارک AndroidDaily بر اساس سناریوهای واقعی کاربران
📊 نتایج و عملکرد
دقت ۷۳.۴٪ روی AndroidDaily
عملکرد بهتر از مدلهای بزرگتری مثل GUI-Owl-32B
بالاتر از Gemini-2.5-pro-thinking و GPT-4o در تستهای GUI
برتری قابل توجه روی ScreenSpot، AndroidWorld و OSWorld
🎯 هدف استک مشخص است:
نصب کن، اجرا کن، شخصیسازی کن، و توسعه بده — بالاخره یک گزینهٔ متنباز واقعی برای GUI-Agent ها در دسترس است.
🔗 لینکها:
HuggingFace:
https://huggingface.co/stepfun-ai/GELab-Zero-4B-preview
GitHub:
https://github.com/stepfun-ai/gelab-zero
Blog:
https://opengelab.github.io/index.html
#GELabZero #AI #Agents #GUIAgents #MachineLearning #OpenSource #DeepLearning @rss_ai_ir
یک خبر مهم برای دنیای ایجنتها: استک GELab-Zero منتشر شد؛ ترکیبی کامل از مدل + زیرساخت که جایگزین متنباز برای سیستمهای سطح بالایی مثل GUI-Agent MCP محسوب میشود. نسخهای سبک، سریع و قابل اجرا بهصورت کامل روی سیستم شخصی شما 🚀
🔧 چه چیزهایی داخلش هست؟
مدل ۴B در سطح SOTA؛ سریع، کمهزینه و قابل اجرا روی GPUهای سبک
زیرساخت راهاندازی «تککلیک» بدون دردسرهای ADB
بنچمارک AndroidDaily بر اساس سناریوهای واقعی کاربران
📊 نتایج و عملکرد
دقت ۷۳.۴٪ روی AndroidDaily
عملکرد بهتر از مدلهای بزرگتری مثل GUI-Owl-32B
بالاتر از Gemini-2.5-pro-thinking و GPT-4o در تستهای GUI
برتری قابل توجه روی ScreenSpot، AndroidWorld و OSWorld
🎯 هدف استک مشخص است:
نصب کن، اجرا کن، شخصیسازی کن، و توسعه بده — بالاخره یک گزینهٔ متنباز واقعی برای GUI-Agent ها در دسترس است.
🔗 لینکها:
HuggingFace:
https://huggingface.co/stepfun-ai/GELab-Zero-4B-preview
GitHub:
https://github.com/stepfun-ai/gelab-zero
Blog:
https://opengelab.github.io/index.html
#GELabZero #AI #Agents #GUIAgents #MachineLearning #OpenSource #DeepLearning @rss_ai_ir
❤2
This media is not supported in your browser
VIEW IN TELEGRAM
🥭 ویرایش حرکت سهبعدی در ویدئو با Edit-by-Track 🥭
@rss_ai_ir
یک روش تازه برای کنترل دقیق حرکت در ویدئو معرفی شده است: Edit-by-Track.
در این روش، مسیر حرکت نقطههای سهبعدی مشخص میشود و مدل میتواند بر اساس همین مسیر:
✨ حرکت دوربین و سوژه را همزمان کنترل کند
✨ اشیای ناخواسته را حذف کند
✨ حرکت یک ویدئو را به ویدئوی دیگر منتقل کند
✨ ویرایش حرکتی بسیار طبیعی و تمیز ایجاد کند
مزیت اصلی این کار: کنترل مستقیم و شهودی روی مسیرهای سهبعدی بدون نیاز به ویرایش پیچیدهٔ فریمبهفریم.
🔗 Paper: https://arxiv.org/pdf/2512.02015
🔗 Project: https://edit-by-track.github.io/
#AI #VideoEditing #3DMotion #ComputerVision #DeepLearning
@rss_ai_ir
یک روش تازه برای کنترل دقیق حرکت در ویدئو معرفی شده است: Edit-by-Track.
در این روش، مسیر حرکت نقطههای سهبعدی مشخص میشود و مدل میتواند بر اساس همین مسیر:
✨ حرکت دوربین و سوژه را همزمان کنترل کند
✨ اشیای ناخواسته را حذف کند
✨ حرکت یک ویدئو را به ویدئوی دیگر منتقل کند
✨ ویرایش حرکتی بسیار طبیعی و تمیز ایجاد کند
مزیت اصلی این کار: کنترل مستقیم و شهودی روی مسیرهای سهبعدی بدون نیاز به ویرایش پیچیدهٔ فریمبهفریم.
🔗 Paper: https://arxiv.org/pdf/2512.02015
🔗 Project: https://edit-by-track.github.io/
#AI #VideoEditing #3DMotion #ComputerVision #DeepLearning
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 نسخه جدید نسلساز ویدیو Runway — مدل قدرتمند Gen-4.5 معرفی شد
🚀 ارتقای مهمی در کیفیت و کنترلپذیری ویدیوهای تولیدی ثبت شده است.
مدل Gen-4.5 اکنون تصاویر شفافتر، حرکت واقعگرایانهتر و انطباق دقیقتری با متن ایجاد میکند.
✨ بهبودهای کلیدی:
♻️جزئیات تصویری بسیار تمیزتر و واضحتر
♻️حرکتهای طبیعیتر انسان و اشیا
♻️نورپردازی و فیزیک بهتر، بدون artifacts
♻️هماهنگی عالی با پرامپت، حتی در صحنههای پیچیده و سریع
♻️کنترلهای پیشرفته برای دوربین، حرکت، ترکیببندی و صدا
🎞️ قابلیتها:
Image-to-Video
Video-to-Video
Keyframes
کنترل کامل حرکت دوربین
📊 رکورد کیفیت:
اینکه Gen-4.5 در رتبهبندی Artificial Analysis Text-to-Video امتیاز ۱۲۴۷ Elo را ثبت کرده و بالاتر از تمام مدلهای ویدیویی فعلی قرار گرفته است.
🔗 لینک اعلام رسمی:
https://app.runwayml.com/video-tools/
@rss_ai_ir
#Runway #Gen45 #VideoGeneration #AI #AIGeneration #DeepLearning #TechNews
🚀 ارتقای مهمی در کیفیت و کنترلپذیری ویدیوهای تولیدی ثبت شده است.
مدل Gen-4.5 اکنون تصاویر شفافتر، حرکت واقعگرایانهتر و انطباق دقیقتری با متن ایجاد میکند.
✨ بهبودهای کلیدی:
♻️جزئیات تصویری بسیار تمیزتر و واضحتر
♻️حرکتهای طبیعیتر انسان و اشیا
♻️نورپردازی و فیزیک بهتر، بدون artifacts
♻️هماهنگی عالی با پرامپت، حتی در صحنههای پیچیده و سریع
♻️کنترلهای پیشرفته برای دوربین، حرکت، ترکیببندی و صدا
🎞️ قابلیتها:
Image-to-Video
Video-to-Video
Keyframes
کنترل کامل حرکت دوربین
📊 رکورد کیفیت:
اینکه Gen-4.5 در رتبهبندی Artificial Analysis Text-to-Video امتیاز ۱۲۴۷ Elo را ثبت کرده و بالاتر از تمام مدلهای ویدیویی فعلی قرار گرفته است.
🔗 لینک اعلام رسمی:
https://app.runwayml.com/video-tools/
@rss_ai_ir
#Runway #Gen45 #VideoGeneration #AI #AIGeneration #DeepLearning #TechNews
❤1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 زیباترین تصویری که تا امروز از «درون ذهن یک مدل زبانی» دیدهایم!
در پاسخ به این سؤال همیشگی که «هوش مصنوعی دقیقاً چطور فکر میکند؟» — این بهترین و دقیقترین بصریسازی از فرایند محاسباتی یک LLM است. یک پرواز سهبعدی تعاملی از داخل شبکه Llama؛ اما اصول آن برای تمام ترنسفورمرها صادق است.
✨ چه چیزی را میبینیم؟
هر صفحه یک تنسور است؛ یک فریم از «فیلم ذهنی» مدل در لحظهٔ پردازش.
هر لایه دقیقاً نشان میدهد که چه عملی انجام میشود:
Attention, Projection, Normalization, MLP
با کلیک روی پنل سمت راست میتوانید توضیح واضح هر مرحله را ببینید و اینکه چرا مدل از آن حالت به حالت بعدی میرود.
تجربهاش مثل این است که داخل یک فکر قدم میزنید.
❓ و بالاخره پاسخ به سؤال بزرگ:
«روح» یک مدل زبانی کجاست؟
اینجاست—در همین تبدیلهای پیدرپی، تنسورها و لایههایی که معنا را شکل میدهند.
⚪️ @rss_ai_ir
#AI #LLM #DeepLearning #Transformers #Visualization #NeuralNetworks #AIMind
در پاسخ به این سؤال همیشگی که «هوش مصنوعی دقیقاً چطور فکر میکند؟» — این بهترین و دقیقترین بصریسازی از فرایند محاسباتی یک LLM است. یک پرواز سهبعدی تعاملی از داخل شبکه Llama؛ اما اصول آن برای تمام ترنسفورمرها صادق است.
✨ چه چیزی را میبینیم؟
هر صفحه یک تنسور است؛ یک فریم از «فیلم ذهنی» مدل در لحظهٔ پردازش.
هر لایه دقیقاً نشان میدهد که چه عملی انجام میشود:
Attention, Projection, Normalization, MLP
با کلیک روی پنل سمت راست میتوانید توضیح واضح هر مرحله را ببینید و اینکه چرا مدل از آن حالت به حالت بعدی میرود.
تجربهاش مثل این است که داخل یک فکر قدم میزنید.
❓ و بالاخره پاسخ به سؤال بزرگ:
«روح» یک مدل زبانی کجاست؟
اینجاست—در همین تبدیلهای پیدرپی، تنسورها و لایههایی که معنا را شکل میدهند.
⚪️ @rss_ai_ir
#AI #LLM #DeepLearning #Transformers #Visualization #NeuralNetworks #AIMind
👍4👎1🔥1
✨ مدل CauSight؛ مدل نوینی که علّیت را در تصویر کشف میکند 🧠📸
مدل CauSight نسل جدیدی از VLMهاست که میتواند رابطه علت و معلول را مستقیماً از داخل تصاویر استخراج کند.
این مدل بر پایه دیتاست VCG-32K و رویکردی جدید به نام Tree-of-Causal-Thought ساخته شده و توانسته عملکردی سهبرابر بهتر از GPT-4.1 در وظایف کشف علّیت بصری ثبت کند.
🔍 قابلیتها
استخراج روابط علّی بین اشیاء و رویدادها
استنتاج دلیل رخدادها، نه فقط توصیف تصویر
پشتیبانی کامل از وظایف visual causal reasoning
📄 لینکها:
• arXiv:
https://arxiv.org/abs/2512.01827
• PDF:
https://arxiv.org/pdf/2512.01827
• GitHub:
https://github.com/OpenCausaLab/CauSight
• مدل:
https://huggingface.co/OpenCausaLab/CauSight
• دیتاست:
https://huggingface.co/datasets/OpenCausaLab/VCG-32K
@rss_ai_ir
#CausalInference #VisualCausalDiscovery #AI #DeepLearning #VisionLanguageModels
مدل CauSight نسل جدیدی از VLMهاست که میتواند رابطه علت و معلول را مستقیماً از داخل تصاویر استخراج کند.
این مدل بر پایه دیتاست VCG-32K و رویکردی جدید به نام Tree-of-Causal-Thought ساخته شده و توانسته عملکردی سهبرابر بهتر از GPT-4.1 در وظایف کشف علّیت بصری ثبت کند.
🔍 قابلیتها
استخراج روابط علّی بین اشیاء و رویدادها
استنتاج دلیل رخدادها، نه فقط توصیف تصویر
پشتیبانی کامل از وظایف visual causal reasoning
📄 لینکها:
• arXiv:
https://arxiv.org/abs/2512.01827
• PDF:
https://arxiv.org/pdf/2512.01827
• GitHub:
https://github.com/OpenCausaLab/CauSight
• مدل:
https://huggingface.co/OpenCausaLab/CauSight
• دیتاست:
https://huggingface.co/datasets/OpenCausaLab/VCG-32K
@rss_ai_ir
#CausalInference #VisualCausalDiscovery #AI #DeepLearning #VisionLanguageModels