VIRSUN
7.95K subscribers
1.36K photos
775 videos
5 files
860 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
🔥 بحران انرژیِ هوش مصنوعی جدی‌تر از همیشه شده است

گزارش‌های جدید نشان می‌دهند که مصرف انرژی OpenAI طی پنج سال آینده از بریتانیا یا آلمان بیشتر خواهد شد و طی هشت سال آینده حتی از هند فراتر می‌رود.
این فقط مصرف یک شرکت است — نه کل صنعت هوش مصنوعی.

در چنین شرایطی یک سؤال بنیادین مطرح می‌شود:
کشورهایی مانند بریتانیا و آلمان چطور قرار است «سیاره را نجات دهند»، وقتی رشد شتابان مدل‌های عظیم در حال مصرف انرژی در ابعادی فراتر از کل این کشورهاست؟

از سوی دیگر، تصمیم‌های سختگیرانه برای کاهش مصرف انرژی در اروپا منجر به:
• تضعیف صنایع محلی
• کاهش رقابت‌پذیری جهانی
• مهاجرت شرکت‌ها به مناطقی با انرژی ارزان‌تر
• از دست رفتن مشاغل و سرمایه‌گذاری صنعتی

واقعیت این است که بحران انرژیِ آینده دیگر فقط به صنایع فولاد، خودرو یا شیمی محدود نیست.
اکنون ابرمدل‌های هوش مصنوعی در حال بلعیدن منابع انرژی‌اند و بحث «توسعه پایدار» بدون درنظرگرفتن آن‌ها عملاً بی‌معناست.

⛔️این تناقض بزرگ سیاست‌گذاری جهانی را آشکار می‌کند:
کشورهایی که برای اقتصادشان محدودیت‌های سنگین وضع کرده‌اند، شاید در نهایت شاهد مصرف انرژیِ بسیار بیشتری از سمت شرکت‌های فناوری خارج از مرزهایشان باشند.

@rss_ai_ir
---

🏷 هشتگ‌ها

#هوش_مصنوعی #انرژی #سیاستگذاری #OpenAI #پایداری #اقتصاد #AI #DeepLearning #TechPolicy #Industry4_0
🔥2👍1👏1
⚡️ مدل HunyuanOCR؛ کوچک، سریع و شکست‌دهندهٔ بنچمارک‌ها

تنسنت نسخهٔ متن‌باز مدل HunyuanOCR را منتشر کرده؛ مدلی فقط با ۱ میلیارد پارامتر که عملکرد آن در سطح مدل‌های چندین برابر بزرگ‌تر است. این سیستم به‌صورت End-to-End کار می‌کند و تقریباً همهٔ نیازهای OCR مدرن را پوشش می‌دهد.

برتری در بنچمارک‌ها

امتیاز 860 در OCRBench بین تمام مدل‌های کوچک‌تر از 3B

امتیاز 94.1 در OmniDocBench؛ بهترین عملکرد در پردازش اسناد پیچیده


🧠 قابلیت‌ها
مدل برای طیف گسترده‌ای از سناریوهای OCR بهینه شده است:

✳️متن محیطی: تابلو، ویترین، بنر، خیابان

✳️دست‌خط و فونت‌های هنری

✳️اسناد پیچیده: جدول، فرمول، HTML، LaTeX

✳️زیرنویس ویدیو

✳️ترجمهٔ مستقیم متن روی تصویر به ۱۴ زبان
این یک سامانهٔ چندمرحله‌ای نیست؛ فقط یک درخواست و یک پاس انفِرِنس.


🔗 لینک‌ها
• وب:
https://hunyuan.tencent.com/vision/zh?tabIndex=0
• نسخه موبایل:
https://hunyuan.tencent.com/open_source_mobile?tab=vision&tabIndex=0
• GitHub:
https://github.com/Tencent-Hunyuan/HunyuanOCR

• HuggingFace:
https://huggingface.co/tencent/HunyuanOCR
• گزارش فنی:
https://github.com/Tencent-Hunyuan/HunyuanOCR/blob/main/HunyuanOCR_Technical_Report.pdf

@rss_ai_ir
#OCR #مدل_متن‌باز #هوش_مصنوعی #بینایی_ماشینی #Tencent #HunyuanOCR #AI #DeepLearning #Multimodal
🔥1
مدل MSRNet؛ شبکهٔ چندمقیاسی بازگشتی برای آشکارسازی اشیای استتار‌شده
@rss_ai_ir

تشخیص اشیایی که عمداً در محیط «محو» شده‌اند همیشه یکی از سخت‌ترین چالش‌های بینایی ماشین بوده است.
مدل MSRNet با ترکیب Pyramid Vision Transformer و Recursive Feature Refinement توانسته یک جهش جدی ایجاد کند و در بنچمارک‌ها به State-of-the-Art برسد.

🔍 چرا MSRNet مهم است؟

✳️عملکرد عالی روی اجسام کوچک و چندگانه

✳️تقویت چندمرحله‌ای ویژگی‌ها با معماری بازگشتی

✳️یادگیری پایدارتر و دقت بالاتر نسبت به مدل‌های قبلی

✳️مناسب برای کاربردهایی مثل: نظارت، رباتیک، پزشکی و تحلیل حیات‌وحش


📅 تاریخ انتشار: ۱۶ نوامبر
📄 لینک مقاله:
arXiv: https://arxiv.org/abs/2511.12810
PDF: https://arxiv.org/pdf/2511.12810

🤗 مدل‌های منتشرشده:
https://huggingface.co/linaa98/MSRNet


---

#CamouflagedObjectDetection #MSRNet #ObjectDetection #ComputerVision #DeepLearning #VisionTransformer #AIResearch #NeuralNetworks
🔥1🙏1👌1
This media is not supported in your browser
VIEW IN TELEGRAM
@rss_ai_ir

🍓 مدل MotionV2V — ویرایش حرکت در ویدئو با دقت بی‌سابقه 🍓

گوگل سیستم MotionV2V را معرفی کرد؛ روشی نوین برای ویرایش حرکت در ویدئو که به‌جای تغییر کل فریم، مستقیماً تفاوت حرکت بین ویدئوی اصلی و نسخه ویرایش‌شده را کنترل می‌کند.

این مدل بر پایه دیفیوشن کار می‌کند و امکان می‌دهد که:
حرکت یک فرد تغییر کند، بدون تغییر ظاهر
سرعت، جهت، یا شدت حرکت اصلاح شود
حرکت کاملاً جدید روی ویدئو اعمال شود
ویدئوهای ادیت‌شده، طبیعی و منسجم باقی بمانند

نتیجه؟
ویدئوهایی با حرکت‌های کاملاً کنترل‌شده، بدون artifacts و بدون پرش‌های عجیب.

🔗 لینک‌ها:

👉 Paper:
https://arxiv.org/pdf/2511.20640
👉 Project Page:
https://ryanndagreat.github.io/MotionV2V/
👉 GitHub (به‌زودی):
https://github.com/RyannDaGreat/MotionV2V

#MotionEditing #VideoAI #DiffusionModels #GoogleAI #GenerativeAI #DeepLearning
👍1🔥1
@rss_ai_ir

تشخیص تصاویر مصنوعی با گرادیان‌فیلدها — یک روش ساده و شگفت‌انگیز! 💡

در دنیایی که مدل‌های دیفیوشن هر روز واقعی‌تر می‌شوند، پیدا کردن یک روش ساده، سبک و قابل‌توضیح برای تشخیص عکس واقعی از مصنوعی واقعاً طلاست. این تکنیک دقیقاً همین کار را می‌کند 👇

🔍 ایده اصلی
با انجام یک تحلیل ساده روی گرادیان روشنایی تصویر و سپس استفاده از PCA، یک جداسازی پایدار بین:

📸 عکس‌های واقعی

🎨 تصاویر ساخته‌شده با دیفیوشن
به‌دست می‌آید.


🧠 چرا جواب می‌دهد؟

تصاویر واقعی، گرادیان‌هایی دارند که با نورپردازی فیزیکی و رفتار سنسور دوربین سازگار است؛ منسجم و طبیعی.

تصاویر دیفیوشن به‌دلیل فرآیند denoising دارای جزئیات ناپایدار و بافت‌های فرکانس‌بالا هستند که ساختگی بودن را لو می‌دهد.


🧮 مراحل کار (فقط چند قدم ساده):

1. تبدیل RGB → luminance


2. محاسبه spatial gradients


3. تبدیل گرادیان‌ها به ماتریس فلت‌شده


4. محاسبه covariance


5. انجام PCA و مشاهده جداسازی واضح در یک تصویر



🎯 نتیجه
بدون مدل طبقه‌بندی، بدون متادیتا، بدون شبکه عصبی — فقط با ریاضی پایه و تحلیل گرادیان‌ها می‌توان به‌راحتی تشخیص داد تصویر واقعی است یا مصنوعی. یک ابزار عالی برای پژوهشگران بینایی‌ماشین و متخصصان امنیت داده.

#SyntheticDetection #GradientFields #PCA #ComputerVision #DeepLearning #AIForensics @rss_ai_ir
5👍1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Smell Like Vision Spirit 🔥
@rss_ai_ir

👉 دیتاست New York Smells یک دیتاست بزرگ و جدید از ترکیب همزمان تصویر و داده‌های بویایی است که امکان یادگیری کراس‌مودال بین بو و بینایی را فراهم می‌کند.
👉 با چراغ خاموش هم شاید «کم‌خطرتر» باشد، اما حالا AI می‌تواند بو را هم بفهمد!
👉 دیتاست در دسترس است.


🔗 Paper:
https://arxiv.org/pdf/2511.20544
🔗 Project:
https://smell.cs.columbia.edu/

#AI #Multimodal #Dataset #SmellAI #DeepLearning @rss_ai_ir
👍3🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
STARFlow-V:
نسل تازه مدل‌های ویدئو با Normalizing Flow
@rss_ai_ir 🎥

مدل STARFlow-V یک مدل کاملاً End-to-End برای تولید ویدئو است که بر پایه‌ی Normalizing Flow ساخته شده — رویکردی که معمولاً کمتر در ویدئو استفاده می‌شود، اما حالا نتایج فوق‌العاده‌ای نشان داده است.

🔹 کیفیت بصری بالا + پیوستگی زمانی عالی
🔹 پیش‌بینی علّی (causal prediction) پایدار
🔹 معماری Global–Local Latent
🔹 استفاده از Flow-Score Matching
🔹 قدمی مهم برای ورود Flow Models به دنیای Video Gen

📄 Paper: arxiv.org/abs/2511.20462
🌐 Project: starflow-v.github.io
💻 Code: github.com/apple/ml-starflow

#VideoGeneration #NormalizingFlow #GenerativeAI #DeepLearning #ML @rss_ai_ir
🥰1
🔥 بهترین راهنمای فاین‌تیونینگ که امسال در arXiv می‌بینید!

اگر با مدل‌های زبانی کار می‌کنید—چه مبتدی باشید چه حرفه‌ای—این مقاله دقیقاً همان چیزی است که لازم دارید. یک راهنمای کامل، مرحله‌به‌مرحله و فوق‌العاده منظم برای تسلط بر Fine-Tuning مدرن.

📘 مباحثی که پوشش می‌دهد:

🧠 مبانی NLP (برای اینکه بدانید زیرساخت مدل چه می‌گوید)

⚙️ روش‌های PEFT / LoRA / QLoRA (تکنیک‌های سبک برای آموزش مدل‌های بزرگ روی GPUهای معمولی)

🔀اینکه Mixture of Experts (MoE) و نکات ریز مربوط به آموزش کارآمد

🧩 پایپلاین ۷ مرحله‌ای برای فاین‌تیونینگ حرفه‌ای

🎯 توصیه‌های عملی، چک‌لیست‌ها و اشتباهاتی که باید از آن‌ها دوری کرد


📄 منبع:
https://arxiv.org/pdf/2408.13296v1

#AI #ML #FineTuning #LoRA #QLoRA #MoE #NLP #DeepLearning #arXiv

@rss_ai_ir
👍2🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
NAF: Zero-Shot Feature Upsampling via Neighborhood Attention Filtering

📝 خلاصه کوتاه:
روش NAF یک تکنیک جدید برای Upsampling ویژگی‌ها در مدل‌های پایه بینایی (Vision Foundation Models) است — کاملاً به‌صورت Zero-Shot و بدون هیچ‌گونه بازآموزی.
این روش با یادگیری وزن‌های تطبیقی بر اساس فضا + محتوا، دقت بالاتر و کارایی بهتر از آپ‌سمپلرهای سنتی ارائه می‌دهد.

🔹 ویژگی‌های کلیدی:

♻️آپ‌سمپل کردن ویژگی‌های VFM بدون نیاز به فاین‌تیون

♻️عملکرد SOTA در طیف گسترده‌ای از وظایف بینایی

♻️کارایی بالا و مناسب برای استفاده در سیستم‌های real-time

♻️قابل استفاده برای مدل‌های مختلف بدون وابستگی به معماری خاص


🔗 Paper & Code:
• arXiv: https://arxiv.org/abs/2511.18452
• PDF: https://arxiv.org/pdf/2511.18452
• GitHub: https://github.com/valeoai/NAF

#ZeroShotLearning #ComputerVision #FeatureUpsampling #DeepLearning #AIResearch @rss_ai_ir
1👍1🔥1🥰1
مدل Step-Audio-R1؛ اولین مدل صوتی که ریزونینگِ مقیاس‌پذیر را به دنیای صدا آورد 🎧🤖

مدل Step-Audio-R1 نقطه‌عطفی در هوش مصنوعی صوتی است. برای اولین بار یک Audio-LLM توانسته همان الگوی «عمقِ ریزونینگ با افزایش کامپیوتر» (مثل R1 در متن) را در صوتِ زنده پیاده‌سازی کند.


---

🔥 ویژگی‌های کلیدی

✳️درک عمیق سیگنال صوتی

✳️واکنش در زمان واقعی

✳️زنجیره‌ استدلال مقیاس‌پذیر روی داده‌ صوتی

✳️کاهش شدید خطا و حذف «حدس‌زدن‌های بدون پشتوانه»

---
عملکرد

بهتر از Gemini 2.5 Pro و قابل‌مقایسه با Gemini 3 در بنچمارک‌های پیچیده صوتی

دقت ۹۶٪ در دیالوگ بلادرنگ — بالاتر از GPT Realtime و Gemini 2.5 Flash

Time To First Token = فقط 0.92 ثانیه ⏱️

---
🎯 چرا متفاوت است؟

مدل از روش MGRD — Modality-Grounded Reasoning Distillation استفاده می‌کند.
یعنی ریزونینگ به نشانه‌های واقعی صوتی متصل می‌شود، نه به تخیلات مدل.
به‌صورت ساده:
👉 مدل براساس «آنچه واقعاً شنیده می‌شود» فکر می‌کند، نه براساس متن.

این یعنی:

♻️خطای کمتر
♻️ریزونینگ قابل‌گسترش
♻️کاربردهای جدید برای صدا


---

🔗 لینک‌ها

🎧 دمو:
https://stepaudiollm.github.io/step-audio-r1/

📄 مقاله:
https://arxiv.org/abs/2511.15848

🐙 گیت‌هاب:
https://github.com/stepfun-ai/Step-Audio-R1


---

#هوش_مصنوعی #AudioLLM #مدل_صوتی #ریزانینگ #AI #MachineLearning #DeepLearning
👍21🔥1