VIRSUN
7.41K subscribers
795 photos
463 videos
3 files
508 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
⚡️ Qwen-ASR Toolkit —
ابزار قدرتمند Python برای تبدیل سریع گفتار به متن

این ابزار محدودیت ۳ دقیقه‌ای API مدل Qwen-ASR (نام قبلی: Qwen3-ASR-Flash) رو حذف می‌کنه و امکان تبدیل ساعت‌ها محتوای صوتی و تصویری رو فراهم می‌کنه.
راز کارش: تقسیم هوشمند فایل و پردازش موازی.


---

🔹 امکانات اصلی:

♻️رفع محدودیت ۳ دقیقه → پشتیبانی از فایل با هر طولی
♻️تقسیم‌بندی هوشمند با VAD (تشخیص گفتار از سکوت و نویز)
♻️سرعت بالا با پردازش چندنخی و موازی
♻️تبدیل خودکار فرمت به 16kHz mono
♻️پشتیبانی از همه فرمت‌ها: MP4, MOV, MKV, MP3, WAV, M4A و …
♻️اجرای ساده تنها با یک دستور CLI



---

🟢 نصب:
pip install qwen3-asr-toolkit

🔗 GitHub: Qwen3-ASR-Toolkit


---

#هوش_مصنوعی 🤖
#ASR 🎙️
#Speech2Text 📝
#Qwen
#OpenSource 💻

@rss_ai_ir
👍13😁12🥰118🔥7👏6🎉5
⚡️ Ling-flash-2.0 منتشر شد! ⚡️

⛔️مدلی با ۱۰۰ میلیارد پارامتر اما فقط با حدود ۶.۱ میلیارد پارامتر فعال، که آن را فوق‌العاده کم‌هزینه و سریع در پردازش می‌کند.


🚀 ویژگی‌های کلیدی Ling-flash-2.0

♻️آموزش‌دیده روی ۲۰ تریلیون توکن همراه با مراحل pre-training و RL.
♻️بهترین عملکرد در بین مدل‌های متراکم تا ۴۰B پارامتر.
♻️بسیار قوی در استدلال پیچیده، تولید کد و تسک‌های فرانت‌اند.

⚙️ جزئیات معماری و کارایی

معماری MoE با نسبت فعال‌سازی ۱/۳۲.
تکنیک‌های پیشرفته مثل توزیع هوشمند متخصصان، تعادل توجه، و مسیریابی بدون زیان کمکی.
روی سخت‌افزار H20 سرعت تولید ۲۰۰+ توکن در ثانیه (۳ برابر سریع‌تر از مدل متراکم 36B).
پشتیبانی از کانتکست‌های ۱۲۸K با استفاده از YaRN.
📎 جزئیات بیشتر:
🔗 Hugging Face

@rss_ai_ir

#MoE #مدل_زبان #یادگیری_ماشین #هوش_مصنوعی #OpenSource
🎉28😁2019👍16🥰15👏14🔥11
🚀 DeepFaceLab —
ابزار اصلی متن‌باز برای ساخت دیپ‌فیک ویدیو

📌 واقعیات مهم:

✳️بیش از ۹۵٪ تمام دیپ‌فیک‌ها با DeepFaceLab ساخته شده‌اند
✳️پشتیبانی از Windows، Linux و Google Colab
✳️بر پایه TensorFlow با معماری ماژولار و انعطاف‌پذیر
✳️خروجی بسیار واقعی در حد جلوه‌های ویژه سینمایی 🎬
✳️ریپازیتوری: 18.5k و 🔀 669 فورک
✳️از نوامبر ۲۰۲۴ پروژه آرشیو شده اما همچنان قابل استفاده و مطالعه است


👤 نویسنده: iperov — یکی از اولین توسعه‌دهندگانی که face-swap را برای همه در دسترس کرد.

🔗 لینک گیت‌هاب:
github.com/iperov/DeepFaceLab

💡 برای یادگیری، آزمایش و تحقیق استفاده کنید — این پروژه پایه بسیاری از فناوری‌های مدرن دیپ‌فیک است.

#DeepFake #هوش_مصنوعی #ComputerVision #دیپ_لرنینگ #opensource
👍86😁5🔥4🎉4🥰3👏3
🐳 نسخه‌ی جدید DeepSeek-V3.1-Terminus منتشر شد!

این نسخه نسبت به ورژن قبلی، نتایج پایدارتر و کامل‌تری در تست‌ها ارائه می‌دهد.

📲 در دسترس از طریق:

♻️اپلیکیشن
♻️نسخه‌ی وب
✳️و همینطور از طریق API


🔗 وزن‌های باز: HuggingFace

#DeepSeek #opensource #LLM #هوش_مصنوعی #مدل_زبان
🥰75👍5🔥4🎉4👏3😁3
🚀 مدل جدید چینی LongCat-Flash-Thinking

🧠 مدلی مخصوص استدلال که بین تمام مدل‌های اوپن‌سورس به رکورد SOTA رسیده است.

⚡️ ویژگی‌ها:

معماری MoE با ۵۶۰B پارامتر (۲۷B فعال در هر بار اجرا)
صرفه‌جویی بزرگ: ‌برای رسیدن به نتایج برتر در AIME25 به ۶۴.۵٪ توکن کمتر نیاز دارد
پشتیبانی از 128k context
آموزش با تقویت (RL) روی مسائل استدلالی و کد + چندمرحله‌ای با سینتِز چندعاملی
همچنین RL آسنکرون → ‌۳ برابر سریع‌تر از فریم‌ورک‌های سنتی


⚙️ بهینه‌سازی برای پروداکشن:

♻️هسته‌های اختصاصی برای MoE و آموزش توزیع‌شده
♻️کاهش KV-cache، کوانتیزیشن، chunked prefill
♻️مسیریابی استاتیک/الاستیک، انتقال کش همتا‌به‌همتا، replication هوشمند
♻️سازگار با SGLang و vLLM برای استقرار سریع


📊 نتایج:

✳️صدرنشین در tool use (τ²-Bench, VitaBench)
✳️عملکرد عالی در instruction following (IFEval, COLLIE, Meeseeks-zh)
✳️چین همچنان پرچم‌دار مدل‌های reasoning است. 🇨🇳🤖

🔗 HF: huggingface.co/meituan-longcat/LongCat-Flash-Thinking

#هوش_مصنوعی #مدل_زبانی #MoE #یادگیری_عمیق #OpenSource

@rss_ai_ir
🔥6🥰6👏6👍5😁43🎉3
This media is not supported in your browser
VIEW IN TELEGRAM
🥇 SaSaSa2VA
قهرمان چالش LSVOS 🥇

⛔️این مدل با معرفی رویکرد Segmentation Augmentation باعث بهبود درک ویدئو در سطح جهانی شده و در عین حال کارآمد باقی می‌ماند.
همچنین در مرحله‌ی inference از Selective Averaging برای ترکیب پایدار پیش‌بینی‌های مکمل استفاده می‌کند.

📊 نتیجه؟ دستیابی به SOTA در هفتمین چالش LSVOS (بخش RVOS) 🎉
کدی کاملاً عملیاتی و متن‌باز تحت لایسنس Apache در دسترس است.

📄 مقاله:
https://arxiv.org/pdf/2509.16972
💻 ریپو:
https://github.com/magic-research/Sa2VA

@rss_ai_ir

#AI #VideoUnderstanding #LSVOS #Segmentation #DeepLearning #opensource
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 تنسنت بخشی از Hunyuan Studio را که مسئول سگمنتیشن اشیای سه‌بعدی است به صورت اوپن‌سورس منتشر کرد!

🔹 دو متد کلیدی:

P3-SAM —
مدل سگمنتیشن قطعات در فرمت سه‌بعدی.

X-Part —
مدل تولید قطعات با نتایج عالی در کنترل‌پذیری و کیفیت شکل.


📂 کد: GitHub
📦 وزن‌ها: Hugging Face

🌐 جزئیات بیشتر:

P3-SAM
X-Part


👉 یک گام دیگر برای دسترس‌پذیرتر شدن پایپ‌لاین‌های پیچیده کار با 3D برای جامعه پژوهشگران و توسعه‌دهندگان.

#AI #3D #Segmentation #OpenSource #Hunyuan #Tencent #DeepLearning

@rss_ai_ir
1
animation.gif
21.7 MB
🔥 تشخیص SOTA با DINOv3 🔥

👉فریم ورک DEIMv2 نسخه تکامل‌یافته‌ی فریم‌ورک DEIM است که بر پایه DINOv3 ساخته شده. این چارچوب با ارائه مدل‌هایی از نسخه فوق‌سبک تا S، M، L و X طیف وسیعی از سناریوها را پوشش می‌دهد. نتیجه؟ دستیابی به بهترین عملکرد (SOTA) در حوزه تشخیص. 🚀

📌 منابع:
🔹 مقاله
🔹 کد در GitHub
🔹 پروژه
@rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #DINOv3 #تشخیص #SOTA #OpenSource
This media is not supported in your browser
VIEW IN TELEGRAM
📹🤖 LONGLIVE از NVIDIA —
ویدئو‌سازی تعاملیِ بلادرنگ

مدل LONGLIVE یک چارچوب autoregressive در سطح فریم برای تولید ویدئوی طولانی به‌صورت Real-time است. حین تولید می‌توانید پشت‌سرهم پرامپت بدهید و مدل همان‌جا مسیر ویدئو را تغییر دهد.

چرا مهم است؟

⏱️ پاسخ‌دهی بلادرنگ؛ مناسب استریم و تجربه‌های تعاملی

🧠 تولید فریم‌به‌فریم = کنترل دقیق صحنه و تداوم داستان

🧩 پشتیبانی از پرامپت‌های پی‌در‌پی (sequential prompts)

🛠️ کد و مدل منتشر شده (لایسنس غیرتجاری)


لینک‌ها:

Paper: arxiv.org/pdf/2509.22622
Project: nvlabs.github.io/LongLive/
Code: github.com/NVlabs/LongLive
HF: huggingface.co/Efficient-Large-Model/LongLive-1.3B

#NVIDIA #LongLive #RealtimeVideo #InteractiveAI #GenerativeVideo #Autoregressive #AIResearch #OpenSource
👍4🔥1🙏1
خبری تازه از Hunyuan — معرفی HunyuanImage 3.0 (خبر خوب و خبر بد) 👇

خوب:

سورس‌کد اوپن‌سورس منتشر شده. 🔗
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

دموی تحت وب برای تست:
https://hunyuan.tencent.com/image/en?tabIndex=0

نسخه‌های تعاملی/آزمایشی در پلتفرم‌هایی مثل Fal.ai/Replicate هم قرار گرفته‌اند.


چی‌کار می‌کنه؟

بزرگ‌ترین مدل متن→تصویر اوپن‌سورس تا امروز: ~80B پارامتر (که حدود 13B فعال روی هر توکن استفاده می‌شه).

معماری MoE + Transfusion — ترکیب Diffusion و LLM در یک فریم‌ورک.

آموزش روی مجموعه‌داده عظیم: ~5 میلیارد زوج تصویر‌-متن و تِرلیون‌ها توکن.

پشتیبانی از پرت‌پرامپت‌های طولانی (هزاران کلمه)، فهم دقیق متن و توانایی خوب در کار با متن داخل تصویر.

نتیجه: reasoning سطح بالا، مولتی‌مودالیتی قوی و کارآمدی در پیروی از دستورالعمل‌های پیچیده.


من خودم یک تست زدم:
بهش گفتم:
solve this: 8x + 10 = 18 and make picture with solution

خروجی — هم حل ریاضی و هم تصویر راه‌حل — در پست قابل دیدنه؛ جذاب بود.

⛔️بد:

هنوز image2image نداره.

پشتیبانی از VLLM / runtime سبک ندارن (فعلاً).

وزن‌ها خیلی بزرگن — حدود 170 گیگابایت.

برای اجرا به سخت‌افزار سنگینی نیاز دارید: ۴ کارت وِی‌آر‌ای‌ام ۸۰GB (۴ × 80GB VRAM) — یعنی فعلاً برای اکثرِ آدم‌ها و پژوهشگرای معمولی قابل‌دسترس نیست.

به‌قولی «اوپن‌سورسِ اشرافی» — کد رو گذاشتن، ولی عملاً فقط کسایی با سرورهای بزرگ می‌تونن راحت اجرا کنن.

گزارش‌هایی از اشکالاتی در آناتومی و تکسچر پوست هست — نتایج هنوز جای کاستن دارند.


جمع‌بندی:

♻️قابل ذکره که HunyuanImage 3.0 از نظر مقیاس و معماری یه جهش بزرگه و خیلی پرامکاناته، ولی در عمل فعلاً فقط برای تیم‌ها یا سازمان‌هایی با دیتاسنترِ بزرگ کاربردیه. منتظر بهینه‌سازی‌ها، نسخه‌های distilled و runtimeهای سبک‌تر می‌مونیم تا این پکیج واقعاً در دسترس عموم قرار بگیره.

⛔️لینک‌ها دوباره:

گیت‌هاب:
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

دمو:
https://hunyuan.tencent.com/image/en?tabIndex=0

playground در Fal.ai:
https://fal.ai/models/fal-ai/hunyuan-image/v3/text-to-image/playground

@rss_ai_ir

#HunyuanImage #GenerativeAI #OpenSource #3DGenAI #AI_news
1👍1🔥1👏1