⚡️ Qwen-ASR Toolkit —
ابزار قدرتمند Python برای تبدیل سریع گفتار به متن
✅این ابزار محدودیت ۳ دقیقهای API مدل Qwen-ASR (نام قبلی: Qwen3-ASR-Flash) رو حذف میکنه و امکان تبدیل ساعتها محتوای صوتی و تصویری رو فراهم میکنه.
✨ راز کارش: تقسیم هوشمند فایل و پردازش موازی.
---
🔹 امکانات اصلی:
♻️رفع محدودیت ۳ دقیقه → پشتیبانی از فایل با هر طولی
♻️تقسیمبندی هوشمند با VAD (تشخیص گفتار از سکوت و نویز)
♻️سرعت بالا با پردازش چندنخی و موازی
♻️تبدیل خودکار فرمت به 16kHz mono
♻️پشتیبانی از همه فرمتها: MP4, MOV, MKV, MP3, WAV, M4A و …
♻️اجرای ساده تنها با یک دستور CLI
---
🟢 نصب:
🔗 GitHub: Qwen3-ASR-Toolkit
---
#هوش_مصنوعی 🤖
#ASR 🎙️
#Speech2Text 📝
#Qwen
#OpenSource 💻
@rss_ai_ir
ابزار قدرتمند Python برای تبدیل سریع گفتار به متن
✅این ابزار محدودیت ۳ دقیقهای API مدل Qwen-ASR (نام قبلی: Qwen3-ASR-Flash) رو حذف میکنه و امکان تبدیل ساعتها محتوای صوتی و تصویری رو فراهم میکنه.
✨ راز کارش: تقسیم هوشمند فایل و پردازش موازی.
---
🔹 امکانات اصلی:
♻️رفع محدودیت ۳ دقیقه → پشتیبانی از فایل با هر طولی
♻️تقسیمبندی هوشمند با VAD (تشخیص گفتار از سکوت و نویز)
♻️سرعت بالا با پردازش چندنخی و موازی
♻️تبدیل خودکار فرمت به 16kHz mono
♻️پشتیبانی از همه فرمتها: MP4, MOV, MKV, MP3, WAV, M4A و …
♻️اجرای ساده تنها با یک دستور CLI
---
🟢 نصب:
pip install qwen3-asr-toolkit
🔗 GitHub: Qwen3-ASR-Toolkit
---
#هوش_مصنوعی 🤖
#ASR 🎙️
#Speech2Text 📝
#Qwen
#OpenSource 💻
@rss_ai_ir
👍13😁12🥰11❤8🔥7👏6🎉5
⚡️ Ling-flash-2.0 منتشر شد! ⚡️
⛔️مدلی با ۱۰۰ میلیارد پارامتر اما فقط با حدود ۶.۱ میلیارد پارامتر فعال، که آن را فوقالعاده کمهزینه و سریع در پردازش میکند.
🚀 ویژگیهای کلیدی Ling-flash-2.0
♻️آموزشدیده روی ۲۰ تریلیون توکن همراه با مراحل pre-training و RL.
♻️بهترین عملکرد در بین مدلهای متراکم تا ۴۰B پارامتر.
♻️بسیار قوی در استدلال پیچیده، تولید کد و تسکهای فرانتاند.
⚙️ جزئیات معماری و کارایی
✅معماری MoE با نسبت فعالسازی ۱/۳۲.
تکنیکهای پیشرفته مثل توزیع هوشمند متخصصان، تعادل توجه، و مسیریابی بدون زیان کمکی.
✅روی سختافزار H20 سرعت تولید ۲۰۰+ توکن در ثانیه (۳ برابر سریعتر از مدل متراکم 36B).
✅پشتیبانی از کانتکستهای ۱۲۸K با استفاده از YaRN.
📎 جزئیات بیشتر:
🔗 Hugging Face
@rss_ai_ir
#MoE #مدل_زبان #یادگیری_ماشین #هوش_مصنوعی #OpenSource
⛔️مدلی با ۱۰۰ میلیارد پارامتر اما فقط با حدود ۶.۱ میلیارد پارامتر فعال، که آن را فوقالعاده کمهزینه و سریع در پردازش میکند.
🚀 ویژگیهای کلیدی Ling-flash-2.0
♻️آموزشدیده روی ۲۰ تریلیون توکن همراه با مراحل pre-training و RL.
♻️بهترین عملکرد در بین مدلهای متراکم تا ۴۰B پارامتر.
♻️بسیار قوی در استدلال پیچیده، تولید کد و تسکهای فرانتاند.
⚙️ جزئیات معماری و کارایی
✅معماری MoE با نسبت فعالسازی ۱/۳۲.
تکنیکهای پیشرفته مثل توزیع هوشمند متخصصان، تعادل توجه، و مسیریابی بدون زیان کمکی.
✅روی سختافزار H20 سرعت تولید ۲۰۰+ توکن در ثانیه (۳ برابر سریعتر از مدل متراکم 36B).
✅پشتیبانی از کانتکستهای ۱۲۸K با استفاده از YaRN.
📎 جزئیات بیشتر:
🔗 Hugging Face
@rss_ai_ir
#MoE #مدل_زبان #یادگیری_ماشین #هوش_مصنوعی #OpenSource
🎉28😁20❤19👍16🥰15👏14🔥11
🚀 DeepFaceLab —
ابزار اصلی متنباز برای ساخت دیپفیک ویدیو
📌 واقعیات مهم:
✳️بیش از ۹۵٪ تمام دیپفیکها با DeepFaceLab ساخته شدهاند
✳️پشتیبانی از Windows، Linux و Google Colab
✳️بر پایه TensorFlow با معماری ماژولار و انعطافپذیر
✳️خروجی بسیار واقعی در حد جلوههای ویژه سینمایی 🎬
✳️ریپازیتوری: ⭐ 18.5k و 🔀 669 فورک
✳️از نوامبر ۲۰۲۴ پروژه آرشیو شده اما همچنان قابل استفاده و مطالعه است
👤 نویسنده: iperov — یکی از اولین توسعهدهندگانی که face-swap را برای همه در دسترس کرد.
🔗 لینک گیتهاب:
github.com/iperov/DeepFaceLab
💡 برای یادگیری، آزمایش و تحقیق استفاده کنید — این پروژه پایه بسیاری از فناوریهای مدرن دیپفیک است.
#DeepFake #هوش_مصنوعی #ComputerVision #دیپ_لرنینگ #opensource
ابزار اصلی متنباز برای ساخت دیپفیک ویدیو
📌 واقعیات مهم:
✳️بیش از ۹۵٪ تمام دیپفیکها با DeepFaceLab ساخته شدهاند
✳️پشتیبانی از Windows، Linux و Google Colab
✳️بر پایه TensorFlow با معماری ماژولار و انعطافپذیر
✳️خروجی بسیار واقعی در حد جلوههای ویژه سینمایی 🎬
✳️ریپازیتوری: ⭐ 18.5k و 🔀 669 فورک
✳️از نوامبر ۲۰۲۴ پروژه آرشیو شده اما همچنان قابل استفاده و مطالعه است
👤 نویسنده: iperov — یکی از اولین توسعهدهندگانی که face-swap را برای همه در دسترس کرد.
🔗 لینک گیتهاب:
github.com/iperov/DeepFaceLab
💡 برای یادگیری، آزمایش و تحقیق استفاده کنید — این پروژه پایه بسیاری از فناوریهای مدرن دیپفیک است.
#DeepFake #هوش_مصنوعی #ComputerVision #دیپ_لرنینگ #opensource
👍8❤6😁5🔥4🎉4🥰3👏3
🐳 نسخهی جدید DeepSeek-V3.1-Terminus منتشر شد!
این نسخه نسبت به ورژن قبلی، نتایج پایدارتر و کاملتری در تستها ارائه میدهد. ✅
📲 در دسترس از طریق:
♻️اپلیکیشن
♻️نسخهی وب
✳️و همینطور از طریق API
🔗 وزنهای باز: HuggingFace
#DeepSeek #opensource #LLM #هوش_مصنوعی #مدل_زبان
این نسخه نسبت به ورژن قبلی، نتایج پایدارتر و کاملتری در تستها ارائه میدهد. ✅
📲 در دسترس از طریق:
♻️اپلیکیشن
♻️نسخهی وب
✳️و همینطور از طریق API
🔗 وزنهای باز: HuggingFace
#DeepSeek #opensource #LLM #هوش_مصنوعی #مدل_زبان
🥰7❤5👍5🔥4🎉4👏3😁3
🚀 مدل جدید چینی LongCat-Flash-Thinking
🧠 مدلی مخصوص استدلال که بین تمام مدلهای اوپنسورس به رکورد SOTA رسیده است.
⚡️ ویژگیها:
✅معماری MoE با ۵۶۰B پارامتر (۲۷B فعال در هر بار اجرا)
✅صرفهجویی بزرگ: برای رسیدن به نتایج برتر در AIME25 به ۶۴.۵٪ توکن کمتر نیاز دارد
✅پشتیبانی از 128k context
✅آموزش با تقویت (RL) روی مسائل استدلالی و کد + چندمرحلهای با سینتِز چندعاملی
✅همچنین RL آسنکرون → ۳ برابر سریعتر از فریمورکهای سنتی
⚙️ بهینهسازی برای پروداکشن:
♻️هستههای اختصاصی برای MoE و آموزش توزیعشده
♻️کاهش KV-cache، کوانتیزیشن، chunked prefill
♻️مسیریابی استاتیک/الاستیک، انتقال کش همتابههمتا، replication هوشمند
♻️سازگار با SGLang و vLLM برای استقرار سریع
📊 نتایج:
✳️صدرنشین در tool use (τ²-Bench, VitaBench)
✳️عملکرد عالی در instruction following (IFEval, COLLIE, Meeseeks-zh)
✳️چین همچنان پرچمدار مدلهای reasoning است. 🇨🇳🤖
🔗 HF: huggingface.co/meituan-longcat/LongCat-Flash-Thinking
#هوش_مصنوعی #مدل_زبانی #MoE #یادگیری_عمیق #OpenSource
@rss_ai_ir
🧠 مدلی مخصوص استدلال که بین تمام مدلهای اوپنسورس به رکورد SOTA رسیده است.
⚡️ ویژگیها:
✅معماری MoE با ۵۶۰B پارامتر (۲۷B فعال در هر بار اجرا)
✅صرفهجویی بزرگ: برای رسیدن به نتایج برتر در AIME25 به ۶۴.۵٪ توکن کمتر نیاز دارد
✅پشتیبانی از 128k context
✅آموزش با تقویت (RL) روی مسائل استدلالی و کد + چندمرحلهای با سینتِز چندعاملی
✅همچنین RL آسنکرون → ۳ برابر سریعتر از فریمورکهای سنتی
⚙️ بهینهسازی برای پروداکشن:
♻️هستههای اختصاصی برای MoE و آموزش توزیعشده
♻️کاهش KV-cache، کوانتیزیشن، chunked prefill
♻️مسیریابی استاتیک/الاستیک، انتقال کش همتابههمتا، replication هوشمند
♻️سازگار با SGLang و vLLM برای استقرار سریع
📊 نتایج:
✳️صدرنشین در tool use (τ²-Bench, VitaBench)
✳️عملکرد عالی در instruction following (IFEval, COLLIE, Meeseeks-zh)
✳️چین همچنان پرچمدار مدلهای reasoning است. 🇨🇳🤖
🔗 HF: huggingface.co/meituan-longcat/LongCat-Flash-Thinking
#هوش_مصنوعی #مدل_زبانی #MoE #یادگیری_عمیق #OpenSource
@rss_ai_ir
🔥6🥰6👏6👍5😁4❤3🎉3
This media is not supported in your browser
VIEW IN TELEGRAM
🥇 SaSaSa2VA
قهرمان چالش LSVOS 🥇
⛔️این مدل با معرفی رویکرد Segmentation Augmentation باعث بهبود درک ویدئو در سطح جهانی شده و در عین حال کارآمد باقی میماند.
همچنین در مرحلهی inference از Selective Averaging برای ترکیب پایدار پیشبینیهای مکمل استفاده میکند.
📊 نتیجه؟ دستیابی به SOTA در هفتمین چالش LSVOS (بخش RVOS) 🎉
کدی کاملاً عملیاتی و متنباز تحت لایسنس Apache در دسترس است.
📄 مقاله:
https://arxiv.org/pdf/2509.16972
💻 ریپو:
https://github.com/magic-research/Sa2VA
@rss_ai_ir
#AI #VideoUnderstanding #LSVOS #Segmentation #DeepLearning #opensource
قهرمان چالش LSVOS 🥇
⛔️این مدل با معرفی رویکرد Segmentation Augmentation باعث بهبود درک ویدئو در سطح جهانی شده و در عین حال کارآمد باقی میماند.
همچنین در مرحلهی inference از Selective Averaging برای ترکیب پایدار پیشبینیهای مکمل استفاده میکند.
📊 نتیجه؟ دستیابی به SOTA در هفتمین چالش LSVOS (بخش RVOS) 🎉
کدی کاملاً عملیاتی و متنباز تحت لایسنس Apache در دسترس است.
📄 مقاله:
https://arxiv.org/pdf/2509.16972
💻 ریپو:
https://github.com/magic-research/Sa2VA
@rss_ai_ir
#AI #VideoUnderstanding #LSVOS #Segmentation #DeepLearning #opensource
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 تنسنت بخشی از Hunyuan Studio را که مسئول سگمنتیشن اشیای سهبعدی است به صورت اوپنسورس منتشر کرد!
🔹 دو متد کلیدی:
P3-SAM —
❌ مدل سگمنتیشن قطعات در فرمت سهبعدی.
X-Part —
❌مدل تولید قطعات با نتایج عالی در کنترلپذیری و کیفیت شکل.
📂 کد: GitHub
📦 وزنها: Hugging Face
🌐 جزئیات بیشتر:
P3-SAM
X-Part
👉 یک گام دیگر برای دسترسپذیرتر شدن پایپلاینهای پیچیده کار با 3D برای جامعه پژوهشگران و توسعهدهندگان.
#AI #3D #Segmentation #OpenSource #Hunyuan #Tencent #DeepLearning
@rss_ai_ir
🔹 دو متد کلیدی:
P3-SAM —
❌ مدل سگمنتیشن قطعات در فرمت سهبعدی.
X-Part —
❌مدل تولید قطعات با نتایج عالی در کنترلپذیری و کیفیت شکل.
📂 کد: GitHub
📦 وزنها: Hugging Face
🌐 جزئیات بیشتر:
P3-SAM
X-Part
👉 یک گام دیگر برای دسترسپذیرتر شدن پایپلاینهای پیچیده کار با 3D برای جامعه پژوهشگران و توسعهدهندگان.
#AI #3D #Segmentation #OpenSource #Hunyuan #Tencent #DeepLearning
@rss_ai_ir
❤1
animation.gif
21.7 MB
🔥 تشخیص SOTA با DINOv3 🔥
👉فریم ورک DEIMv2 نسخه تکاملیافتهی فریمورک DEIM است که بر پایه DINOv3 ساخته شده. این چارچوب با ارائه مدلهایی از نسخه فوقسبک تا S، M، L و X طیف وسیعی از سناریوها را پوشش میدهد. نتیجه؟ دستیابی به بهترین عملکرد (SOTA) در حوزه تشخیص. 🚀
📌 منابع:
🔹 مقاله
🔹 کد در GitHub
🔹 پروژه
@rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #DINOv3 #تشخیص #SOTA #OpenSource
👉فریم ورک DEIMv2 نسخه تکاملیافتهی فریمورک DEIM است که بر پایه DINOv3 ساخته شده. این چارچوب با ارائه مدلهایی از نسخه فوقسبک تا S، M، L و X طیف وسیعی از سناریوها را پوشش میدهد. نتیجه؟ دستیابی به بهترین عملکرد (SOTA) در حوزه تشخیص. 🚀
📌 منابع:
🔹 مقاله
🔹 کد در GitHub
🔹 پروژه
@rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #DINOv3 #تشخیص #SOTA #OpenSource
This media is not supported in your browser
VIEW IN TELEGRAM
📹🤖 LONGLIVE از NVIDIA —
ویدئوسازی تعاملیِ بلادرنگ
مدل LONGLIVE یک چارچوب autoregressive در سطح فریم برای تولید ویدئوی طولانی بهصورت Real-time است. حین تولید میتوانید پشتسرهم پرامپت بدهید و مدل همانجا مسیر ویدئو را تغییر دهد.
چرا مهم است؟
⏱️ پاسخدهی بلادرنگ؛ مناسب استریم و تجربههای تعاملی
🧠 تولید فریمبهفریم = کنترل دقیق صحنه و تداوم داستان
🧩 پشتیبانی از پرامپتهای پیدرپی (sequential prompts)
🛠️ کد و مدل منتشر شده (لایسنس غیرتجاری)
لینکها:
Paper: arxiv.org/pdf/2509.22622
Project: nvlabs.github.io/LongLive/
Code: github.com/NVlabs/LongLive
HF: huggingface.co/Efficient-Large-Model/LongLive-1.3B
#NVIDIA #LongLive #RealtimeVideo #InteractiveAI #GenerativeVideo #Autoregressive #AIResearch #OpenSource
ویدئوسازی تعاملیِ بلادرنگ
مدل LONGLIVE یک چارچوب autoregressive در سطح فریم برای تولید ویدئوی طولانی بهصورت Real-time است. حین تولید میتوانید پشتسرهم پرامپت بدهید و مدل همانجا مسیر ویدئو را تغییر دهد.
چرا مهم است؟
⏱️ پاسخدهی بلادرنگ؛ مناسب استریم و تجربههای تعاملی
🧠 تولید فریمبهفریم = کنترل دقیق صحنه و تداوم داستان
🧩 پشتیبانی از پرامپتهای پیدرپی (sequential prompts)
🛠️ کد و مدل منتشر شده (لایسنس غیرتجاری)
لینکها:
Paper: arxiv.org/pdf/2509.22622
Project: nvlabs.github.io/LongLive/
Code: github.com/NVlabs/LongLive
HF: huggingface.co/Efficient-Large-Model/LongLive-1.3B
#NVIDIA #LongLive #RealtimeVideo #InteractiveAI #GenerativeVideo #Autoregressive #AIResearch #OpenSource
👍4🔥1🙏1
خبری تازه از Hunyuan — معرفی HunyuanImage 3.0 (خبر خوب و خبر بد) 👇
خوب:
سورسکد اوپنسورس منتشر شده. 🔗
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
دموی تحت وب برای تست:
https://hunyuan.tencent.com/image/en?tabIndex=0
نسخههای تعاملی/آزمایشی در پلتفرمهایی مثل Fal.ai/Replicate هم قرار گرفتهاند.
چیکار میکنه؟
✅بزرگترین مدل متن→تصویر اوپنسورس تا امروز: ~80B پارامتر (که حدود 13B فعال روی هر توکن استفاده میشه).
✅معماری MoE + Transfusion — ترکیب Diffusion و LLM در یک فریمورک.
✅آموزش روی مجموعهداده عظیم: ~5 میلیارد زوج تصویر-متن و تِرلیونها توکن.
✅پشتیبانی از پرتپرامپتهای طولانی (هزاران کلمه)، فهم دقیق متن و توانایی خوب در کار با متن داخل تصویر.
نتیجه: reasoning سطح بالا، مولتیمودالیتی قوی و کارآمدی در پیروی از دستورالعملهای پیچیده.
من خودم یک تست زدم:
بهش گفتم:
خروجی — هم حل ریاضی و هم تصویر راهحل — در پست قابل دیدنه؛ جذاب بود.
⛔️بد:
❌هنوز image2image نداره.
❌پشتیبانی از VLLM / runtime سبک ندارن (فعلاً).
❌وزنها خیلی بزرگن — حدود 170 گیگابایت.
❌برای اجرا به سختافزار سنگینی نیاز دارید: ۴ کارت وِیآرایام ۸۰GB (۴ × 80GB VRAM) — یعنی فعلاً برای اکثرِ آدمها و پژوهشگرای معمولی قابلدسترس نیست.
❌بهقولی «اوپنسورسِ اشرافی» — کد رو گذاشتن، ولی عملاً فقط کسایی با سرورهای بزرگ میتونن راحت اجرا کنن.
❌گزارشهایی از اشکالاتی در آناتومی و تکسچر پوست هست — نتایج هنوز جای کاستن دارند.
جمعبندی:
♻️قابل ذکره که HunyuanImage 3.0 از نظر مقیاس و معماری یه جهش بزرگه و خیلی پرامکاناته، ولی در عمل فعلاً فقط برای تیمها یا سازمانهایی با دیتاسنترِ بزرگ کاربردیه. منتظر بهینهسازیها، نسخههای distilled و runtimeهای سبکتر میمونیم تا این پکیج واقعاً در دسترس عموم قرار بگیره.
⛔️لینکها دوباره:
گیتهاب:
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
دمو:
https://hunyuan.tencent.com/image/en?tabIndex=0
playground در Fal.ai:
https://fal.ai/models/fal-ai/hunyuan-image/v3/text-to-image/playground
@rss_ai_ir
#HunyuanImage #GenerativeAI #OpenSource #3DGenAI #AI_news
خوب:
سورسکد اوپنسورس منتشر شده. 🔗
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
دموی تحت وب برای تست:
https://hunyuan.tencent.com/image/en?tabIndex=0
نسخههای تعاملی/آزمایشی در پلتفرمهایی مثل Fal.ai/Replicate هم قرار گرفتهاند.
چیکار میکنه؟
✅بزرگترین مدل متن→تصویر اوپنسورس تا امروز: ~80B پارامتر (که حدود 13B فعال روی هر توکن استفاده میشه).
✅معماری MoE + Transfusion — ترکیب Diffusion و LLM در یک فریمورک.
✅آموزش روی مجموعهداده عظیم: ~5 میلیارد زوج تصویر-متن و تِرلیونها توکن.
✅پشتیبانی از پرتپرامپتهای طولانی (هزاران کلمه)، فهم دقیق متن و توانایی خوب در کار با متن داخل تصویر.
نتیجه: reasoning سطح بالا، مولتیمودالیتی قوی و کارآمدی در پیروی از دستورالعملهای پیچیده.
من خودم یک تست زدم:
بهش گفتم:
solve this: 8x + 10 = 18 and make picture with solution
خروجی — هم حل ریاضی و هم تصویر راهحل — در پست قابل دیدنه؛ جذاب بود.
⛔️بد:
❌هنوز image2image نداره.
❌پشتیبانی از VLLM / runtime سبک ندارن (فعلاً).
❌وزنها خیلی بزرگن — حدود 170 گیگابایت.
❌برای اجرا به سختافزار سنگینی نیاز دارید: ۴ کارت وِیآرایام ۸۰GB (۴ × 80GB VRAM) — یعنی فعلاً برای اکثرِ آدمها و پژوهشگرای معمولی قابلدسترس نیست.
❌بهقولی «اوپنسورسِ اشرافی» — کد رو گذاشتن، ولی عملاً فقط کسایی با سرورهای بزرگ میتونن راحت اجرا کنن.
❌گزارشهایی از اشکالاتی در آناتومی و تکسچر پوست هست — نتایج هنوز جای کاستن دارند.
جمعبندی:
♻️قابل ذکره که HunyuanImage 3.0 از نظر مقیاس و معماری یه جهش بزرگه و خیلی پرامکاناته، ولی در عمل فعلاً فقط برای تیمها یا سازمانهایی با دیتاسنترِ بزرگ کاربردیه. منتظر بهینهسازیها، نسخههای distilled و runtimeهای سبکتر میمونیم تا این پکیج واقعاً در دسترس عموم قرار بگیره.
⛔️لینکها دوباره:
گیتهاب:
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
دمو:
https://hunyuan.tencent.com/image/en?tabIndex=0
playground در Fal.ai:
https://fal.ai/models/fal-ai/hunyuan-image/v3/text-to-image/playground
@rss_ai_ir
#HunyuanImage #GenerativeAI #OpenSource #3DGenAI #AI_news
❤1👍1🔥1👏1