VIRSUN
7.51K subscribers
792 photos
461 videos
3 files
507 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 WFGY 2.0 —
موتور استدلال معنایی برای LLMها (MIT)

هدف این پروژه‌ی متن‌باز کاهش هذیان‌ها (hallucinations) و خطاهای منطقی در سیستم‌های مبتنی بر RAG / LLM است؛ مخصوصاً در شرایطی مثل:

✳️متن‌های OCR با خطای زیاد،
✳️شرایط Semantic drift (وقتی پاسخ از سؤال منحرف می‌شود)،
✳️شرایط Ghost matches (جایی که یک بخش ظاهراً مرتبط به نظر می‌آید، ولی درواقع بی‌ربط است).


🚧 در اغلب روش‌ها خطاها فقط بعد از تولید پاسخ نهایی شناسایی می‌شوند.
اما در WFGY، منطق کاملاً برعکس است:
اگر مدل ببیند که استدلال‌ها «کج» شده‌اند یا از مسیر اصلی خارج شده، فرآیند را متوقف می‌کند یا مسیر دیگری انتخاب می‌کند و تنها زمانی پاسخ می‌دهد که وضعیت پایدار باشد.

🛡 نویسندگان این روش را یک «فایروال معنایی» (semantic firewall) می‌نامند.


---

📌 امکانات کلیدی:

♻️شامل نقشه‌ای از ۱۶ خطای رایج LLM: از جست‌وجوی اشتباه داده‌ها و افت منطق گرفته تا «فراموشی» یا اختلاط نقش عامل‌ها.
♻️برای هر خطا، یک راه‌حل متنی ساده پیشنهاد شده است.
♻️بدون نیاز به SDK — کافی است دستورالعمل‌ها را مستقیم در پرامپت وارد کنید.


🟢 شاخص‌های اصلی برای ارزیابی کیفیت استدلال:

شاخصΔS (drift): آیا معنی از یک مرحله به مرحله بعد خیلی دور شده یا نه.
شاخصλ (convergence): آیا منطق به سمت پاسخ نهایی همگرا می‌شود یا در حلقه می‌چرخد.
شاخص Coverage: آیا داده‌ها و شواهد کافی در نظر گرفته شده‌اند یا خیر.


📊 نتایج تست: پایداری خروجی تا ۹۰–۹۵٪ افزایش یافته (در مقایسه با ۷۰–۸۵٪ در روش‌های سنتی).

📂 گیت‌هاب:
github.com/onestardao/WFGY
---
@rss_ai_ir

#هوش_مصنوعی #LLM #OpenSource #Reasoning #PromptEngineering #Hallucinations
2🍾2👍1👏1
🐸 وقتی API گرون باشه، خلاقیت میاد وسط!

خیلی از ماها برای تست کردن ریسرچ ایجنت‌ها از Tavily API استفاده می‌کنیم، اما مشکلش اینه که حسابی خرج روی دست آدم می‌ذاره.
یکی از دولوپرها برای همین یه هک جالب زده:

🔧 SearXNG (موتور جستجوی متن‌باز)
+ آداپتور اختصاصی
👉 نتیجه؟ یه جایگزین drop-in برای Tavily، فقط کافیه base_url رو عوض کنید!

📌 مزایا:

💸 رایگان به جای $$$

🔒 حریم خصوصی کامل

♾️ بدون محدودیت درخواست

🌍 وب‌اسکرپینگ آماده برای ریسرچ ایجنت‌ها (raw_content با bs4)

🔎 بیش از ۷۰ موتور جستجو زیر کاپوت (بینگ هم بلافاصله بلاک شد 😂)

حتی جواب سوالاتی مثل «پیش‌بینی قیمت بیت‌کوین ۲۰۲۶» رو پیدا می‌کنه!


🚀 استارت سریع:
git clone https://github.com/vakovalskii/searxng-docker-tavily-adapter
docker compose up -d
# حالا API روی localhost:8000 فعاله

🟢 نتیجه: به جای خرج‌های صد دلاری برای تست، می‌تونید با ۵ دلار هزینه سرور در ماه، ایجنت‌ها رو شبانه‌روزی تست کنید!

🔗 گیت‌هاب:
vakovalskii/searxng-docker-tavily-adapter

#OpenSource #AI #ResearchAgents #SearXNG #Tavily

@rss_ai_ir
🔥1310🥰9👍8🎉6👏4😁3🤯2🆒1
🚀 Ring-mini-2.0
؛ مدل کوچک اما فوق‌العاده قدرتمند!

💡 این مدل با 16B-A1B پارامتر و بهره‌گیری از استراتژی‌های Stable RLVR + RLHF آموزش دیده و کیفیتی پایدار و متعادل در طیف وسیعی از وظایف ارائه می‌دهد.
🧠 در منطق و استدلال، از مدل‌های Dense با همین اندازه عملکرد بهتری دارد.
سرعت پردازش: بیش از ۳۰۰ توکن در ثانیه (۷ برابر سریع‌تر از مدل‌های Dense مشابه).

🔥 نمونه‌ای دیگر از اینکه چگونه مدل‌های کوچک‌تر «Thinking Models» روزبه‌روز باهوش‌تر و سریع‌تر می‌شوند!

🔗 مشاهده در HuggingFace
@rss_ai_ir

#AI #LLM #RingMini #DeepLearning #OpenSource #MachineLearning #ThinkingModels
👍1🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥
مجموعه‌داده ۲۱,۰۰۰+ ساعت
SpatialVID 🔥

📌دیتابیس SpatialVID یک دیتاست ویدیویی بزرگ‌مقیاس با حاشیه‌نویسی‌های مکانی صریح است که شامل:
🔹 موقعیت‌های دوربین (Camera Poses)
🔹 نقشه‌های عمق (Depth Maps)
🔹 کپشن‌های ساختاریافته
🔹 دستورالعمل‌های حرکتی سریالی

🎥 این مجموعه شامل ۷,۰۸۹ ساعت صحنه‌های پویا در دنیای واقعی است و برای وظایف درک صحنه، بازسازی سه‌بعدی، ویدیو-به-متن و مدل‌سازی حرکت بسیار ارزشمند محسوب می‌شود.

📂 مجوز: Apache-2.0 (کاملاً متن‌باز)


🔗 مقاله: arxiv.org/pdf/2509.09676
🔗 پروژه: nju-3dv.github.io/projects/SpatialVID
🔗 کد: github.com/NJU-3DV/spatialVID

@rss_ai_ir

#Dataset #ComputerVision #VideoAI #SpatialVID #3D #AI #OpenSource
9🎉7🔥4😁3
⚡️ Qwen-ASR Toolkit —
ابزار قدرتمند Python برای تبدیل سریع گفتار به متن

این ابزار محدودیت ۳ دقیقه‌ای API مدل Qwen-ASR (نام قبلی: Qwen3-ASR-Flash) رو حذف می‌کنه و امکان تبدیل ساعت‌ها محتوای صوتی و تصویری رو فراهم می‌کنه.
راز کارش: تقسیم هوشمند فایل و پردازش موازی.


---

🔹 امکانات اصلی:

♻️رفع محدودیت ۳ دقیقه → پشتیبانی از فایل با هر طولی
♻️تقسیم‌بندی هوشمند با VAD (تشخیص گفتار از سکوت و نویز)
♻️سرعت بالا با پردازش چندنخی و موازی
♻️تبدیل خودکار فرمت به 16kHz mono
♻️پشتیبانی از همه فرمت‌ها: MP4, MOV, MKV, MP3, WAV, M4A و …
♻️اجرای ساده تنها با یک دستور CLI



---

🟢 نصب:
pip install qwen3-asr-toolkit

🔗 GitHub: Qwen3-ASR-Toolkit


---

#هوش_مصنوعی 🤖
#ASR 🎙️
#Speech2Text 📝
#Qwen
#OpenSource 💻

@rss_ai_ir
👍13😁12🥰118🔥7👏6🎉5
⚡️ Ling-flash-2.0 منتشر شد! ⚡️

⛔️مدلی با ۱۰۰ میلیارد پارامتر اما فقط با حدود ۶.۱ میلیارد پارامتر فعال، که آن را فوق‌العاده کم‌هزینه و سریع در پردازش می‌کند.


🚀 ویژگی‌های کلیدی Ling-flash-2.0

♻️آموزش‌دیده روی ۲۰ تریلیون توکن همراه با مراحل pre-training و RL.
♻️بهترین عملکرد در بین مدل‌های متراکم تا ۴۰B پارامتر.
♻️بسیار قوی در استدلال پیچیده، تولید کد و تسک‌های فرانت‌اند.

⚙️ جزئیات معماری و کارایی

معماری MoE با نسبت فعال‌سازی ۱/۳۲.
تکنیک‌های پیشرفته مثل توزیع هوشمند متخصصان، تعادل توجه، و مسیریابی بدون زیان کمکی.
روی سخت‌افزار H20 سرعت تولید ۲۰۰+ توکن در ثانیه (۳ برابر سریع‌تر از مدل متراکم 36B).
پشتیبانی از کانتکست‌های ۱۲۸K با استفاده از YaRN.
📎 جزئیات بیشتر:
🔗 Hugging Face

@rss_ai_ir

#MoE #مدل_زبان #یادگیری_ماشین #هوش_مصنوعی #OpenSource
🎉28😁2019👍16🥰15👏14🔥11
🚀 DeepFaceLab —
ابزار اصلی متن‌باز برای ساخت دیپ‌فیک ویدیو

📌 واقعیات مهم:

✳️بیش از ۹۵٪ تمام دیپ‌فیک‌ها با DeepFaceLab ساخته شده‌اند
✳️پشتیبانی از Windows، Linux و Google Colab
✳️بر پایه TensorFlow با معماری ماژولار و انعطاف‌پذیر
✳️خروجی بسیار واقعی در حد جلوه‌های ویژه سینمایی 🎬
✳️ریپازیتوری: 18.5k و 🔀 669 فورک
✳️از نوامبر ۲۰۲۴ پروژه آرشیو شده اما همچنان قابل استفاده و مطالعه است


👤 نویسنده: iperov — یکی از اولین توسعه‌دهندگانی که face-swap را برای همه در دسترس کرد.

🔗 لینک گیت‌هاب:
github.com/iperov/DeepFaceLab

💡 برای یادگیری، آزمایش و تحقیق استفاده کنید — این پروژه پایه بسیاری از فناوری‌های مدرن دیپ‌فیک است.

#DeepFake #هوش_مصنوعی #ComputerVision #دیپ_لرنینگ #opensource
👍86😁5🔥4🎉4🥰3👏3
🐳 نسخه‌ی جدید DeepSeek-V3.1-Terminus منتشر شد!

این نسخه نسبت به ورژن قبلی، نتایج پایدارتر و کامل‌تری در تست‌ها ارائه می‌دهد.

📲 در دسترس از طریق:

♻️اپلیکیشن
♻️نسخه‌ی وب
✳️و همینطور از طریق API


🔗 وزن‌های باز: HuggingFace

#DeepSeek #opensource #LLM #هوش_مصنوعی #مدل_زبان
🥰75👍5🔥4🎉4👏3😁3
🚀 مدل جدید چینی LongCat-Flash-Thinking

🧠 مدلی مخصوص استدلال که بین تمام مدل‌های اوپن‌سورس به رکورد SOTA رسیده است.

⚡️ ویژگی‌ها:

معماری MoE با ۵۶۰B پارامتر (۲۷B فعال در هر بار اجرا)
صرفه‌جویی بزرگ: ‌برای رسیدن به نتایج برتر در AIME25 به ۶۴.۵٪ توکن کمتر نیاز دارد
پشتیبانی از 128k context
آموزش با تقویت (RL) روی مسائل استدلالی و کد + چندمرحله‌ای با سینتِز چندعاملی
همچنین RL آسنکرون → ‌۳ برابر سریع‌تر از فریم‌ورک‌های سنتی


⚙️ بهینه‌سازی برای پروداکشن:

♻️هسته‌های اختصاصی برای MoE و آموزش توزیع‌شده
♻️کاهش KV-cache، کوانتیزیشن، chunked prefill
♻️مسیریابی استاتیک/الاستیک، انتقال کش همتا‌به‌همتا، replication هوشمند
♻️سازگار با SGLang و vLLM برای استقرار سریع


📊 نتایج:

✳️صدرنشین در tool use (τ²-Bench, VitaBench)
✳️عملکرد عالی در instruction following (IFEval, COLLIE, Meeseeks-zh)
✳️چین همچنان پرچم‌دار مدل‌های reasoning است. 🇨🇳🤖

🔗 HF: huggingface.co/meituan-longcat/LongCat-Flash-Thinking

#هوش_مصنوعی #مدل_زبانی #MoE #یادگیری_عمیق #OpenSource

@rss_ai_ir
🔥6🥰6👏6👍5😁43🎉3
This media is not supported in your browser
VIEW IN TELEGRAM
🥇 SaSaSa2VA
قهرمان چالش LSVOS 🥇

⛔️این مدل با معرفی رویکرد Segmentation Augmentation باعث بهبود درک ویدئو در سطح جهانی شده و در عین حال کارآمد باقی می‌ماند.
همچنین در مرحله‌ی inference از Selective Averaging برای ترکیب پایدار پیش‌بینی‌های مکمل استفاده می‌کند.

📊 نتیجه؟ دستیابی به SOTA در هفتمین چالش LSVOS (بخش RVOS) 🎉
کدی کاملاً عملیاتی و متن‌باز تحت لایسنس Apache در دسترس است.

📄 مقاله:
https://arxiv.org/pdf/2509.16972
💻 ریپو:
https://github.com/magic-research/Sa2VA

@rss_ai_ir

#AI #VideoUnderstanding #LSVOS #Segmentation #DeepLearning #opensource
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 تنسنت بخشی از Hunyuan Studio را که مسئول سگمنتیشن اشیای سه‌بعدی است به صورت اوپن‌سورس منتشر کرد!

🔹 دو متد کلیدی:

P3-SAM —
مدل سگمنتیشن قطعات در فرمت سه‌بعدی.

X-Part —
مدل تولید قطعات با نتایج عالی در کنترل‌پذیری و کیفیت شکل.


📂 کد: GitHub
📦 وزن‌ها: Hugging Face

🌐 جزئیات بیشتر:

P3-SAM
X-Part


👉 یک گام دیگر برای دسترس‌پذیرتر شدن پایپ‌لاین‌های پیچیده کار با 3D برای جامعه پژوهشگران و توسعه‌دهندگان.

#AI #3D #Segmentation #OpenSource #Hunyuan #Tencent #DeepLearning

@rss_ai_ir
1
animation.gif
21.7 MB
🔥 تشخیص SOTA با DINOv3 🔥

👉فریم ورک DEIMv2 نسخه تکامل‌یافته‌ی فریم‌ورک DEIM است که بر پایه DINOv3 ساخته شده. این چارچوب با ارائه مدل‌هایی از نسخه فوق‌سبک تا S، M، L و X طیف وسیعی از سناریوها را پوشش می‌دهد. نتیجه؟ دستیابی به بهترین عملکرد (SOTA) در حوزه تشخیص. 🚀

📌 منابع:
🔹 مقاله
🔹 کد در GitHub
🔹 پروژه
@rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #DINOv3 #تشخیص #SOTA #OpenSource
This media is not supported in your browser
VIEW IN TELEGRAM
📹🤖 LONGLIVE از NVIDIA —
ویدئو‌سازی تعاملیِ بلادرنگ

مدل LONGLIVE یک چارچوب autoregressive در سطح فریم برای تولید ویدئوی طولانی به‌صورت Real-time است. حین تولید می‌توانید پشت‌سرهم پرامپت بدهید و مدل همان‌جا مسیر ویدئو را تغییر دهد.

چرا مهم است؟

⏱️ پاسخ‌دهی بلادرنگ؛ مناسب استریم و تجربه‌های تعاملی

🧠 تولید فریم‌به‌فریم = کنترل دقیق صحنه و تداوم داستان

🧩 پشتیبانی از پرامپت‌های پی‌در‌پی (sequential prompts)

🛠️ کد و مدل منتشر شده (لایسنس غیرتجاری)


لینک‌ها:

Paper: arxiv.org/pdf/2509.22622
Project: nvlabs.github.io/LongLive/
Code: github.com/NVlabs/LongLive
HF: huggingface.co/Efficient-Large-Model/LongLive-1.3B

#NVIDIA #LongLive #RealtimeVideo #InteractiveAI #GenerativeVideo #Autoregressive #AIResearch #OpenSource
👍4🔥1🙏1
خبری تازه از Hunyuan — معرفی HunyuanImage 3.0 (خبر خوب و خبر بد) 👇

خوب:

سورس‌کد اوپن‌سورس منتشر شده. 🔗
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

دموی تحت وب برای تست:
https://hunyuan.tencent.com/image/en?tabIndex=0

نسخه‌های تعاملی/آزمایشی در پلتفرم‌هایی مثل Fal.ai/Replicate هم قرار گرفته‌اند.


چی‌کار می‌کنه؟

بزرگ‌ترین مدل متن→تصویر اوپن‌سورس تا امروز: ~80B پارامتر (که حدود 13B فعال روی هر توکن استفاده می‌شه).

معماری MoE + Transfusion — ترکیب Diffusion و LLM در یک فریم‌ورک.

آموزش روی مجموعه‌داده عظیم: ~5 میلیارد زوج تصویر‌-متن و تِرلیون‌ها توکن.

پشتیبانی از پرت‌پرامپت‌های طولانی (هزاران کلمه)، فهم دقیق متن و توانایی خوب در کار با متن داخل تصویر.

نتیجه: reasoning سطح بالا، مولتی‌مودالیتی قوی و کارآمدی در پیروی از دستورالعمل‌های پیچیده.


من خودم یک تست زدم:
بهش گفتم:
solve this: 8x + 10 = 18 and make picture with solution

خروجی — هم حل ریاضی و هم تصویر راه‌حل — در پست قابل دیدنه؛ جذاب بود.

⛔️بد:

هنوز image2image نداره.

پشتیبانی از VLLM / runtime سبک ندارن (فعلاً).

وزن‌ها خیلی بزرگن — حدود 170 گیگابایت.

برای اجرا به سخت‌افزار سنگینی نیاز دارید: ۴ کارت وِی‌آر‌ای‌ام ۸۰GB (۴ × 80GB VRAM) — یعنی فعلاً برای اکثرِ آدم‌ها و پژوهشگرای معمولی قابل‌دسترس نیست.

به‌قولی «اوپن‌سورسِ اشرافی» — کد رو گذاشتن، ولی عملاً فقط کسایی با سرورهای بزرگ می‌تونن راحت اجرا کنن.

گزارش‌هایی از اشکالاتی در آناتومی و تکسچر پوست هست — نتایج هنوز جای کاستن دارند.


جمع‌بندی:

♻️قابل ذکره که HunyuanImage 3.0 از نظر مقیاس و معماری یه جهش بزرگه و خیلی پرامکاناته، ولی در عمل فعلاً فقط برای تیم‌ها یا سازمان‌هایی با دیتاسنترِ بزرگ کاربردیه. منتظر بهینه‌سازی‌ها، نسخه‌های distilled و runtimeهای سبک‌تر می‌مونیم تا این پکیج واقعاً در دسترس عموم قرار بگیره.

⛔️لینک‌ها دوباره:

گیت‌هاب:
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

دمو:
https://hunyuan.tencent.com/image/en?tabIndex=0

playground در Fal.ai:
https://fal.ai/models/fal-ai/hunyuan-image/v3/text-to-image/playground

@rss_ai_ir

#HunyuanImage #GenerativeAI #OpenSource #3DGenAI #AI_news
1👍1🔥1👏1