This media is not supported in your browser
VIEW IN TELEGRAM
🔥 WFGY 2.0 —
موتور استدلال معنایی برای LLMها (MIT)
هدف این پروژهی متنباز کاهش هذیانها (hallucinations) و خطاهای منطقی در سیستمهای مبتنی بر RAG / LLM است؛ مخصوصاً در شرایطی مثل:
✳️متنهای OCR با خطای زیاد،
✳️شرایط Semantic drift (وقتی پاسخ از سؤال منحرف میشود)،
✳️شرایط Ghost matches (جایی که یک بخش ظاهراً مرتبط به نظر میآید، ولی درواقع بیربط است).
🚧 در اغلب روشها خطاها فقط بعد از تولید پاسخ نهایی شناسایی میشوند.
اما در WFGY، منطق کاملاً برعکس است:
اگر مدل ببیند که استدلالها «کج» شدهاند یا از مسیر اصلی خارج شده، فرآیند را متوقف میکند یا مسیر دیگری انتخاب میکند و تنها زمانی پاسخ میدهد که وضعیت پایدار باشد.
🛡 نویسندگان این روش را یک «فایروال معنایی» (semantic firewall) مینامند.
---
📌 امکانات کلیدی:
♻️شامل نقشهای از ۱۶ خطای رایج LLM: از جستوجوی اشتباه دادهها و افت منطق گرفته تا «فراموشی» یا اختلاط نقش عاملها.
♻️برای هر خطا، یک راهحل متنی ساده پیشنهاد شده است.
♻️بدون نیاز به SDK — کافی است دستورالعملها را مستقیم در پرامپت وارد کنید.
🟢 شاخصهای اصلی برای ارزیابی کیفیت استدلال:
✅شاخصΔS (drift): آیا معنی از یک مرحله به مرحله بعد خیلی دور شده یا نه.
✅شاخصλ (convergence): آیا منطق به سمت پاسخ نهایی همگرا میشود یا در حلقه میچرخد.
✅شاخص Coverage: آیا دادهها و شواهد کافی در نظر گرفته شدهاند یا خیر.
📊 نتایج تست: پایداری خروجی تا ۹۰–۹۵٪ افزایش یافته (در مقایسه با ۷۰–۸۵٪ در روشهای سنتی).
📂 گیتهاب:
github.com/onestardao/WFGY
---
@rss_ai_ir
#هوش_مصنوعی #LLM #OpenSource #Reasoning #PromptEngineering #Hallucinations
موتور استدلال معنایی برای LLMها (MIT)
هدف این پروژهی متنباز کاهش هذیانها (hallucinations) و خطاهای منطقی در سیستمهای مبتنی بر RAG / LLM است؛ مخصوصاً در شرایطی مثل:
✳️متنهای OCR با خطای زیاد،
✳️شرایط Semantic drift (وقتی پاسخ از سؤال منحرف میشود)،
✳️شرایط Ghost matches (جایی که یک بخش ظاهراً مرتبط به نظر میآید، ولی درواقع بیربط است).
🚧 در اغلب روشها خطاها فقط بعد از تولید پاسخ نهایی شناسایی میشوند.
اما در WFGY، منطق کاملاً برعکس است:
اگر مدل ببیند که استدلالها «کج» شدهاند یا از مسیر اصلی خارج شده، فرآیند را متوقف میکند یا مسیر دیگری انتخاب میکند و تنها زمانی پاسخ میدهد که وضعیت پایدار باشد.
🛡 نویسندگان این روش را یک «فایروال معنایی» (semantic firewall) مینامند.
---
📌 امکانات کلیدی:
♻️شامل نقشهای از ۱۶ خطای رایج LLM: از جستوجوی اشتباه دادهها و افت منطق گرفته تا «فراموشی» یا اختلاط نقش عاملها.
♻️برای هر خطا، یک راهحل متنی ساده پیشنهاد شده است.
♻️بدون نیاز به SDK — کافی است دستورالعملها را مستقیم در پرامپت وارد کنید.
🟢 شاخصهای اصلی برای ارزیابی کیفیت استدلال:
✅شاخصΔS (drift): آیا معنی از یک مرحله به مرحله بعد خیلی دور شده یا نه.
✅شاخصλ (convergence): آیا منطق به سمت پاسخ نهایی همگرا میشود یا در حلقه میچرخد.
✅شاخص Coverage: آیا دادهها و شواهد کافی در نظر گرفته شدهاند یا خیر.
📊 نتایج تست: پایداری خروجی تا ۹۰–۹۵٪ افزایش یافته (در مقایسه با ۷۰–۸۵٪ در روشهای سنتی).
📂 گیتهاب:
github.com/onestardao/WFGY
---
@rss_ai_ir
#هوش_مصنوعی #LLM #OpenSource #Reasoning #PromptEngineering #Hallucinations
❤2🍾2👍1👏1
🐸 وقتی API گرون باشه، خلاقیت میاد وسط!
خیلی از ماها برای تست کردن ریسرچ ایجنتها از Tavily API استفاده میکنیم، اما مشکلش اینه که حسابی خرج روی دست آدم میذاره.
یکی از دولوپرها برای همین یه هک جالب زده:
🔧 SearXNG (موتور جستجوی متنباز)
+ آداپتور اختصاصی
👉 نتیجه؟ یه جایگزین drop-in برای Tavily، فقط کافیه base_url رو عوض کنید!
📌 مزایا:
💸 رایگان به جای $$$
🔒 حریم خصوصی کامل
♾️ بدون محدودیت درخواست
🌍 وباسکرپینگ آماده برای ریسرچ ایجنتها (raw_content با bs4)
🔎 بیش از ۷۰ موتور جستجو زیر کاپوت (بینگ هم بلافاصله بلاک شد 😂)
حتی جواب سوالاتی مثل «پیشبینی قیمت بیتکوین ۲۰۲۶» رو پیدا میکنه!
🚀 استارت سریع:
🟢 نتیجه: به جای خرجهای صد دلاری برای تست، میتونید با ۵ دلار هزینه سرور در ماه، ایجنتها رو شبانهروزی تست کنید!
🔗 گیتهاب:
vakovalskii/searxng-docker-tavily-adapter
#OpenSource #AI #ResearchAgents #SearXNG #Tavily
@rss_ai_ir
خیلی از ماها برای تست کردن ریسرچ ایجنتها از Tavily API استفاده میکنیم، اما مشکلش اینه که حسابی خرج روی دست آدم میذاره.
یکی از دولوپرها برای همین یه هک جالب زده:
🔧 SearXNG (موتور جستجوی متنباز)
+ آداپتور اختصاصی
👉 نتیجه؟ یه جایگزین drop-in برای Tavily، فقط کافیه base_url رو عوض کنید!
📌 مزایا:
💸 رایگان به جای $$$
🔒 حریم خصوصی کامل
♾️ بدون محدودیت درخواست
🌍 وباسکرپینگ آماده برای ریسرچ ایجنتها (raw_content با bs4)
🔎 بیش از ۷۰ موتور جستجو زیر کاپوت (بینگ هم بلافاصله بلاک شد 😂)
حتی جواب سوالاتی مثل «پیشبینی قیمت بیتکوین ۲۰۲۶» رو پیدا میکنه!
🚀 استارت سریع:
git clone https://github.com/vakovalskii/searxng-docker-tavily-adapter
docker compose up -d
# حالا API روی localhost:8000 فعاله
🟢 نتیجه: به جای خرجهای صد دلاری برای تست، میتونید با ۵ دلار هزینه سرور در ماه، ایجنتها رو شبانهروزی تست کنید!
🔗 گیتهاب:
vakovalskii/searxng-docker-tavily-adapter
#OpenSource #AI #ResearchAgents #SearXNG #Tavily
@rss_ai_ir
GitHub
GitHub - vakovalskii/searxng-docker-tavily-adapter: searxng-docker-tavily-adapter
searxng-docker-tavily-adapter. Contribute to vakovalskii/searxng-docker-tavily-adapter development by creating an account on GitHub.
🔥13❤10🥰9👍8🎉6👏4😁3🤯2🆒1
🚀 Ring-mini-2.0
؛ مدل کوچک اما فوقالعاده قدرتمند!
💡 این مدل با 16B-A1B پارامتر و بهرهگیری از استراتژیهای Stable RLVR + RLHF آموزش دیده و کیفیتی پایدار و متعادل در طیف وسیعی از وظایف ارائه میدهد.
🧠 در منطق و استدلال، از مدلهای Dense با همین اندازه عملکرد بهتری دارد.
⚡ سرعت پردازش: بیش از ۳۰۰ توکن در ثانیه (۷ برابر سریعتر از مدلهای Dense مشابه).
🔥 نمونهای دیگر از اینکه چگونه مدلهای کوچکتر «Thinking Models» روزبهروز باهوشتر و سریعتر میشوند!
🔗 مشاهده در HuggingFace
@rss_ai_ir
#AI #LLM #RingMini #DeepLearning #OpenSource #MachineLearning #ThinkingModels
؛ مدل کوچک اما فوقالعاده قدرتمند!
💡 این مدل با 16B-A1B پارامتر و بهرهگیری از استراتژیهای Stable RLVR + RLHF آموزش دیده و کیفیتی پایدار و متعادل در طیف وسیعی از وظایف ارائه میدهد.
🧠 در منطق و استدلال، از مدلهای Dense با همین اندازه عملکرد بهتری دارد.
⚡ سرعت پردازش: بیش از ۳۰۰ توکن در ثانیه (۷ برابر سریعتر از مدلهای Dense مشابه).
🔥 نمونهای دیگر از اینکه چگونه مدلهای کوچکتر «Thinking Models» روزبهروز باهوشتر و سریعتر میشوند!
🔗 مشاهده در HuggingFace
@rss_ai_ir
#AI #LLM #RingMini #DeepLearning #OpenSource #MachineLearning #ThinkingModels
👍1🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥
مجموعهداده ۲۱,۰۰۰+ ساعت
SpatialVID 🔥
📌دیتابیس SpatialVID یک دیتاست ویدیویی بزرگمقیاس با حاشیهنویسیهای مکانی صریح است که شامل:
🔹 موقعیتهای دوربین (Camera Poses)
🔹 نقشههای عمق (Depth Maps)
🔹 کپشنهای ساختاریافته
🔹 دستورالعملهای حرکتی سریالی
🎥 این مجموعه شامل ۷,۰۸۹ ساعت صحنههای پویا در دنیای واقعی است و برای وظایف درک صحنه، بازسازی سهبعدی، ویدیو-به-متن و مدلسازی حرکت بسیار ارزشمند محسوب میشود.
📂 مجوز: Apache-2.0 (کاملاً متنباز)
🔗 مقاله: arxiv.org/pdf/2509.09676
🔗 پروژه: nju-3dv.github.io/projects/SpatialVID
🔗 کد: github.com/NJU-3DV/spatialVID
@rss_ai_ir
#Dataset #ComputerVision #VideoAI #SpatialVID #3D #AI #OpenSource
مجموعهداده ۲۱,۰۰۰+ ساعت
SpatialVID 🔥
📌دیتابیس SpatialVID یک دیتاست ویدیویی بزرگمقیاس با حاشیهنویسیهای مکانی صریح است که شامل:
🔹 موقعیتهای دوربین (Camera Poses)
🔹 نقشههای عمق (Depth Maps)
🔹 کپشنهای ساختاریافته
🔹 دستورالعملهای حرکتی سریالی
🎥 این مجموعه شامل ۷,۰۸۹ ساعت صحنههای پویا در دنیای واقعی است و برای وظایف درک صحنه، بازسازی سهبعدی، ویدیو-به-متن و مدلسازی حرکت بسیار ارزشمند محسوب میشود.
📂 مجوز: Apache-2.0 (کاملاً متنباز)
🔗 مقاله: arxiv.org/pdf/2509.09676
🔗 پروژه: nju-3dv.github.io/projects/SpatialVID
🔗 کد: github.com/NJU-3DV/spatialVID
@rss_ai_ir
#Dataset #ComputerVision #VideoAI #SpatialVID #3D #AI #OpenSource
❤9🎉7🔥4😁3
⚡️ Qwen-ASR Toolkit —
ابزار قدرتمند Python برای تبدیل سریع گفتار به متن
✅این ابزار محدودیت ۳ دقیقهای API مدل Qwen-ASR (نام قبلی: Qwen3-ASR-Flash) رو حذف میکنه و امکان تبدیل ساعتها محتوای صوتی و تصویری رو فراهم میکنه.
✨ راز کارش: تقسیم هوشمند فایل و پردازش موازی.
---
🔹 امکانات اصلی:
♻️رفع محدودیت ۳ دقیقه → پشتیبانی از فایل با هر طولی
♻️تقسیمبندی هوشمند با VAD (تشخیص گفتار از سکوت و نویز)
♻️سرعت بالا با پردازش چندنخی و موازی
♻️تبدیل خودکار فرمت به 16kHz mono
♻️پشتیبانی از همه فرمتها: MP4, MOV, MKV, MP3, WAV, M4A و …
♻️اجرای ساده تنها با یک دستور CLI
---
🟢 نصب:
🔗 GitHub: Qwen3-ASR-Toolkit
---
#هوش_مصنوعی 🤖
#ASR 🎙️
#Speech2Text 📝
#Qwen
#OpenSource 💻
@rss_ai_ir
ابزار قدرتمند Python برای تبدیل سریع گفتار به متن
✅این ابزار محدودیت ۳ دقیقهای API مدل Qwen-ASR (نام قبلی: Qwen3-ASR-Flash) رو حذف میکنه و امکان تبدیل ساعتها محتوای صوتی و تصویری رو فراهم میکنه.
✨ راز کارش: تقسیم هوشمند فایل و پردازش موازی.
---
🔹 امکانات اصلی:
♻️رفع محدودیت ۳ دقیقه → پشتیبانی از فایل با هر طولی
♻️تقسیمبندی هوشمند با VAD (تشخیص گفتار از سکوت و نویز)
♻️سرعت بالا با پردازش چندنخی و موازی
♻️تبدیل خودکار فرمت به 16kHz mono
♻️پشتیبانی از همه فرمتها: MP4, MOV, MKV, MP3, WAV, M4A و …
♻️اجرای ساده تنها با یک دستور CLI
---
🟢 نصب:
pip install qwen3-asr-toolkit
🔗 GitHub: Qwen3-ASR-Toolkit
---
#هوش_مصنوعی 🤖
#ASR 🎙️
#Speech2Text 📝
#Qwen
#OpenSource 💻
@rss_ai_ir
👍13😁12🥰11❤8🔥7👏6🎉5
⚡️ Ling-flash-2.0 منتشر شد! ⚡️
⛔️مدلی با ۱۰۰ میلیارد پارامتر اما فقط با حدود ۶.۱ میلیارد پارامتر فعال، که آن را فوقالعاده کمهزینه و سریع در پردازش میکند.
🚀 ویژگیهای کلیدی Ling-flash-2.0
♻️آموزشدیده روی ۲۰ تریلیون توکن همراه با مراحل pre-training و RL.
♻️بهترین عملکرد در بین مدلهای متراکم تا ۴۰B پارامتر.
♻️بسیار قوی در استدلال پیچیده، تولید کد و تسکهای فرانتاند.
⚙️ جزئیات معماری و کارایی
✅معماری MoE با نسبت فعالسازی ۱/۳۲.
تکنیکهای پیشرفته مثل توزیع هوشمند متخصصان، تعادل توجه، و مسیریابی بدون زیان کمکی.
✅روی سختافزار H20 سرعت تولید ۲۰۰+ توکن در ثانیه (۳ برابر سریعتر از مدل متراکم 36B).
✅پشتیبانی از کانتکستهای ۱۲۸K با استفاده از YaRN.
📎 جزئیات بیشتر:
🔗 Hugging Face
@rss_ai_ir
#MoE #مدل_زبان #یادگیری_ماشین #هوش_مصنوعی #OpenSource
⛔️مدلی با ۱۰۰ میلیارد پارامتر اما فقط با حدود ۶.۱ میلیارد پارامتر فعال، که آن را فوقالعاده کمهزینه و سریع در پردازش میکند.
🚀 ویژگیهای کلیدی Ling-flash-2.0
♻️آموزشدیده روی ۲۰ تریلیون توکن همراه با مراحل pre-training و RL.
♻️بهترین عملکرد در بین مدلهای متراکم تا ۴۰B پارامتر.
♻️بسیار قوی در استدلال پیچیده، تولید کد و تسکهای فرانتاند.
⚙️ جزئیات معماری و کارایی
✅معماری MoE با نسبت فعالسازی ۱/۳۲.
تکنیکهای پیشرفته مثل توزیع هوشمند متخصصان، تعادل توجه، و مسیریابی بدون زیان کمکی.
✅روی سختافزار H20 سرعت تولید ۲۰۰+ توکن در ثانیه (۳ برابر سریعتر از مدل متراکم 36B).
✅پشتیبانی از کانتکستهای ۱۲۸K با استفاده از YaRN.
📎 جزئیات بیشتر:
🔗 Hugging Face
@rss_ai_ir
#MoE #مدل_زبان #یادگیری_ماشین #هوش_مصنوعی #OpenSource
🎉28😁20❤19👍16🥰15👏14🔥11
🚀 DeepFaceLab —
ابزار اصلی متنباز برای ساخت دیپفیک ویدیو
📌 واقعیات مهم:
✳️بیش از ۹۵٪ تمام دیپفیکها با DeepFaceLab ساخته شدهاند
✳️پشتیبانی از Windows، Linux و Google Colab
✳️بر پایه TensorFlow با معماری ماژولار و انعطافپذیر
✳️خروجی بسیار واقعی در حد جلوههای ویژه سینمایی 🎬
✳️ریپازیتوری: ⭐ 18.5k و 🔀 669 فورک
✳️از نوامبر ۲۰۲۴ پروژه آرشیو شده اما همچنان قابل استفاده و مطالعه است
👤 نویسنده: iperov — یکی از اولین توسعهدهندگانی که face-swap را برای همه در دسترس کرد.
🔗 لینک گیتهاب:
github.com/iperov/DeepFaceLab
💡 برای یادگیری، آزمایش و تحقیق استفاده کنید — این پروژه پایه بسیاری از فناوریهای مدرن دیپفیک است.
#DeepFake #هوش_مصنوعی #ComputerVision #دیپ_لرنینگ #opensource
ابزار اصلی متنباز برای ساخت دیپفیک ویدیو
📌 واقعیات مهم:
✳️بیش از ۹۵٪ تمام دیپفیکها با DeepFaceLab ساخته شدهاند
✳️پشتیبانی از Windows، Linux و Google Colab
✳️بر پایه TensorFlow با معماری ماژولار و انعطافپذیر
✳️خروجی بسیار واقعی در حد جلوههای ویژه سینمایی 🎬
✳️ریپازیتوری: ⭐ 18.5k و 🔀 669 فورک
✳️از نوامبر ۲۰۲۴ پروژه آرشیو شده اما همچنان قابل استفاده و مطالعه است
👤 نویسنده: iperov — یکی از اولین توسعهدهندگانی که face-swap را برای همه در دسترس کرد.
🔗 لینک گیتهاب:
github.com/iperov/DeepFaceLab
💡 برای یادگیری، آزمایش و تحقیق استفاده کنید — این پروژه پایه بسیاری از فناوریهای مدرن دیپفیک است.
#DeepFake #هوش_مصنوعی #ComputerVision #دیپ_لرنینگ #opensource
👍8❤6😁5🔥4🎉4🥰3👏3
🐳 نسخهی جدید DeepSeek-V3.1-Terminus منتشر شد!
این نسخه نسبت به ورژن قبلی، نتایج پایدارتر و کاملتری در تستها ارائه میدهد. ✅
📲 در دسترس از طریق:
♻️اپلیکیشن
♻️نسخهی وب
✳️و همینطور از طریق API
🔗 وزنهای باز: HuggingFace
#DeepSeek #opensource #LLM #هوش_مصنوعی #مدل_زبان
این نسخه نسبت به ورژن قبلی، نتایج پایدارتر و کاملتری در تستها ارائه میدهد. ✅
📲 در دسترس از طریق:
♻️اپلیکیشن
♻️نسخهی وب
✳️و همینطور از طریق API
🔗 وزنهای باز: HuggingFace
#DeepSeek #opensource #LLM #هوش_مصنوعی #مدل_زبان
🥰7❤5👍5🔥4🎉4👏3😁3
🚀 مدل جدید چینی LongCat-Flash-Thinking
🧠 مدلی مخصوص استدلال که بین تمام مدلهای اوپنسورس به رکورد SOTA رسیده است.
⚡️ ویژگیها:
✅معماری MoE با ۵۶۰B پارامتر (۲۷B فعال در هر بار اجرا)
✅صرفهجویی بزرگ: برای رسیدن به نتایج برتر در AIME25 به ۶۴.۵٪ توکن کمتر نیاز دارد
✅پشتیبانی از 128k context
✅آموزش با تقویت (RL) روی مسائل استدلالی و کد + چندمرحلهای با سینتِز چندعاملی
✅همچنین RL آسنکرون → ۳ برابر سریعتر از فریمورکهای سنتی
⚙️ بهینهسازی برای پروداکشن:
♻️هستههای اختصاصی برای MoE و آموزش توزیعشده
♻️کاهش KV-cache، کوانتیزیشن، chunked prefill
♻️مسیریابی استاتیک/الاستیک، انتقال کش همتابههمتا، replication هوشمند
♻️سازگار با SGLang و vLLM برای استقرار سریع
📊 نتایج:
✳️صدرنشین در tool use (τ²-Bench, VitaBench)
✳️عملکرد عالی در instruction following (IFEval, COLLIE, Meeseeks-zh)
✳️چین همچنان پرچمدار مدلهای reasoning است. 🇨🇳🤖
🔗 HF: huggingface.co/meituan-longcat/LongCat-Flash-Thinking
#هوش_مصنوعی #مدل_زبانی #MoE #یادگیری_عمیق #OpenSource
@rss_ai_ir
🧠 مدلی مخصوص استدلال که بین تمام مدلهای اوپنسورس به رکورد SOTA رسیده است.
⚡️ ویژگیها:
✅معماری MoE با ۵۶۰B پارامتر (۲۷B فعال در هر بار اجرا)
✅صرفهجویی بزرگ: برای رسیدن به نتایج برتر در AIME25 به ۶۴.۵٪ توکن کمتر نیاز دارد
✅پشتیبانی از 128k context
✅آموزش با تقویت (RL) روی مسائل استدلالی و کد + چندمرحلهای با سینتِز چندعاملی
✅همچنین RL آسنکرون → ۳ برابر سریعتر از فریمورکهای سنتی
⚙️ بهینهسازی برای پروداکشن:
♻️هستههای اختصاصی برای MoE و آموزش توزیعشده
♻️کاهش KV-cache، کوانتیزیشن، chunked prefill
♻️مسیریابی استاتیک/الاستیک، انتقال کش همتابههمتا، replication هوشمند
♻️سازگار با SGLang و vLLM برای استقرار سریع
📊 نتایج:
✳️صدرنشین در tool use (τ²-Bench, VitaBench)
✳️عملکرد عالی در instruction following (IFEval, COLLIE, Meeseeks-zh)
✳️چین همچنان پرچمدار مدلهای reasoning است. 🇨🇳🤖
🔗 HF: huggingface.co/meituan-longcat/LongCat-Flash-Thinking
#هوش_مصنوعی #مدل_زبانی #MoE #یادگیری_عمیق #OpenSource
@rss_ai_ir
🔥6🥰6👏6👍5😁4❤3🎉3
This media is not supported in your browser
VIEW IN TELEGRAM
🥇 SaSaSa2VA
قهرمان چالش LSVOS 🥇
⛔️این مدل با معرفی رویکرد Segmentation Augmentation باعث بهبود درک ویدئو در سطح جهانی شده و در عین حال کارآمد باقی میماند.
همچنین در مرحلهی inference از Selective Averaging برای ترکیب پایدار پیشبینیهای مکمل استفاده میکند.
📊 نتیجه؟ دستیابی به SOTA در هفتمین چالش LSVOS (بخش RVOS) 🎉
کدی کاملاً عملیاتی و متنباز تحت لایسنس Apache در دسترس است.
📄 مقاله:
https://arxiv.org/pdf/2509.16972
💻 ریپو:
https://github.com/magic-research/Sa2VA
@rss_ai_ir
#AI #VideoUnderstanding #LSVOS #Segmentation #DeepLearning #opensource
قهرمان چالش LSVOS 🥇
⛔️این مدل با معرفی رویکرد Segmentation Augmentation باعث بهبود درک ویدئو در سطح جهانی شده و در عین حال کارآمد باقی میماند.
همچنین در مرحلهی inference از Selective Averaging برای ترکیب پایدار پیشبینیهای مکمل استفاده میکند.
📊 نتیجه؟ دستیابی به SOTA در هفتمین چالش LSVOS (بخش RVOS) 🎉
کدی کاملاً عملیاتی و متنباز تحت لایسنس Apache در دسترس است.
📄 مقاله:
https://arxiv.org/pdf/2509.16972
💻 ریپو:
https://github.com/magic-research/Sa2VA
@rss_ai_ir
#AI #VideoUnderstanding #LSVOS #Segmentation #DeepLearning #opensource
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 تنسنت بخشی از Hunyuan Studio را که مسئول سگمنتیشن اشیای سهبعدی است به صورت اوپنسورس منتشر کرد!
🔹 دو متد کلیدی:
P3-SAM —
❌ مدل سگمنتیشن قطعات در فرمت سهبعدی.
X-Part —
❌مدل تولید قطعات با نتایج عالی در کنترلپذیری و کیفیت شکل.
📂 کد: GitHub
📦 وزنها: Hugging Face
🌐 جزئیات بیشتر:
P3-SAM
X-Part
👉 یک گام دیگر برای دسترسپذیرتر شدن پایپلاینهای پیچیده کار با 3D برای جامعه پژوهشگران و توسعهدهندگان.
#AI #3D #Segmentation #OpenSource #Hunyuan #Tencent #DeepLearning
@rss_ai_ir
🔹 دو متد کلیدی:
P3-SAM —
❌ مدل سگمنتیشن قطعات در فرمت سهبعدی.
X-Part —
❌مدل تولید قطعات با نتایج عالی در کنترلپذیری و کیفیت شکل.
📂 کد: GitHub
📦 وزنها: Hugging Face
🌐 جزئیات بیشتر:
P3-SAM
X-Part
👉 یک گام دیگر برای دسترسپذیرتر شدن پایپلاینهای پیچیده کار با 3D برای جامعه پژوهشگران و توسعهدهندگان.
#AI #3D #Segmentation #OpenSource #Hunyuan #Tencent #DeepLearning
@rss_ai_ir
❤1
animation.gif
21.7 MB
🔥 تشخیص SOTA با DINOv3 🔥
👉فریم ورک DEIMv2 نسخه تکاملیافتهی فریمورک DEIM است که بر پایه DINOv3 ساخته شده. این چارچوب با ارائه مدلهایی از نسخه فوقسبک تا S، M، L و X طیف وسیعی از سناریوها را پوشش میدهد. نتیجه؟ دستیابی به بهترین عملکرد (SOTA) در حوزه تشخیص. 🚀
📌 منابع:
🔹 مقاله
🔹 کد در GitHub
🔹 پروژه
@rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #DINOv3 #تشخیص #SOTA #OpenSource
👉فریم ورک DEIMv2 نسخه تکاملیافتهی فریمورک DEIM است که بر پایه DINOv3 ساخته شده. این چارچوب با ارائه مدلهایی از نسخه فوقسبک تا S، M، L و X طیف وسیعی از سناریوها را پوشش میدهد. نتیجه؟ دستیابی به بهترین عملکرد (SOTA) در حوزه تشخیص. 🚀
📌 منابع:
🔹 مقاله
🔹 کد در GitHub
🔹 پروژه
@rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #DINOv3 #تشخیص #SOTA #OpenSource
This media is not supported in your browser
VIEW IN TELEGRAM
📹🤖 LONGLIVE از NVIDIA —
ویدئوسازی تعاملیِ بلادرنگ
مدل LONGLIVE یک چارچوب autoregressive در سطح فریم برای تولید ویدئوی طولانی بهصورت Real-time است. حین تولید میتوانید پشتسرهم پرامپت بدهید و مدل همانجا مسیر ویدئو را تغییر دهد.
چرا مهم است؟
⏱️ پاسخدهی بلادرنگ؛ مناسب استریم و تجربههای تعاملی
🧠 تولید فریمبهفریم = کنترل دقیق صحنه و تداوم داستان
🧩 پشتیبانی از پرامپتهای پیدرپی (sequential prompts)
🛠️ کد و مدل منتشر شده (لایسنس غیرتجاری)
لینکها:
Paper: arxiv.org/pdf/2509.22622
Project: nvlabs.github.io/LongLive/
Code: github.com/NVlabs/LongLive
HF: huggingface.co/Efficient-Large-Model/LongLive-1.3B
#NVIDIA #LongLive #RealtimeVideo #InteractiveAI #GenerativeVideo #Autoregressive #AIResearch #OpenSource
ویدئوسازی تعاملیِ بلادرنگ
مدل LONGLIVE یک چارچوب autoregressive در سطح فریم برای تولید ویدئوی طولانی بهصورت Real-time است. حین تولید میتوانید پشتسرهم پرامپت بدهید و مدل همانجا مسیر ویدئو را تغییر دهد.
چرا مهم است؟
⏱️ پاسخدهی بلادرنگ؛ مناسب استریم و تجربههای تعاملی
🧠 تولید فریمبهفریم = کنترل دقیق صحنه و تداوم داستان
🧩 پشتیبانی از پرامپتهای پیدرپی (sequential prompts)
🛠️ کد و مدل منتشر شده (لایسنس غیرتجاری)
لینکها:
Paper: arxiv.org/pdf/2509.22622
Project: nvlabs.github.io/LongLive/
Code: github.com/NVlabs/LongLive
HF: huggingface.co/Efficient-Large-Model/LongLive-1.3B
#NVIDIA #LongLive #RealtimeVideo #InteractiveAI #GenerativeVideo #Autoregressive #AIResearch #OpenSource
👍4🔥1🙏1
خبری تازه از Hunyuan — معرفی HunyuanImage 3.0 (خبر خوب و خبر بد) 👇
خوب:
سورسکد اوپنسورس منتشر شده. 🔗
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
دموی تحت وب برای تست:
https://hunyuan.tencent.com/image/en?tabIndex=0
نسخههای تعاملی/آزمایشی در پلتفرمهایی مثل Fal.ai/Replicate هم قرار گرفتهاند.
چیکار میکنه؟
✅بزرگترین مدل متن→تصویر اوپنسورس تا امروز: ~80B پارامتر (که حدود 13B فعال روی هر توکن استفاده میشه).
✅معماری MoE + Transfusion — ترکیب Diffusion و LLM در یک فریمورک.
✅آموزش روی مجموعهداده عظیم: ~5 میلیارد زوج تصویر-متن و تِرلیونها توکن.
✅پشتیبانی از پرتپرامپتهای طولانی (هزاران کلمه)، فهم دقیق متن و توانایی خوب در کار با متن داخل تصویر.
نتیجه: reasoning سطح بالا، مولتیمودالیتی قوی و کارآمدی در پیروی از دستورالعملهای پیچیده.
من خودم یک تست زدم:
بهش گفتم:
خروجی — هم حل ریاضی و هم تصویر راهحل — در پست قابل دیدنه؛ جذاب بود.
⛔️بد:
❌هنوز image2image نداره.
❌پشتیبانی از VLLM / runtime سبک ندارن (فعلاً).
❌وزنها خیلی بزرگن — حدود 170 گیگابایت.
❌برای اجرا به سختافزار سنگینی نیاز دارید: ۴ کارت وِیآرایام ۸۰GB (۴ × 80GB VRAM) — یعنی فعلاً برای اکثرِ آدمها و پژوهشگرای معمولی قابلدسترس نیست.
❌بهقولی «اوپنسورسِ اشرافی» — کد رو گذاشتن، ولی عملاً فقط کسایی با سرورهای بزرگ میتونن راحت اجرا کنن.
❌گزارشهایی از اشکالاتی در آناتومی و تکسچر پوست هست — نتایج هنوز جای کاستن دارند.
جمعبندی:
♻️قابل ذکره که HunyuanImage 3.0 از نظر مقیاس و معماری یه جهش بزرگه و خیلی پرامکاناته، ولی در عمل فعلاً فقط برای تیمها یا سازمانهایی با دیتاسنترِ بزرگ کاربردیه. منتظر بهینهسازیها، نسخههای distilled و runtimeهای سبکتر میمونیم تا این پکیج واقعاً در دسترس عموم قرار بگیره.
⛔️لینکها دوباره:
گیتهاب:
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
دمو:
https://hunyuan.tencent.com/image/en?tabIndex=0
playground در Fal.ai:
https://fal.ai/models/fal-ai/hunyuan-image/v3/text-to-image/playground
@rss_ai_ir
#HunyuanImage #GenerativeAI #OpenSource #3DGenAI #AI_news
خوب:
سورسکد اوپنسورس منتشر شده. 🔗
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
دموی تحت وب برای تست:
https://hunyuan.tencent.com/image/en?tabIndex=0
نسخههای تعاملی/آزمایشی در پلتفرمهایی مثل Fal.ai/Replicate هم قرار گرفتهاند.
چیکار میکنه؟
✅بزرگترین مدل متن→تصویر اوپنسورس تا امروز: ~80B پارامتر (که حدود 13B فعال روی هر توکن استفاده میشه).
✅معماری MoE + Transfusion — ترکیب Diffusion و LLM در یک فریمورک.
✅آموزش روی مجموعهداده عظیم: ~5 میلیارد زوج تصویر-متن و تِرلیونها توکن.
✅پشتیبانی از پرتپرامپتهای طولانی (هزاران کلمه)، فهم دقیق متن و توانایی خوب در کار با متن داخل تصویر.
نتیجه: reasoning سطح بالا، مولتیمودالیتی قوی و کارآمدی در پیروی از دستورالعملهای پیچیده.
من خودم یک تست زدم:
بهش گفتم:
solve this: 8x + 10 = 18 and make picture with solution
خروجی — هم حل ریاضی و هم تصویر راهحل — در پست قابل دیدنه؛ جذاب بود.
⛔️بد:
❌هنوز image2image نداره.
❌پشتیبانی از VLLM / runtime سبک ندارن (فعلاً).
❌وزنها خیلی بزرگن — حدود 170 گیگابایت.
❌برای اجرا به سختافزار سنگینی نیاز دارید: ۴ کارت وِیآرایام ۸۰GB (۴ × 80GB VRAM) — یعنی فعلاً برای اکثرِ آدمها و پژوهشگرای معمولی قابلدسترس نیست.
❌بهقولی «اوپنسورسِ اشرافی» — کد رو گذاشتن، ولی عملاً فقط کسایی با سرورهای بزرگ میتونن راحت اجرا کنن.
❌گزارشهایی از اشکالاتی در آناتومی و تکسچر پوست هست — نتایج هنوز جای کاستن دارند.
جمعبندی:
♻️قابل ذکره که HunyuanImage 3.0 از نظر مقیاس و معماری یه جهش بزرگه و خیلی پرامکاناته، ولی در عمل فعلاً فقط برای تیمها یا سازمانهایی با دیتاسنترِ بزرگ کاربردیه. منتظر بهینهسازیها، نسخههای distilled و runtimeهای سبکتر میمونیم تا این پکیج واقعاً در دسترس عموم قرار بگیره.
⛔️لینکها دوباره:
گیتهاب:
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
دمو:
https://hunyuan.tencent.com/image/en?tabIndex=0
playground در Fal.ai:
https://fal.ai/models/fal-ai/hunyuan-image/v3/text-to-image/playground
@rss_ai_ir
#HunyuanImage #GenerativeAI #OpenSource #3DGenAI #AI_news
❤1👍1🔥1👏1