This media is not supported in your browser
VIEW IN TELEGRAM
🚀 HunyuanWorld-Voyager — هوش مصنوعی متنباز برای ساخت دنیای سهبعدی
شرکت Tencent از HunyuanWorld-Voyager رونمایی کرد؛ اولین هوش مصنوعی open-source جهان که تولید ویدئو را با بازسازی سهبعدی واقعی ترکیب میکند.
✨ چرا مهم است؟
✅ ویدئو به طور مستقیم به صحنههای کامل سهبعدی تبدیل میشود (بدون نیاز به ابزار اضافی)
✅ مدل «حافظه فضایی» دارد و هندسه صحیح را از هر زاویه حفظ میکند
✅ رتبه اول در Stanford WorldScore برای ویدئو و بازسازی سهبعدی
🎮 کاربردها: واقعیت مجازی (VR)، بازیها، شبیهسازیها و پروژههای سهبعدی — با کنترل از طریق کیبورد یا دسته بازی.
🌐 Project Page: HunyuanWorld-Voyager
💻 GitHub: کد منبع
🤗 HuggingFace: مدلها
📄 PDF: جزئیات کامل
🏆 Leaderboard: WorldScore
@rss_ai_ir
#هوش_مصنوعی #سهبعدی #VR #گیمینگ #OpenSource
شرکت Tencent از HunyuanWorld-Voyager رونمایی کرد؛ اولین هوش مصنوعی open-source جهان که تولید ویدئو را با بازسازی سهبعدی واقعی ترکیب میکند.
✨ چرا مهم است؟
✅ ویدئو به طور مستقیم به صحنههای کامل سهبعدی تبدیل میشود (بدون نیاز به ابزار اضافی)
✅ مدل «حافظه فضایی» دارد و هندسه صحیح را از هر زاویه حفظ میکند
✅ رتبه اول در Stanford WorldScore برای ویدئو و بازسازی سهبعدی
🎮 کاربردها: واقعیت مجازی (VR)، بازیها، شبیهسازیها و پروژههای سهبعدی — با کنترل از طریق کیبورد یا دسته بازی.
🌐 Project Page: HunyuanWorld-Voyager
💻 GitHub: کد منبع
🤗 HuggingFace: مدلها
📄 PDF: جزئیات کامل
🏆 Leaderboard: WorldScore
@rss_ai_ir
#هوش_مصنوعی #سهبعدی #VR #گیمینگ #OpenSource
👍4❤1🙏1👌1
🌟 یک مقاله مروری درباره دیتاستهای اوپن ML در Hugging Face منتشر شد.
📝 نویسندهی رسانهی Daily Dose of Data Science جالبترین دیتاستها و مدلهای اوپن اخیر را گردآوری کرده است. یکی از برجستهترینها Yambda-5B از تیم Yandex است؛ بزرگترین دیتاست اوپن در دنیا برای سیستمهای توصیهگر موسیقی.
🎵 دیتاست Yambda-5B شامل ۴.۷۹ میلیارد تعامل ناشناس (گوش دادن به آهنگ، لایک و دیسلایک) است. این دیتاست توجه پژوهشگران جهانی را جلب کرده و نویدبخش توسعهی نسل جدید سیستمهای پیشنهاددهنده میباشد.
🔗 مطالعهی بیشتر
@rss_ai_ir
#AI #ML #Dataset #RecommendationSystem #Yandex #OpenSource
📝 نویسندهی رسانهی Daily Dose of Data Science جالبترین دیتاستها و مدلهای اوپن اخیر را گردآوری کرده است. یکی از برجستهترینها Yambda-5B از تیم Yandex است؛ بزرگترین دیتاست اوپن در دنیا برای سیستمهای توصیهگر موسیقی.
🎵 دیتاست Yambda-5B شامل ۴.۷۹ میلیارد تعامل ناشناس (گوش دادن به آهنگ، لایک و دیسلایک) است. این دیتاست توجه پژوهشگران جهانی را جلب کرده و نویدبخش توسعهی نسل جدید سیستمهای پیشنهاددهنده میباشد.
🔗 مطالعهی بیشتر
@rss_ai_ir
#AI #ML #Dataset #RecommendationSystem #Yandex #OpenSource
👍20🎉17😁16🔥14❤12👏7🥰5
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 WebEyeTrack:
رهگیری چشم در وب، به صورت بلادرنگ 👁️💻
👉 فریم ورک WebEyeTrack یک فریمورک نوآورانه است که مدلهای سبک و پیشرفته تخمین نگاه (Gaze Estimation) را مستقیماً در مرورگر ادغام میکند. این ابزار رهگیری نگاه با هوش مصنوعی را به وب میآورد و به طور صریح وضعیت سر (Head Pose) را هم در نظر میگیرد.
🟢 کد منبع با لایسنس MIT منتشر شده است 💙
🔗 مقاله: https://arxiv.org/pdf/2508.19544
🔗 پروژه: redforestai.github.io/WebEyeTrack
🔗 ریپو: github.com/RedForestAi/WebEyeTrack
@rss_ai_ir
#AI #ML #GazeEstimation #WebAI #ComputerVision #WebEyeTrack #opensource
رهگیری چشم در وب، به صورت بلادرنگ 👁️💻
👉 فریم ورک WebEyeTrack یک فریمورک نوآورانه است که مدلهای سبک و پیشرفته تخمین نگاه (Gaze Estimation) را مستقیماً در مرورگر ادغام میکند. این ابزار رهگیری نگاه با هوش مصنوعی را به وب میآورد و به طور صریح وضعیت سر (Head Pose) را هم در نظر میگیرد.
🟢 کد منبع با لایسنس MIT منتشر شده است 💙
🔗 مقاله: https://arxiv.org/pdf/2508.19544
🔗 پروژه: redforestai.github.io/WebEyeTrack
🔗 ریپو: github.com/RedForestAi/WebEyeTrack
@rss_ai_ir
#AI #ML #GazeEstimation #WebAI #ComputerVision #WebEyeTrack #opensource
🔥19😁14🎉14❤13👍10👏10🥰6🙏2
This media is not supported in your browser
VIEW IN TELEGRAM
🎭 Puppeteer:
ریگ و انیمیت خودکار مدلهای سهبعدی
✅بالاخره رسید! 🔥 پروژهی Puppeteer میتونه یک مدل سهبعدی ساده (مثلاً در فرمت obj) رو بگیره و بهصورت خودکار ریگ اولیه بسازه:
🦴 اضافهکردن اسکلت
🎨 ساخت نقشههای وزن برای اسکینینگ
⛔️البته ریگ کامل (blendshapeهای اصلاحی، constraintها، deformها، inverse kinematics و …) اینجا وجود نداره.
اما نکته جالبتر: 🕹️
👉 این سیستم میتونه یک ویدیو مرجع حرکت رو بگیره و انیمیشن همون حرکت رو روی اسکلت منتقل کنه!
🔍 ابزارهای پشت پرده:
♻️Video-Depth-Anything
برای تخمین عمق
♻️CoTracker3
برای ترکینگ نقاط
♻️MagicArticulate, MeshAnything, RigNet, Michelangelo, AnyMole, Lab4D
برای بخش ریگینگ
📌 با وجود محدودیتها (مثل بحث زاویه دوربین و دقت پایین انیمیشن)، این پروژه یک گام مهم محسوب میشه: اتوماتیکسازی ریگ و اسکینینگ
🔗 جزئیات: صفحه پروژه
💻 کد: GitHub
@rss_ai_ir
#3D #Animation #Rigging #AI #OpenSource
ریگ و انیمیت خودکار مدلهای سهبعدی
✅بالاخره رسید! 🔥 پروژهی Puppeteer میتونه یک مدل سهبعدی ساده (مثلاً در فرمت obj) رو بگیره و بهصورت خودکار ریگ اولیه بسازه:
🦴 اضافهکردن اسکلت
🎨 ساخت نقشههای وزن برای اسکینینگ
⛔️البته ریگ کامل (blendshapeهای اصلاحی، constraintها، deformها، inverse kinematics و …) اینجا وجود نداره.
اما نکته جالبتر: 🕹️
👉 این سیستم میتونه یک ویدیو مرجع حرکت رو بگیره و انیمیشن همون حرکت رو روی اسکلت منتقل کنه!
🔍 ابزارهای پشت پرده:
♻️Video-Depth-Anything
برای تخمین عمق
♻️CoTracker3
برای ترکینگ نقاط
♻️MagicArticulate, MeshAnything, RigNet, Michelangelo, AnyMole, Lab4D
برای بخش ریگینگ
📌 با وجود محدودیتها (مثل بحث زاویه دوربین و دقت پایین انیمیشن)، این پروژه یک گام مهم محسوب میشه: اتوماتیکسازی ریگ و اسکینینگ
🔗 جزئیات: صفحه پروژه
💻 کد: GitHub
@rss_ai_ir
#3D #Animation #Rigging #AI #OpenSource
❤23🔥23👍20👏20🎉20😁14🥰13
This media is not supported in your browser
VIEW IN TELEGRAM
✂️ ابزار متنباز برچسبگذاری تصاویر با هوش مصنوعی ✂️
👉 ابزار VisioFirm محصول TOELT یک ابزار متنباز و هوشمصنوعیمحور برای برچسبگذاری سریع تصاویر در پروژههای بینایی ماشین است.
🔹 پشتیبانی از تشخیص اشیاء، جعبههای چرخیده (Oriented BBs) و سگمنتیشن.
🔹 کد منبع با مجوز Apache 2.0 منتشر شده 💙
🔗 Paper: https://arxiv.org/pdf/2509.04180
🔗 Repo:
https://github.com/OschAI/VisioFirm
@rss_ai_ir
#AI #ML #ComputerVision #Annotation #OpenSource #VisioFirm
👉 ابزار VisioFirm محصول TOELT یک ابزار متنباز و هوشمصنوعیمحور برای برچسبگذاری سریع تصاویر در پروژههای بینایی ماشین است.
🔹 پشتیبانی از تشخیص اشیاء، جعبههای چرخیده (Oriented BBs) و سگمنتیشن.
🔹 کد منبع با مجوز Apache 2.0 منتشر شده 💙
🔗 Paper: https://arxiv.org/pdf/2509.04180
🔗 Repo:
https://github.com/OschAI/VisioFirm
@rss_ai_ir
#AI #ML #ComputerVision #Annotation #OpenSource #VisioFirm
😁30🔥22❤18👍18🎉16👏13🥰12
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 XLeRobot —
ربات خانگی فقط با 660 دلار، کنترل با دسته Xbox
✳️پروژه XLeRobot یک پروژهی اوپنسورس است که به شما امکان میدهد یک ربات موبایل دو بازویی واقعی را با دستهای خودتان بسازید.
👨💻 نویسندهی پروژه، Gaotian Wang دانشجوی دانشگاه Rice، تمرکز خود را روی دسترسپذیری و کارایی عملی قرار داده است.
💡 نکات کلیدی:
♻️هزینه ساخت ≈ 660 دلار → یک ربات کامل با دو بازو و پایهی چرخدار
♻️نسخهی سادهتر ≈ 250 دلار با LeKiwi + SO-100 که سریعتر مونتاژ میشود
♻️شامل: مدلهای URDF، شبیهسازی، کنترل با VR، Joy-Con یا دسته Xbox
♻️مناسب برای آزمایش در شبیهسازی و انتقال به دنیای واقعی (Sim2Real)
♻️قابلیت تعامل با محیط برای تست الگوریتمهای هوش مصنوعی و رباتیک
📈 محبوبیت: پروژه تا امروز بیش از 1.7k ستاره و دهها Fork در GitHub گرفته است.
🟢 ریپازیتوری: github.com/Vector-Wangel/XLeRobot
@rss_ai_ir
#رباتیک #هوش_مصنوعی #opensource #XLeRobot #AI #robotics
ربات خانگی فقط با 660 دلار، کنترل با دسته Xbox
✳️پروژه XLeRobot یک پروژهی اوپنسورس است که به شما امکان میدهد یک ربات موبایل دو بازویی واقعی را با دستهای خودتان بسازید.
👨💻 نویسندهی پروژه، Gaotian Wang دانشجوی دانشگاه Rice، تمرکز خود را روی دسترسپذیری و کارایی عملی قرار داده است.
💡 نکات کلیدی:
♻️هزینه ساخت ≈ 660 دلار → یک ربات کامل با دو بازو و پایهی چرخدار
♻️نسخهی سادهتر ≈ 250 دلار با LeKiwi + SO-100 که سریعتر مونتاژ میشود
♻️شامل: مدلهای URDF، شبیهسازی، کنترل با VR، Joy-Con یا دسته Xbox
♻️مناسب برای آزمایش در شبیهسازی و انتقال به دنیای واقعی (Sim2Real)
♻️قابلیت تعامل با محیط برای تست الگوریتمهای هوش مصنوعی و رباتیک
📈 محبوبیت: پروژه تا امروز بیش از 1.7k ستاره و دهها Fork در GitHub گرفته است.
🟢 ریپازیتوری: github.com/Vector-Wangel/XLeRobot
@rss_ai_ir
#رباتیک #هوش_مصنوعی #opensource #XLeRobot #AI #robotics
👍25❤23🎉22🔥19👏19🥰16😁12
🚀 مدل Grok 2.5 حالا روی سیستم شخصی هم قابل اجراست!
🔹 تیم Unsloth نسخهای بهینهشده از مدل را منتشر کرده که اجرای محلی را ممکن میکند:
✅ 270 میلیارد پارامتر روی یک مک معمولی با 128GB RAM (حدود ۵ توکن در ثانیه)
✅ حجم مدل از 539GB به 118GB کاهش یافته (۸۰٪ کمتر)
✅ لایههای کلیدی در فرمت 8-bit و سایر بخشها با فشردهسازی 3-bit GGUF ذخیره شدهاند.
📘 راهنما: docs.unsloth.ai/basics/grok-2
📥 مدل GGUF: huggingface.co/unsloth/grok-2-GGUF
@rss_ai_ir
#هوش_مصنوعی #xAI #Grok2 #مدل_زبانی #OpenSource #MachineLearning #DeepLearning
🔹 تیم Unsloth نسخهای بهینهشده از مدل را منتشر کرده که اجرای محلی را ممکن میکند:
✅ 270 میلیارد پارامتر روی یک مک معمولی با 128GB RAM (حدود ۵ توکن در ثانیه)
✅ حجم مدل از 539GB به 118GB کاهش یافته (۸۰٪ کمتر)
✅ لایههای کلیدی در فرمت 8-bit و سایر بخشها با فشردهسازی 3-bit GGUF ذخیره شدهاند.
📘 راهنما: docs.unsloth.ai/basics/grok-2
📥 مدل GGUF: huggingface.co/unsloth/grok-2-GGUF
@rss_ai_ir
#هوش_مصنوعی #xAI #Grok2 #مدل_زبانی #OpenSource #MachineLearning #DeepLearning
👍23🥰20🎉20❤16💯14😁12🔥11🤩8👏7😍7❤🔥7
This media is not supported in your browser
VIEW IN TELEGRAM
💛 نسل جدید تولیدکنندههای SVG مقیاسپذیر 💛
🔹 پروژه OmniSVG معرفی شد؛ اولین خانوادهی مولدهای چندوجهی (multimodal) انتهابهانتها (e2e) که با استفاده از مدلهای زبانی-بینایی (VLMs) قادر به تولید SVGهای دقیق و مقیاسپذیر هستند.
📌 نکته مهم: کد، مدلها و دیتاست این پروژه تحت لایسنس MIT منتشر خواهند شد 💙
🔗 منابع بیشتر:
👉 Paper
👉 Project
👉 Repo
👉 Dataset
@rss_ai_ir
#AI #SVG #OmniSVG #VLM #OpenSource #GenerativeAI
🔹 پروژه OmniSVG معرفی شد؛ اولین خانوادهی مولدهای چندوجهی (multimodal) انتهابهانتها (e2e) که با استفاده از مدلهای زبانی-بینایی (VLMs) قادر به تولید SVGهای دقیق و مقیاسپذیر هستند.
📌 نکته مهم: کد، مدلها و دیتاست این پروژه تحت لایسنس MIT منتشر خواهند شد 💙
🔗 منابع بیشتر:
👉 Paper
👉 Project
👉 Repo
👉 Dataset
@rss_ai_ir
#AI #SVG #OmniSVG #VLM #OpenSource #GenerativeAI
❤18🔥14🥰14🎉13👍10🤩9💯9👏8❤🔥8😁7🙏1
⚡️ HunyuanImage-2.1 —
نسل جدید مدل دیفیوشن برای تولید تصویر 2K
مدل تازهی HunyuanImage-2.1 از Tencent منتشر شد؛ نسخه قبلی (2.0) در ژوئن عرضه شده بود.
🔹 ویژگیها:
♻️دارای 17B پارامتر
♻️خروجی با وضوح 2K (2048×2048)
♻️دارای VAE با فشردهسازی (32×32)
♻️معماری DIT دو جریانی شبیه FLUX
♻️هText Encoder ترکیبی از MLLM و ByT5
♻️دارای Refiner Model برای بهبود جزئیات و حذف آرتیفکتها
✨ ابزار جانبی:
PromptEnhancer → بازنویسی پرامپتها با استفاده از CoT برای افزایش دقت و کیفیت:
🔗 hunyuan-promptenhancer.github.io
📊 عملکرد:
✳️در بنچمارکها تقریباً همسطح Qwen Image
✳️نیاز به حدود 59GB VRAM برای رندر 2048×2048 (حتی با CPU offloading)
📎 منابع:
♻️کد:
GitHub
♻️جزئیات و نمونهها:
Tencent Hunyuan
♻️دمو (در حال حاضر غیرفعال):
Hugging Face
📌 نکته: فعلاً آخرین نسخه HunyuanMLLM منتشر نشده؛ پیشنهاد استفاده از جایگزین متنباز مثل Qwen2.5-VL-7B-Instruct است.
@rss_ai_ir
#AI #TextToImage #Hunyuan #OpenSource
نسل جدید مدل دیفیوشن برای تولید تصویر 2K
مدل تازهی HunyuanImage-2.1 از Tencent منتشر شد؛ نسخه قبلی (2.0) در ژوئن عرضه شده بود.
🔹 ویژگیها:
♻️دارای 17B پارامتر
♻️خروجی با وضوح 2K (2048×2048)
♻️دارای VAE با فشردهسازی (32×32)
♻️معماری DIT دو جریانی شبیه FLUX
♻️هText Encoder ترکیبی از MLLM و ByT5
♻️دارای Refiner Model برای بهبود جزئیات و حذف آرتیفکتها
✨ ابزار جانبی:
PromptEnhancer → بازنویسی پرامپتها با استفاده از CoT برای افزایش دقت و کیفیت:
🔗 hunyuan-promptenhancer.github.io
📊 عملکرد:
✳️در بنچمارکها تقریباً همسطح Qwen Image
✳️نیاز به حدود 59GB VRAM برای رندر 2048×2048 (حتی با CPU offloading)
📎 منابع:
♻️کد:
GitHub
♻️جزئیات و نمونهها:
Tencent Hunyuan
♻️دمو (در حال حاضر غیرفعال):
Hugging Face
📌 نکته: فعلاً آخرین نسخه HunyuanMLLM منتشر نشده؛ پیشنهاد استفاده از جایگزین متنباز مثل Qwen2.5-VL-7B-Instruct است.
@rss_ai_ir
#AI #TextToImage #Hunyuan #OpenSource
👍2❤1🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 WFGY 2.0 —
موتور استدلال معنایی برای LLMها (MIT)
هدف این پروژهی متنباز کاهش هذیانها (hallucinations) و خطاهای منطقی در سیستمهای مبتنی بر RAG / LLM است؛ مخصوصاً در شرایطی مثل:
✳️متنهای OCR با خطای زیاد،
✳️شرایط Semantic drift (وقتی پاسخ از سؤال منحرف میشود)،
✳️شرایط Ghost matches (جایی که یک بخش ظاهراً مرتبط به نظر میآید، ولی درواقع بیربط است).
🚧 در اغلب روشها خطاها فقط بعد از تولید پاسخ نهایی شناسایی میشوند.
اما در WFGY، منطق کاملاً برعکس است:
اگر مدل ببیند که استدلالها «کج» شدهاند یا از مسیر اصلی خارج شده، فرآیند را متوقف میکند یا مسیر دیگری انتخاب میکند و تنها زمانی پاسخ میدهد که وضعیت پایدار باشد.
🛡 نویسندگان این روش را یک «فایروال معنایی» (semantic firewall) مینامند.
---
📌 امکانات کلیدی:
♻️شامل نقشهای از ۱۶ خطای رایج LLM: از جستوجوی اشتباه دادهها و افت منطق گرفته تا «فراموشی» یا اختلاط نقش عاملها.
♻️برای هر خطا، یک راهحل متنی ساده پیشنهاد شده است.
♻️بدون نیاز به SDK — کافی است دستورالعملها را مستقیم در پرامپت وارد کنید.
🟢 شاخصهای اصلی برای ارزیابی کیفیت استدلال:
✅شاخصΔS (drift): آیا معنی از یک مرحله به مرحله بعد خیلی دور شده یا نه.
✅شاخصλ (convergence): آیا منطق به سمت پاسخ نهایی همگرا میشود یا در حلقه میچرخد.
✅شاخص Coverage: آیا دادهها و شواهد کافی در نظر گرفته شدهاند یا خیر.
📊 نتایج تست: پایداری خروجی تا ۹۰–۹۵٪ افزایش یافته (در مقایسه با ۷۰–۸۵٪ در روشهای سنتی).
📂 گیتهاب:
github.com/onestardao/WFGY
---
@rss_ai_ir
#هوش_مصنوعی #LLM #OpenSource #Reasoning #PromptEngineering #Hallucinations
موتور استدلال معنایی برای LLMها (MIT)
هدف این پروژهی متنباز کاهش هذیانها (hallucinations) و خطاهای منطقی در سیستمهای مبتنی بر RAG / LLM است؛ مخصوصاً در شرایطی مثل:
✳️متنهای OCR با خطای زیاد،
✳️شرایط Semantic drift (وقتی پاسخ از سؤال منحرف میشود)،
✳️شرایط Ghost matches (جایی که یک بخش ظاهراً مرتبط به نظر میآید، ولی درواقع بیربط است).
🚧 در اغلب روشها خطاها فقط بعد از تولید پاسخ نهایی شناسایی میشوند.
اما در WFGY، منطق کاملاً برعکس است:
اگر مدل ببیند که استدلالها «کج» شدهاند یا از مسیر اصلی خارج شده، فرآیند را متوقف میکند یا مسیر دیگری انتخاب میکند و تنها زمانی پاسخ میدهد که وضعیت پایدار باشد.
🛡 نویسندگان این روش را یک «فایروال معنایی» (semantic firewall) مینامند.
---
📌 امکانات کلیدی:
♻️شامل نقشهای از ۱۶ خطای رایج LLM: از جستوجوی اشتباه دادهها و افت منطق گرفته تا «فراموشی» یا اختلاط نقش عاملها.
♻️برای هر خطا، یک راهحل متنی ساده پیشنهاد شده است.
♻️بدون نیاز به SDK — کافی است دستورالعملها را مستقیم در پرامپت وارد کنید.
🟢 شاخصهای اصلی برای ارزیابی کیفیت استدلال:
✅شاخصΔS (drift): آیا معنی از یک مرحله به مرحله بعد خیلی دور شده یا نه.
✅شاخصλ (convergence): آیا منطق به سمت پاسخ نهایی همگرا میشود یا در حلقه میچرخد.
✅شاخص Coverage: آیا دادهها و شواهد کافی در نظر گرفته شدهاند یا خیر.
📊 نتایج تست: پایداری خروجی تا ۹۰–۹۵٪ افزایش یافته (در مقایسه با ۷۰–۸۵٪ در روشهای سنتی).
📂 گیتهاب:
github.com/onestardao/WFGY
---
@rss_ai_ir
#هوش_مصنوعی #LLM #OpenSource #Reasoning #PromptEngineering #Hallucinations
❤2🍾2👍1👏1