VIRSUN
7.46K subscribers
792 photos
461 videos
3 files
507 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 HunyuanWorld-Voyager — هوش مصنوعی متن‌باز برای ساخت دنیای سه‌بعدی

شرکت Tencent از HunyuanWorld-Voyager رونمایی کرد؛ اولین هوش مصنوعی open-source جهان که تولید ویدئو را با بازسازی سه‌بعدی واقعی ترکیب می‌کند.

چرا مهم است؟
ویدئو به طور مستقیم به صحنه‌های کامل سه‌بعدی تبدیل می‌شود (بدون نیاز به ابزار اضافی)
مدل «حافظه فضایی» دارد و هندسه صحیح را از هر زاویه حفظ می‌کند
رتبه اول در Stanford WorldScore برای ویدئو و بازسازی سه‌بعدی

🎮 کاربردها: واقعیت مجازی (VR)، بازی‌ها، شبیه‌سازی‌ها و پروژه‌های سه‌بعدی — با کنترل از طریق کیبورد یا دسته بازی.

🌐 Project Page: HunyuanWorld-Voyager
💻 GitHub: کد منبع
🤗 HuggingFace: مدل‌ها
📄 PDF: جزئیات کامل
🏆 Leaderboard: WorldScore

@rss_ai_ir

#هوش_مصنوعی #سه‌بعدی #VR #گیمینگ #OpenSource
👍41🙏1👌1
🌟 یک مقاله مروری درباره دیتاست‌های اوپن ML در Hugging Face منتشر شد.

📝 نویسنده‌ی رسانه‌ی Daily Dose of Data Science جالب‌ترین دیتاست‌ها و مدل‌های اوپن اخیر را گردآوری کرده است. یکی از برجسته‌ترین‌ها Yambda-5B از تیم Yandex است؛ بزرگ‌ترین دیتاست اوپن در دنیا برای سیستم‌های توصیه‌گر موسیقی.

🎵 دیتاست Yambda-5B شامل ۴.۷۹ میلیارد تعامل ناشناس (گوش دادن به آهنگ، لایک و دیسلایک) است. این دیتاست توجه پژوهشگران جهانی را جلب کرده و نویدبخش توسعه‌ی نسل جدید سیستم‌های پیشنهاددهنده می‌باشد.

🔗 مطالعه‌ی بیشتر


@rss_ai_ir

#AI #ML #Dataset #RecommendationSystem #Yandex #OpenSource
👍20🎉17😁16🔥1412👏7🥰5
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 WebEyeTrack:
رهگیری چشم در وب، به صورت بلادرنگ 👁️💻

👉 فریم ورک WebEyeTrack یک فریم‌ورک نوآورانه است که مدل‌های سبک و پیشرفته تخمین نگاه (Gaze Estimation) را مستقیماً در مرورگر ادغام می‌کند. این ابزار رهگیری نگاه با هوش مصنوعی را به وب می‌آورد و به طور صریح وضعیت سر (Head Pose) را هم در نظر می‌گیرد.

🟢 کد منبع با لایسنس MIT منتشر شده است 💙


🔗 مقاله: https://arxiv.org/pdf/2508.19544
🔗 پروژه: redforestai.github.io/WebEyeTrack
🔗 ریپو: github.com/RedForestAi/WebEyeTrack

@rss_ai_ir

#AI #ML #GazeEstimation #WebAI #ComputerVision #WebEyeTrack #opensource
🔥19😁14🎉1413👍10👏10🥰6🙏2
This media is not supported in your browser
VIEW IN TELEGRAM
🎭 Puppeteer:
ریگ و انیمیت خودکار مدل‌های سه‌بعدی

بالاخره رسید! 🔥 پروژه‌ی Puppeteer می‌تونه یک مدل سه‌بعدی ساده (مثلاً در فرمت obj) رو بگیره و به‌صورت خودکار ریگ اولیه بسازه:
🦴 اضافه‌کردن اسکلت
🎨 ساخت نقشه‌های وزن برای اسکینینگ

⛔️البته ریگ کامل (blendshapeهای اصلاحی، constraintها، deformها، inverse kinematics و …) اینجا وجود نداره.

اما نکته جالب‌تر: 🕹️
👉 این سیستم می‌تونه یک ویدیو مرجع حرکت رو بگیره و انیمیشن همون حرکت رو روی اسکلت منتقل کنه!

🔍 ابزارهای پشت پرده:

♻️Video-Depth-Anything
برای تخمین عمق

♻️CoTracker3
برای ترکینگ نقاط

♻️MagicArticulate, MeshAnything, RigNet, Michelangelo, AnyMole, Lab4D
برای بخش ریگینگ


📌 با وجود محدودیت‌ها (مثل بحث زاویه دوربین و دقت پایین انیمیشن)، این پروژه یک گام مهم محسوب میشه: اتوماتیک‌سازی ریگ و اسکینینگ

🔗 جزئیات: صفحه پروژه
💻 کد: GitHub

@rss_ai_ir

#3D #Animation #Rigging #AI #OpenSource
23🔥23👍20👏20🎉20😁14🥰13
This media is not supported in your browser
VIEW IN TELEGRAM
✂️ ابزار متن‌باز برچسب‌گذاری تصاویر با هوش مصنوعی ✂️

👉 ابزار VisioFirm محصول TOELT یک ابزار متن‌باز و هوش‌مصنوعی‌محور برای برچسب‌گذاری سریع تصاویر در پروژه‌های بینایی ماشین است.
🔹 پشتیبانی از تشخیص اشیاء، جعبه‌های چرخیده (Oriented BBs) و سگمنتیشن.
🔹 کد منبع با مجوز Apache 2.0 منتشر شده 💙
🔗 Paper: https://arxiv.org/pdf/2509.04180
🔗 Repo:
https://github.com/OschAI/VisioFirm
@rss_ai_ir

#AI #ML #ComputerVision #Annotation #OpenSource #VisioFirm
😁30🔥2218👍18🎉16👏13🥰12
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 XLeRobot —
ربات خانگی فقط با 660 دلار، کنترل با دسته Xbox

✳️پروژه XLeRobot یک پروژه‌ی اوپن‌سورس است که به شما امکان می‌دهد یک ربات موبایل دو بازویی واقعی را با دست‌های خودتان بسازید.

👨‍💻 نویسنده‌ی پروژه، Gaotian Wang دانشجوی دانشگاه Rice، تمرکز خود را روی دسترس‌پذیری و کارایی عملی قرار داده است.

💡 نکات کلیدی:

♻️هزینه ساخت ≈ 660 دلار → یک ربات کامل با دو بازو و پایه‌ی چرخ‌دار

♻️نسخه‌ی ساده‌تر ≈ 250 دلار با LeKiwi + SO-100 که سریع‌تر مونتاژ می‌شود

♻️شامل: مدل‌های URDF، شبیه‌سازی، کنترل با VR، Joy-Con یا دسته Xbox

♻️مناسب برای آزمایش در شبیه‌سازی و انتقال به دنیای واقعی (Sim2Real)

♻️قابلیت تعامل با محیط برای تست الگوریتم‌های هوش مصنوعی و رباتیک


📈 محبوبیت: پروژه تا امروز بیش از 1.7k ستاره و ده‌ها Fork در GitHub گرفته است.

🟢 ریپازیتوری: github.com/Vector-Wangel/XLeRobot

@rss_ai_ir

#رباتیک #هوش_مصنوعی #opensource #XLeRobot #AI #robotics
👍2523🎉22🔥19👏19🥰16😁12
🚀 مدل Grok 2.5 حالا روی سیستم‌ شخصی هم قابل اجراست!

🔹 تیم Unsloth نسخه‌ای بهینه‌شده از مدل را منتشر کرده که اجرای محلی را ممکن می‌کند:

270 میلیارد پارامتر روی یک مک معمولی با 128GB RAM (حدود ۵ توکن در ثانیه)
حجم مدل از 539GB به 118GB کاهش یافته (۸۰٪ کمتر)
لایه‌های کلیدی در فرمت 8-bit و سایر بخش‌ها با فشرده‌سازی 3-bit GGUF ذخیره شده‌اند.

📘 راهنما: docs.unsloth.ai/basics/grok-2
📥 مدل GGUF: huggingface.co/unsloth/grok-2-GGUF

@rss_ai_ir

#هوش_مصنوعی #xAI #Grok2 #مدل_زبانی #OpenSource #MachineLearning #DeepLearning
👍23🥰20🎉2016💯14😁12🔥11🤩8👏7😍7❤‍🔥7
This media is not supported in your browser
VIEW IN TELEGRAM
💛 نسل جدید تولیدکننده‌های SVG مقیاس‌پذیر 💛

🔹 پروژه OmniSVG معرفی شد؛ اولین خانواده‌ی مولدهای چندوجهی (multimodal) انتهابه‌انتها (e2e) که با استفاده از مدل‌های زبانی-بینایی (VLMs) قادر به تولید SVGهای دقیق و مقیاس‌پذیر هستند.

📌 نکته مهم: کد، مدل‌ها و دیتاست این پروژه تحت لایسنس MIT منتشر خواهند شد 💙

🔗 منابع بیشتر:

👉 Paper
👉 Project
👉 Repo
👉 Dataset

@rss_ai_ir

#AI #SVG #OmniSVG #VLM #OpenSource #GenerativeAI
18🔥14🥰14🎉13👍10🤩9💯9👏8❤‍🔥8😁7🙏1
⚡️ HunyuanImage-2.1 —
نسل جدید مدل دیفیوشن برای تولید تصویر 2K

مدل تازه‌ی HunyuanImage-2.1 از Tencent منتشر شد؛ نسخه قبلی (2.0) در ژوئن عرضه شده بود.

🔹 ویژگی‌ها:

♻️دارای 17B پارامتر
♻️خروجی با وضوح 2K (2048×2048)
♻️دارای VAE با فشرده‌سازی (32×32)
♻️معماری DIT دو جریانی شبیه FLUX
♻️هText Encoder ترکیبی از MLLM و ByT5
♻️دارای Refiner Model برای بهبود جزئیات و حذف آرتیفکت‌ها


ابزار جانبی:

PromptEnhancer → بازنویسی پرامپت‌ها با استفاده از CoT برای افزایش دقت و کیفیت:
🔗 hunyuan-promptenhancer.github.io


📊 عملکرد:

✳️در بنچمارک‌ها تقریباً هم‌سطح Qwen Image
✳️نیاز به حدود 59GB VRAM برای رندر 2048×2048 (حتی با CPU offloading)


📎 منابع:

♻️کد:
GitHub

♻️جزئیات و نمونه‌ها:
Tencent Hunyuan

♻️دمو (در حال حاضر غیرفعال):
Hugging Face


📌 نکته: فعلاً آخرین نسخه HunyuanMLLM منتشر نشده؛ پیشنهاد استفاده از جایگزین متن‌باز مثل Qwen2.5-VL-7B-Instruct است.

@rss_ai_ir
#AI #TextToImage #Hunyuan #OpenSource
👍21🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 WFGY 2.0 —
موتور استدلال معنایی برای LLMها (MIT)

هدف این پروژه‌ی متن‌باز کاهش هذیان‌ها (hallucinations) و خطاهای منطقی در سیستم‌های مبتنی بر RAG / LLM است؛ مخصوصاً در شرایطی مثل:

✳️متن‌های OCR با خطای زیاد،
✳️شرایط Semantic drift (وقتی پاسخ از سؤال منحرف می‌شود)،
✳️شرایط Ghost matches (جایی که یک بخش ظاهراً مرتبط به نظر می‌آید، ولی درواقع بی‌ربط است).


🚧 در اغلب روش‌ها خطاها فقط بعد از تولید پاسخ نهایی شناسایی می‌شوند.
اما در WFGY، منطق کاملاً برعکس است:
اگر مدل ببیند که استدلال‌ها «کج» شده‌اند یا از مسیر اصلی خارج شده، فرآیند را متوقف می‌کند یا مسیر دیگری انتخاب می‌کند و تنها زمانی پاسخ می‌دهد که وضعیت پایدار باشد.

🛡 نویسندگان این روش را یک «فایروال معنایی» (semantic firewall) می‌نامند.


---

📌 امکانات کلیدی:

♻️شامل نقشه‌ای از ۱۶ خطای رایج LLM: از جست‌وجوی اشتباه داده‌ها و افت منطق گرفته تا «فراموشی» یا اختلاط نقش عامل‌ها.
♻️برای هر خطا، یک راه‌حل متنی ساده پیشنهاد شده است.
♻️بدون نیاز به SDK — کافی است دستورالعمل‌ها را مستقیم در پرامپت وارد کنید.


🟢 شاخص‌های اصلی برای ارزیابی کیفیت استدلال:

شاخصΔS (drift): آیا معنی از یک مرحله به مرحله بعد خیلی دور شده یا نه.
شاخصλ (convergence): آیا منطق به سمت پاسخ نهایی همگرا می‌شود یا در حلقه می‌چرخد.
شاخص Coverage: آیا داده‌ها و شواهد کافی در نظر گرفته شده‌اند یا خیر.


📊 نتایج تست: پایداری خروجی تا ۹۰–۹۵٪ افزایش یافته (در مقایسه با ۷۰–۸۵٪ در روش‌های سنتی).

📂 گیت‌هاب:
github.com/onestardao/WFGY
---
@rss_ai_ir

#هوش_مصنوعی #LLM #OpenSource #Reasoning #PromptEngineering #Hallucinations
2🍾2👍1👏1