VIRSUN
7.45K subscribers
792 photos
461 videos
3 files
507 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🎭 Puppeteer:
ریگ و انیمیت خودکار مدل‌های سه‌بعدی

بالاخره رسید! 🔥 پروژه‌ی Puppeteer می‌تونه یک مدل سه‌بعدی ساده (مثلاً در فرمت obj) رو بگیره و به‌صورت خودکار ریگ اولیه بسازه:
🦴 اضافه‌کردن اسکلت
🎨 ساخت نقشه‌های وزن برای اسکینینگ

⛔️البته ریگ کامل (blendshapeهای اصلاحی، constraintها، deformها، inverse kinematics و …) اینجا وجود نداره.

اما نکته جالب‌تر: 🕹️
👉 این سیستم می‌تونه یک ویدیو مرجع حرکت رو بگیره و انیمیشن همون حرکت رو روی اسکلت منتقل کنه!

🔍 ابزارهای پشت پرده:

♻️Video-Depth-Anything
برای تخمین عمق

♻️CoTracker3
برای ترکینگ نقاط

♻️MagicArticulate, MeshAnything, RigNet, Michelangelo, AnyMole, Lab4D
برای بخش ریگینگ


📌 با وجود محدودیت‌ها (مثل بحث زاویه دوربین و دقت پایین انیمیشن)، این پروژه یک گام مهم محسوب میشه: اتوماتیک‌سازی ریگ و اسکینینگ

🔗 جزئیات: صفحه پروژه
💻 کد: GitHub

@rss_ai_ir

#3D #Animation #Rigging #AI #OpenSource
23🔥23👍20👏20🎉20😁14🥰13
This media is not supported in your browser
VIEW IN TELEGRAM
✂️ ابزار متن‌باز برچسب‌گذاری تصاویر با هوش مصنوعی ✂️

👉 ابزار VisioFirm محصول TOELT یک ابزار متن‌باز و هوش‌مصنوعی‌محور برای برچسب‌گذاری سریع تصاویر در پروژه‌های بینایی ماشین است.
🔹 پشتیبانی از تشخیص اشیاء، جعبه‌های چرخیده (Oriented BBs) و سگمنتیشن.
🔹 کد منبع با مجوز Apache 2.0 منتشر شده 💙
🔗 Paper: https://arxiv.org/pdf/2509.04180
🔗 Repo:
https://github.com/OschAI/VisioFirm
@rss_ai_ir

#AI #ML #ComputerVision #Annotation #OpenSource #VisioFirm
😁30🔥2218👍18🎉16👏13🥰12
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 XLeRobot —
ربات خانگی فقط با 660 دلار، کنترل با دسته Xbox

✳️پروژه XLeRobot یک پروژه‌ی اوپن‌سورس است که به شما امکان می‌دهد یک ربات موبایل دو بازویی واقعی را با دست‌های خودتان بسازید.

👨‍💻 نویسنده‌ی پروژه، Gaotian Wang دانشجوی دانشگاه Rice، تمرکز خود را روی دسترس‌پذیری و کارایی عملی قرار داده است.

💡 نکات کلیدی:

♻️هزینه ساخت ≈ 660 دلار → یک ربات کامل با دو بازو و پایه‌ی چرخ‌دار

♻️نسخه‌ی ساده‌تر ≈ 250 دلار با LeKiwi + SO-100 که سریع‌تر مونتاژ می‌شود

♻️شامل: مدل‌های URDF، شبیه‌سازی، کنترل با VR، Joy-Con یا دسته Xbox

♻️مناسب برای آزمایش در شبیه‌سازی و انتقال به دنیای واقعی (Sim2Real)

♻️قابلیت تعامل با محیط برای تست الگوریتم‌های هوش مصنوعی و رباتیک


📈 محبوبیت: پروژه تا امروز بیش از 1.7k ستاره و ده‌ها Fork در GitHub گرفته است.

🟢 ریپازیتوری: github.com/Vector-Wangel/XLeRobot

@rss_ai_ir

#رباتیک #هوش_مصنوعی #opensource #XLeRobot #AI #robotics
👍2523🎉22🔥19👏19🥰16😁12
🚀 مدل Grok 2.5 حالا روی سیستم‌ شخصی هم قابل اجراست!

🔹 تیم Unsloth نسخه‌ای بهینه‌شده از مدل را منتشر کرده که اجرای محلی را ممکن می‌کند:

270 میلیارد پارامتر روی یک مک معمولی با 128GB RAM (حدود ۵ توکن در ثانیه)
حجم مدل از 539GB به 118GB کاهش یافته (۸۰٪ کمتر)
لایه‌های کلیدی در فرمت 8-bit و سایر بخش‌ها با فشرده‌سازی 3-bit GGUF ذخیره شده‌اند.

📘 راهنما: docs.unsloth.ai/basics/grok-2
📥 مدل GGUF: huggingface.co/unsloth/grok-2-GGUF

@rss_ai_ir

#هوش_مصنوعی #xAI #Grok2 #مدل_زبانی #OpenSource #MachineLearning #DeepLearning
👍23🥰20🎉2016💯14😁12🔥11🤩8👏7😍7❤‍🔥7
This media is not supported in your browser
VIEW IN TELEGRAM
💛 نسل جدید تولیدکننده‌های SVG مقیاس‌پذیر 💛

🔹 پروژه OmniSVG معرفی شد؛ اولین خانواده‌ی مولدهای چندوجهی (multimodal) انتهابه‌انتها (e2e) که با استفاده از مدل‌های زبانی-بینایی (VLMs) قادر به تولید SVGهای دقیق و مقیاس‌پذیر هستند.

📌 نکته مهم: کد، مدل‌ها و دیتاست این پروژه تحت لایسنس MIT منتشر خواهند شد 💙

🔗 منابع بیشتر:

👉 Paper
👉 Project
👉 Repo
👉 Dataset

@rss_ai_ir

#AI #SVG #OmniSVG #VLM #OpenSource #GenerativeAI
18🔥14🥰14🎉13👍10🤩9💯9👏8❤‍🔥8😁7🙏1
⚡️ HunyuanImage-2.1 —
نسل جدید مدل دیفیوشن برای تولید تصویر 2K

مدل تازه‌ی HunyuanImage-2.1 از Tencent منتشر شد؛ نسخه قبلی (2.0) در ژوئن عرضه شده بود.

🔹 ویژگی‌ها:

♻️دارای 17B پارامتر
♻️خروجی با وضوح 2K (2048×2048)
♻️دارای VAE با فشرده‌سازی (32×32)
♻️معماری DIT دو جریانی شبیه FLUX
♻️هText Encoder ترکیبی از MLLM و ByT5
♻️دارای Refiner Model برای بهبود جزئیات و حذف آرتیفکت‌ها


ابزار جانبی:

PromptEnhancer → بازنویسی پرامپت‌ها با استفاده از CoT برای افزایش دقت و کیفیت:
🔗 hunyuan-promptenhancer.github.io


📊 عملکرد:

✳️در بنچمارک‌ها تقریباً هم‌سطح Qwen Image
✳️نیاز به حدود 59GB VRAM برای رندر 2048×2048 (حتی با CPU offloading)


📎 منابع:

♻️کد:
GitHub

♻️جزئیات و نمونه‌ها:
Tencent Hunyuan

♻️دمو (در حال حاضر غیرفعال):
Hugging Face


📌 نکته: فعلاً آخرین نسخه HunyuanMLLM منتشر نشده؛ پیشنهاد استفاده از جایگزین متن‌باز مثل Qwen2.5-VL-7B-Instruct است.

@rss_ai_ir
#AI #TextToImage #Hunyuan #OpenSource
👍21🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 WFGY 2.0 —
موتور استدلال معنایی برای LLMها (MIT)

هدف این پروژه‌ی متن‌باز کاهش هذیان‌ها (hallucinations) و خطاهای منطقی در سیستم‌های مبتنی بر RAG / LLM است؛ مخصوصاً در شرایطی مثل:

✳️متن‌های OCR با خطای زیاد،
✳️شرایط Semantic drift (وقتی پاسخ از سؤال منحرف می‌شود)،
✳️شرایط Ghost matches (جایی که یک بخش ظاهراً مرتبط به نظر می‌آید، ولی درواقع بی‌ربط است).


🚧 در اغلب روش‌ها خطاها فقط بعد از تولید پاسخ نهایی شناسایی می‌شوند.
اما در WFGY، منطق کاملاً برعکس است:
اگر مدل ببیند که استدلال‌ها «کج» شده‌اند یا از مسیر اصلی خارج شده، فرآیند را متوقف می‌کند یا مسیر دیگری انتخاب می‌کند و تنها زمانی پاسخ می‌دهد که وضعیت پایدار باشد.

🛡 نویسندگان این روش را یک «فایروال معنایی» (semantic firewall) می‌نامند.


---

📌 امکانات کلیدی:

♻️شامل نقشه‌ای از ۱۶ خطای رایج LLM: از جست‌وجوی اشتباه داده‌ها و افت منطق گرفته تا «فراموشی» یا اختلاط نقش عامل‌ها.
♻️برای هر خطا، یک راه‌حل متنی ساده پیشنهاد شده است.
♻️بدون نیاز به SDK — کافی است دستورالعمل‌ها را مستقیم در پرامپت وارد کنید.


🟢 شاخص‌های اصلی برای ارزیابی کیفیت استدلال:

شاخصΔS (drift): آیا معنی از یک مرحله به مرحله بعد خیلی دور شده یا نه.
شاخصλ (convergence): آیا منطق به سمت پاسخ نهایی همگرا می‌شود یا در حلقه می‌چرخد.
شاخص Coverage: آیا داده‌ها و شواهد کافی در نظر گرفته شده‌اند یا خیر.


📊 نتایج تست: پایداری خروجی تا ۹۰–۹۵٪ افزایش یافته (در مقایسه با ۷۰–۸۵٪ در روش‌های سنتی).

📂 گیت‌هاب:
github.com/onestardao/WFGY
---
@rss_ai_ir

#هوش_مصنوعی #LLM #OpenSource #Reasoning #PromptEngineering #Hallucinations
2🍾2👍1👏1
🐸 وقتی API گرون باشه، خلاقیت میاد وسط!

خیلی از ماها برای تست کردن ریسرچ ایجنت‌ها از Tavily API استفاده می‌کنیم، اما مشکلش اینه که حسابی خرج روی دست آدم می‌ذاره.
یکی از دولوپرها برای همین یه هک جالب زده:

🔧 SearXNG (موتور جستجوی متن‌باز)
+ آداپتور اختصاصی
👉 نتیجه؟ یه جایگزین drop-in برای Tavily، فقط کافیه base_url رو عوض کنید!

📌 مزایا:

💸 رایگان به جای $$$

🔒 حریم خصوصی کامل

♾️ بدون محدودیت درخواست

🌍 وب‌اسکرپینگ آماده برای ریسرچ ایجنت‌ها (raw_content با bs4)

🔎 بیش از ۷۰ موتور جستجو زیر کاپوت (بینگ هم بلافاصله بلاک شد 😂)

حتی جواب سوالاتی مثل «پیش‌بینی قیمت بیت‌کوین ۲۰۲۶» رو پیدا می‌کنه!


🚀 استارت سریع:
git clone https://github.com/vakovalskii/searxng-docker-tavily-adapter
docker compose up -d
# حالا API روی localhost:8000 فعاله

🟢 نتیجه: به جای خرج‌های صد دلاری برای تست، می‌تونید با ۵ دلار هزینه سرور در ماه، ایجنت‌ها رو شبانه‌روزی تست کنید!

🔗 گیت‌هاب:
vakovalskii/searxng-docker-tavily-adapter

#OpenSource #AI #ResearchAgents #SearXNG #Tavily

@rss_ai_ir
🔥1310🥰9👍8🎉6👏4😁3🤯2🆒1
🚀 Ring-mini-2.0
؛ مدل کوچک اما فوق‌العاده قدرتمند!

💡 این مدل با 16B-A1B پارامتر و بهره‌گیری از استراتژی‌های Stable RLVR + RLHF آموزش دیده و کیفیتی پایدار و متعادل در طیف وسیعی از وظایف ارائه می‌دهد.
🧠 در منطق و استدلال، از مدل‌های Dense با همین اندازه عملکرد بهتری دارد.
سرعت پردازش: بیش از ۳۰۰ توکن در ثانیه (۷ برابر سریع‌تر از مدل‌های Dense مشابه).

🔥 نمونه‌ای دیگر از اینکه چگونه مدل‌های کوچک‌تر «Thinking Models» روزبه‌روز باهوش‌تر و سریع‌تر می‌شوند!

🔗 مشاهده در HuggingFace
@rss_ai_ir

#AI #LLM #RingMini #DeepLearning #OpenSource #MachineLearning #ThinkingModels
👍1🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥
مجموعه‌داده ۲۱,۰۰۰+ ساعت
SpatialVID 🔥

📌دیتابیس SpatialVID یک دیتاست ویدیویی بزرگ‌مقیاس با حاشیه‌نویسی‌های مکانی صریح است که شامل:
🔹 موقعیت‌های دوربین (Camera Poses)
🔹 نقشه‌های عمق (Depth Maps)
🔹 کپشن‌های ساختاریافته
🔹 دستورالعمل‌های حرکتی سریالی

🎥 این مجموعه شامل ۷,۰۸۹ ساعت صحنه‌های پویا در دنیای واقعی است و برای وظایف درک صحنه، بازسازی سه‌بعدی، ویدیو-به-متن و مدل‌سازی حرکت بسیار ارزشمند محسوب می‌شود.

📂 مجوز: Apache-2.0 (کاملاً متن‌باز)


🔗 مقاله: arxiv.org/pdf/2509.09676
🔗 پروژه: nju-3dv.github.io/projects/SpatialVID
🔗 کد: github.com/NJU-3DV/spatialVID

@rss_ai_ir

#Dataset #ComputerVision #VideoAI #SpatialVID #3D #AI #OpenSource
9🎉7🔥4😁3
⚡️ Qwen-ASR Toolkit —
ابزار قدرتمند Python برای تبدیل سریع گفتار به متن

این ابزار محدودیت ۳ دقیقه‌ای API مدل Qwen-ASR (نام قبلی: Qwen3-ASR-Flash) رو حذف می‌کنه و امکان تبدیل ساعت‌ها محتوای صوتی و تصویری رو فراهم می‌کنه.
راز کارش: تقسیم هوشمند فایل و پردازش موازی.


---

🔹 امکانات اصلی:

♻️رفع محدودیت ۳ دقیقه → پشتیبانی از فایل با هر طولی
♻️تقسیم‌بندی هوشمند با VAD (تشخیص گفتار از سکوت و نویز)
♻️سرعت بالا با پردازش چندنخی و موازی
♻️تبدیل خودکار فرمت به 16kHz mono
♻️پشتیبانی از همه فرمت‌ها: MP4, MOV, MKV, MP3, WAV, M4A و …
♻️اجرای ساده تنها با یک دستور CLI



---

🟢 نصب:
pip install qwen3-asr-toolkit

🔗 GitHub: Qwen3-ASR-Toolkit


---

#هوش_مصنوعی 🤖
#ASR 🎙️
#Speech2Text 📝
#Qwen
#OpenSource 💻

@rss_ai_ir
👍13😁12🥰118🔥7👏6🎉5
⚡️ Ling-flash-2.0 منتشر شد! ⚡️

⛔️مدلی با ۱۰۰ میلیارد پارامتر اما فقط با حدود ۶.۱ میلیارد پارامتر فعال، که آن را فوق‌العاده کم‌هزینه و سریع در پردازش می‌کند.


🚀 ویژگی‌های کلیدی Ling-flash-2.0

♻️آموزش‌دیده روی ۲۰ تریلیون توکن همراه با مراحل pre-training و RL.
♻️بهترین عملکرد در بین مدل‌های متراکم تا ۴۰B پارامتر.
♻️بسیار قوی در استدلال پیچیده، تولید کد و تسک‌های فرانت‌اند.

⚙️ جزئیات معماری و کارایی

معماری MoE با نسبت فعال‌سازی ۱/۳۲.
تکنیک‌های پیشرفته مثل توزیع هوشمند متخصصان، تعادل توجه، و مسیریابی بدون زیان کمکی.
روی سخت‌افزار H20 سرعت تولید ۲۰۰+ توکن در ثانیه (۳ برابر سریع‌تر از مدل متراکم 36B).
پشتیبانی از کانتکست‌های ۱۲۸K با استفاده از YaRN.
📎 جزئیات بیشتر:
🔗 Hugging Face

@rss_ai_ir

#MoE #مدل_زبان #یادگیری_ماشین #هوش_مصنوعی #OpenSource
🎉28😁2019👍16🥰15👏14🔥11
🚀 DeepFaceLab —
ابزار اصلی متن‌باز برای ساخت دیپ‌فیک ویدیو

📌 واقعیات مهم:

✳️بیش از ۹۵٪ تمام دیپ‌فیک‌ها با DeepFaceLab ساخته شده‌اند
✳️پشتیبانی از Windows، Linux و Google Colab
✳️بر پایه TensorFlow با معماری ماژولار و انعطاف‌پذیر
✳️خروجی بسیار واقعی در حد جلوه‌های ویژه سینمایی 🎬
✳️ریپازیتوری: 18.5k و 🔀 669 فورک
✳️از نوامبر ۲۰۲۴ پروژه آرشیو شده اما همچنان قابل استفاده و مطالعه است


👤 نویسنده: iperov — یکی از اولین توسعه‌دهندگانی که face-swap را برای همه در دسترس کرد.

🔗 لینک گیت‌هاب:
github.com/iperov/DeepFaceLab

💡 برای یادگیری، آزمایش و تحقیق استفاده کنید — این پروژه پایه بسیاری از فناوری‌های مدرن دیپ‌فیک است.

#DeepFake #هوش_مصنوعی #ComputerVision #دیپ_لرنینگ #opensource
👍86😁5🔥4🎉4🥰3👏3
🐳 نسخه‌ی جدید DeepSeek-V3.1-Terminus منتشر شد!

این نسخه نسبت به ورژن قبلی، نتایج پایدارتر و کامل‌تری در تست‌ها ارائه می‌دهد.

📲 در دسترس از طریق:

♻️اپلیکیشن
♻️نسخه‌ی وب
✳️و همینطور از طریق API


🔗 وزن‌های باز: HuggingFace

#DeepSeek #opensource #LLM #هوش_مصنوعی #مدل_زبان
🥰75👍5🔥4🎉4👏3😁3
🚀 مدل جدید چینی LongCat-Flash-Thinking

🧠 مدلی مخصوص استدلال که بین تمام مدل‌های اوپن‌سورس به رکورد SOTA رسیده است.

⚡️ ویژگی‌ها:

معماری MoE با ۵۶۰B پارامتر (۲۷B فعال در هر بار اجرا)
صرفه‌جویی بزرگ: ‌برای رسیدن به نتایج برتر در AIME25 به ۶۴.۵٪ توکن کمتر نیاز دارد
پشتیبانی از 128k context
آموزش با تقویت (RL) روی مسائل استدلالی و کد + چندمرحله‌ای با سینتِز چندعاملی
همچنین RL آسنکرون → ‌۳ برابر سریع‌تر از فریم‌ورک‌های سنتی


⚙️ بهینه‌سازی برای پروداکشن:

♻️هسته‌های اختصاصی برای MoE و آموزش توزیع‌شده
♻️کاهش KV-cache، کوانتیزیشن، chunked prefill
♻️مسیریابی استاتیک/الاستیک، انتقال کش همتا‌به‌همتا، replication هوشمند
♻️سازگار با SGLang و vLLM برای استقرار سریع


📊 نتایج:

✳️صدرنشین در tool use (τ²-Bench, VitaBench)
✳️عملکرد عالی در instruction following (IFEval, COLLIE, Meeseeks-zh)
✳️چین همچنان پرچم‌دار مدل‌های reasoning است. 🇨🇳🤖

🔗 HF: huggingface.co/meituan-longcat/LongCat-Flash-Thinking

#هوش_مصنوعی #مدل_زبانی #MoE #یادگیری_عمیق #OpenSource

@rss_ai_ir
🔥6🥰6👏6👍5😁43🎉3
This media is not supported in your browser
VIEW IN TELEGRAM
🥇 SaSaSa2VA
قهرمان چالش LSVOS 🥇

⛔️این مدل با معرفی رویکرد Segmentation Augmentation باعث بهبود درک ویدئو در سطح جهانی شده و در عین حال کارآمد باقی می‌ماند.
همچنین در مرحله‌ی inference از Selective Averaging برای ترکیب پایدار پیش‌بینی‌های مکمل استفاده می‌کند.

📊 نتیجه؟ دستیابی به SOTA در هفتمین چالش LSVOS (بخش RVOS) 🎉
کدی کاملاً عملیاتی و متن‌باز تحت لایسنس Apache در دسترس است.

📄 مقاله:
https://arxiv.org/pdf/2509.16972
💻 ریپو:
https://github.com/magic-research/Sa2VA

@rss_ai_ir

#AI #VideoUnderstanding #LSVOS #Segmentation #DeepLearning #opensource
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 تنسنت بخشی از Hunyuan Studio را که مسئول سگمنتیشن اشیای سه‌بعدی است به صورت اوپن‌سورس منتشر کرد!

🔹 دو متد کلیدی:

P3-SAM —
مدل سگمنتیشن قطعات در فرمت سه‌بعدی.

X-Part —
مدل تولید قطعات با نتایج عالی در کنترل‌پذیری و کیفیت شکل.


📂 کد: GitHub
📦 وزن‌ها: Hugging Face

🌐 جزئیات بیشتر:

P3-SAM
X-Part


👉 یک گام دیگر برای دسترس‌پذیرتر شدن پایپ‌لاین‌های پیچیده کار با 3D برای جامعه پژوهشگران و توسعه‌دهندگان.

#AI #3D #Segmentation #OpenSource #Hunyuan #Tencent #DeepLearning

@rss_ai_ir
1
animation.gif
21.7 MB
🔥 تشخیص SOTA با DINOv3 🔥

👉فریم ورک DEIMv2 نسخه تکامل‌یافته‌ی فریم‌ورک DEIM است که بر پایه DINOv3 ساخته شده. این چارچوب با ارائه مدل‌هایی از نسخه فوق‌سبک تا S، M، L و X طیف وسیعی از سناریوها را پوشش می‌دهد. نتیجه؟ دستیابی به بهترین عملکرد (SOTA) در حوزه تشخیص. 🚀

📌 منابع:
🔹 مقاله
🔹 کد در GitHub
🔹 پروژه
@rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #DINOv3 #تشخیص #SOTA #OpenSource
This media is not supported in your browser
VIEW IN TELEGRAM
📹🤖 LONGLIVE از NVIDIA —
ویدئو‌سازی تعاملیِ بلادرنگ

مدل LONGLIVE یک چارچوب autoregressive در سطح فریم برای تولید ویدئوی طولانی به‌صورت Real-time است. حین تولید می‌توانید پشت‌سرهم پرامپت بدهید و مدل همان‌جا مسیر ویدئو را تغییر دهد.

چرا مهم است؟

⏱️ پاسخ‌دهی بلادرنگ؛ مناسب استریم و تجربه‌های تعاملی

🧠 تولید فریم‌به‌فریم = کنترل دقیق صحنه و تداوم داستان

🧩 پشتیبانی از پرامپت‌های پی‌در‌پی (sequential prompts)

🛠️ کد و مدل منتشر شده (لایسنس غیرتجاری)


لینک‌ها:

Paper: arxiv.org/pdf/2509.22622
Project: nvlabs.github.io/LongLive/
Code: github.com/NVlabs/LongLive
HF: huggingface.co/Efficient-Large-Model/LongLive-1.3B

#NVIDIA #LongLive #RealtimeVideo #InteractiveAI #GenerativeVideo #Autoregressive #AIResearch #OpenSource
👍4🔥1🙏1
خبری تازه از Hunyuan — معرفی HunyuanImage 3.0 (خبر خوب و خبر بد) 👇

خوب:

سورس‌کد اوپن‌سورس منتشر شده. 🔗
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

دموی تحت وب برای تست:
https://hunyuan.tencent.com/image/en?tabIndex=0

نسخه‌های تعاملی/آزمایشی در پلتفرم‌هایی مثل Fal.ai/Replicate هم قرار گرفته‌اند.


چی‌کار می‌کنه؟

بزرگ‌ترین مدل متن→تصویر اوپن‌سورس تا امروز: ~80B پارامتر (که حدود 13B فعال روی هر توکن استفاده می‌شه).

معماری MoE + Transfusion — ترکیب Diffusion و LLM در یک فریم‌ورک.

آموزش روی مجموعه‌داده عظیم: ~5 میلیارد زوج تصویر‌-متن و تِرلیون‌ها توکن.

پشتیبانی از پرت‌پرامپت‌های طولانی (هزاران کلمه)، فهم دقیق متن و توانایی خوب در کار با متن داخل تصویر.

نتیجه: reasoning سطح بالا، مولتی‌مودالیتی قوی و کارآمدی در پیروی از دستورالعمل‌های پیچیده.


من خودم یک تست زدم:
بهش گفتم:
solve this: 8x + 10 = 18 and make picture with solution

خروجی — هم حل ریاضی و هم تصویر راه‌حل — در پست قابل دیدنه؛ جذاب بود.

⛔️بد:

هنوز image2image نداره.

پشتیبانی از VLLM / runtime سبک ندارن (فعلاً).

وزن‌ها خیلی بزرگن — حدود 170 گیگابایت.

برای اجرا به سخت‌افزار سنگینی نیاز دارید: ۴ کارت وِی‌آر‌ای‌ام ۸۰GB (۴ × 80GB VRAM) — یعنی فعلاً برای اکثرِ آدم‌ها و پژوهشگرای معمولی قابل‌دسترس نیست.

به‌قولی «اوپن‌سورسِ اشرافی» — کد رو گذاشتن، ولی عملاً فقط کسایی با سرورهای بزرگ می‌تونن راحت اجرا کنن.

گزارش‌هایی از اشکالاتی در آناتومی و تکسچر پوست هست — نتایج هنوز جای کاستن دارند.


جمع‌بندی:

♻️قابل ذکره که HunyuanImage 3.0 از نظر مقیاس و معماری یه جهش بزرگه و خیلی پرامکاناته، ولی در عمل فعلاً فقط برای تیم‌ها یا سازمان‌هایی با دیتاسنترِ بزرگ کاربردیه. منتظر بهینه‌سازی‌ها، نسخه‌های distilled و runtimeهای سبک‌تر می‌مونیم تا این پکیج واقعاً در دسترس عموم قرار بگیره.

⛔️لینک‌ها دوباره:

گیت‌هاب:
https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

دمو:
https://hunyuan.tencent.com/image/en?tabIndex=0

playground در Fal.ai:
https://fal.ai/models/fal-ai/hunyuan-image/v3/text-to-image/playground

@rss_ai_ir

#HunyuanImage #GenerativeAI #OpenSource #3DGenAI #AI_news
1👍1🔥1👏1