VIRSUN

🚀 مدل Seed Diffusion؛ معماری متفاوتی از ByteDance در تولید زبان
@rss_ai_ir

شرکت ByteDance، توسعه‌دهنده‌ی TikTok، از یک مدل زبانی جدید به نام Seed Diffusion رونمایی کرده که برخلاف مدل‌های متداول، متن را به‌صورت کامل و هم‌زمان تولید می‌کند — همانند روش‌هایی که در مدل‌های تولید تصویر مانند Midjourney دیده می‌شود.

ویژگی‌های مهم این مدل عبارتند از:
🔸 تولید متن به‌صورت کل‌نگر و نه توکن‌به‌توکن
🔸 دستیابی به سرعتی فراتر از ۲هزار توکن در ثانیه (۵.۴ برابر سریع‌تر از مدل‌های استاندارد)
🔸 عملکرد بهتر در مقایسه با مدل‌های گوگل و Inception Labs در بسیاری از آزمون‌های مرجع
🔸 امکان تست رایگان از طریق پلتفرم Seed Studio

این معماری نوین نشان می‌دهد که ByteDance با قدرت وارد رقابت در حوزه مدل‌های زبانی شده و چشم‌اندازی متفاوت برای آینده‌ی تولید متن ارائه کرده است.

📊 منبع: Crypto Insider

#مدل_زبانی #هوش_مصنوعی #SeedDiffusion #ByteDance #AI
@rss_ai_ir

😁12❤11👏11👍10🔥9🎉7🥰5

816 views11:32

VIRSUN

1:03

This media is not supported in your browser

VIEW IN TELEGRAM

1:02

This media is not supported in your browser

VIEW IN TELEGRAM

🎥 مدل Waver 1.0 از ByteDance – مدل یکپارچه برای تولید تصویر و ویدیو

شرکت ByteDance با معرفی Waver 1.0 یک گام جدی در حوزه تولید محتوای مولد برداشت. این مدل در رتبه‌بندی جهانی T2V leaderboard و I2V leaderboard به مقام سوم رسیده است.

🔹 ویژگی‌ها:
♻️تولید ویدیو از متن (Text-to-Video) و تصویر از متن (Text-to-Image)
ویدیوهای ۵ و ۱۰ ثانیه‌ای با کیفیت 720p و 1080p
♻️حرکات واقع‌گرایانه در صحنه‌های پیچیده شامل انسان و حیوانات
♻️پشتیبانی از روایت‌های چند‌فریمی با حفظ انسجام داستان، سبک بصری و اتمسفر
♻️تنوع سبک‌های هنری: هایپررئالیسم، انیمیشن، عروسک‌های نرم و …
♻️توانایی نمایش حرکات بزرگ و پیچیده، مثل صحنه‌های ورزشی
♻️امکان چند-دوربینی با حفظ هماهنگی در موضوع اصلی و فضای کلی ویدیو

📌 در حال حاضر کد در گیت‌هاب موجود نیست، اما تجربه آن را از طریق دیسکورد پیشنهاد می‌دهند.
#هوش_مصنوعی #تولید_ویدیو #text2video #text2image #ByteDance #Waver
🆔 @rss_ai_ir

🎉11❤6🔥4😁4👍1

842 views12:52

VIRSUN

1:01

This media is not supported in your browser

VIEW IN TELEGRAM

1:28

This media is not supported in your browser

VIEW IN TELEGRAM

0:47

This media is not supported in your browser

VIEW IN TELEGRAM

🎬 نسل جدید ویدئوهای طولانی با روش Mixture of Contexts

محققان ByteDance و استنفورد روشی نوین برای تولید ویدئوهای طولانی معرفی کرده‌اند که مشکل اصلی مدل‌ها را حل می‌کند:
وقتی ویدئو طولانی می‌شود، توجه مدل بیش از حد «پف می‌کند»؛ محاسبات سنگین‌تر می‌شود، جزئیات از بین می‌رود، کاراکترها فراموش می‌شوند و تصویر «سر می‌خورد».

---

🔑 ایده اصلی: Mixture of Contexts

♻️ویدئو به چند بخش (فریم، شات، کپشن) تقسیم می‌شود.
♻️هر کوئری فقط بخش‌های مرتبط را انتخاب می‌کند، نه کل تاریخچه را.
♻️انتخاب با یک امتیاز شباهت ساده انجام می‌شود (مقایسه ویژگی بخش‌ها با کوئری).
♻️دو «لنگر» همیشه حاضرند: پرامپت کامل و شات محلی برای جزئیات تصویری.
♻️یک ماسک علّی دسترسی به فریم‌های آینده را می‌بندد تا حلقه ایجاد نشود.
♻️در نهایت، Flash Attention فقط روی بخش‌های انتخاب‌شده اعمال می‌شود → رشد محاسبات وابسته به طول کل ویدئو نیست، بلکه فقط به محتوای مفید بستگی دارد.

---

📊 نتایج

♻️۷ برابر کاهش FLOPs
♻️۲.۲ برابر سرعت بیشتر
♻️در صحنه‌های طولانی (۱۸۰هزار توکن)، ۸۵٪ از توجه غیرضروری حذف شد.

---

🎥 جمع‌بندی

✳️در ویدئوهای کوتاه، کیفیت حفظ می‌شود.
✳️در ویدئوهای طولانی، صحنه‌ها روان‌تر و کاراکترها پایدارتر هستند.
✳️زمان تولید به‌طور محسوسی کاهش می‌یابد.

🔑 نکته مهم:
مدل خودش یاد می‌گیرد روی چه چیزی تمرکز کند، بدون نیاز به تغییر معماری پایه؛ یعنی نوعی «حافظه» برای چند دقیقه ویدئو پیدا می‌کند.

🔖 لینک مقاله

#AI #ML #VideoGeneration #ByteDance #Stanford #DeepLearning #GenerativeAI #هوش_مصنوعی #یادگیری_عمیق #ویدئو #تولید_ویدئو

🎉26👍25❤23🥰23😁22🔥18👏16

3.82K views13:12

VIRSUN

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

🐙 ویدیوهای انسان‌محور با دقت بالا 🐙

محققان دانشگاه Tsinghua و شرکت ByteDance فریم‌ورک جدیدی به نام HuMo معرفی کردند؛ سیستمی یکپارچه برای تولید ویدیوهای انسان با کیفیت بالا که ویژگی‌های زیر رو داره:

🔹 تولید ویدیو از روی پرامپت متنی
🔹 حفظ یکپارچگی سوژه در فریم‌های مختلف
🔹 حرکت‌های هماهنگ‌شده با صدا (Audio-Driven Motion)
🔹 کنترل‌پذیری و جزئیات ظریف در خروجی

📌 فریم ورک HuMo می‌تونه از ورودی‌های چندحالته (متن، تصویر، صدا) ویدیوهای طبیعی و روان تولید کنه.
📌 سورس‌کد با لایسنس Apache 2.0 منتشر شده و به راحتی قابل استفاده و توسعه است.

🔗 لینک‌ها:

👉 Paper
👉 Project
👉 Repo

#HuMo #VideoGeneration #AI #DeepLearning #Tsinghua #ByteDance

❤12🔥11🥰10👏8👍5🎉5😁4

1.28K views08:01

VIRSUN

🚀 در ByteDance Seed تکنیک جدیدی برای آموزش LLM معرفی شد: Knapsack RL

🔍 مشکل در RL کلاسیک:

در کارهای ساده همیشه موفقیت → بدون گرادیان
در کارهای سخت همیشه شکست → باز هم بدون گرادیان

💡 راهکار:
به جای توزیع یکنواخت rolloutها، بودجه محاسباتی مثل یک مسئله کوله‌پشتی (Knapsack) روی مواردی صرف می‌شود که واقعاً سیگنال آموزشی می‌دهند.

✨ نتایج:

🔼 ‌+20–40% گرادیان‌های غیرصفر بیشتر
🧮 تا 93 rollout برای مسائل سخت (بدون هزینه اضافه)
📈 ‌+2–4 امتیاز میانگین، تا +9 در ریاضیات
💰 ‌حدوداً دو برابر ارزان‌تر از روش توزیع یکنواخت

📄 جزییات بیشتر:
huggingface.co/papers/2509.25849

@rss_ai_ir 🤖

#هوش_مصنوعی #یادگیری_تقویتی #LLM #KnapsackRL #ByteDance #ماشین_لرنینگ #یادگیری_عمیق #AI #RLHF #MachineLearning

1.1K views12:12

VIRSUN

6:00

This media is not supported in your browser

VIEW IN TELEGRAM

😄 ظاهراً بایدنس هم تصمیم گرفته وارد رقابت مستقیم با OpenAI و Alibaba بشه!

🧠 DreamOmni2 —
مدل جدید چندوجهی (Multimodal) از ByteDance که هم تولید (Generation) و هم ویرایش (Editing) تصویر رو با دستور متنی انجام می‌ده.

در واقع یه چیزی بین Qwen-Edit و Nanabana با چاشنی شتاب چینی ⚡

📦 امکاناتش:

♻️تولید و ویرایش تصویر با دستور متنی یا تصویری 🎨

♻️پشتیبانی از ویرایش ناحیه‌ای و تنظیمات سبک

♻️عملکرد چشم‌گیر در مقایسه با Banana, Qwen, GPT-Image 1 و OmniGen

♻️کاملاً اوپن‌سورس با کد، مقاله و دموی آماده برای تست

📎 لینک‌ها:

🔹 GitHub:
github.com/dvlab-research/DreamOmni2
🔹 صفحه پروژه و مقایسه تصاویر:
pbihao.github.io/projects/DreamOmni2

به قول نویسنده پست: «برو تستش کن، من تا دوشنبه توی دیتاکسم» 😅

@rss_ai_ir
#هوش_مصنوعی #DreamOmni2 #ByteDance #AIimage #Multimodal #ویرایش_تصویر #تولید_تصویر #GenerativeAI #AItools #Qwen #Nanabana

❤1

1.47K views03:30

VIRSUN

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

🎥 مدل جدید ByteDance: Video-As-Prompt Wan2.1-14B 🎬

شرکت ByteDance از مدل جدید خود به نام Wan2.1-14B رونمایی کرده که برای وظیفه‌ی نوآورانه‌ی Video-as-Prompt طراحی شده است — یعنی می‌توانید با دادن یک ویدیو (یا ترکیبی از تصویر و متن)، ویدیوی جدید و خلاقانه‌ای بسازید.

✨ ویژگی‌ها:

پشتیبانی از حالت‌های:
🎞️ Video → Video
🖼️ Text/Image → Video

♻️دارای ۱۴ میلیارد پارامتر برای جزئیات بالا، حرکات روان و واقع‌گرایی چشمگیر.

♻️از ویدیوی ورودی برای حفظ سبک، ترکیب‌بندی و ریتم حرکتی استفاده می‌کند.

⚠️ نکات مهم:

✳️برای اجرای آن به GPU قدرتمند و حافظه بالا نیاز است.
✳️کیفیت خروجی به میزان پیچیدگی درخواست و طول ویدیو بستگی دارد.

🟠 GitHub
🟠 Hugging Face

@rss_ai_ir

#AI #VideoGeneration #ByteDance #Wan2 #GenerativeAI #HuggingFace #Innovation

❤1

258 views04:40

VIRSUN

0:47

This media is not supported in your browser

VIEW IN TELEGRAM

🌱 Seed3D 1.0 —
ورود ByteDance به دنیای 3D

شرکت ByteDance (مالک TikTok) خانواده‌ی کاملی از مولدهای هوش مصنوعی با نام Seed دارد:
🎨 Seedream 4.0 – تولیدکننده‌ی تصاویر
🧩 Seededit 3.0 – ویرایشگر تصاویر
🎥 Seedance 1.0 – ویدیوژنراتور قدرتمند
🎵 و البته Seedmusic – پروژه‌ای که حالا متوقف شده است

حالا نوبت به Seed3D 1.0 رسیده — مدل تازه‌ای برای تولید مدل‌ها و صحنه‌های سه‌بعدی.

🧠 طبق گزارش فنی، Seed3D قادر است:

♻️تولید UV unwraps، تکسچرها و متریال‌ها

♻️انجام retopology (بهینه‌سازی مش)

♻️خروجی در قالب فایل‌های استاندارد مثل OBJ و GLB

♻️ادغام با شبیه‌ساز Isaac Sim برای تولید لایه‌ی برخورد (Collision Layer)

با اینکه هنوز دمویی در دسترس نیست، تیم ادعا می‌کند که مدل از رقبایی مثل Tripo و Trellis عملکرد بهتری دارد.
با این حال، کاربران چینی اشاره کرده‌اند که توپولوژی مدل‌ها چندان تمیز نیست و هنوز فاصله با مدل‌های حرفه‌ای وجود دارد.

📌 نکته‌ی جالب:
مدل Seed3D می‌تواند از روی یک تصویر، کل صحنه‌ی سه‌بعدی را بازسازی کند —
مدل ابتدا با کمک بینایی ماشینی اشیاء را شناسایی و جدا می‌کند، سپس بر اساس موقعیت و اندازه، آن‌ها را در صحنه می‌چیند.

🎯 هنوز در مرحله‌ی وعده‌هاست، اما با توجه به کیفیت بالای Seedance، می‌توان انتظار پروژه‌ای جدی داشت.

🌐 سایت رسمی:
seed.bytedance.com/en/seed3d

@rss_ai_ir
#Seed3D #ByteDance #AI #3DGeneration #IsaacSim #هوش_مصنوعی #مدلسازی_سه‌بعدی #تکنولوژی

🔥2👏1

1.45K views18:52

VIRSUN

0:53

This media is not supported in your browser

VIEW IN TELEGRAM

🇨🇳 چین و نسل جدید «مراقب درس‌خواندن» با هوش مصنوعی

در چین، والدین یک استفاده عجیب‌وغریب اما رو‌به‌گسترش از هوش مصنوعی پیدا کرده‌اند: ناظر لحظه‌ای درس‌خواندن بچه‌ها.

آن‌ها اپ Doubao (محصول ByteDance) را باز می‌کنند، دوربین را به سمت کودک می‌گیرند و فقط یک دستور می‌دهند:

«دوباو، مراقبش باش. اگر حواسش پرت شد یا قوز کرد، تذکر بده.»

از همان لحظه، دستیار هوشمند کنترل را به‌دست می‌گیرد و پشت‌سرهم اخطار می‌دهد:

🔸 «با خودکارت ور نرو.»
🔸 «روی تکلیف تمرکز کن.»
🔸 «صاف بنشین.»
🔸 «چرت نزن.»
🔸 «روی دستت تکیه نده.»
🔸 «خودکار را نجو.»

یک ناظر دیجیتالی کلاس درس؛ چیزی که تا چند سال پیش فقط در فیلم‌های علمی‌تخیلی می‌دیدیم.

📌 هشتگ‌ها

#AI #China #Doubao #ByteDance #EducationTech #StudyMonitor #EdTech #AIinEducation

😁4🤣2❤1🤡1

324 views16:58

About

Blog

Apps

Platform