🚀 مدل Uni-MoE-2.0-Omni؛ جهش تازه در دنیای مدلهای اومنیمودال
مدلی که مرزهای چندمودالیتی را جابهجا کرده و وارد سطح اومنیمودالیتی شده است؛ یعنی فهم و تولید همزمان گفتار، متن، تصویر، ویدئو و حتی تعاملات صوتی–تصویری.
✨ نوآوری اصلی
پژوهشگران نشان دادهاند چگونه میتوان یک LLM معمولی را بهصورت تکاملی به یک مدل MoE واقعی تبدیل کرد که همهٔ مدالیتهها را یکپارچه پردازش میکند.
🧠 معماری مدل
۱) Omnimodality 3D-RoPE + Dynamic-Capacity MoE
• همترازسازی گفتار، متن، تصویر و ویدئو در ابعاد زمانی–فضایی
• تخصیص پویا و هوشمند محاسبات متناسب با سختی هر وظیفه
۲) Encoder–Decoder عمیقاً ترکیبشده
• ورودی و خروجیهای چندگانه در هر مدالیتی
• تعامل واقعی اومنیمودال بین همهٔ حالتها
🛠 فرآیند آموزش
۱) مسیر پیشرونده:
Cross-modal alignment → Warm-up → MoE+RL → Generative training
• تبدیل LLMهای فشرده به MoE
• تنها با ۷۵ میلیارد توکن
• همگرایی پایدار، مخصوصاً در مرحله RL
۲) زبان، هستهٔ اصلی تمام وظایف
• همهٔ مدالیتهها به تولید زبان نگاشت میشوند
• سدهای بین مدالیتهها را حذف میکند
🎨 تواناییها
✔ تولید و تعامل صوتی
✔ تولید و ویرایش تصویر
✔ درک تصویر و ویدئو
✔ تحلیل صوتی–تصویری
✔ پشتیبانی از ۱۰+ وظیفهٔ چندمودال
🔥 نتایج کلیدی
در ۵۰+ مورد از ۷۶ وظیفه، بهتر از Qwen 2.5 Omni عمل کرده—درحالیکه ۱.۲ تریلیون توکن مصرف کرده بود:
• درک ویدئو: ۵٪ بهتر
• فهم اومنیمودال: ۷٪ بهتر
• Speech-QA: ۴.۳٪ بهتر
• پردازش تصویر: ۷٪ بهتر
🌍 منابع متنباز
Model →
https://huggingface.co/collections/HIT-TMG/lychee-uni-moe-20
Code →
https://github.com/HITsz-TMG/Uni-MoE/tree/master/Uni-MoE-2
Homepage →
https://idealistxy.github.io/Uni-MoE-v2.github.io/
@rss_ai_ir
#هوش_مصنوعی #مدل_زبان #اومنی_مودال #MoE
مدلی که مرزهای چندمودالیتی را جابهجا کرده و وارد سطح اومنیمودالیتی شده است؛ یعنی فهم و تولید همزمان گفتار، متن، تصویر، ویدئو و حتی تعاملات صوتی–تصویری.
✨ نوآوری اصلی
پژوهشگران نشان دادهاند چگونه میتوان یک LLM معمولی را بهصورت تکاملی به یک مدل MoE واقعی تبدیل کرد که همهٔ مدالیتهها را یکپارچه پردازش میکند.
🧠 معماری مدل
۱) Omnimodality 3D-RoPE + Dynamic-Capacity MoE
• همترازسازی گفتار، متن، تصویر و ویدئو در ابعاد زمانی–فضایی
• تخصیص پویا و هوشمند محاسبات متناسب با سختی هر وظیفه
۲) Encoder–Decoder عمیقاً ترکیبشده
• ورودی و خروجیهای چندگانه در هر مدالیتی
• تعامل واقعی اومنیمودال بین همهٔ حالتها
🛠 فرآیند آموزش
۱) مسیر پیشرونده:
Cross-modal alignment → Warm-up → MoE+RL → Generative training
• تبدیل LLMهای فشرده به MoE
• تنها با ۷۵ میلیارد توکن
• همگرایی پایدار، مخصوصاً در مرحله RL
۲) زبان، هستهٔ اصلی تمام وظایف
• همهٔ مدالیتهها به تولید زبان نگاشت میشوند
• سدهای بین مدالیتهها را حذف میکند
🎨 تواناییها
✔ تولید و تعامل صوتی
✔ تولید و ویرایش تصویر
✔ درک تصویر و ویدئو
✔ تحلیل صوتی–تصویری
✔ پشتیبانی از ۱۰+ وظیفهٔ چندمودال
🔥 نتایج کلیدی
در ۵۰+ مورد از ۷۶ وظیفه، بهتر از Qwen 2.5 Omni عمل کرده—درحالیکه ۱.۲ تریلیون توکن مصرف کرده بود:
• درک ویدئو: ۵٪ بهتر
• فهم اومنیمودال: ۷٪ بهتر
• Speech-QA: ۴.۳٪ بهتر
• پردازش تصویر: ۷٪ بهتر
🌍 منابع متنباز
Model →
https://huggingface.co/collections/HIT-TMG/lychee-uni-moe-20
Code →
https://github.com/HITsz-TMG/Uni-MoE/tree/master/Uni-MoE-2
Homepage →
https://idealistxy.github.io/Uni-MoE-v2.github.io/
@rss_ai_ir
#هوش_مصنوعی #مدل_زبان #اومنی_مودال #MoE
👍1
🌐 بحثهای تازه دربارهٔ زمانبندی AGI و سناریوی AI-2027
چندی پیش دربارهٔ توان پردازشی لازم برای آموزش Agent 0 و Agent 1 در گزارش AI-2027 صحبت شد و به این نتیجه رسیدیم که سرعت ساخت و راهاندازی دیتاسنترها کمی عقبتر از پیشبینیها است. حالا با انتشار GPT-5.1-Codex-Max، تیم METR دوباره مدت انجام وظایف مهندسی را اندازهگیری کرده و نمودار جدید نشان میدهد که با پایان ۲۰۲۵، هنوز نشانهای از جهش Agent 0 دیده نمیشود—هرچند کیفیت اندازهگیریشده کاملاً روی روند پیشبینی METR قرار دارد.
در فضای توییتر، بسیاری فقط به نمودار نگاه کرده و گمان کردهاند جابهجایی بازهٔ احتمالی از ۲۰۲۷ به ۲۰۲۸ یا ۲۰۲۹ یعنی «بیاعتبار شدن کامل» سناریو. اما اگر متن اصلی را دقیق خوانده باشید، روشن بود که سال ۲۰۲۷ انتخاب «نمادین» برای نمایش امکانپذیری سناریو است، نه ادعای قطعیت ریاضی.
نکات کلیدی از توضیحات خود نویسندگان:
🔹 همهٔ نویسندگان در زمان انتشار باور داشتند احتمال ظهور AGI تا پایان ۲۰۲۷ بیش از ۱۰٪ است؛ مد محتمل ۲۰۲۷ یا ۲۰۲۸ بود.
🔹 نویسندهٔ اصلی احتمال تحقق AGI تا پایان ۲۰۲۷ را حدود ۴۰٪ تخمین میزد—یعنی حتی پایینتر از تخمین میانه.
🔹 دلیل انتخاب ۲۰۲۷ این بود که در ابتدا این سال «میانهٔ پیشبینی» نویسندهٔ اصلی بود؛ بعدها با دقیقتر شدن تحلیل، میانه به ۲۰۲۸ منتقل شد.
🔹 هدف سناریو هرگز این نبود که «AGI دقیقاً در سال X رخ میدهد» بلکه این بود که:
«اگر AGI زودتر از انتظار برسد، شکل واقعی آن چگونه است؟ دولتها چگونه واکنش نشان میدهند؟ پیامدهای سیستمی آن چیست؟»
🔹 اکنون میانهٔ جدید نویسندهٔ اصلی حدود ۲۰۳۰ است، ولی مد نویسندگان همچنان کمی زودتر قرار میگیرد.
🔹 نسخهٔ جدید مدل پیشبینی در راه است؛ پیشرفت کمی کندتر از انتظار بوده و مدل جدید برداشتهای متفاوتی میدهد.
خط اصلی داستان این است:
📌 بحث بر سر «سال دقیق» نیست—بحث دربارهٔ قابلیت وقوع زودهنگام AGI و چگونگی مواجههٔ جامعه و دولتها با آن است.
📌 فاصلهٔ ۲۰۲۷ تا ۲۰۳۰ در مقیاس تحول تمدنی تفاوت چندانی ایجاد نمیکند؛ آنچه مهم است آمادگی برای شوک AGI است، نه تقویم.
@rss_ai_ir
#هوش_مصنوعی #AGI #پیشبینی #تحلیل_صنعتی #متاورس_فکری
چندی پیش دربارهٔ توان پردازشی لازم برای آموزش Agent 0 و Agent 1 در گزارش AI-2027 صحبت شد و به این نتیجه رسیدیم که سرعت ساخت و راهاندازی دیتاسنترها کمی عقبتر از پیشبینیها است. حالا با انتشار GPT-5.1-Codex-Max، تیم METR دوباره مدت انجام وظایف مهندسی را اندازهگیری کرده و نمودار جدید نشان میدهد که با پایان ۲۰۲۵، هنوز نشانهای از جهش Agent 0 دیده نمیشود—هرچند کیفیت اندازهگیریشده کاملاً روی روند پیشبینی METR قرار دارد.
در فضای توییتر، بسیاری فقط به نمودار نگاه کرده و گمان کردهاند جابهجایی بازهٔ احتمالی از ۲۰۲۷ به ۲۰۲۸ یا ۲۰۲۹ یعنی «بیاعتبار شدن کامل» سناریو. اما اگر متن اصلی را دقیق خوانده باشید، روشن بود که سال ۲۰۲۷ انتخاب «نمادین» برای نمایش امکانپذیری سناریو است، نه ادعای قطعیت ریاضی.
نکات کلیدی از توضیحات خود نویسندگان:
🔹 همهٔ نویسندگان در زمان انتشار باور داشتند احتمال ظهور AGI تا پایان ۲۰۲۷ بیش از ۱۰٪ است؛ مد محتمل ۲۰۲۷ یا ۲۰۲۸ بود.
🔹 نویسندهٔ اصلی احتمال تحقق AGI تا پایان ۲۰۲۷ را حدود ۴۰٪ تخمین میزد—یعنی حتی پایینتر از تخمین میانه.
🔹 دلیل انتخاب ۲۰۲۷ این بود که در ابتدا این سال «میانهٔ پیشبینی» نویسندهٔ اصلی بود؛ بعدها با دقیقتر شدن تحلیل، میانه به ۲۰۲۸ منتقل شد.
🔹 هدف سناریو هرگز این نبود که «AGI دقیقاً در سال X رخ میدهد» بلکه این بود که:
«اگر AGI زودتر از انتظار برسد، شکل واقعی آن چگونه است؟ دولتها چگونه واکنش نشان میدهند؟ پیامدهای سیستمی آن چیست؟»
🔹 اکنون میانهٔ جدید نویسندهٔ اصلی حدود ۲۰۳۰ است، ولی مد نویسندگان همچنان کمی زودتر قرار میگیرد.
🔹 نسخهٔ جدید مدل پیشبینی در راه است؛ پیشرفت کمی کندتر از انتظار بوده و مدل جدید برداشتهای متفاوتی میدهد.
خط اصلی داستان این است:
📌 بحث بر سر «سال دقیق» نیست—بحث دربارهٔ قابلیت وقوع زودهنگام AGI و چگونگی مواجههٔ جامعه و دولتها با آن است.
📌 فاصلهٔ ۲۰۲۷ تا ۲۰۳۰ در مقیاس تحول تمدنی تفاوت چندانی ایجاد نمیکند؛ آنچه مهم است آمادگی برای شوک AGI است، نه تقویم.
@rss_ai_ir
#هوش_مصنوعی #AGI #پیشبینی #تحلیل_صنعتی #متاورس_فکری
❤2
Media is too big
VIEW IN TELEGRAM
🎥 جمعبندی کامل جمنای ۳ — در این ویدئو بررسی میکنیم که آیا واقعاً نسخهٔ Gemini 3 Pro از ChatGPT پیشی گرفته یا نه؟
در این آموزش:
✨ مقایسهٔ دقیق تواناییها
⚙️ تستهای عملی روی نوشتار، تحلیل و کدنویسی
📊 بررسی نقاط قوت و ضعف نسخهٔ جدید
🔍 تحلیل اینکه چرا جمنای ۳ در برخی بنچمارکها رکوردشکنی کرده
اگر میخواهید بدانید این مدل در دنیای واقعی چگونه عمل میکند، این ویدئو را از دست ندهید.
@rss_ai_ir
#هوش_مصنوعی 🤖 #جمنای۳ #گوگل #ChatGPT #مدل_های_زبان #کدنویسی
در این آموزش:
✨ مقایسهٔ دقیق تواناییها
⚙️ تستهای عملی روی نوشتار، تحلیل و کدنویسی
📊 بررسی نقاط قوت و ضعف نسخهٔ جدید
🔍 تحلیل اینکه چرا جمنای ۳ در برخی بنچمارکها رکوردشکنی کرده
اگر میخواهید بدانید این مدل در دنیای واقعی چگونه عمل میکند، این ویدئو را از دست ندهید.
@rss_ai_ir
#هوش_مصنوعی 🤖 #جمنای۳ #گوگل #ChatGPT #مدل_های_زبان #کدنویسی
👌2🔥1🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 یک نقطهٔ عطف مهم در رباتیک صنعتی؛
شرکت Agility اعلام کرد که ربات انساننمای Digit در عملیات واقعیِ مرکز لجستیک GXO بیش از ۱۰۰ هزار جعبه (totes) را جابهجا کرده است.
این خبر دقیقاً چند روز بعد از آن منتشر میشود که مدیرعامل Figure پیشبینی کرده بود Agility ظرف ۱۲ ماه آینده ورشکست میشود — و فقط یک روز پس از اعلام Figure دربارهٔ جابهجایی ۹۰ هزار قطعه در کارخانه BMW.
⚙️ رقابت رباتهای انساننما وارد فاز داغی شده؛ هر شرکت تلاش میکند ثابت کند که رباتش نهفقط یک دموی آزمایشگاهی، بلکه یک نیروی کار واقعی است.
@rss_ai_ir
#رباتیک #Agility #Digit #Figure #صنعت #AI
شرکت Agility اعلام کرد که ربات انساننمای Digit در عملیات واقعیِ مرکز لجستیک GXO بیش از ۱۰۰ هزار جعبه (totes) را جابهجا کرده است.
این خبر دقیقاً چند روز بعد از آن منتشر میشود که مدیرعامل Figure پیشبینی کرده بود Agility ظرف ۱۲ ماه آینده ورشکست میشود — و فقط یک روز پس از اعلام Figure دربارهٔ جابهجایی ۹۰ هزار قطعه در کارخانه BMW.
⚙️ رقابت رباتهای انساننما وارد فاز داغی شده؛ هر شرکت تلاش میکند ثابت کند که رباتش نهفقط یک دموی آزمایشگاهی، بلکه یک نیروی کار واقعی است.
@rss_ai_ir
#رباتیک #Agility #Digit #Figure #صنعت #AI
😁2👍1🔥1
🌟 فریمورک جدید RL برای آموزش مدلهای MoE از تیمی که Chatbot Arena را ساخته است
فریمورک Miles توسط گروه LMSYS ORG معرفی شد؛ همان تیمی که پروژهٔ معروف slime را ساخته بود. اگر توسعههای اپنسورس را دنبال میکنید، میدانید slime یک ابزار فوقسبک برای پستتریـن است—و حتی برای GLM-4.6 هم استفاده شد.
✅همچنین Miles همان مسیر را ادامه میدهد، اما این بار با تمرکز بر آموزش مقیاسبالا برای معماریهای MoE و پشتیبانی از بارهای سنگین در محیطهای سازمانی.
⚙️ نکات فنی
• معماری بر پایهٔ True On-Policy؛ یعنی صفر شدن فاصلهٔ رفتاری بین مدل در حالت آموزش و حالت اجرا
• استفاده از Flash Attention 3، کتابخانه DeepGEMM و هستههای Thinking Machines Lab در کنار torch.compile
• پشتیبانی از Speculative Decoding همراه با آموزش آنلاین مدل پیشنویس—رویکردی که باعث میشود مدل draft دقیقاً با سیاست مدل اصلی حرکت کند
• افزایش سرعت تولید متن تا ۲۵٪ در مراحل پایانی آموزش
🧩 پایداری سیستم
• جلوگیری از کرشهای غیرضروری OOM؛ اهمیت ویژه برای محیطهای سازمانی که «هر گیگابایت یعنی هزینه»
• اصلاح مشکلات مصرف حافظه در FSDP
• وعدهٔ پشتیبانی از آموزش چندمُدی، سازگاری با SGLang v2 و نسخهٔ پیشرفتهتر Speculative Decoding
📄 مقاله
🖥️ GitHub
@rss_ai_ir
#AI #ML #RL #MoE #LMSYS #Miles
فریمورک Miles توسط گروه LMSYS ORG معرفی شد؛ همان تیمی که پروژهٔ معروف slime را ساخته بود. اگر توسعههای اپنسورس را دنبال میکنید، میدانید slime یک ابزار فوقسبک برای پستتریـن است—و حتی برای GLM-4.6 هم استفاده شد.
✅همچنین Miles همان مسیر را ادامه میدهد، اما این بار با تمرکز بر آموزش مقیاسبالا برای معماریهای MoE و پشتیبانی از بارهای سنگین در محیطهای سازمانی.
⚙️ نکات فنی
• معماری بر پایهٔ True On-Policy؛ یعنی صفر شدن فاصلهٔ رفتاری بین مدل در حالت آموزش و حالت اجرا
• استفاده از Flash Attention 3، کتابخانه DeepGEMM و هستههای Thinking Machines Lab در کنار torch.compile
• پشتیبانی از Speculative Decoding همراه با آموزش آنلاین مدل پیشنویس—رویکردی که باعث میشود مدل draft دقیقاً با سیاست مدل اصلی حرکت کند
• افزایش سرعت تولید متن تا ۲۵٪ در مراحل پایانی آموزش
🧩 پایداری سیستم
• جلوگیری از کرشهای غیرضروری OOM؛ اهمیت ویژه برای محیطهای سازمانی که «هر گیگابایت یعنی هزینه»
• اصلاح مشکلات مصرف حافظه در FSDP
• وعدهٔ پشتیبانی از آموزش چندمُدی، سازگاری با SGLang v2 و نسخهٔ پیشرفتهتر Speculative Decoding
📄 مقاله
🖥️ GitHub
@rss_ai_ir
#AI #ML #RL #MoE #LMSYS #Miles