VIRSUN
12.8K subscribers
1.17K photos
696 videos
5 files
770 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
🚀 مدل Uni-MoE-2.0-Omni؛ جهش تازه در دنیای مدل‌های اومنی‌مودال

مدلی که مرزهای چندمودالیتی را جابه‌جا کرده و وارد سطح اومنی‌مودالیتی شده است؛ یعنی فهم و تولید هم‌زمان گفتار، متن، تصویر، ویدئو و حتی تعاملات صوتی–تصویری.

نوآوری اصلی
پژوهشگران نشان داده‌اند چگونه می‌توان یک LLM معمولی را به‌صورت تکاملی به یک مدل MoE واقعی تبدیل کرد که همهٔ مدالیته‌ها را یکپارچه پردازش می‌کند.

🧠 معماری مدل
۱) Omnimodality 3D-RoPE + Dynamic-Capacity MoE
• هم‌ترازسازی گفتار، متن، تصویر و ویدئو در ابعاد زمانی–فضایی
• تخصیص پویا و هوشمند محاسبات متناسب با سختی هر وظیفه

۲) Encoder–Decoder عمیقاً ترکیب‌شده
• ورودی و خروجی‌های چندگانه در هر مدالیتی
• تعامل واقعی اومنی‌مودال بین همهٔ حالت‌ها

🛠 فرآیند آموزش
۱) مسیر پیش‌رونده:
Cross-modal alignment → Warm-up → MoE+RL → Generative training
• تبدیل LLMهای فشرده به MoE
• تنها با ۷۵ میلیارد توکن
• همگرایی پایدار، مخصوصاً در مرحله RL

۲) زبان، هستهٔ اصلی تمام وظایف
• همهٔ مدالیته‌ها به تولید زبان نگاشت می‌شوند
• سدهای بین مدالیته‌ها را حذف می‌کند

🎨 توانایی‌ها
تولید و تعامل صوتی
تولید و ویرایش تصویر
درک تصویر و ویدئو
تحلیل صوتی–تصویری
پشتیبانی از ۱۰+ وظیفهٔ چندمودال

🔥 نتایج کلیدی
در ۵۰+ مورد از ۷۶ وظیفه، بهتر از Qwen 2.5 Omni عمل کرده—درحالی‌که ۱.۲ تریلیون توکن مصرف کرده بود:
• درک ویدئو: ‌۵٪ بهتر
• فهم اومنی‌مودال: ‌۷٪ بهتر
• Speech-QA: ‌۴.۳٪ بهتر
• پردازش تصویر: ‌۷٪ بهتر

🌍 منابع متن‌باز
Model →
https://huggingface.co/collections/HIT-TMG/lychee-uni-moe-20
Code →
https://github.com/HITsz-TMG/Uni-MoE/tree/master/Uni-MoE-2
Homepage →
https://idealistxy.github.io/Uni-MoE-v2.github.io/

@rss_ai_ir
#هوش_مصنوعی #مدل_زبان #اومنی_مودال #MoE
👍1
🌐 بحث‌های تازه دربارهٔ زمان‌بندی AGI و سناریوی AI-2027

چندی پیش دربارهٔ توان پردازشی لازم برای آموزش Agent 0 و Agent 1 در گزارش AI-2027 صحبت شد و به این نتیجه رسیدیم که سرعت ساخت و راه‌اندازی دیتاسنترها کمی عقب‌تر از پیش‌بینی‌ها است. حالا با انتشار GPT-5.1-Codex-Max، تیم METR دوباره مدت انجام وظایف مهندسی را اندازه‌گیری کرده و نمودار جدید نشان می‌دهد که با پایان ۲۰۲۵، هنوز نشانه‌ای از جهش Agent 0 دیده نمی‌شود—هرچند کیفیت اندازه‌گیری‌شده کاملاً روی روند پیش‌بینی METR قرار دارد.

در فضای توییتر، بسیاری فقط به نمودار نگاه کرده و گمان کرده‌اند جابه‌جایی بازهٔ احتمالی از ۲۰۲۷ به ۲۰۲۸ یا ۲۰۲۹ یعنی «بی‌اعتبار شدن کامل» سناریو. اما اگر متن اصلی را دقیق خوانده باشید، روشن بود که سال ۲۰۲۷ انتخاب «نمادین» برای نمایش امکان‌پذیری سناریو است، نه ادعای قطعیت ریاضی.

نکات کلیدی از توضیحات خود نویسندگان:

🔹 همهٔ نویسندگان در زمان انتشار باور داشتند احتمال ظهور AGI تا پایان ۲۰۲۷ بیش از ۱۰٪ است؛ مد محتمل ۲۰۲۷ یا ۲۰۲۸ بود.
🔹 نویسندهٔ اصلی احتمال تحقق AGI تا پایان ۲۰۲۷ را حدود ۴۰٪ تخمین می‌زد—یعنی حتی پایین‌تر از تخمین میانه.
🔹 دلیل انتخاب ۲۰۲۷ این بود که در ابتدا این سال «میانهٔ پیش‌بینی» نویسندهٔ اصلی بود؛ بعدها با دقیق‌تر شدن تحلیل، میانه به ۲۰۲۸ منتقل شد.
🔹 هدف سناریو هرگز این نبود که «AGI دقیقاً در سال X رخ می‌دهد» بلکه این بود که:
«اگر AGI زودتر از انتظار برسد، شکل واقعی آن چگونه است؟ دولت‌ها چگونه واکنش نشان می‌دهند؟ پیامدهای سیستمی آن چیست؟»
🔹 اکنون میانهٔ جدید نویسندهٔ اصلی حدود ۲۰۳۰ است، ولی مد نویسندگان همچنان کمی زودتر قرار می‌گیرد.
🔹 نسخهٔ جدید مدل پیش‌بینی در راه است؛ پیشرفت کمی کندتر از انتظار بوده و مدل جدید برداشت‌های متفاوتی می‌دهد.

خط اصلی داستان این است:

📌 بحث بر سر «سال دقیق» نیست—بحث دربارهٔ قابلیت وقوع زودهنگام AGI و چگونگی مواجههٔ جامعه و دولت‌ها با آن است.
📌 فاصلهٔ ۲۰۲۷ تا ۲۰۳۰ در مقیاس تحول تمدنی تفاوت چندانی ایجاد نمی‌کند؛ آنچه مهم است آمادگی برای شوک AGI است، نه تقویم.

@rss_ai_ir
#هوش_مصنوعی #AGI #پیش‌بینی #تحلیل_صنعتی #متاورس_فکری
2
Media is too big
VIEW IN TELEGRAM
🎥 جمع‌بندی کامل جمنای ۳ — در این ویدئو بررسی می‌کنیم که آیا واقعاً نسخهٔ Gemini 3 Pro از ChatGPT پیشی گرفته یا نه؟

در این آموزش:
مقایسهٔ دقیق توانایی‌ها
⚙️ تست‌های عملی روی نوشتار، تحلیل و کدنویسی
📊 بررسی نقاط قوت و ضعف نسخهٔ جدید
🔍 تحلیل اینکه چرا جمنای ۳ در برخی بنچمارک‌ها رکوردشکنی کرده

اگر می‌خواهید بدانید این مدل در دنیای واقعی چگونه عمل می‌کند، این ویدئو را از دست ندهید.

@rss_ai_ir
#هوش_مصنوعی 🤖 #جمنای۳ #گوگل #ChatGPT #مدل_های_زبان #کدنویسی
👌2🔥1🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 یک نقطهٔ عطف مهم در رباتیک صنعتی؛
شرکت Agility اعلام کرد که ربات انسان‌نمای Digit در عملیات واقعیِ مرکز لجستیک GXO بیش از ۱۰۰ هزار جعبه (totes) را جابه‌جا کرده است.

این خبر دقیقاً چند روز بعد از آن منتشر می‌شود که مدیرعامل Figure پیش‌بینی کرده بود Agility ظرف ۱۲ ماه آینده ورشکست می‌شود — و فقط یک روز پس از اعلام Figure دربارهٔ جابه‌جایی ۹۰ هزار قطعه در کارخانه BMW.

⚙️ رقابت ربات‌های انسان‌نما وارد فاز داغی شده؛ هر شرکت تلاش می‌کند ثابت کند که رباتش نه‌فقط یک دموی آزمایشگاهی، بلکه یک نیروی کار واقعی است.

@rss_ai_ir
#رباتیک #Agility #Digit #Figure #صنعت #AI
😁2👍1🔥1
🌟 فریم‌ورک جدید RL برای آموزش مدل‌های MoE از تیمی که Chatbot Arena را ساخته است

فریم‌ورک Miles توسط گروه LMSYS ORG معرفی شد؛ همان تیمی که پروژهٔ معروف slime را ساخته بود. اگر توسعه‌های اپن‌سورس را دنبال می‌کنید، می‌دانید slime یک ابزار فوق‌سبک برای پست‌تریـن است—و حتی برای GLM-4.6 هم استفاده شد.

همچنین Miles همان مسیر را ادامه می‌دهد، اما این بار با تمرکز بر آموزش مقیاس‌بالا برای معماری‌های MoE و پشتیبانی از بارهای سنگین در محیط‌های سازمانی.

⚙️ نکات فنی
• معماری بر پایهٔ True On-Policy؛ یعنی صفر شدن فاصلهٔ رفتاری بین مدل در حالت آموزش و حالت اجرا
• استفاده از Flash Attention 3، کتابخانه DeepGEMM و هسته‌های Thinking Machines Lab در کنار torch.compile
• پشتیبانی از Speculative Decoding همراه با آموزش آنلاین مدل پیش‌نویس—رویکردی که باعث می‌شود مدل draft دقیقاً با سیاست مدل اصلی حرکت کند
• افزایش سرعت تولید متن تا ۲۵٪ در مراحل پایانی آموزش

🧩 پایداری سیستم
• جلوگیری از کرش‌های غیرضروری OOM؛ اهمیت ویژه برای محیط‌های سازمانی که «هر گیگابایت یعنی هزینه»
• اصلاح مشکلات مصرف حافظه در FSDP
• وعدهٔ پشتیبانی از آموزش چندمُدی، سازگاری با SGLang v2 و نسخهٔ پیشرفته‌تر Speculative Decoding

📄 مقاله
🖥️ GitHub

@rss_ai_ir
#AI #ML #RL #MoE #LMSYS #Miles