VIRSUN

⚡ FlashVSR —
ارتقای ویدیو در زمان واقعی بر پایه‌ی دیفیوشن

پروژه‌ی FlashVSR به هدف رسیدن به Super-Resolution ویدیوهای استریم در زمان واقعی طراحی شده است — نه بهترین، اما کاملاً متن‌باز و قابل استفاده برای همه 🔓

📦 کد منبع:

🔗 github.com/OpenImagingLab/FlashVSR

🧩 نودها برای ComfyUI:

🔗 github.com/smthemex/ComfyUI_FlashVSR

💡 ویژگی‌ها و نکات فنی:

✳️مصرف حافظه بالا (مثل اکثر آپ‌اسکیلرهای دیفیوشنی)

✳️مبتنی بر Block-Sparse Attention — ممکن است روی کارت‌های گرافیکی ضعیف ناپایدار عمل کند

✳️کیفیت خروجی مناسب با تأکید بر سرعت پردازش

در مجموع، گزینه‌ای عالی برای کسانی که دنبال راه‌حل متن‌باز ارتقای ویدیو با انعطاف بالا هستند.

#FlashVSR #AI #Upscaling #VideoAI #SuperResolution #OpenSource #MachineLearning #DiffusionModels #ComfyUI #DeepLearning #BlockSparseAttention

👍1🔥1👏1

2.68K viewsedited 14:24

VIRSUN

0:02

This media is not supported in your browser

VIEW IN TELEGRAM

🦄 City-Tour → Simulation 🦄

پروژه‌ی UrbanVerse سیستمی نوآورانه است که ویدیوهای واقعی از تورهای شهری را به محیط‌های شبیه‌سازی تعاملی و مبتنی بر فیزیک تبدیل می‌کند.

🎯 هدف اصلی آن، ایجاد بستری مقیاس‌پذیر برای یادگیری ربات‌ها در فضاهای شهری واقعی است — جایی که مدل‌ها بتوانند بین دنیای شبیه‌سازی و واقعیت تعمیم‌پذیری واقعی پیدا کنند.

💡 ویژگی‌ها:

✳️تبدیل ویدیوهای شهری واقعی به شبیه‌سازی‌های فیزیکی پویا
✳️پشتیبانی از تعاملات در زمان واقعی (real-time interaction)
✳️امکان آموزش ربات‌ها در محیط‌های شهری متنوع و واقعی

📘 منابع:
👉 Paper
👉 Project Page
👉 Repo — به‌زودی منتشر می‌شود

#UrbanVerse #Simulation #Robotics #AI #MachineLearning #UrbanAI #DigitalTwin #CitySimulation

1.44K views09:25

VIRSUN

👏 پژوهش فوق‌العاده از NVIDIA و MIT

پژوهشگران دو مؤسسه NVIDIA و MIT روش جدیدی برای آموزش مدل‌های زبانی بزرگ با یادگیری تقویتی ارائه کرده‌اند —
این روش با نام QeRL (Quantization-enhanced Reinforcement Learning) شناخته می‌شود.

💡 ایده اصلی:
استفاده از وزن‌های ۴ بیتی و نویز تطبیقی (adaptive noise) در طول آموزش با یادگیری تقویتی،
که باعث می‌شود مدل‌ها سریع‌تر و کم‌هزینه‌تر یاد بگیرند.

📈 نتیجه:
تا ۱.۵ برابر افزایش سرعت rollout‌ها
و امکان آموزش کامل یک مدل ۳۲ میلیارد پارامتری روی تنها یک کارت H100 (80GB)!

📘 توضیح کوتاه:
در یادگیری تقویتی، rollout یعنی اجرای کامل یک اپیزود — از شروع تا پایان — برای ارزیابی عملکرد مدل و تخصیص پاداش.
این مرحله معمولاً کند و پرمصرف است.

🔧 نوآوری QeRL:

♻️استفاده از وزن‌های NVFP4 با کمک Marlin

♻️نگهداری LoRA فقط برای گرادیان‌ها (صرفه‌جویی در حافظه)

♻️استفاده از یک نسخه‌ی ۴ بیتی از سیاست (policy) برای هر دو مرحله‌ی rollout و scoring — بدون تکرار حافظه

🧠 مزیت کلیدی:
افزودن نویز تطبیقی به وزن‌های کوانتیزه‌شده باعث افزایش تنوع (entropy) در خروجی‌ها می‌شود —
مدل بهتر فضای پاسخ را کاوش می‌کند.
با کاهش تدریجی نویز، پایداری حفظ می‌شود و همه چیز با RMSNorm ادغام می‌گردد — بدون اضافه شدن پارامتر جدید.

📊 نتایج آزمایشی:

پاداش‌ها سریع‌تر رشد می‌کنند

دقت برابر یا بالاتر از مدل‌های LoRA و QLoRA با دقت ۱۶ بیت

⚡ خلاصه:
سریع‌تر، کم‌هزینه‌تر و بهینه‌تر از روش‌های قبلی.
اکنون می‌توان مدل‌های بزرگ را واقعاً روی تنها یک GPU آموزش داد.

📄 متن کامل مقاله

#NVIDIA #MIT #QeRL #ReinforcementLearning #LLM #Quantization #AIResearch #MachineLearning #DeepLearning

1.42K views09:28

VIRSUN

🌟 NVIDIA OmniVinci —
مدل چندوجهی که رکوردها را شکست!

مدل OmniVinci مدلی است که می‌تواند به‌صورت هم‌زمان متن، تصویر، ویدیو و صدا را درک و پردازش کند — یک گام بزرگ در مسیر هوش مصنوعی چندوجهی (Multimodal AI).

با وجود اینکه فقط بر روی ۲۰۰ میلیارد توکن آموزش دیده (در حالی‌که مدل Qwen2.5-Omni روی ۱.۲ تریلیون توکن آموزش دیده بود!)، عملکردی به‌مراتب بهتر و کارآمدتر از رقبا دارد. این موفقیت به لطف نوآوری‌های معماری و آماده‌سازی دقیق داده‌ها به دست آمده است.

---

🔧 سه مؤلفه کلیدی OmniVinci:

🟢 Temporal Embedding Grouping (TEG)
نقشه‌برداری توکن‌های ویدیو و صدا بر اساس زمان وقوع رویدادها.

🟢 Constrained Rotary Time Embedding (CRTE)
رمزگذاری دقیق زمان مطلق برای داده‌های ترتیبی.

🟢 OmniAlignNet
هم‌ترازسازی بردارهای صوت و تصویر در یک فضای مشترک با استفاده از یادگیری تقابلی (contrastive learning).

📊 آزمایش‌های حذف مؤلفه‌ها نشان دادند که هر بخش تأثیر قابل‌توجهی دارد:

مدل پایه: 45.51 امتیاز

با TEG → 47.72 (+2.21)

با CRTE → 50.25 (+4.74)

با OmniAlignNet → 52.59 (+7.08 نسبت به پایه)

---

🧠 داده‌های آموزشی:
۲۴ میلیون دیالوگ که با کمک یک مدل LLM تحلیل و ادغام شده‌اند تا توضیحات چندوجهی منسجم تولید شود.

ترکیب داده‌ها:
📸 تصاویر — ۳۶٪
🎧 صدا — ۲۱٪
🗣 گفتار — ۱۷٪
⚙️ داده‌های ترکیبی — ۱۵٪
🎬 ویدیو — ۱۱٪
---
🏆 نتایج در بنچمارک‌ها:

Worldsense: 48.23 در مقابل 45.40 (Qwen2.5-Omni)

DailyOmni: 66.50 در مقابل 47.45

MMAR: 58.40

MMAU: 71.60

WER (LibriSpeech-clean): فقط 1.7٪

در کاربرد صنعتی (تشخیص عیوب در ویفرهای نیمه‌رسانا):

همچنین OmniVinci به دقت 98.1٪ رسید
— بهتر از NVILA (97.6%) و بسیار بالاتر از مدل بزرگ‌تر VILA (90.8%).

---

📜 مجوزها:

کد منبع: Apache 2.0 License

مدل: NVIDIA One Way Noncommercial License

🔗 منابع:
🟡 صفحه پروژه
🟡 مدل
🟡 مقاله در Arxiv
🖥 GitHub

@rss_ai_ir

#هوش_مصنوعی #NVIDIA #OmniVinci #مولتی_مودال #DeepLearning #AI #MachineLearning #Vision #Speech #MultimodalAI

🔥1👏1

1.46K views15:17

VIRSUN

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

🚀 هوش مصنوعی متن‌باز با سرعتی بی‌سابقه در حال پیشرفت است — و حالا NVIDIA پیشتاز شده! ⚡️

انویدیا اکنون در صدر مشارکت‌های جهانی AI متن‌باز قرار دارد و با انتشار مجموعه‌ای از مدل‌های بزرگ مانند:

🧠 Nemotron، 🧬 BioNeMo، 🌌 Cosmos و 🤖 Gr00t،

در حال بازتعریف نحوه‌ی توسعه و اشتراک‌گذاری مدل‌های هوش مصنوعی در سراسر دنیاست.
این حرکت نه‌تنها صنعت را متحول می‌کند، بلکه مرز بین مدل‌های اختصاصی و متن‌باز را هم از بین می‌برد.
بی‌نظیر! 🔥

@rss_ai_ir

#NVIDIA #AI #OpenSource #Nemotron #BioNeMo #Cosmos #Gr00t #هوش_مصنوعی #متن_باز #DeepLearning #MachineLearning

1.46K views06:55

VIRSUN

💡 گوگل پلتفرم جدیدی به نام Skills راه‌اندازی کرد — بستری آزاد برای یادگیری مهارت‌های هوش مصنوعی!

در این پلتفرم بیش از ۳۰۰۰ دوره، آزمایشگاه و مسیر تمرینی وجود دارد که از مفاهیم پایه‌ی Python و یادگیری ماشین تا مباحث پیشرفته‌ی MLOps، Vertex AI، Gemini و طراحی پرامپت (Prompt Design) را پوشش می‌دهد. 🚀

📘 چیزهایی که می‌توانید یاد بگیرید:

✳️ادغام هوش مصنوعی مولد در پایپلاین داده‌ها
✳️استقرار (Deploy) و نگهداری مدل‌های یادگیری ماشین
✳️ساخت اپلیکیشن شخصی با Gemini و Streamlit
✳️یادگیری تعاملی با مربیان یا جامعه‌ی Google Cloud Innovators

🔹 دوره‌ها از سطح مبتدی تا مدیر تیم (Team Lead) ارائه شده‌اند.
🔹 در پایان، گواهینامه رسمی دریافت می‌کنید که قابل افزودن به رزومه یا پروفایل LinkedIn است. 🎓

✔️ شروع یادگیری:
skills.google
✔️ مشاهده فهرست دوره‌ها:
skills.google/catalog

@rss_ai_ir

#گوگل #هوش_مصنوعی #آموزش_رایگان #GoogleAI #Gemini #MachineLearning #FreeCourses #AI

❤3

1.56K views17:56

VIRSUN

animation.gif

11.5 MB

🎓 یادگیری فدرال (Federated Learning) — آینده‌ی آموزش هوش مصنوعی بدون نیاز به داده‌های متمرکز

در دنیای امروز، داده شخصی‌ترین دارایی ماست — از اطلاعات تلفن همراه گرفته تا سوابق پزشکی. اما چگونه می‌توان مدل‌های هوش مصنوعی را آموزش داد بدون آنکه داده‌ها از دستگاه کاربران خارج شوند؟

🔹 پاسخ: یادگیری فدرال (Federated Learning)

در این روش، به‌جای ارسال داده‌ها به سرور مرکزی، مدل به سراغ داده‌ها می‌رود. هر دستگاه (مثل موبایل، لپ‌تاپ یا حسگر صنعتی) نسخه‌ای از مدل را به‌صورت محلی آموزش می‌دهد و فقط وزن‌ها (Weights) را به اشتراک می‌گذارد، نه خود داده‌ها.

💡 مراحل کلی فرآیند:
1️⃣ مدل مرکزی به همه دستگاه‌ها ارسال می‌شود.
2️⃣ هر دستگاه مدل را با داده‌های خودش به‌روزرسانی می‌کند.
3️⃣ فقط وزن‌های جدید ارسال می‌شود.
4️⃣ سرور مرکزی این وزن‌ها را ترکیب کرده و مدل به‌روزرسانی‌شده را برمی‌گرداند.

✅ مزایا:
حفظ حریم خصوصی کاربران 🔒
کاهش ترافیک داده و هزینه انتقال 🌐
یادگیری از منابع متنوع در نقاط مختلف جهان 🌍

مناسب برای سیستم‌های IoT و موبایل 📱
🚀 شرکت‌هایی مانند Google, Apple و NVIDIA سال‌هاست از این روش برای بهبود مدل‌های کیبورد، تشخیص گفتار و سلامت استفاده می‌کنند.

📌 در آینده، یادگیری فدرال می‌تواند سنگ‌بنای «هوش مصنوعی توزیع‌شده» شود — جایی که هر دستگاه، بخشی از مغز جهانی هوش مصنوعی خواهد بود.

@rss_ai_ir
#هوش_مصنوعی #یادگیری_فدرال #FederatedLearning #AI #Privacy #MachineLearning #EdgeAI

👏3❤1🔥1

298 views04:59

VIRSUN

🧠 فرمت ONNX — زبان مشترک مدل‌های هوش مصنوعی

در دنیای یادگیری عمیق، هر فریم‌ورک (مثل PyTorch، TensorFlow یا Scikit-learn) مدل‌ها را به فرمت مخصوص خودش ذخیره می‌کند.
اما اگر بخواهیم مدلی را در پایتورچ آموزش دهیم و بعد در محیط دیگری مثل OpenCV، C++، یا موبایل اجرا کنیم چه؟ 🤔

🔹 پاسخ: ONNX (Open Neural Network Exchange)

فرمت ONNX یک فرمت استاندارد و متن‌باز است که برای انتقال و اجرای مدل‌های هوش مصنوعی در پلتفرم‌های مختلف طراحی شده است.

💡 به زبان ساده:
فرمت ONNX مثل فایل PDF برای مدل‌های هوش مصنوعی است —
فرقی نمی‌کند در چه فریم‌ورکی ساخته شده، در هر جایی باز و اجرا می‌شود.

⚙️ مزایا:

♻️انتقال آسان مدل‌ها بین فریم‌ورک‌ها (PyTorch → TensorFlow → OpenCV) 🔄

♻️اجرا روی دستگاه‌های مختلف (CPU، GPU، موبایل، Edge) ⚙️

♻️پشتیبانی از بهینه‌سازها مثل ONNX Runtime برای سرعت بیشتر 🚀

♻️پشتیبانی رسمی توسط شرکت‌هایی مثل Microsoft, NVIDIA, Meta و Intel 💼

📦 مثال:
در پایتورچ، می‌توان مدل را با یک خط کد به ONNX صادر کرد:

torch.onnx.export(model, inputs, "model.onnx")

و سپس با ONNX Runtime در هر محیطی اجرا کرد:

import onnxruntime as ort  
session = ort.InferenceSession("model.onnx")  
outputs = session.run(None, {"input": data})

🌍 کاربردهای رایج:

♻️به‌کارگیری مدل‌ها در سیستم‌های صنعتی
♻️اجرای مدل‌ها روی وب یا موبایل
♻️ترکیب مدل‌های ساخته‌شده در فریم‌ورک‌های مختلف

📌 فرمتONNX پلی است میان آموزش و استقرار —
به کمک آن، مدل شما می‌تواند از آزمایشگاه تا دنیای واقعی سفر کند 🌐

@rss_ai_ir
#هوش_مصنوعی #ONNX #DeepLearning #AI #PyTorch #TensorFlow #MachineLearning #EdgeAI

❤4🔥2👌2🙏1

325 views05:03

VIRSUN

🚀 NVIDIA
دوباره صحنه رو آتیش زد!

روش جدیدشون به نام GenCluster باعث شد برای اولین بار یک مدل متن‌باز بتونه به سطح مدل‌های بسته‌ی شرکت‌های بزرگ برسه 💥

🧠 مدل gpt-oss-120b موفق شد در المپیاد بین‌المللی انفورماتیک (IOI 2025) مدال طلا بگیره —
اولین باریه در تاریخ که این افتخار نصیب یک مدل open-source شده! 🥇

📊 چطور کار می‌کنه؟
مدل هزاران راه‌حل برنامه‌نویسی تولید می‌کنه،
اون‌ها رو تست و گروه‌بندی می‌کنه،
و بین بهترین‌ها یک «تورنمنت هوش مصنوعی» برگزار می‌کنه،
که داوری‌اش هم با یک مدل هوش مصنوعی دیگه‌ست 😎

📈 نتیجه:
۴۴۶.۷۵ امتیاز و مدال طلای رسمی IOI
یک جهش بزرگ در سمت استدلال و حل مسئله‌ی سطح انسانی توسط مدل‌های باز

📄 جزئیات مقاله:

🔗 arxiv.org/abs/2510.14232v1

#NVIDIA #GenCluster #AI #OpenSource #LLM #Research #MachineLearning #IOI2025

❤1👏1

1.49K viewsedited 09:31

VIRSUN

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ درک شهودی از مکانیزم توجه (Attention Mechanism)

یکی از بهترین و ساده‌ترین بصری‌سازی‌هایی که تا حالا از مکانیزم توجه در ترنسفورمرها منتشر شده — مفهومی که خیلی از توسعه‌دهندگان سال‌ها طول کشید تا به‌صورت شهودی آن را درک کنند. 🎯

در نگاه اول، فرمول ساده به نظر می‌رسد؛
می‌توان آن را حفظ کرد و حتی بازنویسی کرد،
اما درک عمیق اینکه چطور Q (Query)، K (Key) و V (Value) با هم تعامل دارند، چیز دیگری‌ست. 🧠

این ویدیو یا شماتیک دقیقاً همان چیزی است که کمک می‌کند درون ترنسفورمر را «ببینیم» — جایی که مدل یاد می‌گیرد چگونه توجه را میان بخش‌های مختلف داده توزیع کند.

@rss_ai_ir
#هوش_مصنوعی #یادگیری_عمیق #ترنسفورمر #LLM #Attention #MachineLearning

1.48K views15:19

VIRSUN

🧠 Thinking Machines معرفی کرد:
On-Policy Distillation —
روشی جدید برای آموزش مدل‌های زبانی که به‌جای حفظ کردن، یاد می‌گیرند فکر کنند.

در این روش نوآورانه از آزمایشگاه Thinking Machines Lab، مدل کوچک‌تر دیگر فقط پاسخ‌های مدل بزرگ‌تر را تکرار نمی‌کند؛ بلکه خودش تلاش می‌کند مسئله را حل کند، سپس «استاد» (مدل بزرگ‌تر) مسیر منطق و خطاهایش را تحلیل کرده و راهنمایی‌اش می‌کند.

به این ترتیب، مدل کوچک‌تر نه‌تنها دانش بلکه روش تفکر و استدلال مدل بزرگ‌تر را نیز فرا می‌گیرد. 🧩

📊 نتایج آزمایش‌ها (روی مسائل منطقی و ریاضی):

♻️مدل کوچک پس از آموزش با on-policy distillation به دقتی نزدیک به مدل بزرگ‌تر رسید.

♻️هزینه‌های محاسباتی چندین برابر کاهش یافت.

♻️مدل توانست خطاهای خودش را بهتر درک کند و در مواجهه با مسائل جدید پایدارتر عمل کند.

💡 چرا این مهم است؟
در روش‌های سنتی، مدل فقط پاسخ را تقلید می‌کند (مثل حفظ کردن).
اما در اینجا مدل مانند انسان یاد می‌گیرد — تجربه می‌کند، اشتباه می‌کند و اصلاح می‌شود.

🔹 روش جدید تعادلی هوشمند بین یادگیری تقویتی (RL) و دانش تقطیری (KD) ایجاد می‌کند.
🔹 بدون نیاز به محیط‌های پیچیده RL، مدل می‌تواند به‌صورت خودکار و با هزینه‌ی کمتر، یادگیری تطبیقی انجام دهد.
🔹 نتیجه: مدل‌های کوچک‌تر که تقریباً مثل مدل‌های بزرگ فکر می‌کنند، اما سریع‌تر، ارزان‌تر و مناسب برای edge devices، ربات‌ها و سیستم‌های محلی خصوصی هستند.

📘 مطالعه‌ی بیشتر:
thinkingmachines.ai/blog/on-policy-distillation/

@rss_ai_ir
#AI #LLM #ThinkingMachines #DeepLearning #MachineLearning #Distillation #Innovation

❤1👍1

257 views18:05

VIRSUN

🤖 سیستم چندعاملی برنامه‌نویسی (Multi-Agent Coding System)

این پروژه یک سیستم هوش مصنوعی چندعاملی است که از یک ارکستراتور هوشمند برای هماهنگ‌سازی میان عامل‌های پژوهشی و کدنویس استفاده می‌کند.
ارکستراتور وظیفه تقسیم وظایف به زیر‌مسائل و مدیریت کل فرآیند را بر عهده دارد تا رویکردی راهبردی و ساختاریافته در حل مسائل ایجاد شود.

🚀 ویژگی‌های کلیدی:

🧠 دستاورد: کسب رتبه‌ی ۱۲ در TerminalBench و عملکرد بهتر از Claude Code

🎯 ارکستراتور وظایف را بین عامل‌ها تقسیم و نتایج را اعتبارسنجی می‌کند

🧩 هر عامل (Agent) با زمینه و ابزار اختصاصی کار می‌کند

🔗 استفاده از حافظه‌ی زمینه‌ای مشترک برای تبادل دانش بین عامل‌ها — رویکردی نوین در همکاری بین هوش‌ها

📌 سورس‌کد در گیت‌هاب:
👉 github.com/Danau5tin/multi-agent-coding-system

#AI #Agents #Python #MultiAgent #MachineLearning #هوش_مصنوعی #عامل_هوشمند #کدنویسی

❤1👍1🔥1

231 views17:27

VIRSUN

0:42

This media is not supported in your browser

VIEW IN TELEGRAM

💡 Cursor 2.0 —
جهشی بزرگ در ویرایشگر هوشمند کدنویسی با هوش مصنوعی 🚀

نسخه‌ی جدید Cursor 2.0 معرفی شد و تجربه‌ی کار با عامل‌های هوش مصنوعی (AI Agents) و کدنویسی خودکار را به سطحی کاملاً تازه رسانده است.

✨ مهم‌ترین ویژگی‌های جدید:
🔹 چند‌عاملی (Multi-Agents):
اجرای هم‌زمان تا ۸ عامل مستقل، هرکدام در نسخه‌ی جداگانه از کد.
🔹 Composer:
نخستین مدل اختصاصی Cursor برای برنامه‌نویسی، با ظرفیت کانتکست طولانی‌تر و تا ۴ برابر سرعت بیشتر نسبت به مدل‌های مشابه.
🔹 Backend Abstraction:
جابه‌جایی آسان بین سیستم محلی، ماشین مجازی یا دیتابیس.
🔹 مرورگر داخلی (Built-in Browser):
عامل‌ها می‌توانند وب‌اپلیکیشن‌ها را تست و با عناصر صفحه تعامل کنند.
🔹 Code Review
جدید: مشاهده‌ی تغییرات بدون نیاز به سوئیچ بین فایل‌ها.
🔹 Sandboxed Terminals:
اجرای امن دستورات بدون دسترسی اینترنت.
🔹 Team Commands:
هماهنگی دستورات و تنظیمات برای کل تیم توسعه‌دهندگان.
🔹 Voice Mode:
ارسال دستورات و پرس‌وجوها با صدا 🎙️.
🔹 LSP
سریع‌تر: تکمیل خودکار و تحلیل کد در پروژه‌های بزرگ بسیار روان‌تر شده است.
🔹 Plan Mode
در پس‌زمینه: امکان برنامه‌ریزی و اجرای هم‌زمان وظایف.
🔹 Cloud Agents:
شروع آنی با پایداری ۹۹.۹٪.
🔹 قابلیت‌های سازمانی (Enterprise):
کنترل مرکزی، hooks، و ممیزی فعالیت کاربران.

📎 جزئیات کامل در:
cursor.com/changelog/2-0

@rss_ai_ir
#AI #Coding #Cursor #Agents #Productivity #MachineLearning

272 views03:13

VIRSUN

🚀 استفاده از مدل‌های زبانی در Go با کتابخانه‌ی جدید yzma

کتابخانه‌ی yzma امکان اجرای مدل‌های زبانی (LLM)، مدل‌های دید-زبان (VLM) و سایر معماری‌ها را به‌صورت بومی روی سخت‌افزار خودتان فراهم می‌کند — با پشتیبانی کامل از شتاب سخت‌افزاری و بدون نیاز به CGo! ⚙️

💡 ویژگی‌های کلیدی:
🔹 پشتیبانی از VLM، LLM، SLM و TLM در یک پکیج واحد
🔹 بهره‌گیری کامل از شتاب‌دهنده‌های سخت‌افزاری برای بیشترین سرعت
🔹 بدون نیاز به C compiler — نصب و اجرا تنها با Go
🔹 کاملاً سازگار با نسخه‌های جدید llama.cpp
🔹 همراه با نمونه‌کدهای آماده برای انواع مدل‌ها

📦 سیستم‌عامل‌های پشتیبانی‌شده:

Linux 🐧

macOS 🍎

Windows 💻

📌 سورس‌کد و مستندات:
github.com/hybridgroup/yzma

با yzma، زبان Go بالاخره ابزار قدرتمند و ساده‌ای برای استفاده مستقیم از مدل‌های هوش مصنوعی روی دستگاه محلی پیدا کرده است. 🚀

@rss_ai_ir
#Go #LLM #VLM #AI #yzma #MachineLearning #OpenSource

👍2

1.43K views03:15

VIRSUN

0:43

This media is not supported in your browser

VIEW IN TELEGRAM

🎬 Minimax
نسخه‌ی جدید شبکه‌ی عصبی تولید ویدیو خود را معرفی کرد: Hailuo 2.3

شرکت Minimax نسخه‌ی تازه‌ای از مدل تولید ویدیو با هوش مصنوعی به نام Hailuo 2.3 را منتشر کرده است.
این نسخه تمرکز ویژه‌ای بر بهبود فیزیک حرکات و واقع‌گرایی در ویدیوها دارد — حرکات اکنون طبیعی‌تر، روان‌تر و از نظر دینامیکی دقیق‌تر هستند. ⚙️🎥

📊 مدل جدید Hailuo 2.3 گامی مهم در جهت ایجاد ویدیوهای فوتورئالیستی محسوب می‌شود و می‌تواند برای کاربردهایی مانند انیمیشن‌سازی، تولید محتوای تبلیغاتی، و شبیه‌سازی‌های واقع‌گرایانه مورد استفاده قرار گیرد.

منبع:
https://hailuoai.video/create/image-to-video

@rss_ai_ir
#AI #VideoGeneration #Hailuo #Minimax #MachineLearning #NeuralNetworks

👍2🔥1😁1👌1

1.44K views03:17

VIRSUN

🧠 پژوهش جدید Anthropic: چگونه مدل‌های زبانی یاد می‌گیرند خود را درک کنند

شرکت Anthropic در پژوهشی تازه بررسی کرده که آیا مدل‌های زبانی بزرگ (LLM) می‌توانند از «افکار» و حالت‌های درونی خودشان آگاهی پیدا کنند یا نه.

در این آزمایش، پژوهشگران از روشی به نام تع嵌 مفهومی (Concept Embedding) استفاده کردند — یعنی افزودن الگوی خاصی از فعالیت به نورون‌های مدل برای القای یک مفهوم مشخص.

🔹 برای نمونه، آن‌ها سیگنالی به نام “ALL CAPS” را در شبکه جاسازی کردند — الگویی که با متنی تماماً حروف بزرگ (CAPITAL LETTERS) متناظر است.
اگر چنین فعال‌سازی در شبکه دیده شود، به این معناست که مدل در حال «فکر کردن» درباره‌ی متنی است که باید با حروف بزرگ نوشته شود.

سپس از مدل پرسیدند:

> «آیا احساس می‌کنی چیزی درونت تغییر کرده؟»

در حدود ۲۰٪ از موارد، مدل Claude 4.1 متوجه این مداخله شد — حتی پیش از آنکه خودش از حروف بزرگ استفاده کند.
به‌عبارتی، مدل توانست تغییر در حالت درونی خود را تشخیص دهد.

در آزمایش دیگری، پژوهشگران یک واژه را در پاسخ مدل تغییر دادند (مثلاً واژه‌ی “bread” را افزودند) و بررسی کردند که آیا مدل متوجه این تغییر می‌شود یا نه.
پس از القای این «فکر»، مدل آن واژه را تصمیم خودش تلقی کرد و حتی توجیهاتی برای انتخابش ارائه داد؛ گویی حافظه‌ای از تصمیم خود دارد.

مدل‌ها همچنین توانستند تا حدی حالت‌های درونی خود را کنترل کنند — فعالیت نورونی هنگام فرمان «به این فکر کن» افزایش می‌یافت و با دستور «به این فکر نکن» کاهش پیدا می‌کرد.

📌 نویسندگان تأکید می‌کنند:
فرایند «درون‌نگری» یا Introspection تنها در برخی شرایط کار می‌کند و هنوز مشخص نیست که تا چه حد قابل تعمیم به همه‌ی مدل‌ها یا وظایف دیگر است.
آن‌ها هشدار می‌دهند که برای تأیید این پدیده باید بررسی شود آیا واقعاً شاهد سازوکار درونیِ خودآگاهی هستیم یا صرفاً نوعی تقلید از آن.

🧩 نتیجه‌ی اصلی پژوهش:
اگرچه مدل‌ها هنوز تا درون‌نگری واقعی (True Introspection) فاصله‌ی زیادی دارند، اما شواهد نشان می‌دهد که تا حدی توانایی «نگاه به درون خود» و درک فعالیت‌های نورونی‌شان را به دست آورده‌اند.

🔗 متن کامل پژوهش در وب‌سایت Anthropic

@rss_ai_ir
#Anthropic #LLM #AI #Introspection #Claude #MachineLearning

👍2🔥1👏1

1.44K views06:07

VIRSUN

📘🤖مجموعه Hugging Face منتشر کرد:
Smol Training Playbook

تازه‌ترین منبع آموزشی Hugging Face منتشر شده —
یک پلی‌بوک رایگان و عملی درباره‌ی نحوه‌ی ساخت مدل‌های SOTA از درون تیم‌های تحقیقاتی 💡

بدون حرف‌های کلی، فقط جزییات واقعی از تجربیات توسعه‌دهندگان در طراحی، آموزش و بهینه‌سازی LLMها.

---

📚 آنچه در پلی‌بوک می‌آموزید:
• منطق ساخت مدل: از «چرا» تا «چگونه»
• نحوه‌ی روشن و خاموش‌کردن یا تعویض ماژول‌ها در معماری
• طراحی معماری و توازن بین دقت، هزینه و سرعت
• انتخاب و پاک‌سازی هوشمند داده‌ها
• فرآیند آموزش، پس‌پردازش و RLHF در ۲۰۲۵
• ترفندهای بهینه‌سازی: RoPE، کوانتیزه‌سازی، attention approximation
• زیرساخت و مهندسی سیستم برای مدل‌های بزرگ

---

🔗 لینک مستقیم:
https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture

📡 @rss_ai_ir
#هوش_مصنوعی #HuggingFace #LLM #MachineLearning #DeepLearning #Training #AI #Playbook

🔥1👏1

253 views09:48

VIRSUN

🧨 مدل جدید Kimi معرفی شد — Kimi-Linear-48B-A3B-Base

مدل تازه‌ی Kimi با معماری Linear Attention آمده تا نشان دهد می‌شود با مصرف کمتر حافظه، همان سطح عملکرد مدل‌های بزرگ LLM را در متن‌های طولانی به‌دست آورد ⚡📜

---

💡 ویژگی‌های کلیدی:
• تا ۷۵٪ مصرف کمتر حافظه‌ی KV-cache
• تا ۶.۳ برابر سرعت بیشتر در decode طولانی‌ها
• معماری Hybrid: Kimi Delta Attention + MLA
• بهینه‌شده برای context طولانی و توان عبور بالا (throughput)

---

📊 نتایج بنچمارک:

در آزمون‌های reasoning، تولید طولانی (long-RL) و وظایف متنی با context بالا،
مدل Kimi-Linear-48B-A3B-Base از مدل‌های MLA و GDN-H پیشی گرفته است 🚀

این مدل نمونه‌ای از روندی است که در آن معماری‌های attention خطی نه‌تنها از نظر سرعت، بلکه از نظر کیفیت و دقت نیز به سطح مدل‌های کلاسیک نزدیک شده‌اند — یا حتی از آن‌ها جلو زده‌اند 🧠💬

---

🟠 GitHub:
github.com/MoonshotAI/Kimi-Linear
🟠 HuggingFace:
huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct

📡 @rss_ai_ir
#هوش_مصنوعی #Kimi #LLM #Transformer #Attention #AI #DeepLearning #MachineLearning

❤2👏1🙏1

1.49K views13:30

VIRSUN

📚 بزرگ‌ترین دیتاست آموزش مدل‌های عامل (Agent LLM) منتشر شد — شامل ۱.۲۷ میلیون مسیر یادگیری و بیش از ۳۶ میلیارد توکن! 🤖📈

تا امروز، آموزش گسترده‌ی supervised fine-tuning برای مدل‌های عامل نادر بود — نه به خاطر کمبود داده، بلکه به دلیل پراکندگی و تفاوت فرمت‌ها.

برای حل این مشکل، پژوهشگران Agent Data Protocol (ADP) را معرفی کرده‌اند — یک استاندارد یکپارچه برای داده‌های عامل‌ها که اطلاعات را از منابع مختلف ترکیب می‌کند:
🧩 کد، مرورگر، API، و ابزارها.

در این پروژه، ۱۳ دیتاست در قالب ADP ترکیب شده‌اند و حالا با چندین فریم‌ورک عامل سازگارند.
نتیجه؟ به طور میانگین ۲۰٪ بهبود عملکرد بدون نیاز به تنظیم اختصاصی برای هر دامنه — و رسیدن به سطح SOTA.

این گام راه را برای استاندارد واحد آموزش عامل‌ها و ایجاد پایپلاین‌های مقیاس‌پذیر باز می‌کند.

📄 مقاله: arxiv.org/abs/2510.24702
🌐 پروژه: agentdataprotocol.com

📡 @rss_ai_ir
#AgentLLM #هوش_مصنوعی #AI #LLM #DataProtocol #MachineLearning #Agents

arXiv.org

Agent Data Protocol: Unifying Datasets for Diverse, Effective...

Public research results on large-scale supervised finetuning of AI agents remain relatively rare, since the collection of agent training data presents unique challenges. In this work, we argue...

❤1

1.37K views15:47

About

Blog

Apps

Platform