VIRSUN
7.05K subscribers
1.09K photos
641 videos
5 files
713 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
👏 پژوهش فوق‌العاده از NVIDIA و MIT

پژوهشگران دو مؤسسه NVIDIA و MIT روش جدیدی برای آموزش مدل‌های زبانی بزرگ با یادگیری تقویتی ارائه کرده‌اند —
این روش با نام QeRL (Quantization-enhanced Reinforcement Learning) شناخته می‌شود.

💡 ایده اصلی:
استفاده از وزن‌های ۴ بیتی و نویز تطبیقی (adaptive noise) در طول آموزش با یادگیری تقویتی،
که باعث می‌شود مدل‌ها سریع‌تر و کم‌هزینه‌تر یاد بگیرند.

📈 نتیجه:
تا ۱.۵ برابر افزایش سرعت rollout‌ها
و امکان آموزش کامل یک مدل ۳۲ میلیارد پارامتری روی تنها یک کارت H100 (80GB)!

📘 توضیح کوتاه:
در یادگیری تقویتی، rollout یعنی اجرای کامل یک اپیزود — از شروع تا پایان — برای ارزیابی عملکرد مدل و تخصیص پاداش.
این مرحله معمولاً کند و پرمصرف است.

🔧 نوآوری QeRL:

♻️استفاده از وزن‌های NVFP4 با کمک Marlin

♻️نگهداری LoRA فقط برای گرادیان‌ها (صرفه‌جویی در حافظه)

♻️استفاده از یک نسخه‌ی ۴ بیتی از سیاست (policy) برای هر دو مرحله‌ی rollout و scoring — بدون تکرار حافظه


🧠 مزیت کلیدی:
افزودن نویز تطبیقی به وزن‌های کوانتیزه‌شده باعث افزایش تنوع (entropy) در خروجی‌ها می‌شود —
مدل بهتر فضای پاسخ را کاوش می‌کند.
با کاهش تدریجی نویز، پایداری حفظ می‌شود و همه چیز با RMSNorm ادغام می‌گردد — بدون اضافه شدن پارامتر جدید.

📊 نتایج آزمایشی:

پاداش‌ها سریع‌تر رشد می‌کنند

دقت برابر یا بالاتر از مدل‌های LoRA و QLoRA با دقت ۱۶ بیت


خلاصه:
سریع‌تر، کم‌هزینه‌تر و بهینه‌تر از روش‌های قبلی.
اکنون می‌توان مدل‌های بزرگ را واقعاً روی تنها یک GPU آموزش داد.

📄 متن کامل مقاله

#NVIDIA #MIT #QeRL #ReinforcementLearning #LLM #Quantization #AIResearch #MachineLearning #DeepLearning
🌟 NVIDIA OmniVinci —
مدل چندوجهی که رکوردها را شکست!

مدل OmniVinci مدلی است که می‌تواند به‌صورت هم‌زمان متن، تصویر، ویدیو و صدا را درک و پردازش کند — یک گام بزرگ در مسیر هوش مصنوعی چندوجهی (Multimodal AI).

با وجود اینکه فقط بر روی ۲۰۰ میلیارد توکن آموزش دیده (در حالی‌که مدل Qwen2.5-Omni روی ۱.۲ تریلیون توکن آموزش دیده بود!)، عملکردی به‌مراتب بهتر و کارآمدتر از رقبا دارد. این موفقیت به لطف نوآوری‌های معماری و آماده‌سازی دقیق داده‌ها به دست آمده است.


---

🔧 سه مؤلفه کلیدی OmniVinci:

🟢 Temporal Embedding Grouping (TEG)
نقشه‌برداری توکن‌های ویدیو و صدا بر اساس زمان وقوع رویدادها.

🟢 Constrained Rotary Time Embedding (CRTE)
رمزگذاری دقیق زمان مطلق برای داده‌های ترتیبی.

🟢 OmniAlignNet
هم‌ترازسازی بردارهای صوت و تصویر در یک فضای مشترک با استفاده از یادگیری تقابلی (contrastive learning).

📊 آزمایش‌های حذف مؤلفه‌ها نشان دادند که هر بخش تأثیر قابل‌توجهی دارد:

مدل پایه: 45.51 امتیاز

با TEG → 47.72 (+2.21)

با CRTE → 50.25 (+4.74)

با OmniAlignNet → 52.59 (+7.08 نسبت به پایه)

---

🧠 داده‌های آموزشی:
۲۴ میلیون دیالوگ که با کمک یک مدل LLM تحلیل و ادغام شده‌اند تا توضیحات چندوجهی منسجم تولید شود.

ترکیب داده‌ها:
📸 تصاویر — ۳۶٪
🎧 صدا — ۲۱٪
🗣 گفتار — ۱۷٪
⚙️ داده‌های ترکیبی — ۱۵٪
🎬 ویدیو — ۱۱٪
---
🏆 نتایج در بنچمارک‌ها:

Worldsense: 48.23 در مقابل 45.40 (Qwen2.5-Omni)

DailyOmni: 66.50 در مقابل 47.45

MMAR: 58.40

MMAU: 71.60

WER (LibriSpeech-clean): فقط 1.7٪


در کاربرد صنعتی (تشخیص عیوب در ویفرهای نیمه‌رسانا):

همچنین OmniVinci به دقت 98.1٪ رسید
— بهتر از NVILA (97.6%) و بسیار بالاتر از مدل بزرگ‌تر VILA (90.8%).


---

📜 مجوزها:

کد منبع: Apache 2.0 License

مدل: NVIDIA One Way Noncommercial License


🔗 منابع:
🟡 صفحه پروژه
🟡 مدل
🟡 مقاله در Arxiv
🖥 GitHub


@rss_ai_ir

#هوش_مصنوعی #NVIDIA #OmniVinci #مولتی_مودال #DeepLearning #AI #MachineLearning #Vision #Speech #MultimodalAI
🔥1👏1
🌵 تشخیص نقاط کلیدی متراکم All-in-One 🌵

📍 مدل DeepDetect یک مدل نوآورانه است که به‌عنوان یک تشخیص‌دهنده‌ی نقاط کلیدی (Dense Keypoints Detector) طراحی شده و قدرت چندین الگوریتم کلاسیک مانند:

🔹 SIFT
🔹 ORB
🔹 BRISK
🔹 FAST
🔹 AGAST
🔹 Harris
🔹 Shi-Tomasi
🔹 Canny & Sobel

را در قالب یک شبکه عصبی واحد ترکیب می‌کند.

💬 نویسندگان می‌گویند: این مدل، بازآفرینی عاشقانه‌ای از تمام تکنیک‌های قدیمی در قالب یادگیری عمیق است — و نام آن هم واقعاً برازنده است: DeepDetect.

💙 مجوز: MIT License

🔗 لینک‌ها:
👉 مقاله (arXiv)
👉 مخزن GitHub

#هوش_مصنوعی #بینایی_ماشین #DeepLearning #Keypoints #ComputerVision #SIFT #ORB #NeuralNetworks #AIResearch
This media is not supported in your browser
VIEW IN TELEGRAM
🌐 احتمال معرفی مرورگر جدید توسط OpenAI

به‌نظر می‌رسد امروز OpenAI قرار است مرورگر اختصاصی خود را معرفی کند — چون ساعاتی پیش ویدئویی مرموز در حساب رسمی توییتر شرکت منتشر شده است 🎥

شایعات درباره‌ی این مرورگر مدت‌هاست که شنیده می‌شود، اما جالب اینجاست که در دو ماه اخیر هیچ نشت اطلاعاتی نداشتیم — برخلاف همیشه که معمولاً یک هفته قبل از معرفی، اطلاعات لو می‌رود.

📺 پخش زنده (استریم) تا دو ساعت دیگر آغاز می‌شود.
در این میان، Perplexity Comet کمی نگران به‌نظر می‌رسد 😄 و بعضی کاربران شوخی می‌کنند که آماده‌ی حذف Arc هستند!

@rss_ai_ir

#OpenAI #Browser #AI #TechNews #ChatGPT #Perplexity #Arc
👍2🔥1
🎙️ VoxCPM —
سامانه‌ای نوآورانه برای تبدیل متن به گفتار (TTS)


⛔️سیستم VoxCPM یک سیستم پیشرفته‌ی تبدیل متن به گفتار بدون نیاز به توکنیزیشن (Tokenization-Free TTS) است که می‌تواند گفتار را به‌صورت آگاه از بافت (Context-Aware) و با کلون‌سازی دقیق صدا تولید کند.

این مدل از معماری دیفیوزنی (Diffusion Architecture) برای ایجاد نمایش‌های پیوسته از گفتار استفاده می‌کند — نتیجه‌ی آن بیان طبیعی‌تر، پایداری بیشتر و صدایی بسیار شبیه انسان است.

🚀 ویژگی‌های کلیدی:
تولید گفتار با لحن طبیعی و آگاهی از متن و بافت.
شبیه‌سازی دقیق صدای فرد فقط با چند نمونه کوتاه.
کارایی بالا در پردازش گفتار و پشتیبانی از استریم زنده (Streaming).

📌 منبع باز (Open Source):

🔗 GitHub - OpenBMB/VoxCPM

#هوش_مصنوعی #TTS #SpeechSynthesis #VoxCPM #Diffusion #AI #Python #VoiceCloning
This media is not supported in your browser
VIEW IN TELEGRAM
🦾 Sharpa Robotics
آغاز تولید انبوه دست رباتیک SharpaWave

شرکت Sharpa Robotics با معرفی نسخه‌ی نهایی دست رباتیک SharpaWave وارد مرحله‌ی تولید انبوه شد — مدلی که در کنفرانس ICRA 2025 مورد تحسین قرار گرفت.

🤖 این سامانه یک دست فوق‌دقیق با ابعادی کاملاً برابر با دست انسان است و دارای ۲۲ درجه آزادی (DOF) می‌باشد، که امکان حرکات بسیار ظریف و طبیعی را فراهم می‌کند.

⚙️ نوآوری کلیدی:
فناوری Dynamic Tactile Array (DTA) — هر انگشت به پنل لمسی مجهز است که شامل بیش از ۱۰۰۰ حسگر لمسی با دقت زیر میلی‌متر می‌باشد.
این ویژگی به ربات اجازه می‌دهد در زمان واقعی، بافت و جنس اشیاء را حس کرده و تحلیل کند.

✳️همچنین SharpaWave گامی بزرگ به سوی ربات‌هایی است که نه‌تنها می‌بینند، بلکه احساس هم می‌کنند.

——————————
✔️ دنبال کنید: بهترین کانال درباره‌ی دنیای ربات‌ها و نوآوری‌ها
@rss_ai_ir

#SharpaWave #Robotics #AI #ICRA2025 #TactileSensing #RobotHand #Innovation #هوش_مصنوعی #رباتیک #ربات #فناوری
This media is not supported in your browser
VIEW IN TELEGRAM
🎨 «تکامل یادگیری عمیق» — انیمیشنی هنری درباره‌ی تاریخ هوش مصنوعی

یک هنرمند با انتشار اثری به‌نام “Evolution of Deep Learning by Hand” روند تکامل یادگیری عمیق را به‌زیبایی به تصویر کشیده است.

👁️ در این انیمیشن، مسیر از اولین نورون‌های مصنوعی تا معماری‌های پیچیده‌ی امروزی به‌صورت دستی ترسیم شده و بیننده را با تاریخچه‌ی شکل‌گیری دنیای مدرن شبکه‌های عصبی آشنا می‌کند.

هدف اثر — ادای احترام به جفری هینتون، یکی از بنیان‌گذاران یادگیری عمیق و برنده‌ی جایزه نوبل، که با ایده‌هایش راه را برای نسل جدید هوش مصنوعی هموار کرد.

#DeepLearning #AI #NeuralNetworks #Animation #Hinton #ArtTech #هوش_مصنوعی #یادگیری_عمیق #هنر_دیجیتال #تاریخ_فناوری
👍2🔥1💩1
💻 Anthropic

قابلیت جدید «Claude Code on the Web» را معرفی کرد!

اکنون می‌توانید وظایف برنامه‌نویسی را مستقیماً از طریق مرورگر به Claude بسپارید — بدون نیاز به ترمینال یا محیط IDE.
این قابلیت در حال حاضر به‌صورت نسخه‌ی آزمایشی (research preview) عرضه شده و در زیرساخت ابری Anthropic کار می‌کند.

⚙️ ویژگی‌های اصلی:

🚀 اجرای هم‌زمان چند پروژه در ریپازیتوری‌های مختلف

📊 نمایش پیشرفت کار به‌صورت لحظه‌ای

🪄 ایجاد خودکار Pull Request با توضیحات شفاف درباره‌ی تغییرات

🧠 پاسخ‌گویی به سؤالات مربوط به ساختار و معماری پروژه‌ها


💡 کاربرد ایده‌آل برای:

♻️رفع باگ‌ها و انجام کارهای تکراری
♻️تغییرات بک‌اند با امکان تست خودکار
♻️تحلیل ساختار کد و وابستگی‌های پروژه


📱 نسخه‌ی iOS هم منتشر شده — می‌توانید با Claude از روی موبایل کدنویسی کنید (فعلاً در مرحله‌ی early preview برای جمع‌آوری بازخورد).

🔒 امنیت بالا:
هر تسک در محیطی ایزوله (sandbox) اجرا می‌شود، با محدودیت شبکه و فایل‌سیستم.
ارتباطات Git از طریق پراکسی امن انجام می‌شود، بنابراین Claude فقط به ریپازیتوری‌های مجاز دسترسی دارد.
می‌توانید قوانین سفارشی شبکه بسازید، مثلاً برای دانلود پکیج‌های npm جهت اجرای تست‌ها.

🟢 دسترسی:
برای کاربران Pro و Max در claude.com/code فعال است.
سهمیه‌ی استفاده بین تمام قابلیت‌های Claude Code مشترک است.

📘 منابع رسمی:
🔗 جزئیات فنی Sandbox
🔗 مستندات کامل

#Claude #Anthropic #AI #Programming #LLM #AItools #Automation #کدنویسی #هوش_مصنوعی
This media is not supported in your browser
VIEW IN TELEGRAM
🌍 RTFM:
مدل جدید WorldLab برای تولید دنیای تعاملی

مدل WorldLab که قبلاً چندین بار درباره‌اش صحبت شده بود، حالا دموی جدیدی از مدل RTFM (Real-Time Frame Model) منتشر کرده که حتماً باید امتحان کنید.

ویژگی‌های اصلی:

🔁 حافظه‌ی بی‌نهایت (infinite context)

🎨 اسکین‌های غیر فتو‌ریالیستی با سبک‌های متنوع

🌐 تولید یک دنیای کامل فقط از یک تصویر و یک پرامپت


🔗 دموی تعاملی:
rtfm.worldlabs.ai
(فعلاً فقط تصاویر از کتابخانه داخلی پشتیبانی می‌شود.)

📖 مقاله‌ی رسمی:
worldlabs.ai/blog/rtfm


---

💡 مسئله‌ی اصلی:
تولید «جهان‌های زنده» به کمک مدل‌های مولد به مراتب پرهزینه‌تر از LLMهاست.
اگر بخواهیم مثل مدل‌های ویدئویی فعلی کار کنیم، برای رندر یک ویدئوی 4K با نرخ ۶۰ فریم بر ثانیه باید بیش از ۱۰۰ هزار توکن در ثانیه تولید شود — تقریباً به اندازه‌ی کل رمان «فرانکشتاین»!
برای تعامل یک‌ساعته نیز نیاز به بیش از ۱۰۰ میلیون توکن حافظه داریم — از نظر اقتصادی و سخت‌افزاری غیرممکن است.


---

⚙️ نوآوری WorldLab در RTFM:
✳️این مدل فقط روی یک GPU از نوع H100 اجرا می‌شود و تجربه‌ی تعاملی روان ارائه می‌دهد.

راز کار در این است که به‌جای ذخیره‌ی تمام فریم‌ها، فقط موارد زیر نگهداری می‌شوند:

♻️زاویه‌های دوربین
♻️متادیتا
♻️چند فریم اطراف زاویه فعلی (cache هوشمند)
♻️اگر زاویه به‌طور قابل توجهی تغییر کند، مدل فریم‌ها را از نو می‌سازد — صرفه‌جویی عظیم در حافظه!


---

🎥 نتیجه:
مدل RTFM می‌تواند صحنه‌هایی با جزئیات بالا، بازتاب‌ها، سطوح براق، سایه‌ها و نورهای طبیعی تولید کند.
در ابتدای هر شات ممکن است اندکی آرتیفکت دیده شود، اما کیفیت و عمق صحنه آن‌قدر چشم‌گیر است که این جزئیات کوچک به چشم نمی‌آیند.


---

📌 جمع‌بندی:
WorldLab با RTFM نشان می‌دهد که آینده‌ی مدل‌های مولد نه فقط در تولید تصویر یا ویدئو، بلکه در خلق دنیای واقعی تعاملی در لحظه است.

@rss_ai_ir

#AI #WorldLab #RTFM #GenerativeAI #3D #Simulation #Realtime #هوش_مصنوعی #مدل_مولد #جهان_مجازی
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 SAM 2++:
رهگیری هرچیز در هر سطحی! 🔥

🧠 مدل SAM 2++ نسخه‌ای پیشرفته از سیستم Segment Anything است که به‌صورت یکپارچه می‌تواند اشیاء را در هر سطحی (ماسک، باکس یا نقطه) رهگیری کند.
نتایج اولیه بسیار چشمگیر هستند — اما متأسفانه هنوز کد آن منتشر نشده 😢

📘 جزئیات بیشتر:
🔹 مقاله: arxiv.org/pdf/2510.18822
🔹 پروژه: tracking-any-granularity.github.io
🔹 ریپازیتوری: 😞 هنوز منتشر نشده

@rss_ai_ir

#AI #SAM #Segmentation #Tracking #ComputerVision #DeepLearning #هوش_مصنوعی #بینایی_ماشین
1
👁️ کاشت چشم الکترونیکی + عینک واقعیت افزوده بینایی را در بیماران دچار تحلیل ماکولا بازگرداند!

در یک کارآزمایی بالینی پیشگامانه، پژوهشگران از دانشگاه کالج لندن (UCL) و بیمارستان چشم Moorfields موفق شدند بینایی خواندن را در ۸۴٪ از بیماران مبتلا به تحلیل ماکولای خشک وابسته به سن (AMD) بازیابی کنند.

🔬 این فناوری ترکیبی از یک ایمپلنت شبکیه‌ای فوق‌نازک (PRIMA) و عینک واقعیت افزوده است که با نور مادون قرمز نزدیک (NIR) فعال می‌شود.

💡 نتیجه: افرادی که بینایی مرکزی خود را از دست داده بودند، حالا می‌توانند دوباره بخوانند — بدون از دست دادن محسوس دید محیطی. این دستاورد، گامی بزرگ در درمان مواردی است که تاکنون درمان‌ناپذیر محسوب می‌شدند.

🌍 در این مطالعه، ۳۸ بیمار از پنج کشور شرکت داشتند، و نتایج، امید تازه‌ای برای میلیون‌ها نفر با بیماری‌های تحلیل بینایی ایجاد کرده است.

📄 منبع:
Medical Xpress

@rss_ai_ir

#پزشکی #هوش_مصنوعی #بینایی #واقعیت_افزوده #ایمپلنت #AR #NeuroTech #BioTech
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 هوش مصنوعی متن‌باز با سرعتی بی‌سابقه در حال پیشرفت است — و حالا NVIDIA پیشتاز شده! ⚡️

انویدیا اکنون در صدر مشارکت‌های جهانی AI متن‌باز قرار دارد و با انتشار مجموعه‌ای از مدل‌های بزرگ مانند:

🧠 Nemotron، 🧬 BioNeMo، 🌌 Cosmos و 🤖 Gr00t،

در حال بازتعریف نحوه‌ی توسعه و اشتراک‌گذاری مدل‌های هوش مصنوعی در سراسر دنیاست.
این حرکت نه‌تنها صنعت را متحول می‌کند، بلکه مرز بین مدل‌های اختصاصی و متن‌باز را هم از بین می‌برد.
بی‌نظیر! 🔥

@rss_ai_ir

#NVIDIA #AI #OpenSource #Nemotron #BioNeMo #Cosmos #Gr00t #هوش_مصنوعی #متن_باز #DeepLearning #MachineLearning
This media is not supported in your browser
VIEW IN TELEGRAM
😅 مردی که در پس‌زمینه ایستاده، دارد تماشا می‌کند که شغلش در حال ناپدید شدن است…

هوش مصنوعی دوباره بی‌رحمانه حمله کرد ⚙️💥

@rss_ai_ir

#هوش_مصنوعی #Automation #AI #کار #فناوری #JobLoss #FutureOfWork
🕊3
🌍 تنسنت نسخه جدید مدل بازسازی سه‌بعدی خود را منتشر کرد — Hunyuan World 1.1 (WorldMirror)

نسخه‌ی قبلی Hunyuan World 1.0 می‌توانست تنها با یک تصویر یا توضیح متنی صحنه‌های سه‌بعدی بسازد — حتی روی کارت‌های گرافیک معمولی!
اما حالا نسخه‌ی جدید 1.1 یک جهش بزرگ کرده و قادر است جهان‌های سه‌بعدی را از ویدیو یا تصاویر چندزاویه‌ای بازسازی کند. 🎥🧠

🔹 ورودی‌های متنوع:
مدل می‌تواند با هر نوع داده کار کند — ویدیو، عکس، نقشه‌های عمق (Depth Maps)، توضیحات حرکتی (Pose) و حتی پارامترهای دوربین.
بازسازی هندسه صحنه با دقت بالا و بدون اعوجاج انجام می‌شود.

🔹 خروجی‌های کامل:
نتیجه می‌تواند شامل باشد:

♻️ابر نقاط متراکم (Dense Point Clouds)
♻️نقشه‌های عمق
♻️نرمال‌های سطح
♻️پارامترهای دوربین
♻️و حتی 3D Gaussian Splatting آماده برای رندر.


🔹 سرعت فوق‌العاده:
مدل کاملاً feed-forward است و تنها با یک گذر روی GPU، صحنه را در چند ثانیه بازسازی می‌کند ⚡️

🔗 پروژه:
3d-models.hunyuan.tencent.com/world

💻 GitHub:
Tencent-Hunyuan/HunyuanWorld-Mirror

🤗 HuggingFace:
tencent/HunyuanWorld-Mirror
🧪 دمو:
HuggingFace Space
📄 گزارش فنی:
HYWorld Mirror Tech Report

@rss_ai_ir

#هوش_مصنوعی #3D #تنسنت #مدلسازی_سه‌بعدی #واقعیت_مجازی #گیمینگ #OpenSource #AI #VR
🧠 Qwen3-VL-2B-Thinking —
نسخه کوچک اما هوشمند مدل چندحالته‌ی Qwen، مخصوص استدلال و تحلیل منطقی

این نسخه‌ی فشرده از خانواده‌ی Qwen3-VL برای تفکر عمیق، تحلیل داده و کاربردهای عامل‌محور (Agent-based) طراحی شده است.

در سری Qwen-VL دو حالت کلیدی وجود دارد:
🔹 Instruct —
برای گفتگوها و پاسخ به دستورها
🔹 Thinking —
برای منطق، برنامه‌نویسی و حل مسائل پیچیده

ویژگی‌ها:

ساختار چندحالته (Multimodal): درک هم‌زمان متن و تصویر، تحلیل محتوا و کشف روابط علت و معلولی

بهینه‌شده برای وظایف استدلالی، جایی که تمرکز روی فرآیند تفکر و نتیجه‌گیری است، نه صرفاً تولید متن

تنها با ۲ میلیارد پارامتر، به‌راحتی روی GPUهای محلی یا محیط‌های ابری قابل اجراست

پشتیبانی از Tool Calling و ادغام با چارچوب‌های عامل‌محور (Agent Frameworks)


📘 نتیجه:
مدلی کوچک، سریع و درعین‌حال قدرتمند برای تفکر و تحلیل — گزینه‌ای عالی برای پروژه‌های سبک و هوشمند 💡

🔗 مشاهده در Hugging Face

@rss_ai_ir

#هوش_مصنوعی #Qwen #Qwen3VL #Reasoning #LLM #OpenSource #Multimodal #AI
👍1