👏 پژوهش فوقالعاده از NVIDIA و MIT
پژوهشگران دو مؤسسه NVIDIA و MIT روش جدیدی برای آموزش مدلهای زبانی بزرگ با یادگیری تقویتی ارائه کردهاند —
این روش با نام QeRL (Quantization-enhanced Reinforcement Learning) شناخته میشود.
💡 ایده اصلی:
استفاده از وزنهای ۴ بیتی و نویز تطبیقی (adaptive noise) در طول آموزش با یادگیری تقویتی،
که باعث میشود مدلها سریعتر و کمهزینهتر یاد بگیرند.
📈 نتیجه:
تا ۱.۵ برابر افزایش سرعت rolloutها
و امکان آموزش کامل یک مدل ۳۲ میلیارد پارامتری روی تنها یک کارت H100 (80GB)!
📘 توضیح کوتاه:
در یادگیری تقویتی، rollout یعنی اجرای کامل یک اپیزود — از شروع تا پایان — برای ارزیابی عملکرد مدل و تخصیص پاداش.
این مرحله معمولاً کند و پرمصرف است.
🔧 نوآوری QeRL:
♻️استفاده از وزنهای NVFP4 با کمک Marlin
♻️نگهداری LoRA فقط برای گرادیانها (صرفهجویی در حافظه)
♻️استفاده از یک نسخهی ۴ بیتی از سیاست (policy) برای هر دو مرحلهی rollout و scoring — بدون تکرار حافظه
🧠 مزیت کلیدی:
افزودن نویز تطبیقی به وزنهای کوانتیزهشده باعث افزایش تنوع (entropy) در خروجیها میشود —
مدل بهتر فضای پاسخ را کاوش میکند.
با کاهش تدریجی نویز، پایداری حفظ میشود و همه چیز با RMSNorm ادغام میگردد — بدون اضافه شدن پارامتر جدید.
📊 نتایج آزمایشی:
پاداشها سریعتر رشد میکنند
دقت برابر یا بالاتر از مدلهای LoRA و QLoRA با دقت ۱۶ بیت
⚡ خلاصه:
سریعتر، کمهزینهتر و بهینهتر از روشهای قبلی.
اکنون میتوان مدلهای بزرگ را واقعاً روی تنها یک GPU آموزش داد.
📄 متن کامل مقاله
#NVIDIA #MIT #QeRL #ReinforcementLearning #LLM #Quantization #AIResearch #MachineLearning #DeepLearning
پژوهشگران دو مؤسسه NVIDIA و MIT روش جدیدی برای آموزش مدلهای زبانی بزرگ با یادگیری تقویتی ارائه کردهاند —
این روش با نام QeRL (Quantization-enhanced Reinforcement Learning) شناخته میشود.
💡 ایده اصلی:
استفاده از وزنهای ۴ بیتی و نویز تطبیقی (adaptive noise) در طول آموزش با یادگیری تقویتی،
که باعث میشود مدلها سریعتر و کمهزینهتر یاد بگیرند.
📈 نتیجه:
تا ۱.۵ برابر افزایش سرعت rolloutها
و امکان آموزش کامل یک مدل ۳۲ میلیارد پارامتری روی تنها یک کارت H100 (80GB)!
📘 توضیح کوتاه:
در یادگیری تقویتی، rollout یعنی اجرای کامل یک اپیزود — از شروع تا پایان — برای ارزیابی عملکرد مدل و تخصیص پاداش.
این مرحله معمولاً کند و پرمصرف است.
🔧 نوآوری QeRL:
♻️استفاده از وزنهای NVFP4 با کمک Marlin
♻️نگهداری LoRA فقط برای گرادیانها (صرفهجویی در حافظه)
♻️استفاده از یک نسخهی ۴ بیتی از سیاست (policy) برای هر دو مرحلهی rollout و scoring — بدون تکرار حافظه
🧠 مزیت کلیدی:
افزودن نویز تطبیقی به وزنهای کوانتیزهشده باعث افزایش تنوع (entropy) در خروجیها میشود —
مدل بهتر فضای پاسخ را کاوش میکند.
با کاهش تدریجی نویز، پایداری حفظ میشود و همه چیز با RMSNorm ادغام میگردد — بدون اضافه شدن پارامتر جدید.
📊 نتایج آزمایشی:
پاداشها سریعتر رشد میکنند
دقت برابر یا بالاتر از مدلهای LoRA و QLoRA با دقت ۱۶ بیت
⚡ خلاصه:
سریعتر، کمهزینهتر و بهینهتر از روشهای قبلی.
اکنون میتوان مدلهای بزرگ را واقعاً روی تنها یک GPU آموزش داد.
📄 متن کامل مقاله
#NVIDIA #MIT #QeRL #ReinforcementLearning #LLM #Quantization #AIResearch #MachineLearning #DeepLearning
🌟 NVIDIA OmniVinci —
مدل چندوجهی که رکوردها را شکست!
مدل OmniVinci مدلی است که میتواند بهصورت همزمان متن، تصویر، ویدیو و صدا را درک و پردازش کند — یک گام بزرگ در مسیر هوش مصنوعی چندوجهی (Multimodal AI).
با وجود اینکه فقط بر روی ۲۰۰ میلیارد توکن آموزش دیده (در حالیکه مدل Qwen2.5-Omni روی ۱.۲ تریلیون توکن آموزش دیده بود!)، عملکردی بهمراتب بهتر و کارآمدتر از رقبا دارد. این موفقیت به لطف نوآوریهای معماری و آمادهسازی دقیق دادهها به دست آمده است.
---
🔧 سه مؤلفه کلیدی OmniVinci:
🟢 Temporal Embedding Grouping (TEG)
نقشهبرداری توکنهای ویدیو و صدا بر اساس زمان وقوع رویدادها.
🟢 Constrained Rotary Time Embedding (CRTE)
رمزگذاری دقیق زمان مطلق برای دادههای ترتیبی.
🟢 OmniAlignNet
همترازسازی بردارهای صوت و تصویر در یک فضای مشترک با استفاده از یادگیری تقابلی (contrastive learning).
📊 آزمایشهای حذف مؤلفهها نشان دادند که هر بخش تأثیر قابلتوجهی دارد:
مدل پایه: 45.51 امتیاز
با TEG → 47.72 (+2.21)
با CRTE → 50.25 (+4.74)
با OmniAlignNet → 52.59 (+7.08 نسبت به پایه)
---
🧠 دادههای آموزشی:
۲۴ میلیون دیالوگ که با کمک یک مدل LLM تحلیل و ادغام شدهاند تا توضیحات چندوجهی منسجم تولید شود.
ترکیب دادهها:
📸 تصاویر — ۳۶٪
🎧 صدا — ۲۱٪
🗣 گفتار — ۱۷٪
⚙️ دادههای ترکیبی — ۱۵٪
🎬 ویدیو — ۱۱٪
---
🏆 نتایج در بنچمارکها:
Worldsense: 48.23 در مقابل 45.40 (Qwen2.5-Omni)
DailyOmni: 66.50 در مقابل 47.45
MMAR: 58.40
MMAU: 71.60
WER (LibriSpeech-clean): فقط 1.7٪
در کاربرد صنعتی (تشخیص عیوب در ویفرهای نیمهرسانا):
همچنین OmniVinci به دقت 98.1٪ رسید
— بهتر از NVILA (97.6%) و بسیار بالاتر از مدل بزرگتر VILA (90.8%).
---
📜 مجوزها:
کد منبع: Apache 2.0 License
مدل: NVIDIA One Way Noncommercial License
🔗 منابع:
🟡 صفحه پروژه
🟡 مدل
🟡 مقاله در Arxiv
🖥 GitHub
@rss_ai_ir
#هوش_مصنوعی #NVIDIA #OmniVinci #مولتی_مودال #DeepLearning #AI #MachineLearning #Vision #Speech #MultimodalAI
مدل چندوجهی که رکوردها را شکست!
مدل OmniVinci مدلی است که میتواند بهصورت همزمان متن، تصویر، ویدیو و صدا را درک و پردازش کند — یک گام بزرگ در مسیر هوش مصنوعی چندوجهی (Multimodal AI).
با وجود اینکه فقط بر روی ۲۰۰ میلیارد توکن آموزش دیده (در حالیکه مدل Qwen2.5-Omni روی ۱.۲ تریلیون توکن آموزش دیده بود!)، عملکردی بهمراتب بهتر و کارآمدتر از رقبا دارد. این موفقیت به لطف نوآوریهای معماری و آمادهسازی دقیق دادهها به دست آمده است.
---
🔧 سه مؤلفه کلیدی OmniVinci:
🟢 Temporal Embedding Grouping (TEG)
نقشهبرداری توکنهای ویدیو و صدا بر اساس زمان وقوع رویدادها.
🟢 Constrained Rotary Time Embedding (CRTE)
رمزگذاری دقیق زمان مطلق برای دادههای ترتیبی.
🟢 OmniAlignNet
همترازسازی بردارهای صوت و تصویر در یک فضای مشترک با استفاده از یادگیری تقابلی (contrastive learning).
📊 آزمایشهای حذف مؤلفهها نشان دادند که هر بخش تأثیر قابلتوجهی دارد:
مدل پایه: 45.51 امتیاز
با TEG → 47.72 (+2.21)
با CRTE → 50.25 (+4.74)
با OmniAlignNet → 52.59 (+7.08 نسبت به پایه)
---
🧠 دادههای آموزشی:
۲۴ میلیون دیالوگ که با کمک یک مدل LLM تحلیل و ادغام شدهاند تا توضیحات چندوجهی منسجم تولید شود.
ترکیب دادهها:
📸 تصاویر — ۳۶٪
🎧 صدا — ۲۱٪
🗣 گفتار — ۱۷٪
⚙️ دادههای ترکیبی — ۱۵٪
🎬 ویدیو — ۱۱٪
---
🏆 نتایج در بنچمارکها:
Worldsense: 48.23 در مقابل 45.40 (Qwen2.5-Omni)
DailyOmni: 66.50 در مقابل 47.45
MMAR: 58.40
MMAU: 71.60
WER (LibriSpeech-clean): فقط 1.7٪
در کاربرد صنعتی (تشخیص عیوب در ویفرهای نیمهرسانا):
همچنین OmniVinci به دقت 98.1٪ رسید
— بهتر از NVILA (97.6%) و بسیار بالاتر از مدل بزرگتر VILA (90.8%).
---
📜 مجوزها:
کد منبع: Apache 2.0 License
مدل: NVIDIA One Way Noncommercial License
🔗 منابع:
🟡 صفحه پروژه
🟡 مدل
🟡 مقاله در Arxiv
🖥 GitHub
@rss_ai_ir
#هوش_مصنوعی #NVIDIA #OmniVinci #مولتی_مودال #DeepLearning #AI #MachineLearning #Vision #Speech #MultimodalAI
🔥1👏1
🌵 تشخیص نقاط کلیدی متراکم All-in-One 🌵
📍 مدل DeepDetect یک مدل نوآورانه است که بهعنوان یک تشخیصدهندهی نقاط کلیدی (Dense Keypoints Detector) طراحی شده و قدرت چندین الگوریتم کلاسیک مانند:
🔹 SIFT
🔹 ORB
🔹 BRISK
🔹 FAST
🔹 AGAST
🔹 Harris
🔹 Shi-Tomasi
🔹 Canny & Sobel
را در قالب یک شبکه عصبی واحد ترکیب میکند.
💬 نویسندگان میگویند: این مدل، بازآفرینی عاشقانهای از تمام تکنیکهای قدیمی در قالب یادگیری عمیق است — و نام آن هم واقعاً برازنده است: DeepDetect.
💙 مجوز: MIT License
🔗 لینکها:
👉 مقاله (arXiv)
👉 مخزن GitHub
#هوش_مصنوعی #بینایی_ماشین #DeepLearning #Keypoints #ComputerVision #SIFT #ORB #NeuralNetworks #AIResearch
📍 مدل DeepDetect یک مدل نوآورانه است که بهعنوان یک تشخیصدهندهی نقاط کلیدی (Dense Keypoints Detector) طراحی شده و قدرت چندین الگوریتم کلاسیک مانند:
🔹 SIFT
🔹 ORB
🔹 BRISK
🔹 FAST
🔹 AGAST
🔹 Harris
🔹 Shi-Tomasi
🔹 Canny & Sobel
را در قالب یک شبکه عصبی واحد ترکیب میکند.
💬 نویسندگان میگویند: این مدل، بازآفرینی عاشقانهای از تمام تکنیکهای قدیمی در قالب یادگیری عمیق است — و نام آن هم واقعاً برازنده است: DeepDetect.
💙 مجوز: MIT License
🔗 لینکها:
👉 مقاله (arXiv)
👉 مخزن GitHub
#هوش_مصنوعی #بینایی_ماشین #DeepLearning #Keypoints #ComputerVision #SIFT #ORB #NeuralNetworks #AIResearch
This media is not supported in your browser
VIEW IN TELEGRAM
🌐 احتمال معرفی مرورگر جدید توسط OpenAI
بهنظر میرسد امروز OpenAI قرار است مرورگر اختصاصی خود را معرفی کند — چون ساعاتی پیش ویدئویی مرموز در حساب رسمی توییتر شرکت منتشر شده است 🎥
شایعات دربارهی این مرورگر مدتهاست که شنیده میشود، اما جالب اینجاست که در دو ماه اخیر هیچ نشت اطلاعاتی نداشتیم — برخلاف همیشه که معمولاً یک هفته قبل از معرفی، اطلاعات لو میرود.
📺 پخش زنده (استریم) تا دو ساعت دیگر آغاز میشود.
در این میان، Perplexity Comet کمی نگران بهنظر میرسد 😄 و بعضی کاربران شوخی میکنند که آمادهی حذف Arc هستند!
@rss_ai_ir
#OpenAI #Browser #AI #TechNews #ChatGPT #Perplexity #Arc
بهنظر میرسد امروز OpenAI قرار است مرورگر اختصاصی خود را معرفی کند — چون ساعاتی پیش ویدئویی مرموز در حساب رسمی توییتر شرکت منتشر شده است 🎥
شایعات دربارهی این مرورگر مدتهاست که شنیده میشود، اما جالب اینجاست که در دو ماه اخیر هیچ نشت اطلاعاتی نداشتیم — برخلاف همیشه که معمولاً یک هفته قبل از معرفی، اطلاعات لو میرود.
📺 پخش زنده (استریم) تا دو ساعت دیگر آغاز میشود.
در این میان، Perplexity Comet کمی نگران بهنظر میرسد 😄 و بعضی کاربران شوخی میکنند که آمادهی حذف Arc هستند!
@rss_ai_ir
#OpenAI #Browser #AI #TechNews #ChatGPT #Perplexity #Arc
👍2🔥1
🎙️ VoxCPM —
سامانهای نوآورانه برای تبدیل متن به گفتار (TTS)
⛔️سیستم VoxCPM یک سیستم پیشرفتهی تبدیل متن به گفتار بدون نیاز به توکنیزیشن (Tokenization-Free TTS) است که میتواند گفتار را بهصورت آگاه از بافت (Context-Aware) و با کلونسازی دقیق صدا تولید کند.
این مدل از معماری دیفیوزنی (Diffusion Architecture) برای ایجاد نمایشهای پیوسته از گفتار استفاده میکند — نتیجهی آن بیان طبیعیتر، پایداری بیشتر و صدایی بسیار شبیه انسان است.
🚀 ویژگیهای کلیدی:
تولید گفتار با لحن طبیعی و آگاهی از متن و بافت.
شبیهسازی دقیق صدای فرد فقط با چند نمونه کوتاه.
کارایی بالا در پردازش گفتار و پشتیبانی از استریم زنده (Streaming).
📌 منبع باز (Open Source):
🔗 GitHub - OpenBMB/VoxCPM
#هوش_مصنوعی #TTS #SpeechSynthesis #VoxCPM #Diffusion #AI #Python #VoiceCloning
سامانهای نوآورانه برای تبدیل متن به گفتار (TTS)
⛔️سیستم VoxCPM یک سیستم پیشرفتهی تبدیل متن به گفتار بدون نیاز به توکنیزیشن (Tokenization-Free TTS) است که میتواند گفتار را بهصورت آگاه از بافت (Context-Aware) و با کلونسازی دقیق صدا تولید کند.
این مدل از معماری دیفیوزنی (Diffusion Architecture) برای ایجاد نمایشهای پیوسته از گفتار استفاده میکند — نتیجهی آن بیان طبیعیتر، پایداری بیشتر و صدایی بسیار شبیه انسان است.
🚀 ویژگیهای کلیدی:
تولید گفتار با لحن طبیعی و آگاهی از متن و بافت.
شبیهسازی دقیق صدای فرد فقط با چند نمونه کوتاه.
کارایی بالا در پردازش گفتار و پشتیبانی از استریم زنده (Streaming).
📌 منبع باز (Open Source):
🔗 GitHub - OpenBMB/VoxCPM
#هوش_مصنوعی #TTS #SpeechSynthesis #VoxCPM #Diffusion #AI #Python #VoiceCloning
This media is not supported in your browser
VIEW IN TELEGRAM
🦾 Sharpa Robotics
آغاز تولید انبوه دست رباتیک SharpaWave
شرکت Sharpa Robotics با معرفی نسخهی نهایی دست رباتیک SharpaWave وارد مرحلهی تولید انبوه شد — مدلی که در کنفرانس ICRA 2025 مورد تحسین قرار گرفت.
🤖 این سامانه یک دست فوقدقیق با ابعادی کاملاً برابر با دست انسان است و دارای ۲۲ درجه آزادی (DOF) میباشد، که امکان حرکات بسیار ظریف و طبیعی را فراهم میکند.
⚙️ نوآوری کلیدی:
فناوری Dynamic Tactile Array (DTA) — هر انگشت به پنل لمسی مجهز است که شامل بیش از ۱۰۰۰ حسگر لمسی با دقت زیر میلیمتر میباشد.
این ویژگی به ربات اجازه میدهد در زمان واقعی، بافت و جنس اشیاء را حس کرده و تحلیل کند.
✳️همچنین SharpaWave گامی بزرگ به سوی رباتهایی است که نهتنها میبینند، بلکه احساس هم میکنند.
——————————
✔️ دنبال کنید: بهترین کانال دربارهی دنیای رباتها و نوآوریها
@rss_ai_ir
#SharpaWave #Robotics #AI #ICRA2025 #TactileSensing #RobotHand #Innovation #هوش_مصنوعی #رباتیک #ربات #فناوری
آغاز تولید انبوه دست رباتیک SharpaWave
شرکت Sharpa Robotics با معرفی نسخهی نهایی دست رباتیک SharpaWave وارد مرحلهی تولید انبوه شد — مدلی که در کنفرانس ICRA 2025 مورد تحسین قرار گرفت.
🤖 این سامانه یک دست فوقدقیق با ابعادی کاملاً برابر با دست انسان است و دارای ۲۲ درجه آزادی (DOF) میباشد، که امکان حرکات بسیار ظریف و طبیعی را فراهم میکند.
⚙️ نوآوری کلیدی:
فناوری Dynamic Tactile Array (DTA) — هر انگشت به پنل لمسی مجهز است که شامل بیش از ۱۰۰۰ حسگر لمسی با دقت زیر میلیمتر میباشد.
این ویژگی به ربات اجازه میدهد در زمان واقعی، بافت و جنس اشیاء را حس کرده و تحلیل کند.
✳️همچنین SharpaWave گامی بزرگ به سوی رباتهایی است که نهتنها میبینند، بلکه احساس هم میکنند.
——————————
✔️ دنبال کنید: بهترین کانال دربارهی دنیای رباتها و نوآوریها
@rss_ai_ir
#SharpaWave #Robotics #AI #ICRA2025 #TactileSensing #RobotHand #Innovation #هوش_مصنوعی #رباتیک #ربات #فناوری
This media is not supported in your browser
VIEW IN TELEGRAM
🎨 «تکامل یادگیری عمیق» — انیمیشنی هنری دربارهی تاریخ هوش مصنوعی
یک هنرمند با انتشار اثری بهنام “Evolution of Deep Learning by Hand” روند تکامل یادگیری عمیق را بهزیبایی به تصویر کشیده است.
👁️ در این انیمیشن، مسیر از اولین نورونهای مصنوعی تا معماریهای پیچیدهی امروزی بهصورت دستی ترسیم شده و بیننده را با تاریخچهی شکلگیری دنیای مدرن شبکههای عصبی آشنا میکند.
✨ هدف اثر — ادای احترام به جفری هینتون، یکی از بنیانگذاران یادگیری عمیق و برندهی جایزه نوبل، که با ایدههایش راه را برای نسل جدید هوش مصنوعی هموار کرد.
#DeepLearning #AI #NeuralNetworks #Animation #Hinton #ArtTech #هوش_مصنوعی #یادگیری_عمیق #هنر_دیجیتال #تاریخ_فناوری
یک هنرمند با انتشار اثری بهنام “Evolution of Deep Learning by Hand” روند تکامل یادگیری عمیق را بهزیبایی به تصویر کشیده است.
👁️ در این انیمیشن، مسیر از اولین نورونهای مصنوعی تا معماریهای پیچیدهی امروزی بهصورت دستی ترسیم شده و بیننده را با تاریخچهی شکلگیری دنیای مدرن شبکههای عصبی آشنا میکند.
✨ هدف اثر — ادای احترام به جفری هینتون، یکی از بنیانگذاران یادگیری عمیق و برندهی جایزه نوبل، که با ایدههایش راه را برای نسل جدید هوش مصنوعی هموار کرد.
#DeepLearning #AI #NeuralNetworks #Animation #Hinton #ArtTech #هوش_مصنوعی #یادگیری_عمیق #هنر_دیجیتال #تاریخ_فناوری
👍2🔥1💩1
💻 Anthropic
قابلیت جدید «Claude Code on the Web» را معرفی کرد!
اکنون میتوانید وظایف برنامهنویسی را مستقیماً از طریق مرورگر به Claude بسپارید — بدون نیاز به ترمینال یا محیط IDE.
این قابلیت در حال حاضر بهصورت نسخهی آزمایشی (research preview) عرضه شده و در زیرساخت ابری Anthropic کار میکند.
⚙️ ویژگیهای اصلی:
🚀 اجرای همزمان چند پروژه در ریپازیتوریهای مختلف
📊 نمایش پیشرفت کار بهصورت لحظهای
🪄 ایجاد خودکار Pull Request با توضیحات شفاف دربارهی تغییرات
🧠 پاسخگویی به سؤالات مربوط به ساختار و معماری پروژهها
💡 کاربرد ایدهآل برای:
♻️رفع باگها و انجام کارهای تکراری
♻️تغییرات بکاند با امکان تست خودکار
♻️تحلیل ساختار کد و وابستگیهای پروژه
📱 نسخهی iOS هم منتشر شده — میتوانید با Claude از روی موبایل کدنویسی کنید (فعلاً در مرحلهی early preview برای جمعآوری بازخورد).
🔒 امنیت بالا:
هر تسک در محیطی ایزوله (sandbox) اجرا میشود، با محدودیت شبکه و فایلسیستم.
ارتباطات Git از طریق پراکسی امن انجام میشود، بنابراین Claude فقط به ریپازیتوریهای مجاز دسترسی دارد.
میتوانید قوانین سفارشی شبکه بسازید، مثلاً برای دانلود پکیجهای npm جهت اجرای تستها.
🟢 دسترسی:
برای کاربران Pro و Max در claude.com/code فعال است.
سهمیهی استفاده بین تمام قابلیتهای Claude Code مشترک است.
📘 منابع رسمی:
🔗 جزئیات فنی Sandbox
🔗 مستندات کامل
#Claude #Anthropic #AI #Programming #LLM #AItools #Automation #کدنویسی #هوش_مصنوعی
قابلیت جدید «Claude Code on the Web» را معرفی کرد!
اکنون میتوانید وظایف برنامهنویسی را مستقیماً از طریق مرورگر به Claude بسپارید — بدون نیاز به ترمینال یا محیط IDE.
این قابلیت در حال حاضر بهصورت نسخهی آزمایشی (research preview) عرضه شده و در زیرساخت ابری Anthropic کار میکند.
⚙️ ویژگیهای اصلی:
🚀 اجرای همزمان چند پروژه در ریپازیتوریهای مختلف
📊 نمایش پیشرفت کار بهصورت لحظهای
🪄 ایجاد خودکار Pull Request با توضیحات شفاف دربارهی تغییرات
🧠 پاسخگویی به سؤالات مربوط به ساختار و معماری پروژهها
💡 کاربرد ایدهآل برای:
♻️رفع باگها و انجام کارهای تکراری
♻️تغییرات بکاند با امکان تست خودکار
♻️تحلیل ساختار کد و وابستگیهای پروژه
📱 نسخهی iOS هم منتشر شده — میتوانید با Claude از روی موبایل کدنویسی کنید (فعلاً در مرحلهی early preview برای جمعآوری بازخورد).
🔒 امنیت بالا:
هر تسک در محیطی ایزوله (sandbox) اجرا میشود، با محدودیت شبکه و فایلسیستم.
ارتباطات Git از طریق پراکسی امن انجام میشود، بنابراین Claude فقط به ریپازیتوریهای مجاز دسترسی دارد.
میتوانید قوانین سفارشی شبکه بسازید، مثلاً برای دانلود پکیجهای npm جهت اجرای تستها.
🟢 دسترسی:
برای کاربران Pro و Max در claude.com/code فعال است.
سهمیهی استفاده بین تمام قابلیتهای Claude Code مشترک است.
📘 منابع رسمی:
🔗 جزئیات فنی Sandbox
🔗 مستندات کامل
#Claude #Anthropic #AI #Programming #LLM #AItools #Automation #کدنویسی #هوش_مصنوعی
claude.ai
Claude Code | Claude
Talk with Claude, an AI assistant from Anthropic
This media is not supported in your browser
VIEW IN TELEGRAM
🌍 RTFM:
مدل جدید WorldLab برای تولید دنیای تعاملی
مدل WorldLab که قبلاً چندین بار دربارهاش صحبت شده بود، حالا دموی جدیدی از مدل RTFM (Real-Time Frame Model) منتشر کرده که حتماً باید امتحان کنید.
✨ ویژگیهای اصلی:
🔁 حافظهی بینهایت (infinite context)
🎨 اسکینهای غیر فتوریالیستی با سبکهای متنوع
🌐 تولید یک دنیای کامل فقط از یک تصویر و یک پرامپت
🔗 دموی تعاملی:
rtfm.worldlabs.ai
(فعلاً فقط تصاویر از کتابخانه داخلی پشتیبانی میشود.)
📖 مقالهی رسمی:
worldlabs.ai/blog/rtfm
---
💡 مسئلهی اصلی:
تولید «جهانهای زنده» به کمک مدلهای مولد به مراتب پرهزینهتر از LLMهاست.
اگر بخواهیم مثل مدلهای ویدئویی فعلی کار کنیم، برای رندر یک ویدئوی 4K با نرخ ۶۰ فریم بر ثانیه باید بیش از ۱۰۰ هزار توکن در ثانیه تولید شود — تقریباً به اندازهی کل رمان «فرانکشتاین»!
برای تعامل یکساعته نیز نیاز به بیش از ۱۰۰ میلیون توکن حافظه داریم — از نظر اقتصادی و سختافزاری غیرممکن است.
---
⚙️ نوآوری WorldLab در RTFM:
✳️این مدل فقط روی یک GPU از نوع H100 اجرا میشود و تجربهی تعاملی روان ارائه میدهد.
راز کار در این است که بهجای ذخیرهی تمام فریمها، فقط موارد زیر نگهداری میشوند:
♻️زاویههای دوربین
♻️متادیتا
♻️چند فریم اطراف زاویه فعلی (cache هوشمند)
♻️اگر زاویه بهطور قابل توجهی تغییر کند، مدل فریمها را از نو میسازد — صرفهجویی عظیم در حافظه!
---
🎥 نتیجه:
مدل RTFM میتواند صحنههایی با جزئیات بالا، بازتابها، سطوح براق، سایهها و نورهای طبیعی تولید کند.
در ابتدای هر شات ممکن است اندکی آرتیفکت دیده شود، اما کیفیت و عمق صحنه آنقدر چشمگیر است که این جزئیات کوچک به چشم نمیآیند.
---
📌 جمعبندی:
WorldLab با RTFM نشان میدهد که آیندهی مدلهای مولد نه فقط در تولید تصویر یا ویدئو، بلکه در خلق دنیای واقعی تعاملی در لحظه است.
@rss_ai_ir
#AI #WorldLab #RTFM #GenerativeAI #3D #Simulation #Realtime #هوش_مصنوعی #مدل_مولد #جهان_مجازی
مدل جدید WorldLab برای تولید دنیای تعاملی
مدل WorldLab که قبلاً چندین بار دربارهاش صحبت شده بود، حالا دموی جدیدی از مدل RTFM (Real-Time Frame Model) منتشر کرده که حتماً باید امتحان کنید.
✨ ویژگیهای اصلی:
🔁 حافظهی بینهایت (infinite context)
🎨 اسکینهای غیر فتوریالیستی با سبکهای متنوع
🌐 تولید یک دنیای کامل فقط از یک تصویر و یک پرامپت
🔗 دموی تعاملی:
rtfm.worldlabs.ai
(فعلاً فقط تصاویر از کتابخانه داخلی پشتیبانی میشود.)
📖 مقالهی رسمی:
worldlabs.ai/blog/rtfm
---
💡 مسئلهی اصلی:
تولید «جهانهای زنده» به کمک مدلهای مولد به مراتب پرهزینهتر از LLMهاست.
اگر بخواهیم مثل مدلهای ویدئویی فعلی کار کنیم، برای رندر یک ویدئوی 4K با نرخ ۶۰ فریم بر ثانیه باید بیش از ۱۰۰ هزار توکن در ثانیه تولید شود — تقریباً به اندازهی کل رمان «فرانکشتاین»!
برای تعامل یکساعته نیز نیاز به بیش از ۱۰۰ میلیون توکن حافظه داریم — از نظر اقتصادی و سختافزاری غیرممکن است.
---
⚙️ نوآوری WorldLab در RTFM:
✳️این مدل فقط روی یک GPU از نوع H100 اجرا میشود و تجربهی تعاملی روان ارائه میدهد.
راز کار در این است که بهجای ذخیرهی تمام فریمها، فقط موارد زیر نگهداری میشوند:
♻️زاویههای دوربین
♻️متادیتا
♻️چند فریم اطراف زاویه فعلی (cache هوشمند)
♻️اگر زاویه بهطور قابل توجهی تغییر کند، مدل فریمها را از نو میسازد — صرفهجویی عظیم در حافظه!
---
🎥 نتیجه:
مدل RTFM میتواند صحنههایی با جزئیات بالا، بازتابها، سطوح براق، سایهها و نورهای طبیعی تولید کند.
در ابتدای هر شات ممکن است اندکی آرتیفکت دیده شود، اما کیفیت و عمق صحنه آنقدر چشمگیر است که این جزئیات کوچک به چشم نمیآیند.
---
📌 جمعبندی:
WorldLab با RTFM نشان میدهد که آیندهی مدلهای مولد نه فقط در تولید تصویر یا ویدئو، بلکه در خلق دنیای واقعی تعاملی در لحظه است.
@rss_ai_ir
#AI #WorldLab #RTFM #GenerativeAI #3D #Simulation #Realtime #هوش_مصنوعی #مدل_مولد #جهان_مجازی
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 SAM 2++:
رهگیری هرچیز در هر سطحی! 🔥
🧠 مدل SAM 2++ نسخهای پیشرفته از سیستم Segment Anything است که بهصورت یکپارچه میتواند اشیاء را در هر سطحی (ماسک، باکس یا نقطه) رهگیری کند.
نتایج اولیه بسیار چشمگیر هستند — اما متأسفانه هنوز کد آن منتشر نشده 😢
📘 جزئیات بیشتر:
🔹 مقاله: arxiv.org/pdf/2510.18822
🔹 پروژه: tracking-any-granularity.github.io
🔹 ریپازیتوری: 😞 هنوز منتشر نشده
@rss_ai_ir
#AI #SAM #Segmentation #Tracking #ComputerVision #DeepLearning #هوش_مصنوعی #بینایی_ماشین
رهگیری هرچیز در هر سطحی! 🔥
🧠 مدل SAM 2++ نسخهای پیشرفته از سیستم Segment Anything است که بهصورت یکپارچه میتواند اشیاء را در هر سطحی (ماسک، باکس یا نقطه) رهگیری کند.
نتایج اولیه بسیار چشمگیر هستند — اما متأسفانه هنوز کد آن منتشر نشده 😢
📘 جزئیات بیشتر:
🔹 مقاله: arxiv.org/pdf/2510.18822
🔹 پروژه: tracking-any-granularity.github.io
🔹 ریپازیتوری: 😞 هنوز منتشر نشده
@rss_ai_ir
#AI #SAM #Segmentation #Tracking #ComputerVision #DeepLearning #هوش_مصنوعی #بینایی_ماشین
❤1
👁️ کاشت چشم الکترونیکی + عینک واقعیت افزوده بینایی را در بیماران دچار تحلیل ماکولا بازگرداند!
در یک کارآزمایی بالینی پیشگامانه، پژوهشگران از دانشگاه کالج لندن (UCL) و بیمارستان چشم Moorfields موفق شدند بینایی خواندن را در ۸۴٪ از بیماران مبتلا به تحلیل ماکولای خشک وابسته به سن (AMD) بازیابی کنند.
🔬 این فناوری ترکیبی از یک ایمپلنت شبکیهای فوقنازک (PRIMA) و عینک واقعیت افزوده است که با نور مادون قرمز نزدیک (NIR) فعال میشود.
💡 نتیجه: افرادی که بینایی مرکزی خود را از دست داده بودند، حالا میتوانند دوباره بخوانند — بدون از دست دادن محسوس دید محیطی. این دستاورد، گامی بزرگ در درمان مواردی است که تاکنون درمانناپذیر محسوب میشدند.
🌍 در این مطالعه، ۳۸ بیمار از پنج کشور شرکت داشتند، و نتایج، امید تازهای برای میلیونها نفر با بیماریهای تحلیل بینایی ایجاد کرده است.
📄 منبع:
Medical Xpress
@rss_ai_ir
#پزشکی #هوش_مصنوعی #بینایی #واقعیت_افزوده #ایمپلنت #AR #NeuroTech #BioTech
در یک کارآزمایی بالینی پیشگامانه، پژوهشگران از دانشگاه کالج لندن (UCL) و بیمارستان چشم Moorfields موفق شدند بینایی خواندن را در ۸۴٪ از بیماران مبتلا به تحلیل ماکولای خشک وابسته به سن (AMD) بازیابی کنند.
🔬 این فناوری ترکیبی از یک ایمپلنت شبکیهای فوقنازک (PRIMA) و عینک واقعیت افزوده است که با نور مادون قرمز نزدیک (NIR) فعال میشود.
💡 نتیجه: افرادی که بینایی مرکزی خود را از دست داده بودند، حالا میتوانند دوباره بخوانند — بدون از دست دادن محسوس دید محیطی. این دستاورد، گامی بزرگ در درمان مواردی است که تاکنون درمانناپذیر محسوب میشدند.
🌍 در این مطالعه، ۳۸ بیمار از پنج کشور شرکت داشتند، و نتایج، امید تازهای برای میلیونها نفر با بیماریهای تحلیل بینایی ایجاد کرده است.
📄 منبع:
Medical Xpress
@rss_ai_ir
#پزشکی #هوش_مصنوعی #بینایی #واقعیت_افزوده #ایمپلنت #AR #NeuroTech #BioTech
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 هوش مصنوعی متنباز با سرعتی بیسابقه در حال پیشرفت است — و حالا NVIDIA پیشتاز شده! ⚡️
انویدیا اکنون در صدر مشارکتهای جهانی AI متنباز قرار دارد و با انتشار مجموعهای از مدلهای بزرگ مانند:
🧠 Nemotron، 🧬 BioNeMo، 🌌 Cosmos و 🤖 Gr00t،
در حال بازتعریف نحوهی توسعه و اشتراکگذاری مدلهای هوش مصنوعی در سراسر دنیاست.
این حرکت نهتنها صنعت را متحول میکند، بلکه مرز بین مدلهای اختصاصی و متنباز را هم از بین میبرد.
بینظیر! 🔥
@rss_ai_ir
#NVIDIA #AI #OpenSource #Nemotron #BioNeMo #Cosmos #Gr00t #هوش_مصنوعی #متن_باز #DeepLearning #MachineLearning
انویدیا اکنون در صدر مشارکتهای جهانی AI متنباز قرار دارد و با انتشار مجموعهای از مدلهای بزرگ مانند:
🧠 Nemotron، 🧬 BioNeMo، 🌌 Cosmos و 🤖 Gr00t،
در حال بازتعریف نحوهی توسعه و اشتراکگذاری مدلهای هوش مصنوعی در سراسر دنیاست.
این حرکت نهتنها صنعت را متحول میکند، بلکه مرز بین مدلهای اختصاصی و متنباز را هم از بین میبرد.
بینظیر! 🔥
@rss_ai_ir
#NVIDIA #AI #OpenSource #Nemotron #BioNeMo #Cosmos #Gr00t #هوش_مصنوعی #متن_باز #DeepLearning #MachineLearning
This media is not supported in your browser
VIEW IN TELEGRAM
😅 مردی که در پسزمینه ایستاده، دارد تماشا میکند که شغلش در حال ناپدید شدن است…
هوش مصنوعی دوباره بیرحمانه حمله کرد ⚙️💥
@rss_ai_ir
#هوش_مصنوعی #Automation #AI #کار #فناوری #JobLoss #FutureOfWork
هوش مصنوعی دوباره بیرحمانه حمله کرد ⚙️💥
@rss_ai_ir
#هوش_مصنوعی #Automation #AI #کار #فناوری #JobLoss #FutureOfWork
🕊3
🌍 تنسنت نسخه جدید مدل بازسازی سهبعدی خود را منتشر کرد — Hunyuan World 1.1 (WorldMirror)
نسخهی قبلی Hunyuan World 1.0 میتوانست تنها با یک تصویر یا توضیح متنی صحنههای سهبعدی بسازد — حتی روی کارتهای گرافیک معمولی!
اما حالا نسخهی جدید 1.1 یک جهش بزرگ کرده و قادر است جهانهای سهبعدی را از ویدیو یا تصاویر چندزاویهای بازسازی کند. 🎥🧠
🔹 ورودیهای متنوع:
مدل میتواند با هر نوع داده کار کند — ویدیو، عکس، نقشههای عمق (Depth Maps)، توضیحات حرکتی (Pose) و حتی پارامترهای دوربین.
بازسازی هندسه صحنه با دقت بالا و بدون اعوجاج انجام میشود.
🔹 خروجیهای کامل:
نتیجه میتواند شامل باشد:
♻️ابر نقاط متراکم (Dense Point Clouds)
♻️نقشههای عمق
♻️نرمالهای سطح
♻️پارامترهای دوربین
♻️و حتی 3D Gaussian Splatting آماده برای رندر.
🔹 سرعت فوقالعاده:
مدل کاملاً feed-forward است و تنها با یک گذر روی GPU، صحنه را در چند ثانیه بازسازی میکند ⚡️
🔗 پروژه:
3d-models.hunyuan.tencent.com/world
💻 GitHub:
Tencent-Hunyuan/HunyuanWorld-Mirror
🤗 HuggingFace:
tencent/HunyuanWorld-Mirror
🧪 دمو:
HuggingFace Space
📄 گزارش فنی:
HYWorld Mirror Tech Report
@rss_ai_ir
#هوش_مصنوعی #3D #تنسنت #مدلسازی_سهبعدی #واقعیت_مجازی #گیمینگ #OpenSource #AI #VR
نسخهی قبلی Hunyuan World 1.0 میتوانست تنها با یک تصویر یا توضیح متنی صحنههای سهبعدی بسازد — حتی روی کارتهای گرافیک معمولی!
اما حالا نسخهی جدید 1.1 یک جهش بزرگ کرده و قادر است جهانهای سهبعدی را از ویدیو یا تصاویر چندزاویهای بازسازی کند. 🎥🧠
🔹 ورودیهای متنوع:
مدل میتواند با هر نوع داده کار کند — ویدیو، عکس، نقشههای عمق (Depth Maps)، توضیحات حرکتی (Pose) و حتی پارامترهای دوربین.
بازسازی هندسه صحنه با دقت بالا و بدون اعوجاج انجام میشود.
🔹 خروجیهای کامل:
نتیجه میتواند شامل باشد:
♻️ابر نقاط متراکم (Dense Point Clouds)
♻️نقشههای عمق
♻️نرمالهای سطح
♻️پارامترهای دوربین
♻️و حتی 3D Gaussian Splatting آماده برای رندر.
🔹 سرعت فوقالعاده:
مدل کاملاً feed-forward است و تنها با یک گذر روی GPU، صحنه را در چند ثانیه بازسازی میکند ⚡️
🔗 پروژه:
3d-models.hunyuan.tencent.com/world
💻 GitHub:
Tencent-Hunyuan/HunyuanWorld-Mirror
🤗 HuggingFace:
tencent/HunyuanWorld-Mirror
🧪 دمو:
HuggingFace Space
📄 گزارش فنی:
HYWorld Mirror Tech Report
@rss_ai_ir
#هوش_مصنوعی #3D #تنسنت #مدلسازی_سهبعدی #واقعیت_مجازی #گیمینگ #OpenSource #AI #VR
Tencent
腾讯混元3D
腾讯混元3D生成模型基于Diffusion技术,支持文本和图像生成3D资产。该模型配备精心设计的文本和图像编码器、扩散模型及3D解码器,能够实现多视图生成、重建及单视图生成。腾讯混元3D大模型可快速生成精美3D物体,适用于多种下游应用。
🧠 Qwen3-VL-2B-Thinking —
نسخه کوچک اما هوشمند مدل چندحالتهی Qwen، مخصوص استدلال و تحلیل منطقی
این نسخهی فشرده از خانوادهی Qwen3-VL برای تفکر عمیق، تحلیل داده و کاربردهای عاملمحور (Agent-based) طراحی شده است.
در سری Qwen-VL دو حالت کلیدی وجود دارد:
🔹 Instruct —
برای گفتگوها و پاسخ به دستورها
🔹 Thinking —
برای منطق، برنامهنویسی و حل مسائل پیچیده
✨ ویژگیها:
ساختار چندحالته (Multimodal): درک همزمان متن و تصویر، تحلیل محتوا و کشف روابط علت و معلولی
بهینهشده برای وظایف استدلالی، جایی که تمرکز روی فرآیند تفکر و نتیجهگیری است، نه صرفاً تولید متن
تنها با ۲ میلیارد پارامتر، بهراحتی روی GPUهای محلی یا محیطهای ابری قابل اجراست
پشتیبانی از Tool Calling و ادغام با چارچوبهای عاملمحور (Agent Frameworks)
📘 نتیجه:
مدلی کوچک، سریع و درعینحال قدرتمند برای تفکر و تحلیل — گزینهای عالی برای پروژههای سبک و هوشمند 💡
🔗 مشاهده در Hugging Face
@rss_ai_ir
#هوش_مصنوعی #Qwen #Qwen3VL #Reasoning #LLM #OpenSource #Multimodal #AI
نسخه کوچک اما هوشمند مدل چندحالتهی Qwen، مخصوص استدلال و تحلیل منطقی
این نسخهی فشرده از خانوادهی Qwen3-VL برای تفکر عمیق، تحلیل داده و کاربردهای عاملمحور (Agent-based) طراحی شده است.
در سری Qwen-VL دو حالت کلیدی وجود دارد:
🔹 Instruct —
برای گفتگوها و پاسخ به دستورها
🔹 Thinking —
برای منطق، برنامهنویسی و حل مسائل پیچیده
✨ ویژگیها:
ساختار چندحالته (Multimodal): درک همزمان متن و تصویر، تحلیل محتوا و کشف روابط علت و معلولی
بهینهشده برای وظایف استدلالی، جایی که تمرکز روی فرآیند تفکر و نتیجهگیری است، نه صرفاً تولید متن
تنها با ۲ میلیارد پارامتر، بهراحتی روی GPUهای محلی یا محیطهای ابری قابل اجراست
پشتیبانی از Tool Calling و ادغام با چارچوبهای عاملمحور (Agent Frameworks)
📘 نتیجه:
مدلی کوچک، سریع و درعینحال قدرتمند برای تفکر و تحلیل — گزینهای عالی برای پروژههای سبک و هوشمند 💡
🔗 مشاهده در Hugging Face
@rss_ai_ir
#هوش_مصنوعی #Qwen #Qwen3VL #Reasoning #LLM #OpenSource #Multimodal #AI
👍1