🎥 مدتی است که کاربران متوجه یک باگ جالب در مدلهای تولید ویدیو شدهاند:
وقتی از مدل بخواهید ویدیویی از یک انسان وارونه (سر به پایین) بسازد و سپس همان ویدیو را ۱۸۰ درجه بچرخانید، نتیجه کاملاً غیرمنطقی و خندهدار میشود! 😂
نسخه جدید Sora از OpenAI هم هنوز از این مشکل رنج میبرد — بهمحض چرخاندن تصویر، فیزیک بدن، لباس و حتی جاذبه کاملاً بههم میریزد.
👀 این مسئله نشان میدهد که حتی مدلهای پیشرفتهی ویدیو هنوز در درک پایداری فیزیکی و جهتگیری فضایی به درستی عمل نمیکنند.
📌 شاید روزی برسد که هوش مصنوعی واقعاً بداند “بالا” کجاست!
@rss_ai_ir
#هوش_مصنوعی #Sora #ویدیو #AI #VideoGeneration #OpenAI
وقتی از مدل بخواهید ویدیویی از یک انسان وارونه (سر به پایین) بسازد و سپس همان ویدیو را ۱۸۰ درجه بچرخانید، نتیجه کاملاً غیرمنطقی و خندهدار میشود! 😂
نسخه جدید Sora از OpenAI هم هنوز از این مشکل رنج میبرد — بهمحض چرخاندن تصویر، فیزیک بدن، لباس و حتی جاذبه کاملاً بههم میریزد.
👀 این مسئله نشان میدهد که حتی مدلهای پیشرفتهی ویدیو هنوز در درک پایداری فیزیکی و جهتگیری فضایی به درستی عمل نمیکنند.
📌 شاید روزی برسد که هوش مصنوعی واقعاً بداند “بالا” کجاست!
@rss_ai_ir
#هوش_مصنوعی #Sora #ویدیو #AI #VideoGeneration #OpenAI
😁2
🎬 راهنمای رسمی پرامپتنویسی برای Sora 2 از OpenAI
اگر میخواهید از مدل Sora 2 بهترین خروجی ویدیویی بگیرید، ساختار پرامپت باید دقیق و مرحلهبهمرحله باشد 🎥👇
---
🧩 ۱. توضیح کلی صحنه
🔹 صحنه را با زبان ساده توصیف کنید.
🔹 شخصیتها، لباسها، دکور، آبوهوا و جزئیات دیگر را بنویسید.
🔹 هرچه توصیف جزئیتر باشد، ویدیو دقیقتر مطابق تخیل شما ساخته میشود.
---
🎥 ۲. سینماتوگرافی (فیلمبرداری)
زاویه و نوع نما: مثل «نمای کلی در سطح چشم» یا «کلوزآپ با زاویه از پشت».
حال و هوا: «سینمایی و پرتنش»، «شاد و پرتحرک»، «احساس انتظار لوکس».
لنز و فیلتر: «لنز ۳۵ میلیمتری با فیلتر نرم CPL».
نور و پالت رنگ: «نور گرم از چراغ و بازتاب سرد از پنجره».
---
🕺 ۳. حرکات و اکشنها
حرکات را به صورت فهرست بنویسید.
هر حرکت را به یک لحظه زمانی مرتبط کنید (مثل فریم یا ثانیه خاص).
📋 مثال:
شخصیت اصلی وارد اتاق میشود.
مکث کوتاه، سپس لبخند میزند.
دوربین آرام به سمت چپ پن میکند.
---
💬 ۴. دیالوگها
اگر گفتوگو در صحنه هست:
دیالوگها را کوتاه و طبیعی بنویسید.
با زمان ویدیو (مثلاً ۱۰ ثانیه) هماهنگ باشند.
---
🎧 ۵. صداهای پسزمینه
صداهای محیطی را اضافه کنید تا فضا واقعیتر شود.
🎵 مثال:
«صدای گامها روی چوب، زمزمه مردم و صدای بخار قهوهساز».
---
📄 نمونه ساختار پرامپت
📘 با این ساختار، خروجی ویدیوهای شما در Sora 2 دقیقتر، سینماییتر و واقعگرایانهتر خواهد بود.
@rss_ai_ir
#Sora2 #OpenAI #Prompting #VideoAI #هوش_مصنوعی #ویدیو
اگر میخواهید از مدل Sora 2 بهترین خروجی ویدیویی بگیرید، ساختار پرامپت باید دقیق و مرحلهبهمرحله باشد 🎥👇
---
🧩 ۱. توضیح کلی صحنه
🔹 صحنه را با زبان ساده توصیف کنید.
🔹 شخصیتها، لباسها، دکور، آبوهوا و جزئیات دیگر را بنویسید.
🔹 هرچه توصیف جزئیتر باشد، ویدیو دقیقتر مطابق تخیل شما ساخته میشود.
---
🎥 ۲. سینماتوگرافی (فیلمبرداری)
زاویه و نوع نما: مثل «نمای کلی در سطح چشم» یا «کلوزآپ با زاویه از پشت».
حال و هوا: «سینمایی و پرتنش»، «شاد و پرتحرک»، «احساس انتظار لوکس».
لنز و فیلتر: «لنز ۳۵ میلیمتری با فیلتر نرم CPL».
نور و پالت رنگ: «نور گرم از چراغ و بازتاب سرد از پنجره».
---
🕺 ۳. حرکات و اکشنها
حرکات را به صورت فهرست بنویسید.
هر حرکت را به یک لحظه زمانی مرتبط کنید (مثل فریم یا ثانیه خاص).
📋 مثال:
شخصیت اصلی وارد اتاق میشود.
مکث کوتاه، سپس لبخند میزند.
دوربین آرام به سمت چپ پن میکند.
---
💬 ۴. دیالوگها
اگر گفتوگو در صحنه هست:
دیالوگها را کوتاه و طبیعی بنویسید.
با زمان ویدیو (مثلاً ۱۰ ثانیه) هماهنگ باشند.
---
🎧 ۵. صداهای پسزمینه
صداهای محیطی را اضافه کنید تا فضا واقعیتر شود.
🎵 مثال:
«صدای گامها روی چوب، زمزمه مردم و صدای بخار قهوهساز».
---
📄 نمونه ساختار پرامپت
Scene Description:
یک کافه مدرن در شب؛ دختری با کت چرمی سیاه در حال نوشیدن قهوه کنار پنجرهای بارانی است.
Cinematography:
Camera shot: کلوزآپ از زاویه پایین
Mood: آرام و عاشقانه
Lens: لنز ۵۰ میلیمتری با عمق میدان کم
Lighting: نور گرم از داخل کافه و انعکاس نور خیابان
Actions:
- دختر فنجان قهوه را بالا میبرد
- لبخند میزند و به بیرون نگاه میکند
- باران روی شیشه میلغزد
Dialogue:
"شاید فردا روز بهتری باشه..."
Background Sound:
صدای باران، موسیقی ملایم جاز، و گفتوگوی آرام مشتریان
📘 با این ساختار، خروجی ویدیوهای شما در Sora 2 دقیقتر، سینماییتر و واقعگرایانهتر خواهد بود.
@rss_ai_ir
#Sora2 #OpenAI #Prompting #VideoAI #هوش_مصنوعی #ویدیو
❤1
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 این ربات واقعاً میتواند «کار واقعی» انجام دهد!
تصور کنید چنین سیستمی در خشکشوییهای صنعتی مثل هتلها، بیمارستانها یا خانههای سالمندان استفاده شود — بهصورت خودکار لباسها را تا میکند و مرتب تحویل میدهد. 🧺
در نسخههای پیشرفتهتر حتی میتواند لباسها را تشخیص، دستهبندی و چینش هوشمند انجام دهد.
⚙️ این یعنی بسیاری از مشاغل خدماتی بهزودی با رباتهای خودکار جایگزین خواهند شد — دقیقتر، سریعتر و بدون خستگی.
👕 آیندهی صنعت شستوشو و پوشاک دیگر هرگز مثل قبل نخواهد بود.
@rss_ai_ir
#رباتیک #هوش_مصنوعی #اتوماسیون #AI #Robot #Automation #Laundry
تصور کنید چنین سیستمی در خشکشوییهای صنعتی مثل هتلها، بیمارستانها یا خانههای سالمندان استفاده شود — بهصورت خودکار لباسها را تا میکند و مرتب تحویل میدهد. 🧺
در نسخههای پیشرفتهتر حتی میتواند لباسها را تشخیص، دستهبندی و چینش هوشمند انجام دهد.
⚙️ این یعنی بسیاری از مشاغل خدماتی بهزودی با رباتهای خودکار جایگزین خواهند شد — دقیقتر، سریعتر و بدون خستگی.
👕 آیندهی صنعت شستوشو و پوشاک دیگر هرگز مثل قبل نخواهد بود.
@rss_ai_ir
#رباتیک #هوش_مصنوعی #اتوماسیون #AI #Robot #Automation #Laundry
👍2
🧠 مجموعهای از «بستههای پرامپت» (Prompt Packs) در سایت OpenAI Academy منتشر شده است!
در این بخش، پرامپتهای آماده و تخصصی برای حوزههای مختلف قرار گرفتهاند — هر کدام با مثالهای واقعی و سناریوهای کاربردی 👇
📦 دستهبندیها:
💼 Sales — پرامپتهای فروش و مذاکره
🧩 Product — طراحی و بهبود محصول
💻 IT & Engineering — راهکارهای فنی و مهندسی نرمافزار
👔 HR — جذب و مدیریت منابع انسانی
⚙️ Engineers — کمک در کدنویسی و حل مسائل فنی
🧭 Managers & Executives — برای مدیران، تحلیل تصمیمگیری و استراتژی
در هر بخش، دهها پرامپت آماده وجود دارد که میتوانید مستقیماً در ChatGPT استفاده کنید — از نگارش ایمیل گرفته تا طراحی سیستم یا تحلیل داده.
📎 لینک مستقیم:
🔗 academy.openai.com/public/tags/prompt-packs-6849a0f98c613939acef841c
@rss_ai_ir
#OpenAI #PromptEngineering #ChatGPT #پرامپت #هوش_مصنوعی
در این بخش، پرامپتهای آماده و تخصصی برای حوزههای مختلف قرار گرفتهاند — هر کدام با مثالهای واقعی و سناریوهای کاربردی 👇
📦 دستهبندیها:
💼 Sales — پرامپتهای فروش و مذاکره
🧩 Product — طراحی و بهبود محصول
💻 IT & Engineering — راهکارهای فنی و مهندسی نرمافزار
👔 HR — جذب و مدیریت منابع انسانی
⚙️ Engineers — کمک در کدنویسی و حل مسائل فنی
🧭 Managers & Executives — برای مدیران، تحلیل تصمیمگیری و استراتژی
در هر بخش، دهها پرامپت آماده وجود دارد که میتوانید مستقیماً در ChatGPT استفاده کنید — از نگارش ایمیل گرفته تا طراحی سیستم یا تحلیل داده.
📎 لینک مستقیم:
🔗 academy.openai.com/public/tags/prompt-packs-6849a0f98c613939acef841c
@rss_ai_ir
#OpenAI #PromptEngineering #ChatGPT #پرامپت #هوش_مصنوعی
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🎬 Grok Imagine 0.9 Desktop
بالاخره منتشر شد!
در نسخهی جدید، ویژگی Lip-sync عمومی اضافه شده — اما با نتایج بامزهای 😄
مثلاً در ویدیوهای تست، کوسه و سنجاب هر دو همزمان دهان باز میکنند (هرکدام با استایل خودش!) 🦈🐿
📉 مشکل اینجاست که الگوریتم لبخوانی مدل، روی تمام دهانها و پوزههای موجود در تصویر اعمال میشود، و چون هنوز تفکیک موجودات انجام نمیدهد، حرکات لبها به شکل هماهنگ ولی عجیب اجرا میشود.
با این حال، Grok Imagine 0.9 گام مهمی است به سمت ویدیوهای چندشخصیتی و همزمان با صداهای مختلف 🎧
@rss_ai_ir
#Grok #xAI #LipSync #هوش_مصنوعی #AI #VideoGeneration
بالاخره منتشر شد!
در نسخهی جدید، ویژگی Lip-sync عمومی اضافه شده — اما با نتایج بامزهای 😄
مثلاً در ویدیوهای تست، کوسه و سنجاب هر دو همزمان دهان باز میکنند (هرکدام با استایل خودش!) 🦈🐿
📉 مشکل اینجاست که الگوریتم لبخوانی مدل، روی تمام دهانها و پوزههای موجود در تصویر اعمال میشود، و چون هنوز تفکیک موجودات انجام نمیدهد، حرکات لبها به شکل هماهنگ ولی عجیب اجرا میشود.
با این حال، Grok Imagine 0.9 گام مهمی است به سمت ویدیوهای چندشخصیتی و همزمان با صداهای مختلف 🎧
@rss_ai_ir
#Grok #xAI #LipSync #هوش_مصنوعی #AI #VideoGeneration
👍2
⚠️ ابزار حذف واترمارک Sora 2 منتشر شد — اما با خطرات جدی قانونی!
ابزاری جدید با نام Sora Watermark Remover به کاربران اجازه میدهد تا واترمارک و نشانهی برند OpenAI را از ویدیوهای تولیدشده توسط Sora 2 حذف کنند، آن هم بدون افت کیفیت 🎥
اما توجه کنید 👇
🔸 طبق قوانین OpenAI، حذف یا دستکاری واترمارکها و متادیتاهای ویدیو نقض شرایط استفاده (ToS) محسوب میشود.
🔸 این واترمارکها برای شفافسازی منشأ محتوای تولیدشده با هوش مصنوعی و جلوگیری از سوءاستفاده طراحی شدهاند.
🔸 ابزارهایی از این نوع، حتی اگر از نظر فنی مؤثر باشند، میتوانند منجر به مسدود شدن حساب Sora یا ChatGPT شوند.
✅ از Sora 2 میتوان برای ساخت محتوای حرفهای استفاده کرد، اما حفظ واترمارک، احترام به قوانین و شفافیت در تولید محتوا است.
📌 توصیه: اگر میخواهید از ویدیوهای تولیدی در شبکههای اجتماعی (مثل TikTok) استفاده کنید، واترمارک را به بخشی از استایل خود تبدیل کنید — این کار به شناسایی و اعتماد مخاطب کمک میکند.
https://www.topyappers.com/tools/sora-watermark-remover
@rss_ai_ir
#Sora2 #OpenAI #AIContent #هوش_مصنوعی #قوانین #شفافیت
ابزاری جدید با نام Sora Watermark Remover به کاربران اجازه میدهد تا واترمارک و نشانهی برند OpenAI را از ویدیوهای تولیدشده توسط Sora 2 حذف کنند، آن هم بدون افت کیفیت 🎥
اما توجه کنید 👇
🔸 طبق قوانین OpenAI، حذف یا دستکاری واترمارکها و متادیتاهای ویدیو نقض شرایط استفاده (ToS) محسوب میشود.
🔸 این واترمارکها برای شفافسازی منشأ محتوای تولیدشده با هوش مصنوعی و جلوگیری از سوءاستفاده طراحی شدهاند.
🔸 ابزارهایی از این نوع، حتی اگر از نظر فنی مؤثر باشند، میتوانند منجر به مسدود شدن حساب Sora یا ChatGPT شوند.
✅ از Sora 2 میتوان برای ساخت محتوای حرفهای استفاده کرد، اما حفظ واترمارک، احترام به قوانین و شفافیت در تولید محتوا است.
📌 توصیه: اگر میخواهید از ویدیوهای تولیدی در شبکههای اجتماعی (مثل TikTok) استفاده کنید، واترمارک را به بخشی از استایل خود تبدیل کنید — این کار به شناسایی و اعتماد مخاطب کمک میکند.
https://www.topyappers.com/tools/sora-watermark-remover
@rss_ai_ir
#Sora2 #OpenAI #AIContent #هوش_مصنوعی #قوانین #شفافیت
❤1👍1
This media is not supported in your browser
VIEW IN TELEGRAM
💄 Pixel-Perfect Depth
؛ استاندارد جدید در تخمین عمق تکتصویری (SOTA) 💄
🔹 مدل Pixel-Perfect Depth یک سیستم پیشرفته برای تخمین عمق از تصاویر تکچشمی (mono-depth estimation) است که از Pixel-Space Diffusion Transformers استفاده میکند و اکنون رکورد جدیدی در دقت (SOTA) ثبت کرده است.
🚀 ویژگیها:
✳️تخمین عمق با دقت پیکسلی و جزئیات خیرهکننده 🖼️
✳️طراحی بر پایه ترنسفورمرهای دیفیوزنی در فضای تصویر (نه ویژگیها)
✳️پشتیبانی از ساختارهای پیچیده و بافتهای ظریف
✳️عملکرد عالی در سناریوهای واقعیت افزوده، نقشهبرداری و بینایی رباتیک
📜 لایسنس آزاد: Apache 2.0
🔗 مقاله: lnkd.in/d8wxFpyY
🔗 پروژه: lnkd.in/dV5HhsqH
🔗 کد: lnkd.in/d9JKFBJq
🔗 دموی آنلاین: lnkd.in/d3wBkKJ9
@rss_ai_ir
#AI #ComputerVision #DepthEstimation #DiffusionModels #SOTA #هوش_مصنوعی
؛ استاندارد جدید در تخمین عمق تکتصویری (SOTA) 💄
🔹 مدل Pixel-Perfect Depth یک سیستم پیشرفته برای تخمین عمق از تصاویر تکچشمی (mono-depth estimation) است که از Pixel-Space Diffusion Transformers استفاده میکند و اکنون رکورد جدیدی در دقت (SOTA) ثبت کرده است.
🚀 ویژگیها:
✳️تخمین عمق با دقت پیکسلی و جزئیات خیرهکننده 🖼️
✳️طراحی بر پایه ترنسفورمرهای دیفیوزنی در فضای تصویر (نه ویژگیها)
✳️پشتیبانی از ساختارهای پیچیده و بافتهای ظریف
✳️عملکرد عالی در سناریوهای واقعیت افزوده، نقشهبرداری و بینایی رباتیک
📜 لایسنس آزاد: Apache 2.0
🔗 مقاله: lnkd.in/d8wxFpyY
🔗 پروژه: lnkd.in/dV5HhsqH
🔗 کد: lnkd.in/d9JKFBJq
🔗 دموی آنلاین: lnkd.in/d3wBkKJ9
@rss_ai_ir
#AI #ComputerVision #DepthEstimation #DiffusionModels #SOTA #هوش_مصنوعی
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🎭 GAGA.ART —
چینیها هم وارد میدان آواتارهای هوشمند شدند! 🇨🇳
پلتفرم GAGA.ART که خیلیها آن را «نسخهی چینی Hedra» میدانند، امکان ساخت آواتار سخنگو از روی یک عکس را فراهم کرده است — فقط کافیست تصویر و متن یا صدای ورودی بدهید تا چهره شروع به صحبت کند. 🗣️
🎬 امکانات اصلی:
✳️ساخت ویدیو از عکس با ورودی متن یا صوت 🎤
✳️نسخهی Gaga Actor برای لبخوانی از متن
✳️نسخهی Gaga Avatar برای هماهنگی با صدای واقعی کاربر
✳️الگوریتم "Emotion-aware lipsync" (بهگفتهی سازندگان، هماهنگ با احساسات و میکروحرکات چهره!)
💰 مزایا و معایب واقعی:
✅ ۲۰۰ اعتبار رایگان برای شروع
✅ ساخت تصویر و آواتار رایگان در برخی حالتها
❌ ویدیوها فقط ۱۰ ثانیهاند (در مقایسه با Hedra که تا چند دقیقه میسازد)
❌ گاهی جزئیات چهره مثل دندان یا دهان غیرطبیعی بهنظر میرسد
❌ رابط کاربری هنوز خیلی ابتدایی است
🔗 آدرس: https://gaga.art/
📌 ورود با حساب Google ممکن است
در کل تجربهی جالبی است، مخصوصاً اگر دنبال جایگزین رایگان برای Hedra یا Pika باشید — ولی هنوز راه زیادی تا کیفیت حرفهای دارد.
@rss_ai_ir
#AvatarAI #LipSync #AI #هوش_مصنوعی #آواتار #GAGAART
چینیها هم وارد میدان آواتارهای هوشمند شدند! 🇨🇳
پلتفرم GAGA.ART که خیلیها آن را «نسخهی چینی Hedra» میدانند، امکان ساخت آواتار سخنگو از روی یک عکس را فراهم کرده است — فقط کافیست تصویر و متن یا صدای ورودی بدهید تا چهره شروع به صحبت کند. 🗣️
🎬 امکانات اصلی:
✳️ساخت ویدیو از عکس با ورودی متن یا صوت 🎤
✳️نسخهی Gaga Actor برای لبخوانی از متن
✳️نسخهی Gaga Avatar برای هماهنگی با صدای واقعی کاربر
✳️الگوریتم "Emotion-aware lipsync" (بهگفتهی سازندگان، هماهنگ با احساسات و میکروحرکات چهره!)
💰 مزایا و معایب واقعی:
✅ ۲۰۰ اعتبار رایگان برای شروع
✅ ساخت تصویر و آواتار رایگان در برخی حالتها
❌ ویدیوها فقط ۱۰ ثانیهاند (در مقایسه با Hedra که تا چند دقیقه میسازد)
❌ گاهی جزئیات چهره مثل دندان یا دهان غیرطبیعی بهنظر میرسد
❌ رابط کاربری هنوز خیلی ابتدایی است
🔗 آدرس: https://gaga.art/
📌 ورود با حساب Google ممکن است
در کل تجربهی جالبی است، مخصوصاً اگر دنبال جایگزین رایگان برای Hedra یا Pika باشید — ولی هنوز راه زیادی تا کیفیت حرفهای دارد.
@rss_ai_ir
#AvatarAI #LipSync #AI #هوش_مصنوعی #آواتار #GAGAART
❤2
This media is not supported in your browser
VIEW IN TELEGRAM
💡 مدل RND1 — انقلاب در تولید متن با رویکرد دیفیوژنی!
🧠 مدل RND1 یک مدل زبانی آزمایشی با ۳۰ میلیارد پارامتر است که بر پایهی معماری Sparse Mixture-of-Experts (MoE) ساخته شده؛ اما فقط ۳ میلیارد پارامتر آن در هر لحظه فعال است.
یعنی قدرت زیاد، اما با مصرف بسیار کمتر! ⚙️
🔁 تفاوت اصلی RND1 با مدلهای معمولی مثل GPT در این است که: مدلهای کلاسیک (Autoregressive) متن را کلمه به کلمه تولید میکنند،
اما RND1 کل جمله را بهصورت همزمان میسازد و سپس در چند مرحله آن را دقیقتر میکند — درست مثل مدلهای دیفیوژنی که تصویر را از «نویز» بیرون میکشند. 🎨
---
🚀 چطور ساخته شد؟
تیم Radical Numerics موفق شد یک مدل زبانی موجود (Qwen3-30B-A3B) را به مدل دیفیوژنی تبدیل کند — بدون نیاز به آموزش از صفر!
این فرآیند را AR-to-Diffusion Conversion (A2D) مینامند:
۱️⃣ انتخاب یک مدل قوی شبیه GPT
۲️⃣ تغییر مکانیزم توجه (attention) تا مدل کل متن را همزمان ببیند
۳️⃣ آموزش روی دادههای جدید با روش دیفیوژنی
۴️⃣ استفاده از نرخ یادگیری متفاوت برای بخشهای مختلف شبکه تا مدل هم «یاد قدیمی» را نگه دارد، هم «تفکر جدید» یاد بگیرد 🧩
---
⚙️ ویژگیهای کلیدی
🔸 اول MoE فعال: تنها ۳ میلیارد پارامتر در هر بار فعال میشوند → سرعت بالا و بهرهوری انرژی عالی.
🔸 یادگیری پیوسته: دانش قبلی پاک نمیشود، بلکه در منطق جدید ادغام میشود.
🔸 همچنین Batchهای عظیم: آموزش پایدار حتی هنگام مشاهدهی همزمان کل توکنها.
---
✨ چرا اهمیت دارد؟
✅ تولید موازی متن — بدون تأخیر گامبهگام
✅ مصرف کمتر منابع با حفظ کیفیت GPTهای بزرگ
✅ معماری هیبریدی بین AR و DLM
✅ کاملاً متنباز (کد، گزارش و وزنها در دسترساند)
✅ گامی مهم بهسوی هوش خودبهبودیاب (RSI)؛ مدلی که میتواند خودش را طراحی و بهبود دهد 🤖
---
📎 منابع:
🔸 وبلاگ:
radicalnumerics.ai/blog/rnd1
🔸 کد:
github.com/RadicalNumerics/RND1
🔸 گزارش فنی:
rnd1_report.pdf
🔸 وزنها:
huggingface.co/radicalnumerics/RND1-Base-0910
---
📡 @rss_ai_ir
#RND1 #RadicalNumerics #AI #DLM #DiffusionModel #MoE #OpenSource
🧠 مدل RND1 یک مدل زبانی آزمایشی با ۳۰ میلیارد پارامتر است که بر پایهی معماری Sparse Mixture-of-Experts (MoE) ساخته شده؛ اما فقط ۳ میلیارد پارامتر آن در هر لحظه فعال است.
یعنی قدرت زیاد، اما با مصرف بسیار کمتر! ⚙️
🔁 تفاوت اصلی RND1 با مدلهای معمولی مثل GPT در این است که: مدلهای کلاسیک (Autoregressive) متن را کلمه به کلمه تولید میکنند،
اما RND1 کل جمله را بهصورت همزمان میسازد و سپس در چند مرحله آن را دقیقتر میکند — درست مثل مدلهای دیفیوژنی که تصویر را از «نویز» بیرون میکشند. 🎨
---
🚀 چطور ساخته شد؟
تیم Radical Numerics موفق شد یک مدل زبانی موجود (Qwen3-30B-A3B) را به مدل دیفیوژنی تبدیل کند — بدون نیاز به آموزش از صفر!
این فرآیند را AR-to-Diffusion Conversion (A2D) مینامند:
۱️⃣ انتخاب یک مدل قوی شبیه GPT
۲️⃣ تغییر مکانیزم توجه (attention) تا مدل کل متن را همزمان ببیند
۳️⃣ آموزش روی دادههای جدید با روش دیفیوژنی
۴️⃣ استفاده از نرخ یادگیری متفاوت برای بخشهای مختلف شبکه تا مدل هم «یاد قدیمی» را نگه دارد، هم «تفکر جدید» یاد بگیرد 🧩
---
⚙️ ویژگیهای کلیدی
🔸 اول MoE فعال: تنها ۳ میلیارد پارامتر در هر بار فعال میشوند → سرعت بالا و بهرهوری انرژی عالی.
🔸 یادگیری پیوسته: دانش قبلی پاک نمیشود، بلکه در منطق جدید ادغام میشود.
🔸 همچنین Batchهای عظیم: آموزش پایدار حتی هنگام مشاهدهی همزمان کل توکنها.
---
✨ چرا اهمیت دارد؟
✅ تولید موازی متن — بدون تأخیر گامبهگام
✅ مصرف کمتر منابع با حفظ کیفیت GPTهای بزرگ
✅ معماری هیبریدی بین AR و DLM
✅ کاملاً متنباز (کد، گزارش و وزنها در دسترساند)
✅ گامی مهم بهسوی هوش خودبهبودیاب (RSI)؛ مدلی که میتواند خودش را طراحی و بهبود دهد 🤖
---
📎 منابع:
🔸 وبلاگ:
radicalnumerics.ai/blog/rnd1
🔸 کد:
github.com/RadicalNumerics/RND1
🔸 گزارش فنی:
rnd1_report.pdf
🔸 وزنها:
huggingface.co/radicalnumerics/RND1-Base-0910
---
📡 @rss_ai_ir
#RND1 #RadicalNumerics #AI #DLM #DiffusionModel #MoE #OpenSource
👍1
🚀 راهنمای جدید Qwen برای مدل چندوجهی Qwen3-VL منتشر شد!
شرکت Qwen (وابسته به Alibaba) مجموعهای از دفترچههای تعاملی (Notebooks) منتشر کرده که کاربردهای قدرتمند مدل چندوجهی Qwen3-VL را بهصورت گامبهگام نشان میدهد — هم برای اجرا روی سیستم محلی و هم از طریق API.
📚 در این مجموعه، دهها مثال واقعی با توضیحات دقیق وجود دارد، از جمله:
🔸 تحلیل و استدلال روی تصاویر
🔸 عامل تعاملی با رابط کاربری (Computer-Use Agent)
🔸 برنامهنویسی چندوجهی (Multimodal Programming)
🔸 تشخیص اشیاء و صحنهها (Omni Recognition)
🔸 استخراج داده از اسناد و PDFها
🔸 تشخیص دقیق اشیاء در تصاویر
🔸 OCR
و استخراج اطلاعات کلیدی
🔸 تحلیل سهبعدی و لنگرگذاری اشیاء (3D Anchoring)
🔸 درک متون طولانی
🔸 استدلال فضایی (Spatial Reasoning)
🔸 عامل موبایل (Mobile Agent)
🔸 تحلیل و درک ویدیو 🎥
🔗 منابع رسمی:
🟠 گیتهاب:
github.com/QwenLM/Qwen3-VL/tree/main/cookbooks
🟠 مستندات
API: alibabacloud.com/help/en/model-studio/user-guide/vision
🟠 تجربه آنلاین:
chat.qwen.ai/?models=qwen3-vl-plus
📌 اگر به دنبال مدلی هستید که بینایی، زبان و منطق فضایی را همزمان ترکیب کند، Qwen3-VL یکی از پیشرفتهترین گزینههای متنباز امروز است.
@rss_ai_ir
#Qwen #Qwen3VL #هوش_مصنوعی #LLM #Multimodal #VisionLanguage #AI
شرکت Qwen (وابسته به Alibaba) مجموعهای از دفترچههای تعاملی (Notebooks) منتشر کرده که کاربردهای قدرتمند مدل چندوجهی Qwen3-VL را بهصورت گامبهگام نشان میدهد — هم برای اجرا روی سیستم محلی و هم از طریق API.
📚 در این مجموعه، دهها مثال واقعی با توضیحات دقیق وجود دارد، از جمله:
🔸 تحلیل و استدلال روی تصاویر
🔸 عامل تعاملی با رابط کاربری (Computer-Use Agent)
🔸 برنامهنویسی چندوجهی (Multimodal Programming)
🔸 تشخیص اشیاء و صحنهها (Omni Recognition)
🔸 استخراج داده از اسناد و PDFها
🔸 تشخیص دقیق اشیاء در تصاویر
🔸 OCR
و استخراج اطلاعات کلیدی
🔸 تحلیل سهبعدی و لنگرگذاری اشیاء (3D Anchoring)
🔸 درک متون طولانی
🔸 استدلال فضایی (Spatial Reasoning)
🔸 عامل موبایل (Mobile Agent)
🔸 تحلیل و درک ویدیو 🎥
🔗 منابع رسمی:
🟠 گیتهاب:
github.com/QwenLM/Qwen3-VL/tree/main/cookbooks
🟠 مستندات
API: alibabacloud.com/help/en/model-studio/user-guide/vision
🟠 تجربه آنلاین:
chat.qwen.ai/?models=qwen3-vl-plus
📌 اگر به دنبال مدلی هستید که بینایی، زبان و منطق فضایی را همزمان ترکیب کند، Qwen3-VL یکی از پیشرفتهترین گزینههای متنباز امروز است.
@rss_ai_ir
#Qwen #Qwen3VL #هوش_مصنوعی #LLM #Multimodal #VisionLanguage #AI
❤1
Media is too big
VIEW IN TELEGRAM
🤖 Figure 03 —
نخستین ربات انساننمای تجاری برای بازار انبوه
شرکت Figure AI از نسل سوم ربات انساننمای خود با نام Figure 03 رونمایی کرد — نخستین مدلی که بهطور ویژه برای تولید انبوه طراحی شده است.
این ربات با استفاده از تعامل مستقیم با انسانها آموزش میبیند و میتواند مجموعهای از وظایف خانگی و صنعتی را انجام دهد — از خانه و هتل گرفته تا انبارها و مراکز خدماتی.
🧠 سیستم هوش مصنوعی آن با نام Helix، بینایی، زبان و عمل را در یک چارچوب واحد ترکیب میکند، تا ربات بتواند مانند انسانها در محیط واقعی تصمیمگیری و عمل کند.
🔧 ویژگیهای جدید Figure 03:
♻️بدنه از مواد نرم و قابل شستوشو ساخته شده، بدون مکانیزمهای باز یا خطرناک
♻️وزن ۹٪ کمتر از نسل قبلی
♻️تغییر روش تولید از CNC به قالبگیری صنعتی (molding) برای سرعت بالاتر در مونتاژ
♻️هدف تولید: ۱۲,۰۰۰ دستگاه در سال و رسیدن به ۱۰۰,۰۰۰ دستگاه طی چهار سال آینده
🎯 بهبودهای فنی:
✳️میدان دید وسیعتر برای دوربینها
✳️دوربینهای تعبیهشده در کف دست برای تعامل دقیقتر
✳️حسگرهای فشار لمسی پیشرفته
✳️سیستم صوتی جدید برای تشخیص بهتر صداها
✳️شارژ بیسیم با قابلیت انتقال داده
✳️قابلیت «تغییر لباس» با یونیفرمهای مختلف برای محیطهای کاری متفاوت 👕
🎥 در ویدیوهای رسمی، Figure 03 با حرکاتی نرم و طبیعی با انسانها و اشیاء محیط تعامل میکند — اما هنوز باید دید در دنیای واقعی چهقدر قابل اعتماد خواهد بود.
💰 قیمت هنوز اعلام نشده است، اما این ربات گامی بزرگ بهسوی حضور انساننماها در زندگی روزمره محسوب میشود.
@rss_ai_ir
#Figure03 #FigureAI #هوش_مصنوعی #رباتیک #Humanoid #AI #Robotics #Helix
نخستین ربات انساننمای تجاری برای بازار انبوه
شرکت Figure AI از نسل سوم ربات انساننمای خود با نام Figure 03 رونمایی کرد — نخستین مدلی که بهطور ویژه برای تولید انبوه طراحی شده است.
این ربات با استفاده از تعامل مستقیم با انسانها آموزش میبیند و میتواند مجموعهای از وظایف خانگی و صنعتی را انجام دهد — از خانه و هتل گرفته تا انبارها و مراکز خدماتی.
🧠 سیستم هوش مصنوعی آن با نام Helix، بینایی، زبان و عمل را در یک چارچوب واحد ترکیب میکند، تا ربات بتواند مانند انسانها در محیط واقعی تصمیمگیری و عمل کند.
🔧 ویژگیهای جدید Figure 03:
♻️بدنه از مواد نرم و قابل شستوشو ساخته شده، بدون مکانیزمهای باز یا خطرناک
♻️وزن ۹٪ کمتر از نسل قبلی
♻️تغییر روش تولید از CNC به قالبگیری صنعتی (molding) برای سرعت بالاتر در مونتاژ
♻️هدف تولید: ۱۲,۰۰۰ دستگاه در سال و رسیدن به ۱۰۰,۰۰۰ دستگاه طی چهار سال آینده
🎯 بهبودهای فنی:
✳️میدان دید وسیعتر برای دوربینها
✳️دوربینهای تعبیهشده در کف دست برای تعامل دقیقتر
✳️حسگرهای فشار لمسی پیشرفته
✳️سیستم صوتی جدید برای تشخیص بهتر صداها
✳️شارژ بیسیم با قابلیت انتقال داده
✳️قابلیت «تغییر لباس» با یونیفرمهای مختلف برای محیطهای کاری متفاوت 👕
🎥 در ویدیوهای رسمی، Figure 03 با حرکاتی نرم و طبیعی با انسانها و اشیاء محیط تعامل میکند — اما هنوز باید دید در دنیای واقعی چهقدر قابل اعتماد خواهد بود.
💰 قیمت هنوز اعلام نشده است، اما این ربات گامی بزرگ بهسوی حضور انساننماها در زندگی روزمره محسوب میشود.
@rss_ai_ir
#Figure03 #FigureAI #هوش_مصنوعی #رباتیک #Humanoid #AI #Robotics #Helix
👍2🔥1👏1
💻 چرا دیگر خرید کارت گرافیک خانگی منطقی نیست؟ 😅
⛔️در یک نمودار جالب که اخیراً منتشر شده، بهخوبی نشان داده شده که چرا عصر "هوش مصنوعی خانگی" به پایان رسیده است.
📈 طبق دادهها:
✳️نیاز سختافزاری برای اجرای مدلهای هوش مصنوعی سالانه ۴.۵ برابر رشد میکند.
✳️در بهترین حالت، طبق قانون مور، کارایی چیپها تنها هر ۱.۵ سال دو برابر میشود.
✳️حتی این آمار به حافظهٔ محدود روی تراشهها اشارهای نمیکند — که همانقدر بحرانی است.
نتیجه واضح است:
⚠️ نیاز به توان محاسباتی سریعتر از رشد سختافزار افزایش مییابد، و کاربر معمولی دیگر نمیتواند همپای این رقابت باقی بماند.
📊 در تصویر دوم، مقایسهٔ جالبی آمده:
هزینهٔ ساخت دیتاسنترها در آمریکا در سال ۲۰۲۵ تقریباً با هزینهٔ ساخت برجهای اداری جدید برابر شده است!
🧠 دنیایی که زمانی با لپتاپ و کارت گرافیک شخصی قابل تجربه بود، حالا به قلمرو ابرکامپیوترها و دیتاسنترها تبدیل شده.
میتوان گفت عصر «یقهسفیدها و یقهآبیها» جای خود را به یقههای سیلیکونی داده است 😎
@rss_ai_ir
#هوش_مصنوعی #GPU #AIHardware #Datacenter #NVIDIA #ComputePower
⛔️در یک نمودار جالب که اخیراً منتشر شده، بهخوبی نشان داده شده که چرا عصر "هوش مصنوعی خانگی" به پایان رسیده است.
📈 طبق دادهها:
✳️نیاز سختافزاری برای اجرای مدلهای هوش مصنوعی سالانه ۴.۵ برابر رشد میکند.
✳️در بهترین حالت، طبق قانون مور، کارایی چیپها تنها هر ۱.۵ سال دو برابر میشود.
✳️حتی این آمار به حافظهٔ محدود روی تراشهها اشارهای نمیکند — که همانقدر بحرانی است.
نتیجه واضح است:
⚠️ نیاز به توان محاسباتی سریعتر از رشد سختافزار افزایش مییابد، و کاربر معمولی دیگر نمیتواند همپای این رقابت باقی بماند.
📊 در تصویر دوم، مقایسهٔ جالبی آمده:
هزینهٔ ساخت دیتاسنترها در آمریکا در سال ۲۰۲۵ تقریباً با هزینهٔ ساخت برجهای اداری جدید برابر شده است!
🧠 دنیایی که زمانی با لپتاپ و کارت گرافیک شخصی قابل تجربه بود، حالا به قلمرو ابرکامپیوترها و دیتاسنترها تبدیل شده.
میتوان گفت عصر «یقهسفیدها و یقهآبیها» جای خود را به یقههای سیلیکونی داده است 😎
@rss_ai_ir
#هوش_مصنوعی #GPU #AIHardware #Datacenter #NVIDIA #ComputePower
😢4❤1👌1💯1🍌1
This media is not supported in your browser
VIEW IN TELEGRAM
🎯 مدل جدید TrackVLA++ برای ردیابی بصری (Visual Tracking)
مدل TrackVLA++ نسل جدیدی از مدلهای Vision-Language-Action است که با ترکیب استدلال فضایی (Spatial Reasoning) و حافظه شناسایی هدف (Target Identification Memory)، عملکردی در سطح SOTA را در سناریوهای ردیابی طولانیمدت و محیطهای شلوغ ارائه میدهد. 💙
🚀 ویژگیهای کلیدی:
🔹 قابلیت تحلیل دقیق فضا و موقعیت اشیاء در ویدیوهای پیچیده
🔹 حفظ حافظه هدف حتی در حضور ازدحام و جابجایی اجسام
🔹 مناسب برای رباتها، سیستمهای نظارت تصویری و کاربردهای واقعیت افزوده
📚 منابع:
📄 مقاله: arxiv.org/pdf/2510.07134
🌐 پروژه:
pku-epic.github.io/TrackVLA-plus-plus-Web/
📦 ریپوی کد: بهزودی منتشر میشود
@rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #ردیابی_بصری #TrackVLA #AI #ComputerVision #DeepLearning
مدل TrackVLA++ نسل جدیدی از مدلهای Vision-Language-Action است که با ترکیب استدلال فضایی (Spatial Reasoning) و حافظه شناسایی هدف (Target Identification Memory)، عملکردی در سطح SOTA را در سناریوهای ردیابی طولانیمدت و محیطهای شلوغ ارائه میدهد. 💙
🚀 ویژگیهای کلیدی:
🔹 قابلیت تحلیل دقیق فضا و موقعیت اشیاء در ویدیوهای پیچیده
🔹 حفظ حافظه هدف حتی در حضور ازدحام و جابجایی اجسام
🔹 مناسب برای رباتها، سیستمهای نظارت تصویری و کاربردهای واقعیت افزوده
📚 منابع:
📄 مقاله: arxiv.org/pdf/2510.07134
🌐 پروژه:
pku-epic.github.io/TrackVLA-plus-plus-Web/
📦 ریپوی کد: بهزودی منتشر میشود
@rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #ردیابی_بصری #TrackVLA #AI #ComputerVision #DeepLearning
👍1
📊 طبق یک پست در ردیت، فهرستی از ۳۰ مشتری بزرگ OpenAI لو رفته که مجموعاً بیش از ۱ تریلیون توکن مصرف کردهاند 😳
یکی از کامنتهای زیر پست نوشته بود:
> «الان بیشتر اقتصاد ما شده شرکتهایی که از شرکتهای دیگر خدمات هوش مصنوعی میخرند تا برای شرکتهای دیگر خدمات هوش مصنوعی بسازند!» 😅
دنیای امروز یعنی: هوش مصنوعی، برای هوش مصنوعی، بهوسیلهی هوش مصنوعی 💸
@rss_ai_ir
#هوش_مصنوعی #OpenAI #GPT5 #اقتصاد_دیجیتال #AI
یکی از کامنتهای زیر پست نوشته بود:
> «الان بیشتر اقتصاد ما شده شرکتهایی که از شرکتهای دیگر خدمات هوش مصنوعی میخرند تا برای شرکتهای دیگر خدمات هوش مصنوعی بسازند!» 😅
دنیای امروز یعنی: هوش مصنوعی، برای هوش مصنوعی، بهوسیلهی هوش مصنوعی 💸
@rss_ai_ir
#هوش_مصنوعی #OpenAI #GPT5 #اقتصاد_دیجیتال #AI
👍2❤1
🚀 GPT-5 Pro
مرزهای جدید هوش مصنوعی را جابهجا کرد!
مدل GPT-5 Pro حالا بالاترین امتیاز تأییدشده را در بنچمارک ARC-AGI (نسخه نیمهخصوصی) کسب کرده است — نزدیکترین گام تا امروز به سمت هوش مصنوعی عمومی (AGI) 🤯
سؤال بزرگ اینجاست:
آیا وارد عصرِ پس از LLM ها شدهایم؟ 👀
@rss_ai_ir
#هوش_مصنوعی #GPT5 #AGI #OpenAI #AI
مرزهای جدید هوش مصنوعی را جابهجا کرد!
مدل GPT-5 Pro حالا بالاترین امتیاز تأییدشده را در بنچمارک ARC-AGI (نسخه نیمهخصوصی) کسب کرده است — نزدیکترین گام تا امروز به سمت هوش مصنوعی عمومی (AGI) 🤯
سؤال بزرگ اینجاست:
آیا وارد عصرِ پس از LLM ها شدهایم؟ 👀
@rss_ai_ir
#هوش_مصنوعی #GPT5 #AGI #OpenAI #AI
🔥1👏1
💰 هزینههای سرسامآور OpenAI در سال ۲۰۲۴ برای قدرت پردازشی (GPU Power)
طبق گزارش جدید Epoch.AI و دادههای رسانههایی چون The Information، تخمین زده میشود که OpenAI در سال ۲۰۲۴ حدود ۷ میلیارد دلار تنها برای توان محاسباتی خرج کرده است 😳
📊 جزئیات تخمینی هزینهها:
🔹 ۲ میلیارد دلار — برای اجرای مدلها در ChatGPT و API (یعنی هزینهٔ مستقیم سرویسدهی به کاربران).
🔹 ۴.۵ میلیارد دلار — صرف آزمایشها و توسعهٔ مدلهای جدید، از جمله پروژههای تحقیقاتی بزرگ.
🔹 ۴۰۰ میلیون دلار — هزینهٔ آموزش مدل GPT-4.5 (Orion)، که قرار بود همان GPT-5 باشد؛ آموزش آن بین ۹۰ تا ۱۶۵ روز طول کشید، با استفاده از ۴۰ تا ۱۰۰ هزار GPU.
📈 بازهٔ اطمینان ۹۰٪ برای هزینهٔ آموزش: بین ۱۷۰ تا ۸۹۰ میلیون دلار.
🔹 ۸۰ میلیون دلار — برای مدلهای سبکتر مانند GPT-4o / o1 / Mini و بهروزرسانی نسخههای چت.
📉 پیشبینی برای ۲۰۲۵:
دستهی آبی نمودار (توان موردنیاز برای inference) بهطور چشمگیری افزایش مییابد، چون کاربران ChatGPT بیشتر شدهاند و مدلهای «تفکری» (Thinking Models) توکنهای بیشتری تولید میکنند.
به بیان سادهتر، آیندهٔ هوش مصنوعی نه فقط در دادهها یا مدلها، بلکه در وات و دلار رقم میخورد ⚡💵
@rss_ai_ir
#هوش_مصنوعی #OpenAI #GPU #AICompute #ChatGPT #Orion #GPT5 #AIeconomy
طبق گزارش جدید Epoch.AI و دادههای رسانههایی چون The Information، تخمین زده میشود که OpenAI در سال ۲۰۲۴ حدود ۷ میلیارد دلار تنها برای توان محاسباتی خرج کرده است 😳
📊 جزئیات تخمینی هزینهها:
🔹 ۲ میلیارد دلار — برای اجرای مدلها در ChatGPT و API (یعنی هزینهٔ مستقیم سرویسدهی به کاربران).
🔹 ۴.۵ میلیارد دلار — صرف آزمایشها و توسعهٔ مدلهای جدید، از جمله پروژههای تحقیقاتی بزرگ.
🔹 ۴۰۰ میلیون دلار — هزینهٔ آموزش مدل GPT-4.5 (Orion)، که قرار بود همان GPT-5 باشد؛ آموزش آن بین ۹۰ تا ۱۶۵ روز طول کشید، با استفاده از ۴۰ تا ۱۰۰ هزار GPU.
📈 بازهٔ اطمینان ۹۰٪ برای هزینهٔ آموزش: بین ۱۷۰ تا ۸۹۰ میلیون دلار.
🔹 ۸۰ میلیون دلار — برای مدلهای سبکتر مانند GPT-4o / o1 / Mini و بهروزرسانی نسخههای چت.
📉 پیشبینی برای ۲۰۲۵:
دستهی آبی نمودار (توان موردنیاز برای inference) بهطور چشمگیری افزایش مییابد، چون کاربران ChatGPT بیشتر شدهاند و مدلهای «تفکری» (Thinking Models) توکنهای بیشتری تولید میکنند.
به بیان سادهتر، آیندهٔ هوش مصنوعی نه فقط در دادهها یا مدلها، بلکه در وات و دلار رقم میخورد ⚡💵
@rss_ai_ir
#هوش_مصنوعی #OpenAI #GPU #AICompute #ChatGPT #Orion #GPT5 #AIeconomy
This media is not supported in your browser
VIEW IN TELEGRAM
🧱 KIRI Engine نسخهٔ جدید
3DGS to Mesh 2.0 را منتشر کرد
— تبدیل هر شیء به مدل سهبعدی تنها با دوربین گوشی! 📱✨
شرکت KIRI Engine با معرفی مدل هوش مصنوعی 3DGS to Mesh 2.0 دنیای فتوگراممتری را متحول کرده است. این فناوری میتواند هر شیء واقعی را تنها با چند عکس به مدل سهبعدی دقیق و قابل ویرایش تبدیل کند.
🚀 ویژگیهای کلیدی:
🔹 تولید مدلهای سهبعدی با نورپردازی و بافت واقعگرایانه مستقیماً از دوربین موبایل
🔹 ترکیب روش 3D Gaussian Splatting (3DGS) با بازسازی بهینهٔ مش برای سطوح صافتر و طبیعیتر
🔹 قابلیت خروجیگیری و ویرایش در نرمافزارهای سهبعدی معروف — مناسب برای طراحان بازی، هنرمندان و مهندسان محصول
🔹 کاملاً رایگان برای کاربران Android و iOS
این یعنی: ساخت مدل سهبعدی حرفهای حالا بهسادگی گرفتن یک عکس است! 📸
@rss_ai_ir
#هوش_مصنوعی #3DModeling #KIRI #3DGS #AI #Photogrammetry #GameDev #Design
3DGS to Mesh 2.0 را منتشر کرد
— تبدیل هر شیء به مدل سهبعدی تنها با دوربین گوشی! 📱✨
شرکت KIRI Engine با معرفی مدل هوش مصنوعی 3DGS to Mesh 2.0 دنیای فتوگراممتری را متحول کرده است. این فناوری میتواند هر شیء واقعی را تنها با چند عکس به مدل سهبعدی دقیق و قابل ویرایش تبدیل کند.
🚀 ویژگیهای کلیدی:
🔹 تولید مدلهای سهبعدی با نورپردازی و بافت واقعگرایانه مستقیماً از دوربین موبایل
🔹 ترکیب روش 3D Gaussian Splatting (3DGS) با بازسازی بهینهٔ مش برای سطوح صافتر و طبیعیتر
🔹 قابلیت خروجیگیری و ویرایش در نرمافزارهای سهبعدی معروف — مناسب برای طراحان بازی، هنرمندان و مهندسان محصول
🔹 کاملاً رایگان برای کاربران Android و iOS
این یعنی: ساخت مدل سهبعدی حرفهای حالا بهسادگی گرفتن یک عکس است! 📸
@rss_ai_ir
#هوش_مصنوعی #3DModeling #KIRI #3DGS #AI #Photogrammetry #GameDev #Design
❤3
🧠 LIMIT —
پژوهشی از Google DeepMind دربارهٔ مرزهای بازیابی اطلاعات با بردارهای تع嶼های (Embeddings)
⛔️محققان DeepMind با معرفی مجموعهدادهی LIMIT نشان دادهاند که حتی پیشرفتهترین مدلهای embedding نیز در بازیابی برخی اسناد شکست میخورند. این پروژه به بررسی محدودیتهای ذاتی روشهای مبتنی بر یک بردار منفرد برای نمایش معنا میپردازد.
🚀 نکات کلیدی:
✳️مجموعهدادهای برای ارزیابی عملکرد مدلهای embedding
✳️شامل ۵۰٬۰۰۰ سند و ۱٬۰۰۰ پرسوجو واقعی
✳️افشاگر محدودیتهای نظری در بازیابی مبتنی بر شباهت برداری
✳️همراه با کد کامل برای تولید دادهها و انجام آزمایشها
📌 سورسکد و دادهها در گیتهاب:
github.com/google-deepmind/limit
@rss_ai_ir
#هوش_مصنوعی #DeepMind #Embedding #Limit #AIResearch #InformationRetrieval
پژوهشی از Google DeepMind دربارهٔ مرزهای بازیابی اطلاعات با بردارهای تع嶼های (Embeddings)
⛔️محققان DeepMind با معرفی مجموعهدادهی LIMIT نشان دادهاند که حتی پیشرفتهترین مدلهای embedding نیز در بازیابی برخی اسناد شکست میخورند. این پروژه به بررسی محدودیتهای ذاتی روشهای مبتنی بر یک بردار منفرد برای نمایش معنا میپردازد.
🚀 نکات کلیدی:
✳️مجموعهدادهای برای ارزیابی عملکرد مدلهای embedding
✳️شامل ۵۰٬۰۰۰ سند و ۱٬۰۰۰ پرسوجو واقعی
✳️افشاگر محدودیتهای نظری در بازیابی مبتنی بر شباهت برداری
✳️همراه با کد کامل برای تولید دادهها و انجام آزمایشها
📌 سورسکد و دادهها در گیتهاب:
github.com/google-deepmind/limit
@rss_ai_ir
#هوش_مصنوعی #DeepMind #Embedding #Limit #AIResearch #InformationRetrieval
❤1
🛠️ AI SDK Devtools —
ابزار قدرتمند برای دیباگ و مانیتورینگ برنامههای هوش مصنوعی 🤖
⛔️این ابزار به توسعهدهندگان اجازه میدهد تا در زمان واقعی (Real-time)، رخدادها، عملکرد مدل و فراخوانی ابزارها را بررسی و تحلیل کنند.
🚀 ویژگیهای کلیدی:
♻️مانیتورینگ رویدادهای هوش مصنوعی در لحظه
♻️دیباگ دقیق فراخوانی ابزارها همراه با ورودی و خروجی
♻️پایش عملکرد و سرعت پردازش جریانها
♻️فیلترکردن رویدادها بر اساس نوع یا نام ابزار
♻️نمایش گرافیکی میزان مصرف توکنها و حافظهٔ زمینه (Context)
📦 مناسب برای: توسعهدهندگان TypeScript و Node.js که با SDKهای هوش مصنوعی کار میکنند و نیاز به دید عمیق نسبت به رفتار مدلها دارند.
📌 سورسکد در گیتهاب:
github.com/midday-ai/ai-sdk-devtools
@rss_ai_ir
#هوش_مصنوعی #AI #Devtools #TypeScript #SDK #Debugging
ابزار قدرتمند برای دیباگ و مانیتورینگ برنامههای هوش مصنوعی 🤖
⛔️این ابزار به توسعهدهندگان اجازه میدهد تا در زمان واقعی (Real-time)، رخدادها، عملکرد مدل و فراخوانی ابزارها را بررسی و تحلیل کنند.
🚀 ویژگیهای کلیدی:
♻️مانیتورینگ رویدادهای هوش مصنوعی در لحظه
♻️دیباگ دقیق فراخوانی ابزارها همراه با ورودی و خروجی
♻️پایش عملکرد و سرعت پردازش جریانها
♻️فیلترکردن رویدادها بر اساس نوع یا نام ابزار
♻️نمایش گرافیکی میزان مصرف توکنها و حافظهٔ زمینه (Context)
📦 مناسب برای: توسعهدهندگان TypeScript و Node.js که با SDKهای هوش مصنوعی کار میکنند و نیاز به دید عمیق نسبت به رفتار مدلها دارند.
📌 سورسکد در گیتهاب:
github.com/midday-ai/ai-sdk-devtools
@rss_ai_ir
#هوش_مصنوعی #AI #Devtools #TypeScript #SDK #Debugging