This media is not supported in your browser
    VIEW IN TELEGRAM
  🧠 گوگل قابلیت جدیدی را در Gemini Canvas معرفی کرد — محیط کاری تعاملی درون Gemini حالا میتواند برایتان پرزنتیشنهای کامل بسازد! 🚀
کافی است بنویسید:
💬 «ساخت یک پرزنتیشن درباره [موضوع]»
یا یک سند، جدول یا مقاله تحقیقاتی آپلود کنید —
مدل Gemini بهصورت خودکار اسلایدهایی با متن، عناصر بصری و طراحی منسجم ایجاد میکند 🎨
📤 میتوانید نتیجه را مستقیماً به Google Slides صادر کنید و هر بخش را ویرایش یا شخصیسازی کنید.
این قابلیت برای همه کاربران و کشورها در دسترس است،
اما کاربران Gemini 2.5 Pro از نسخهی پیشرفتهتر مدل بهرهمند میشوند ⚡
و جالبتر اینکه این ویژگی فقط مخصوص پرزنتیشن نیست — Gemini Canvas بهزودی به یک پلتفرم کامل برای تولید محتوای چندرسانهای تبدیل میشود.
🔗 اطلاعات بیشتر
@rss_ai_ir
#Google #Gemini #AI #Presentation #Productivity #GenerativeAI #GeminiCanvas
کافی است بنویسید:
💬 «ساخت یک پرزنتیشن درباره [موضوع]»
یا یک سند، جدول یا مقاله تحقیقاتی آپلود کنید —
مدل Gemini بهصورت خودکار اسلایدهایی با متن، عناصر بصری و طراحی منسجم ایجاد میکند 🎨
📤 میتوانید نتیجه را مستقیماً به Google Slides صادر کنید و هر بخش را ویرایش یا شخصیسازی کنید.
این قابلیت برای همه کاربران و کشورها در دسترس است،
اما کاربران Gemini 2.5 Pro از نسخهی پیشرفتهتر مدل بهرهمند میشوند ⚡
و جالبتر اینکه این ویژگی فقط مخصوص پرزنتیشن نیست — Gemini Canvas بهزودی به یک پلتفرم کامل برای تولید محتوای چندرسانهای تبدیل میشود.
🔗 اطلاعات بیشتر
@rss_ai_ir
#Google #Gemini #AI #Presentation #Productivity #GenerativeAI #GeminiCanvas
👍3
  📈 ما در یک لحظه تاریخی زندگی میکنیم
برای چهارمین ماه پیاپی، ارزش کل بازار بورس Nasdaq از NYSE پیشی گرفته و جایگاه خود را به عنوان بزرگترین بورس جهان تثبیت کرده است.
🎯 مرکز ثقل سرمایه جهانی اکنون به سمت نرمافزار، تراشهها و زیرساختهای ابری حرکت کرده است — و با ظهور هوش مصنوعی، این تازه آغاز راه است.
در دهههای گذشته، NYSE با تکیه بر بانکها، انرژی و صنایع سنگین سلطه داشت،
اما رشد خیرهکنندهی شرکتهایی مانند Apple، Microsoft، Nvidia، Alphabet، Amazon و Meta همه چیز را تغییر داد.
💰 سرمایهگذاری عظیم در GPU، مراکز داده و نرمافزارهای مبتنی بر AI
منجر به افزایش تریلیوندلاری ارزش بازار شد —
و این تنها آغاز دوران اقتصاد هوش مصنوعی (AI Economy) است.
@rss_ai_ir
#AI #Nasdaq #Economy #TechRevolution #Nvidia #Apple #Microsoft #AIeconomy
برای چهارمین ماه پیاپی، ارزش کل بازار بورس Nasdaq از NYSE پیشی گرفته و جایگاه خود را به عنوان بزرگترین بورس جهان تثبیت کرده است.
🎯 مرکز ثقل سرمایه جهانی اکنون به سمت نرمافزار، تراشهها و زیرساختهای ابری حرکت کرده است — و با ظهور هوش مصنوعی، این تازه آغاز راه است.
در دهههای گذشته، NYSE با تکیه بر بانکها، انرژی و صنایع سنگین سلطه داشت،
اما رشد خیرهکنندهی شرکتهایی مانند Apple، Microsoft، Nvidia، Alphabet، Amazon و Meta همه چیز را تغییر داد.
💰 سرمایهگذاری عظیم در GPU، مراکز داده و نرمافزارهای مبتنی بر AI
منجر به افزایش تریلیوندلاری ارزش بازار شد —
و این تنها آغاز دوران اقتصاد هوش مصنوعی (AI Economy) است.
@rss_ai_ir
#AI #Nasdaq #Economy #TechRevolution #Nvidia #Apple #Microsoft #AIeconomy
👎1
  ⚡️ Glyph — 
فشردهسازی بصری-متنی برای گسترش محدودهی کانتکست در مدلهای زبانی
ایدهی اصلی Glyph بسیار ساده اما نوآورانه است:
بهجای آنکه مدل را با هزاران خط متن تغذیه کنیم، متن بهصورت تصویر نمایش داده میشود و سپس توسط مدلهای Vision-Language پردازش میگردد 🧠🖼️
🔹 مدل از یک الگوریتم ژنتیکی هدایتشده توسط LLM استفاده میکند تا بهترین ترکیب از ویژگیهای بصری را پیدا کند — از جمله نوع فونت، چگالی، و چیدمان متن — و میان فشردهسازی و دقت معنایی تعادل برقرار کند.
💡 نتیجه؟
✳️هزینه محاسباتی بهشدت کاهش مییابد.
✳️ساختار معنایی متن حفظ میشود.
✳️دقت مدل تقریباً همسطح با مدلهای قدرتمندی مثل Qwen3-8B باقی میماند.
در تستهای فشردهسازی افراطی، یک مدل VLM با کانتکست 128K میتواند وظایفی را حل کند که در مدلهای متنی کلاسیک نیازمند بیش از ۱ میلیون توکن است!
بهعبارت دیگر، درک کانتکست طولانی اکنون به یک مسئلهی چندوجهی (Multimodal) تبدیل شده است، نه صرفاً متنی.
📄 مقاله:
arxiv.org/abs/2510.17800
🧩 وزنها:
huggingface.co/zai-org/Glyph
💻 کد منبع:
github.com/thu-coai/Glyph
@rss_ai_ir
#AI #LLM #Multimodal #DeepLearning #Compression #Glyph #Research
فشردهسازی بصری-متنی برای گسترش محدودهی کانتکست در مدلهای زبانی
ایدهی اصلی Glyph بسیار ساده اما نوآورانه است:
بهجای آنکه مدل را با هزاران خط متن تغذیه کنیم، متن بهصورت تصویر نمایش داده میشود و سپس توسط مدلهای Vision-Language پردازش میگردد 🧠🖼️
🔹 مدل از یک الگوریتم ژنتیکی هدایتشده توسط LLM استفاده میکند تا بهترین ترکیب از ویژگیهای بصری را پیدا کند — از جمله نوع فونت، چگالی، و چیدمان متن — و میان فشردهسازی و دقت معنایی تعادل برقرار کند.
💡 نتیجه؟
✳️هزینه محاسباتی بهشدت کاهش مییابد.
✳️ساختار معنایی متن حفظ میشود.
✳️دقت مدل تقریباً همسطح با مدلهای قدرتمندی مثل Qwen3-8B باقی میماند.
در تستهای فشردهسازی افراطی، یک مدل VLM با کانتکست 128K میتواند وظایفی را حل کند که در مدلهای متنی کلاسیک نیازمند بیش از ۱ میلیون توکن است!
بهعبارت دیگر، درک کانتکست طولانی اکنون به یک مسئلهی چندوجهی (Multimodal) تبدیل شده است، نه صرفاً متنی.
📄 مقاله:
arxiv.org/abs/2510.17800
🧩 وزنها:
huggingface.co/zai-org/Glyph
💻 کد منبع:
github.com/thu-coai/Glyph
@rss_ai_ir
#AI #LLM #Multimodal #DeepLearning #Compression #Glyph #Research
👍1
  Media is too big
    VIEW IN TELEGRAM
  🎥ببینید:
🔰ویدیوی آموزشی ثبت ایدههای نوآورانه در زنجیره ارزش مس
🔸فیلم آموزشی شیوه ثبت ایدههای نوآورانه و فناورانه در زنجیره ارزش صنعت مس، از سوی شرکت ملی صنایع مس ایران منتشر شد و اکنون از طریق وبسایت portal.nicinno.com در دسترس علاقهمندان قرار دارد.
🔸رویداد ملی «ایدههای نوآورانه و فناورانه در زنجیره ارزش صنعت مس» به همت شرکت ملی صنایع مس ایران برگزار میشود و هدف از اجرای آن، توسعه فناوریهای نو، ارتقای بهرهوری و ایجاد پیوند مؤثر میان دانشگاهها، صنایع و شرکتهای دانشبنیان است؛ رویکردی که با مشارکت فعال محققان و متخصصان، میتواند زمینهساز حل چالشهای موجود در زنجیره ارزش صنعت مس کشور به شیوهای فناورانه و کارآمد باشد.
🔸بر اساس اعلام دبیرخانه این رویداد، ثبت ایدهها از تاریخ ۲۶ مهرماه ۱۴۰۴ آغاز شده و تا ۶ آذرماه ادامه خواهد داشت. همچنین مراسم معرفی و تقدیر از برگزیدگان در هفته پایانی آذرماه برگزار میشود.
  🔰ویدیوی آموزشی ثبت ایدههای نوآورانه در زنجیره ارزش مس
🔸فیلم آموزشی شیوه ثبت ایدههای نوآورانه و فناورانه در زنجیره ارزش صنعت مس، از سوی شرکت ملی صنایع مس ایران منتشر شد و اکنون از طریق وبسایت portal.nicinno.com در دسترس علاقهمندان قرار دارد.
🔸رویداد ملی «ایدههای نوآورانه و فناورانه در زنجیره ارزش صنعت مس» به همت شرکت ملی صنایع مس ایران برگزار میشود و هدف از اجرای آن، توسعه فناوریهای نو، ارتقای بهرهوری و ایجاد پیوند مؤثر میان دانشگاهها، صنایع و شرکتهای دانشبنیان است؛ رویکردی که با مشارکت فعال محققان و متخصصان، میتواند زمینهساز حل چالشهای موجود در زنجیره ارزش صنعت مس کشور به شیوهای فناورانه و کارآمد باشد.
🔸بر اساس اعلام دبیرخانه این رویداد، ثبت ایدهها از تاریخ ۲۶ مهرماه ۱۴۰۴ آغاز شده و تا ۶ آذرماه ادامه خواهد داشت. همچنین مراسم معرفی و تقدیر از برگزیدگان در هفته پایانی آذرماه برگزار میشود.
🏛️ مجموعه OpenAI بالاخره بازسازی ساختاری خود را تکمیل کرد و رسماً به یک استارتاپ تجاری (تقریباً کامل) تبدیل شد.
✅بخش غیرانتفاعی شرکت همچنان باقی میماند، اما اکنون با نام OpenAI Foundation فعالیت میکند و حدود ۲۵٪ از سهام کل OpenAI را در اختیار دارد — معادل حدود ۱۳۰ میلیارد دلار.
چنین بودجهای این بنیاد را در ردیف ثروتمندترین سازمانهای بشردوستانه جهان قرار میدهد 💰🌍
📈 نکته جالب اینجاست که وضعیت مالی این بنیاد کاملاً به موفقیت تجاری شرکت وابسته است:
هرچه ارزش سهام OpenAI افزایش یابد، بنیاد سهم بیشتری از طریق اختصاص سهام و اختیار معامله (options) دریافت خواهد کرد.
🎯 بودجه بنیاد صرف پروژههای عامالمنفعه خواهد شد —
در گام اول تمرکز روی امنیت سایبری مبتنی بر AI و کاربردهای سلامت دیجیتال است.
⚖️ با این حال، بخش غیرانتفاعی همچنان حق رأی نهایی در تصمیمات اخلاقی، ایمنی و سیاستهای کلیدی شرکت را حفظ میکند.
💼 و بالاخره، رابطه پیچیده با مایکروسافت هم شفاف شد:
مایکروسافت اکنون حق مالکیت فکری تمامی مدلها و فناوریهای OpenAI تا سال ۲۰۳۲ را دارد — حتی اگر OpenAI پیش از آن به AGI (هوش عمومی مصنوعی) برسد.
استثنا تنها برای مدلهای تحقیقاتی داخلی است که صرفاً برای آزمایش استفاده میشوند.
🔗 منبع رسمی:
openai.com/index/built-to-benefit-everyone
@rss_ai_ir
#OpenAI #Microsoft #AI #AGI #Business #Ethics #AIphilanthropy
✅بخش غیرانتفاعی شرکت همچنان باقی میماند، اما اکنون با نام OpenAI Foundation فعالیت میکند و حدود ۲۵٪ از سهام کل OpenAI را در اختیار دارد — معادل حدود ۱۳۰ میلیارد دلار.
چنین بودجهای این بنیاد را در ردیف ثروتمندترین سازمانهای بشردوستانه جهان قرار میدهد 💰🌍
📈 نکته جالب اینجاست که وضعیت مالی این بنیاد کاملاً به موفقیت تجاری شرکت وابسته است:
هرچه ارزش سهام OpenAI افزایش یابد، بنیاد سهم بیشتری از طریق اختصاص سهام و اختیار معامله (options) دریافت خواهد کرد.
🎯 بودجه بنیاد صرف پروژههای عامالمنفعه خواهد شد —
در گام اول تمرکز روی امنیت سایبری مبتنی بر AI و کاربردهای سلامت دیجیتال است.
⚖️ با این حال، بخش غیرانتفاعی همچنان حق رأی نهایی در تصمیمات اخلاقی، ایمنی و سیاستهای کلیدی شرکت را حفظ میکند.
💼 و بالاخره، رابطه پیچیده با مایکروسافت هم شفاف شد:
مایکروسافت اکنون حق مالکیت فکری تمامی مدلها و فناوریهای OpenAI تا سال ۲۰۳۲ را دارد — حتی اگر OpenAI پیش از آن به AGI (هوش عمومی مصنوعی) برسد.
استثنا تنها برای مدلهای تحقیقاتی داخلی است که صرفاً برای آزمایش استفاده میشوند.
🔗 منبع رسمی:
openai.com/index/built-to-benefit-everyone
@rss_ai_ir
#OpenAI #Microsoft #AI #AGI #Business #Ethics #AIphilanthropy
❤2
  This media is not supported in your browser
    VIEW IN TELEGRAM
  🦾 ربات چینی Unitree G1 لادا وستا را کشید!
پژوهشگران آکادمی هوش مصنوعی پکن (BAAI) ویدئویی منتشر کردهاند که در آن ربات انساننمای Unitree G1 با وزن تنها ۳۵ کیلوگرم موفق میشود خودروی Lada Vesta با وزن حدود ۱۴۰۰ کیلوگرم را به حرکت درآورد! 🚗💪
بهنظر میرسد آیندهی رباتهای صنعتی و کمکی دیگر فقط در کارخانهها نیست — حتی در ماجراجوییها و شرایط واقعی مثل سفر یا ماهیگیری هم میتوان روی آنها حساب کرد. 🎣🤖
@rss_ai_ir
#AI #Robotics #Unitree #BAAI #RobotPower #Innovation
پژوهشگران آکادمی هوش مصنوعی پکن (BAAI) ویدئویی منتشر کردهاند که در آن ربات انساننمای Unitree G1 با وزن تنها ۳۵ کیلوگرم موفق میشود خودروی Lada Vesta با وزن حدود ۱۴۰۰ کیلوگرم را به حرکت درآورد! 🚗💪
بهنظر میرسد آیندهی رباتهای صنعتی و کمکی دیگر فقط در کارخانهها نیست — حتی در ماجراجوییها و شرایط واقعی مثل سفر یا ماهیگیری هم میتوان روی آنها حساب کرد. 🎣🤖
@rss_ai_ir
#AI #Robotics #Unitree #BAAI #RobotPower #Innovation
🔥1
  🧠 Thinking Machines معرفی کرد:
On-Policy Distillation —
روشی جدید برای آموزش مدلهای زبانی که بهجای حفظ کردن، یاد میگیرند فکر کنند.
در این روش نوآورانه از آزمایشگاه Thinking Machines Lab، مدل کوچکتر دیگر فقط پاسخهای مدل بزرگتر را تکرار نمیکند؛ بلکه خودش تلاش میکند مسئله را حل کند، سپس «استاد» (مدل بزرگتر) مسیر منطق و خطاهایش را تحلیل کرده و راهنماییاش میکند.
به این ترتیب، مدل کوچکتر نهتنها دانش بلکه روش تفکر و استدلال مدل بزرگتر را نیز فرا میگیرد. 🧩
📊 نتایج آزمایشها (روی مسائل منطقی و ریاضی):
♻️مدل کوچک پس از آموزش با on-policy distillation به دقتی نزدیک به مدل بزرگتر رسید.
♻️هزینههای محاسباتی چندین برابر کاهش یافت.
♻️مدل توانست خطاهای خودش را بهتر درک کند و در مواجهه با مسائل جدید پایدارتر عمل کند.
💡 چرا این مهم است؟
در روشهای سنتی، مدل فقط پاسخ را تقلید میکند (مثل حفظ کردن).
اما در اینجا مدل مانند انسان یاد میگیرد — تجربه میکند، اشتباه میکند و اصلاح میشود.
🔹 روش جدید تعادلی هوشمند بین یادگیری تقویتی (RL) و دانش تقطیری (KD) ایجاد میکند.
🔹 بدون نیاز به محیطهای پیچیده RL، مدل میتواند بهصورت خودکار و با هزینهی کمتر، یادگیری تطبیقی انجام دهد.
🔹 نتیجه: مدلهای کوچکتر که تقریباً مثل مدلهای بزرگ فکر میکنند، اما سریعتر، ارزانتر و مناسب برای edge devices، رباتها و سیستمهای محلی خصوصی هستند.
📘 مطالعهی بیشتر:
thinkingmachines.ai/blog/on-policy-distillation/
@rss_ai_ir
#AI #LLM #ThinkingMachines #DeepLearning #MachineLearning #Distillation #Innovation
On-Policy Distillation —
روشی جدید برای آموزش مدلهای زبانی که بهجای حفظ کردن، یاد میگیرند فکر کنند.
در این روش نوآورانه از آزمایشگاه Thinking Machines Lab، مدل کوچکتر دیگر فقط پاسخهای مدل بزرگتر را تکرار نمیکند؛ بلکه خودش تلاش میکند مسئله را حل کند، سپس «استاد» (مدل بزرگتر) مسیر منطق و خطاهایش را تحلیل کرده و راهنماییاش میکند.
به این ترتیب، مدل کوچکتر نهتنها دانش بلکه روش تفکر و استدلال مدل بزرگتر را نیز فرا میگیرد. 🧩
📊 نتایج آزمایشها (روی مسائل منطقی و ریاضی):
♻️مدل کوچک پس از آموزش با on-policy distillation به دقتی نزدیک به مدل بزرگتر رسید.
♻️هزینههای محاسباتی چندین برابر کاهش یافت.
♻️مدل توانست خطاهای خودش را بهتر درک کند و در مواجهه با مسائل جدید پایدارتر عمل کند.
💡 چرا این مهم است؟
در روشهای سنتی، مدل فقط پاسخ را تقلید میکند (مثل حفظ کردن).
اما در اینجا مدل مانند انسان یاد میگیرد — تجربه میکند، اشتباه میکند و اصلاح میشود.
🔹 روش جدید تعادلی هوشمند بین یادگیری تقویتی (RL) و دانش تقطیری (KD) ایجاد میکند.
🔹 بدون نیاز به محیطهای پیچیده RL، مدل میتواند بهصورت خودکار و با هزینهی کمتر، یادگیری تطبیقی انجام دهد.
🔹 نتیجه: مدلهای کوچکتر که تقریباً مثل مدلهای بزرگ فکر میکنند، اما سریعتر، ارزانتر و مناسب برای edge devices، رباتها و سیستمهای محلی خصوصی هستند.
📘 مطالعهی بیشتر:
thinkingmachines.ai/blog/on-policy-distillation/
@rss_ai_ir
#AI #LLM #ThinkingMachines #DeepLearning #MachineLearning #Distillation #Innovation
❤1👍1
  📚 Grokipedia v0.1 — 
پاسخ ایلان ماسک به ویکیپدیا 🚀
ایلان ماسک نسخهی آزمایشی Grokipedia v0.1 را معرفی کرده و قول داده نسخهی 1 آن «۱۰ برابر بهتر» از نسخهی فعلی باشد.
با این حال خودش گفته که حتی نسخهی ۰.۱ هم از ویکیپدیا بهتر است — ادعایی که جای بحث دارد 😅
📊 از نظر عددی:
Grokipedia: حدود ۹۰۰٬۰۰۰ مقاله
Wikipedia: بیش از ۷ میلیون مقاله
از نظر ظاهر، طراحی سایت بسیار شبیه به ویکیپدیا است.
برخی از مطالب از ویکیپدیا گرفته شده و ویرایش شدهاند، برخی دیگر را مستقیماً مدل Grok نوشته است.
💡 اما بخش جذاب ماجرا این است:
user-requested changes validated by AI —
یعنی ویرایشهایی که توسط کاربران (کوجانیها 😄) انجام میشود، ابتدا توسط هوش مصنوعی بررسی و تأیید میشود.
بهنوعی ماسک میگوید که «انسانها بیشتر از AI دچار توهم یا تحریف واقعیت میشوند!»
🧠 در نگاه اول، Grokipedia لحنی واقعگرایانهتر و کمتر سیاسی دارد — تمرکز بر دادهها و حقایق، نه تفسیرها و ارزشگذاریها.
📷 در نمونهای که منتشر شده، مقالهای دربارهی «قتل جورج فلوید» در هر دو نسخه مقایسه شده — و تفاوت در لحن و زاویهی دید بهوضوح دیده میشود.
🔗 grokipedia.com
بهنظر میرسد ماسک واقعاً قصد دارد «دانشنامهای بدون سوگیری» بسازد — باید دید تا کجا موفق خواهد بود.
@rss_ai_ir
#ElonMusk #Grok #AI #Grokipedia #Wikipedia #TechNews
پاسخ ایلان ماسک به ویکیپدیا 🚀
ایلان ماسک نسخهی آزمایشی Grokipedia v0.1 را معرفی کرده و قول داده نسخهی 1 آن «۱۰ برابر بهتر» از نسخهی فعلی باشد.
با این حال خودش گفته که حتی نسخهی ۰.۱ هم از ویکیپدیا بهتر است — ادعایی که جای بحث دارد 😅
📊 از نظر عددی:
Grokipedia: حدود ۹۰۰٬۰۰۰ مقاله
Wikipedia: بیش از ۷ میلیون مقاله
از نظر ظاهر، طراحی سایت بسیار شبیه به ویکیپدیا است.
برخی از مطالب از ویکیپدیا گرفته شده و ویرایش شدهاند، برخی دیگر را مستقیماً مدل Grok نوشته است.
💡 اما بخش جذاب ماجرا این است:
user-requested changes validated by AI —
یعنی ویرایشهایی که توسط کاربران (کوجانیها 😄) انجام میشود، ابتدا توسط هوش مصنوعی بررسی و تأیید میشود.
بهنوعی ماسک میگوید که «انسانها بیشتر از AI دچار توهم یا تحریف واقعیت میشوند!»
🧠 در نگاه اول، Grokipedia لحنی واقعگرایانهتر و کمتر سیاسی دارد — تمرکز بر دادهها و حقایق، نه تفسیرها و ارزشگذاریها.
📷 در نمونهای که منتشر شده، مقالهای دربارهی «قتل جورج فلوید» در هر دو نسخه مقایسه شده — و تفاوت در لحن و زاویهی دید بهوضوح دیده میشود.
🔗 grokipedia.com
بهنظر میرسد ماسک واقعاً قصد دارد «دانشنامهای بدون سوگیری» بسازد — باید دید تا کجا موفق خواهد بود.
@rss_ai_ir
#ElonMusk #Grok #AI #Grokipedia #Wikipedia #TechNews
❤2
  This media is not supported in your browser
    VIEW IN TELEGRAM
  🦄 مدل چندوجهی «PixelRefer»؛ فهم ناحیهای دقیق در تصویر و ویدئو
🎯 چارچوب یکپارچهی MLLM که بهجای نگاه کلی به صحنه، روی ناحیههای مشخص تمرکز میکند؛ هم در تصاویر ثابت، هم در ویدئوهای پویا. نتیجه: دقت بالاتر در اشاره به ناحیهها، رفع سوگیری صحنهمحور، و رکوردهای SOTA.
چه میدهد؟
🎥🖼️ فهم ناحیهای دقیق در تصویر/ویدئو (region-level grounding)
🧠 رفع bias مدلهای قبلی که فقط صحنهی کلی را میدیدند
🚀 نتایج SOTA + دموی آنلاین، دیتاست و کد متنباز
لینکها:
Paper: arxiv.org/pdf/2510.23603
Project: circleradon.github.io/PixelRefer
Repo: https://github.com/alibaba-damo-academy/PixelRefer
@rss_ai_ir
#MLLM #Multimodal #VisionLanguage #Grounding #ReferringSegmentation #SOTA #OpenSource
  🎯 چارچوب یکپارچهی MLLM که بهجای نگاه کلی به صحنه، روی ناحیههای مشخص تمرکز میکند؛ هم در تصاویر ثابت، هم در ویدئوهای پویا. نتیجه: دقت بالاتر در اشاره به ناحیهها، رفع سوگیری صحنهمحور، و رکوردهای SOTA.
چه میدهد؟
🎥🖼️ فهم ناحیهای دقیق در تصویر/ویدئو (region-level grounding)
🧠 رفع bias مدلهای قبلی که فقط صحنهی کلی را میدیدند
🚀 نتایج SOTA + دموی آنلاین، دیتاست و کد متنباز
لینکها:
Paper: arxiv.org/pdf/2510.23603
Project: circleradon.github.io/PixelRefer
Repo: https://github.com/alibaba-damo-academy/PixelRefer
@rss_ai_ir
#MLLM #Multimodal #VisionLanguage #Grounding #ReferringSegmentation #SOTA #OpenSource