VIRSUN
15.7K subscribers
349 photos
208 videos
2 files
214 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🔹 کانال توسط اساتید هوش مصنوعی مدیریت میشود
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir
Download Telegram
🔎 رتبه‌بندی جدید مدل‌های زبانی در LMArena

مدلی که هفته گذشته رتبه یک را کسب کرد، GPT-5 High بود؛ نسخه‌ای ویژه در API با بالاترین سطح استدلال، نه همان مدلی که در ChatGPT همه به آن دسترسی دارند.

📌 جزئیات رتبه‌ها:
۱️⃣ GPT-5 High — رتبه ۱
۵️⃣ GPT-5 Chat — رتبه ۵ (مدل پیش‌فرض در ChatGPT)
۱۶️⃣ GPT-5 Mini High — رتبه ۱۶
۴۴️⃣ GPT-5 Nano High — رتبه ۴۴

⚠️ علت پایین‌تر بودن GPT-5 Chat نسبت به GPT-4o:
مدل GPT-5 Chat کمتر حالت «گرم و تأییدکننده» دارد و بیشتر «عینی و بی‌طرف» طراحی شده است؛ همین تغییر باعث شده برای بسیاری از کاربران خشک‌تر به نظر برسد.

نکات کلیدی:

نسخه GPT-5 High قدرتمندتر است اما فقط از طریق API در دسترس است.

کاربران ChatGPT در واقع نسخه ساده‌تر یعنی GPT-5 Chat را تجربه می‌کنند.

مدل Gemini 2.5 Pro به دلیل اجرای همیشگی زنجیره استدلال، امتیاز بالاتری کسب کرده است.


📍 جمع‌بندی: از نظر فنی GPT-5 بسیار قدرتمند است، اما آنچه کاربران عادی تجربه می‌کنند نسخه متفاوتی است؛ همین تفاوت دلیل اختلاف در رتبه‌بندی‌ها و برداشت کاربران است.

@rss_ai_ir 🤖 | #هوش_مصنوعی #GPT5 #مدل_زبان
2👍1🔥1👏1🎉1
Media is too big
VIEW IN TELEGRAM
🔹 چرا این ویدیو درباره RAG مهم است؟

در این ویدیو به یکی از پرکاربردترین رویکردها در دنیای هوش مصنوعی اشاره شده: RAG یا Retrieval-Augmented Generation. این روش ترکیبی از قدرت مدل‌های زبانی با جستجوی اطلاعات بیرونی است. یعنی قبل از تولید پاسخ، مدل ابتدا به پایگاه دانش یا منابع معتبر سر می‌زند و بعد بر اساس آن پاسخ می‌سازد.

مزایای اصلی RAG

❇️خطاهای مدل کمتر می‌شود و جواب‌های غیرواقعی به حداقل می‌رسند.
❇️همیشه به‌روز است، چون از منابع تازه استفاده می‌کند.
❇️شفاف است و می‌توان به منبع پاسخ دسترسی داشت.
❇️نسبت به آموزش دوباره مدل‌های بزرگ، بسیار مقرون‌به‌صرفه است.

📌 اگر دنبال سیستمی هستید که هم دقیق باشد و هم قابل اعتماد، RAG همان چیزی است که آینده‌ی کاربردهای صنعتی و تحقیقاتی را متحول خواهد کرد.

@rss_ai_ir 🚀
👍4🔥4😁43🎉2🙏1
🚀 راهنمای سریع پرامپت‌نویسی ChatGPT

اگر می‌خوای از ChatGPT بهترین خروجی رو بگیری، کافیه سه بخش اصلی رو در پرامپت مشخص کنی:

نقش (Role)
مثلاً: مدیرعامل، نویسنده، مخترع، حسابدار، روزنامه‌نگار، کپی‌رایتر، طراح گرافیک، مربی ذهنیت

📝 وظیفه (Task)
مثلاً: مقاله، پست وبلاگ، تحلیل، خلاصه، اسکریپت ویدیو، کپشن تبلیغاتی، توصیف محصول، کیورد سئو، طرح کلی کتاب، سکانس ایمیل

📊 قالب (Format)
مثلاً: لیست، جدول، گراف، PDF، HTML، Markdown، متن ساده، اسلاید پرزنتیشن، نمودار گانت


---

📌 فرمول جادویی:
«به عنوان (Role) یک (Task) بنویس و خروجی رو در قالب (Format) بده»

🔹 مثال:
به عنوان یک مدیر پروژه، یک طرح کلی کتاب بنویس در قالب Markdown

@rss_ai_ir
👍7🔥6😁6🎉61👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 جادوی کانولوشن 1x1 در شبکه‌های عصبی پیچشی (CNN)

در نگاه اول، یک کانولوشن 1x1 شاید بی‌فایده به نظر برسه. مگه نه؟ فقط یک فیلتر با ابعاد 1 در 1 که روی تصویر حرکت می‌کنه... این چه کاری انجام میده؟ 🤔

اما راز اینجاست: کانولوشن 1x1 در عمق (تعداد کانال‌ها) عمل می‌کنه! 🔥

تصور کنید یک تنسور ورودی با ابعاد H x W x C_in دارید (ارتفاع، عرض، تعداد کانال ورودی). فیلتر 1x1 ما در واقع ابعادی برابر 1 x 1 x C_in داره. این فیلتر در هر موقعیت (pixel) یک dot product بین C_in کانال ورودی و وزن‌های خودش انجام میده. در نتیجه، اطلاعات تمام کانال‌ها رو در یک نقطه ترکیب می‌کنه!

به عبارت ساده‌تر، این لایه مثل یک شبکه عصبی کاملاً متصل (Fully Connected) کوچک عمل می‌کنه که روی هر پیکسل به صورت جداگانه و در راستای عمق کانال‌ها اعمال می‌شه.

خب، کاربرد اصلیش چیه؟

1.  کاهش ابعاد (Dimensionality Reduction) 📉
    مهم‌ترین و مشهورترین کاربرد! با استفاده از $N$ فیلتر 1x1، می‌تونیم تعداد کانال‌ها رو از $C_{in}$ به $N$ کاهش بدیم (یا افزایش، اما معمولاً برای کاهش استفاده می‌شه). این کار قبل از اعمال کانولوشن‌های پرهزینه‌تر مثل 3x3 یا 5x5، باعث کاهش شدید حجم محاسبات و پارامترها می‌شه بدون اینکه ابعاد مکانی (ارتفاع و عرض) تغییر کنه. این تکنیک قلب ماژول‌های Inception در معماری GoogLeNet است.

2.  افزودن غیرخطی بودن (Adding Non-linearity) 🧠
    بعد از هر لایه کانولوشن (حتی 1x1)، یک تابع فعال‌سازی مثل ReLU قرار می‌گیره. با اضافه کردن یک لایه کانولوشن 1x1 و یک ReLU بعد از آن، می‌تونیم یک لایه غیرخطی جدید به شبکه اضافه کنیم. این کار به مدل اجازه میده توابع پیچیده‌تری رو یاد بگیره، در حالی که میدان دید (Receptive Field) ثابت باقی می‌مونه.

3.  پیاده‌سازی مفهوم "Network in Network" 💡
    معماری "Network in Network" (NiN) ایده استفاده از میکرو-شبکه‌های عصبی به جای فیلترهای خطی ساده رو مطرح کرد. کانولوشن 1x1 دقیقاً همین کار رو انجام می‌ده و به عنوان یک پروژکتور بین کانالی عمل می‌کنه و ویژگی‌های پیچیده‌تری رو استخراج می‌کنه.

نتیجه‌گیری:
پس دفعه بعدی که یک کانولوشن 1x1 دیدید، بدونید که این یک ابزار قدرتمند و هوشمندانه برای ساختن شبکه‌های عمیق‌تر و بهینه‌تره، نه یک عملیات ساده و بی‌اهمیت! 🚀

#هوش_مصنوعی #یادگیری_عمیق #شبکه_عصبی #شبکه_عصبی_پیچشی #پردازش_تصویر #دیپ_لرنینگ #کانولوشن
#AI #DeepLearning #CNN #Convolution #ComputerVision #1x1Convolution

@rss_ai_ir
🎉9😁7👍6🔥6🥰64👏3
😮 سه سال پیش اوپن‌ای‌آی برای اولین بار ChatGPT رو معرفی کرد.

امروز ارزش این شرکت به ۵۰۰ میلیارد دلار رسیده! 🚀

واقعا باورنکردنیه که یک مدل زبانی بتونه چنین موج عظیمی در دنیای تکنولوژی و اقتصاد ایجاد کنه.

@rss_ai_ir 🪙 | آینده هوش مصنوعی همینجاست
7😁6🔥5👍4👏4🎉4
This media is not supported in your browser
VIEW IN TELEGRAM
🏭📄➡️💻 از پیکسل تا داده: شاهکار پردازش تصویر در صنعت، یعنی OCR!

تاحالا به این فکر کردید که چطور یک اپلیکیشن موبایل می‌تونه متن روی یک فاکتور رو بخونه؟ یا چطور گیت‌های عوارضی پلاک ماشین‌ها رو ثبت می‌کنن؟ پاسخ در یک تکنیک قدرتمند و پرکاربرد به نام تشخیص نوری کاراکتر (OCR) نهفته است.

✳️همچنین OCR یک فناوری شگفت‌انگیزه که متن داخل تصاویر رو استخراج و به داده‌های دیجیتال، قابل جستجو و قابل ویرایش تبدیل می‌کنه. این تکنیک، پلی حیاتی بین دنیای فیزیکی اسناد کاغذی و دنیای دیجیتال داده‌هاست. 🚀

⚙️ فرآیند OCR چطور کار می‌کنه؟ (به زبان ساده)

این فرآیند پیچیده رو میشه به چند مرحله کلیدی تقسیم کرد:

1. پیش‌پردازش تصویر (Image Pre-processing):
اولین قدم، آماده‌سازی تصویر برای خواندن متنه. این مرحله شامل:
* صاف کردن (Deskewing): اگر سند کج اسکن شده باشه، صاف می‌شه.
* حذف نویز (Denoising): لکه‌ها و نقاط اضافی تصویر حذف می‌شن.
* دو دویی کردن (Binarization): تصویر به یک نسخه سیاه و سفید تبدیل می‌شه تا مرز کاراکترها واضح‌تر بشه.

2. بخش‌بندی (Segmentation):
در این مرحله، الگوریتم قسمت‌های مختلف سند رو تشخیص می‌ده. ستون‌ها، پاراگراف‌ها، خطوط، کلمات و در نهایت، تک‌تک کاراکترها از هم جدا می‌شن. این کار مثل اینه که یک انسان اول ساختار کلی یک صفحه رو نگاه کنه و بعد روی کلمات تمرکز کنه. 🔍

3. تشخیص کاراکتر (Character Recognition):
اینجا قلب تپنده OCR قرار داره! هر کاراکتر جدا شده به یک مدل یادگیری ماشین داده می‌شه تا هویتش مشخص بشه. در گذشته از روش‌هایی مثل تطبیق الگو (Template Matching) استفاده می‌شد، اما امروزه مدل‌های یادگیری عمیق (Deep Learning)، به خصوص شبکه‌های عصبی پیچشی (CNN) و شبکه‌های بازگشتی (RNN)، با دقت فوق‌العاده‌ای این کار رو انجام می‌دن. 🧠

4. پس‌پردازش (Post-processing):
خروجی مدل همیشه بی‌نقص نیست. مثلاً ممکنه حرف 'O' با عدد '0' یا 'S' با '5' اشتباه گرفته بشه. در این مرحله، با استفاده از مدل‌های زبانی و دیکشنری‌ها، خطاها شناسایی و اصلاح می‌شن تا متن نهایی منسجم و صحیح باشه.

📊 کاربردهای صنعتی OCR:

* اتوماسیون اداری: دیجیتال‌سازی و پردازش خودکار فاکتورها، قراردادها و فرم‌ها.
* بانکداری و مالی 🏦: خواندن اطلاعات چک‌ها (چک‌خوانی) و فرم‌های بانکی.
* حمل و نقل و لجستیک 🚗: سیستم‌های پلاک‌خوان (ANPR) برای کنترل ترافیک و خواندن شماره کانتینرها در بنادر.
* حوزه سلامت 🏥: دیجیتال کردن سوابق پزشکی بیماران و نتایج آزمایش‌ها.
* کتابخانه‌های دیجیتال 📚: تبدیل کتاب‌های چاپی قدیمی به نسخه‌های الکترونیکی قابل جستجو.

👍همچنین OCR فقط یک ابزار نیست؛ بلکه یک توانمندساز برای تحول دیجیتال (Digital Transformation) در صنایع مختلفه.

#پردازش_تصویر #هوش_مصنوعی #یادگیری_عمیق #اتوماسیون #صنعت #کاربردی #دیجیتال_سازی #تحول_دیجیتال
#ImageProcessing #AI #Automation #OCR #DeepLearning #ANPR #DigitalTransformation

@rss_ai_ir
🔥8😁7👍65🎉5🥰4👏3
📊 تازه‌ترین بنچمارک Spiral-Bench از Sam Paech روی ویژگی‌های رفتاری LLMها منتشر شد.
این بنچمارک بررسی می‌کنه که مدل‌ها در گفت‌وگوهای چندمرحله‌ای تا چه حد:

♻️جلوی اشتباه کاربر می‌ایستند (Pushback)
♻️بحث رو به مسیر ایمن هدایت می‌کنند (Redirection)
♻️وارد اغراق یا هیجان‌زدگی می‌شن (Escalation)
♻️چاپلوسی و لذت‌بخشی نشون می‌دن (Sycophancy)
♻️ادعای داشتن «هوشیاری» می‌کنند
♻️یا حتی مشاوره‌ی مضر می‌دن 🚨


🔹 در این تست، مدل GPT-5 و بقیه مدل‌های OpenAI بیشترین امتیاز ایمنی رو گرفتن (۸۷ از ۱۰۰ برای GPT-5).
🔹 همچنین GPT-OSS-120B هم شگفتی‌ساز شد و جایگاه خوبی پیدا کرد.
🔹 در مقابل، Gemini-2.5-Pro و ChatGPT-4o-latest ضعیف‌تر ظاهر شدن و بیشتر به چاپلوسی و تقویت خطاهای کاربر گرایش داشتن.

🟦 رنگ آبی = رفتار مفید و ایمن
🟪 رنگ بنفش = رفتار مضر یا خطرناک

به‌طور کلی، نتایج نشون می‌ده OpenAI روی کاهش «توهم، چاپلوسی و پاسخ‌های خطرناک» کار جدی کرده. این یعنی دستیارهاش کمتر «پیش‌برنده خطا» هستن و بیشتر نقش منتقد و اصلاح‌گر رو بازی می‌کنن

@rss_ai_ir 🚀 | هوش مصنوعی، درستکارتر از قبل
👏8🔥6🥰6😁6👍4🎉42👎1
🎙️ مدل جدید انویدیا Canary-1B v2 منتشر شد؛ یک مدل متن‌باز برای تشخیص گفتار (ASR) و ترجمه گفتار (AST) که از ۲۵ زبان اروپایی پشتیبانی می‌کند.

ویژگی‌ها

📝 تشخیص و ترجمه گفتار بین انگلیسی و ۲۴ زبان دیگر

✍️ علائم نگارشی و حروف بزرگ خودکار

⏱️ تایم‌استمپ دقیق در سطح کلمه

🌍 پشتیبانی از زبان‌های روسی، فرانسوی، آلمانی، اسپانیایی و …


🚀 چرا جالب است؟

🔟 تا ۱۰ برابر سریع‌تر از مدل‌های سه‌برابر بزرگ‌تر

📊 دقت هم‌سطح مدل‌های پیشرفته متن‌باز در HuggingFace

🆓 مجوز CC-BY-4.0 → آزاد برای استفاده در پروژه‌ها


⚙️ زیرساخت فنی

معماری: FastConformer Encoder + Transformer Decoder (~۹۷۸M پارامتر)

فرمت ورودی: ‎.wav و .flac با نرخ ۱۶kHz، مونو

سازگار با NVIDIA NeMo و مستقیم روی Hugging Face


🎯 کاربردها
🟢 دستیارهای صوتی
🟢 زیرنویس و ترجمه ویدئو
🟢 چت‌بات‌های صوتی
🟢 تحلیل گفتار در لحظه

📥 لینک‌ها:
🔸 مدل Canary-1B v2
🔸 دیتاست Granary
🔸 مدل Parakeet

@rss_ai_ir 🎙️ | دنیای هوش مصنوعی
👏24🎉14😁12🔥9🥰8👍63
📢 محدودیت‌های جدید برای Claude Code توسط Anthropic

♻️از تاریخ ۲۸ آگوست ۲۰۲۵ شرکت Anthropic محدودیت هفتگی برای قابلیت Claude Code در پلن‌های Pro و Max اعمال می‌کند.


---

🔎 چرا این تصمیم گرفته شد؟

♻️برخی کاربران Claude را به صورت ۲۴ ساعته و ۷ روز هفته اجرا کرده‌اند.

♻️حتی یک کاربر در پلن ۲۰۰ دلاری ماهانه، ده‌ها هزار درخواست ایجاد کرده است.

♻️این مسئله فشار زیادی بر زیرساخت‌ها وارد کرده و Anthropic را مجبور به مداخله کرده است.



---

📊 جزئیات محدودیت‌ها (برای نمونه پلن Max 20×):

Sonnet 4 ➝ بین ۲۴۰ تا ۴۸۰ ساعت در هفته

Opus 4 ➝ بین ۲۴ تا ۴۰ ساعت در هفته

کاربران می‌توانند در صورت نیاز اعتبار اضافه خریداری کنند.



---

واکنش‌ها:

♻️این تغییر تنها کمتر از ۵٪ کاربران را تحت تأثیر قرار می‌دهد.

♻️با این حال، بسیاری از توسعه‌دهندگان می‌گویند این محدودیت باعث اختلال در گردش‌کار آن‌ها شده و اطلاع‌رسانی ضعیف بوده است.



---

📌 جمع‌بندی:
همچنین Anthropic می‌خواهد تعادل بین پایداری زیرساخت و رضایت کاربران برقرار کند، اما این تصمیم باعث بحث‌های زیادی در جامعه توسعه‌دهندگان شده است.

@rss_ai_ir 🚀
👍6😁6🎉5🔥4🥰4👏43
China’s Power Grid vs U.S.

🏭 چین با داشتن ذخیره برق ۸۰ تا ۱۰۰ درصدی و شبکه متمرکز دولتی، آماده یک جهش بزرگ در زیرساخت هوش مصنوعی است. این کشور با تکیه بر زغال‌سنگ و برنامه‌ریزی کلان، انرژی پایدار برای دیتاسنترهای عظیم فراهم کرده است.

⚙️ در مقابل، آمریکا با شبکه برق پراکنده و فرسوده، توسعه کند خطوط انتقال و محدودیت ظرفیت روبه‌رو است؛ حتی اگر GPU کافی باشد، برق کافی برای آن‌ها وجود ندارد.

💰 گزارش McKinsey نشان می‌دهد جهان تا سال ۲۰۳۰ به ۶.۷ تریلیون دلار سرمایه‌گذاری در مراکز داده نیاز دارد. کشورهایی که همزمان روی انرژی و سخت‌افزار محاسباتی سرمایه‌گذاری کنند، برنده رقابت خواهند بود.

🎯 نتیجه: GPU بدون برق مثل موتور بدون سوخت است.
در این میدان، انرژی همان‌قدر تعیین‌کننده است که تراشه‌ها.

@rss_ai_ir
🔥7🥰7🎉5👍3👏3😁32
در یک سیستم پردازش تصویر مبتنی بر یادگیری عمیق، هدف اصلی مرحله Feature Extraction چیست و چرا استفاده از لایه‌های کانولوشنی به جای ویژگی‌های مهندسی‌شده‌ی دستی (Handcrafted Features) مزیت محسوب می‌شود؟
Anonymous Quiz
23%
کاهش ابعاد داده‌ها و جلوگیری از اورفیتینگ بدون بهبود دقت
73%
یادگیری خودکار الگوهای مکانی و معنایی چندلایه که در ویژگی‌های دستی قابل‌تشخیص نیستند
0%
صرفاً افزایش سرعت پردازش تصویر با کم کردن تعداد پیکسل‌ها
5%
ایجاد یک نمایش خطی ساده از داده‌ها برای استفاده در شبکه‌های Fully Connected
👏7👍65🔥4😁3🎉3🥰1
🤖 یک بنچمارک جدید به نام Prophet Arena معرفی شده که توانایی هوش مصنوعی در *پیش‌بینی آینده* رو می‌سنجه!

🔹 ایده واقعاً جالبه:

* از نظر علمی، این روش باعث میشه مدل‌ها در زمینه تفکر احتمالاتی، استراتژیک، انتقادی و کشف روابط علت و معلولی محک بخورن.
* از نظر بنچمارکینگ هم خیلی خاصه: چون همیشه رویدادهای جدیدی در دنیا رخ میده، این تست هیچ‌وقت اشباع نمیشه. از طرفی هم امکان لیک داده وجود نداره، چون پیش‌بینی‌ها فقط درباره آینده انجام میشن.

⚙️ روند کار:
مدل‌ها خودشون خبرها و داده‌های اینترنت رو جمع‌آوری و تحلیل می‌کنن و بعد پیش‌بینی می‌سازن. وقتی واقعه در دنیای واقعی رخ بده، دقت بررسی میشه.
دو معیار اصلی:

* 📊 میانگین سود واقعی از شرط‌بندی روی رویداد
* 📉 دقت آماری بایر

🏆 جدول فعلی:
🥉 Gemini 2.5 Pro
🥈 o3
🥇 GPT-5
(و جایزه ویژه هم رفته برای سیمپسون‌ها 😅)

💡 جالبه بدونید در شاخص سوددهی، فعلاً o3-mini اول شده. همچنین خیلی از مدل‌ها سبک رفتاری متفاوتی دارن؛ بعضی‌ها همیشه محافظه‌کارانه تصمیم می‌گیرن و بعضی‌ها ریسک‌پذیر هستن.

👉 جدول کامل و شرط‌بندی‌های فعلی مدل‌ها (از جمله روی مسابقات ورزشی) اینجاست: [prophetarena.co]

#هوش_مصنوعی #بنچمارک #پیش‌بینی #ProphetArena
@rss_ai_ir
This media is not supported in your browser
VIEW IN TELEGRAM
📑 خبر داغ: Hugging Face بی‌سروصدا یه ابزار جدید به اسم AI Sheets منتشر کرده!

🔹 این دقیقاً رویای هر ML-مهندس محسوب میشه: ابزاری برای ساخت و برچسب‌گذاری سریع و تعاملی دیتاست‌ها برای تقریباً هر نوع تسک.

⚙️ چطور کار می‌کنه؟

* فقط کافیه یه مدل آماده (اوپن‌سورس یا حتی مدل اختصاصی خودتون) انتخاب کنید
* یه پرامپت متنی بدید
* و درجا یه دیتاست آماده تحویل بگیرید!
بعدش هم میشه راحت ویرایشش کرد.

📂 علاوه بر این، می‌تونید دیتاست‌های آماده رو آپلود کنید، گسترش بدید یا تغییر بدید. حتی روی داده‌های چندوجهی (Multimodal) هم جواب میده.

🖥 اجرای لوکال هم خیلی ساده‌ست، دستورالعملش روی گیت‌هاب موجوده:
👉 [github.com/huggingface/aisheets]

#هوش_مصنوعی #دیتاست #HuggingFace #AISheets
@rss_ai_ir
This media is not supported in your browser
VIEW IN TELEGRAM
🦖 خبر تازه: DINOv3 منتشر شد! 🦖

🔹 متا از DINOv3 رونمایی کرد؛ یک مدل پایه نوآورانه در بینایی ماشین که تونسته رکوردهای قبلی رو پشت سر بذاره.
🔹 کد و وزن‌ها هم منتشر شدن (تحت لایسنس DINOv3) 💙

📌 منابع:
لینک گیت هاب

#هوش_مصنوعی #بینایی_ماشین #Meta #DINOv3
@rss_ai_ir
9🎉5🔥4😁3👍2
🧠 معرفی پژوهش جدید: HumanSense

📄 محققان (Yi Yuan, Tianqi Li, Yabing Wang, Ruobing Zheng, Zheng Qin) در مقاله‌ای تازه، بنچمارکی به نام HumanSense معرفی کردن که توانایی مدل‌های بزرگ چندوجهی (MLLMs) رو در *درک مقاصد پیچیده انسانی* و تولید پاسخ‌های همدلانه و آگاه به زمینه بررسی می‌کنه.

🔹 ویژگی‌ها:

* شامل ۱۵ تسک در ۴ لایه مختلف برای ارزیابی دقیق‌تر
* بهره‌گیری از یادگیری تقویتی چندمرحله‌ای و همه‌جانبه (omni-modal RL) روی ورودی‌های تصویری، صوتی و متنی
* تمرکز روی *تعامل انسان‌محور* و شکاف موجود در فریم‌ورک‌های ارزیابی ریزدانه

📊 نتایج:

* عملکرد انسان در این بنچمارک: ۸۷.۵٪ دقت
* بهترین MLLMها همچنان فاصله زیادی با این خط مبنا دارن
* روش نویسندگان دقت در تسک Psychological Chat رو از ۰.۳۹۹ → ۰.۶۱۹ ارتقا داده

💡 پیام اصلی برای متخصصان:
بزرگ‌ترین گلوگاه MLLMها در تعامل انسان‌محور، *استدلال سطح‌بالا*ست. با استفاده از ورودی‌های چندوجهی و تمرکز روی آموزش مبتنی بر استدلال یا مهندسی پرامپت، میشه بهبود قابل‌توجهی ایجاد کرد.

📚 مطالعه بیشتر:
🔗 [arXiv](https://arxiv.org/abs/2508.10576)
🔗 [HuggingFace](https://huggingface.co/papers/2508.10576)

#هوش_مصنوعی #MLLM #بنچمارک #HumanSense
@rss_ai_ir
4👍3😁2🎉2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
📦🤖 شمارش محصولات با کمک بینایی ماشین!

این تصویر مربوط به یک پروژه‌ی کاربردی در مدیریت انبار هست که در آن با استفاده از هوش مصنوعی و آنالیز ویدیویی**، ورود و قرارگیری محصولات داخل جعبه‌ها به‌صورت خودکار شناسایی و شمارش میشه.

🔹 مزایا:

* حذف خطای انسانی در شمارش محصولات
* سرعت و دقت بالاتر در فرآیند بسته‌بندی
* بهینه‌سازی مدیریت موجودی انبار

این نوع سیستم‌ها با استفاده از **مدل‌های بینایی کامپیوتر
و تعریف محدوده‌های مجازی (Virtual Fence) می‌تونن لحظه‌به‌لحظه شمارش دقیق انجام بدن و گزارش‌های بلادرنگ ارائه کنن.

در واقع، این همون جاییه که هوش مصنوعی مستقیماً به بهبود بهره‌وری صنعتی کمک می‌کنه 🚀

#هوش_مصنوعی #بینایی_ماشین #Warehouse #AI_Vision
@rss_ai_ir
🔥17👍11😁10🎉106👏5🥰4🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
🐄🌱 کشاورزی هوشمند با حصار مجازی (Virtual Fence)

ایده‌ی نوآورانه‌ای که داره نحوه‌ی مدیریت دام‌ها رو متحول می‌کنه! 🚀
به جای استفاده از فنس‌های فیزیکی پرهزینه و سخت‌نگهداری، با فناوری حصار مجازی میشه محدوده‌ی حرکت دام‌ها رو از طریق سیستم‌های هوشمند و پوشیدنی‌ها کنترل کرد.

🔹 مزایا:

* حذف هزینه‌های ساخت و تعمیر حصارهای سنتی
* مدیریت هوشمند چرای دام در مراتع
* افزایش بهره‌وری و کاهش آسیب به محیط زیست
* آزادی بیشتر برای دام‌ها در عین کنترل دقیق

این تکنولوژی نشون میده که چطور اینترنت اشیاء و هوش مصنوعی می‌تونن کشاورزی و دامپروری سنتی رو وارد یک عصر دیجیتال کنن

#کشاورزی_هوشمند #دامپروری #VirtualFence #IoT #هوش_مصنوعی
@rss_ai_ir
🎉11👍10😁10🔥8👏75🥰4🙏1