VIRSUN

📊 بنچمارک SealQA برای Deep Research با مدل‌های کوچک

او به همراه همکارانش یک بنچمارک جالب روی SealQA اجرا کرده است تا روش‌های مختلف پیاده‌سازی ReAct-Agents را بسنجد؛ با یک شرط مهم: استفاده فقط از مدل‌های کوچک (تا 30B پارامتر). در تست اولیه، او از gpt-4o-mini بهره برد.

🤔 چرا این مهم است؟
به گفته او، مدل‌های بزرگ‌تر بدون شک نتایج بهتری دارند، اما همچنان پرهزینه‌اند. دیر یا زود هزینه‌ها کمتر می‌شود، اما همیشه این پرسش باقی می‌ماند که کدام مدل کوچک برای یک کاربرد خاص بهینه است. چنین تحقیقاتی کمک می‌کند توانایی واقعی مدل‌های کوچک‌تر بهتر شناخته شود.

🔎 دو رویکرد مورد بررسی:
1️⃣ SGR Deep Research
(معماری React NextStep با روش هیبریدی SO – پیاده‌سازی پایدار روی GitHub موجود است).
2️⃣ همچنین، ReAct کلاسیک + یک ابزار وب (برای ایجاد سطح پایه جهت مقایسه؛ نسخه اولیه در GitHub موجود است اما هنوز خام است).

📈 نتایج اولیه (از 111 سؤال):

✅ SGR Deep Research:
28 پاسخ درست.

✅ ReAct + FC:
12 پاسخ درست.

❌ بنچمارک رسمی gpt-4o-mini: 0 پاسخ درست.

📌 نتیجه‌گیری: او تأکید می‌کند که حتی یک ReAct-Agent ساده روی مدل کوچک می‌تواند عملکردی فراتر از سطح صفر داشته باشد.

ادامه گزارش شامل جزئیات نتایج، مشکلات و راه‌حل‌ها خواهد بود. 🚀

#هوش_مصنوعی #LLM #ReAct #DeepResearch #SealQA

🥰14👍10👏10🎉10😁9❤7🔥3

389 views06:53

VIRSUN

💡 مجموعه Together AI آموزش ساخت "Lovable Clone" با مدل Kimi K2 را منتشر کرد

این راهنما نشان می‌دهد چطور می‌توانید با استفاده از Next.js اپلیکیشنی بسازید که تنها با یک دستور متنی، کد یک برنامه‌ی کامل React را برایتان بنویسد — درست مثل «کد با یک جمله»!

🧩 مراحل کلیدی:

✳️طراحی رابط کاربری ساده با یک فیلد ورودی برای دستور کاربر (مثلاً: “Build me a calculator app…”)

✳️ایجاد مسیر API به نام /api/generateCode که درخواست را از طریق Together AI SDK به مدل Kimi K2 بفرستد

✳️استفاده از system prompt برای بازگرداندن فقط کد، بدون هیچ توضیح اضافی

✳️تعبیه‌ی ابزار Sandpack (یا مشابه آن) برای اجرای مستقیم کد در مرورگر

✳️افزودن قابلیت streaming تا کاربر بتواند روند تولید کد را در لحظه مشاهده کند

📄 راهنما:
docs.together.ai/docs/how-to-build-a-lovable-clone-with-kimi-k2

#هوش_مصنوعی #توسعه_وب #TogetherAI #KimiK2 #NextJS #React #AItools

🔥2👏2👍1

271 views04:49

VIRSUN

🚀 مدل Holo2 نسل تازه‌ای از مدل‌های چندرسانه‌ای است که برای فهم رابط‌کاربری، ناوبری و استدلال در وب، دسکتاپ و موبایل طراحی شده است.

📈 نتایج چشمگیر در بنچمارک‌ها Holo2 رکوردهای جدیدی ثبت کرده است:

🟩 امتیاز 66.1% در ScreenSpot-Pro (افزایش +۳٪)

🟩 امتیاز 76.1% در OSWorld-G (افزایش +۵٪)
این مدل بسیاری از رقبا را پشت سر گذاشته و تبدیل به یکی از بهترین گزینه‌ها برای UI-grounding شده است.

🧠 معماری مدل

مبتنی بر Qwen3-VL

درک بسیار قوی از رابط‌کاربری و ناوبری دقیق

مناسب برای توسعه عامل‌های هوشمند UI در نرم‌افزارها

🌐 قابل اجرا روی: مرورگر، Ubuntu و Android

🔀 همچنین Mixture of Experts نسخه‌ی پرچم‌دار 30B-A3B فقط با فعال‌سازی ۳ میلیارد پارامتر در هر مرحله عملکردی در سطح مدل 30B ارائه می‌دهد اما با هزینه محاسبات کمتر.

🤖 مدل از reasoning-token ها برای بهبود دقت تصمیم‌گیری بهره می‌برد و با Surfer 2 و ReAct کاملاً سازگار است.

⚙️ شیوه اجرا
سازگار با vLLM و تمام فریم‌ورک‌های هماهنگ با Qwen3-VL

📜 لایسنس‌ها

نسخه‌های 4B و 8B → تحت Apache-2

نسخه 30B-A3B → فقط استفاده غیرتجاری

🔗 لینک‌ها:
🌐 Blog: hcompany.ai/blog/holo2
🍳 Cookbook: github.com/hcompai/hai-cookbook/blob/main/holo2/holo_2_localization_huggingface.ipynb
🤗 HuggingFace: huggingface.co/collections/Hcompany/holo2

@rss_ai_ir

#هوش_مصنوعی #مدل_چندرسانه‌ای #عامل_هوشمند #Qwen #Holo2 #AI #LLM #ML #رابط_کاربری #ui_grounding #qwen3_vl #vllm #surfer2 #react_ai

🥰10👍6🔥5❤4👏3😁2🎉2

261 views14:16

About

Blog

Apps

Platform