📊 بنچمارک SealQA برای Deep Research با مدلهای کوچک
او به همراه همکارانش یک بنچمارک جالب روی SealQA اجرا کرده است تا روشهای مختلف پیادهسازی ReAct-Agents را بسنجد؛ با یک شرط مهم: استفاده فقط از مدلهای کوچک (تا 30B پارامتر). در تست اولیه، او از gpt-4o-mini بهره برد.
🤔 چرا این مهم است؟
به گفته او، مدلهای بزرگتر بدون شک نتایج بهتری دارند، اما همچنان پرهزینهاند. دیر یا زود هزینهها کمتر میشود، اما همیشه این پرسش باقی میماند که کدام مدل کوچک برای یک کاربرد خاص بهینه است. چنین تحقیقاتی کمک میکند توانایی واقعی مدلهای کوچکتر بهتر شناخته شود.
🔎 دو رویکرد مورد بررسی:
1️⃣ SGR Deep Research
(معماری React NextStep با روش هیبریدی SO – پیادهسازی پایدار روی GitHub موجود است).
2️⃣ همچنین، ReAct کلاسیک + یک ابزار وب (برای ایجاد سطح پایه جهت مقایسه؛ نسخه اولیه در GitHub موجود است اما هنوز خام است).
📈 نتایج اولیه (از 111 سؤال):
✅ SGR Deep Research:
28 پاسخ درست.
✅ ReAct + FC:
12 پاسخ درست.
❌ بنچمارک رسمی gpt-4o-mini: 0 پاسخ درست.
📌 نتیجهگیری: او تأکید میکند که حتی یک ReAct-Agent ساده روی مدل کوچک میتواند عملکردی فراتر از سطح صفر داشته باشد.
ادامه گزارش شامل جزئیات نتایج، مشکلات و راهحلها خواهد بود. 🚀
#هوش_مصنوعی #LLM #ReAct #DeepResearch #SealQA
او به همراه همکارانش یک بنچمارک جالب روی SealQA اجرا کرده است تا روشهای مختلف پیادهسازی ReAct-Agents را بسنجد؛ با یک شرط مهم: استفاده فقط از مدلهای کوچک (تا 30B پارامتر). در تست اولیه، او از gpt-4o-mini بهره برد.
🤔 چرا این مهم است؟
به گفته او، مدلهای بزرگتر بدون شک نتایج بهتری دارند، اما همچنان پرهزینهاند. دیر یا زود هزینهها کمتر میشود، اما همیشه این پرسش باقی میماند که کدام مدل کوچک برای یک کاربرد خاص بهینه است. چنین تحقیقاتی کمک میکند توانایی واقعی مدلهای کوچکتر بهتر شناخته شود.
🔎 دو رویکرد مورد بررسی:
1️⃣ SGR Deep Research
(معماری React NextStep با روش هیبریدی SO – پیادهسازی پایدار روی GitHub موجود است).
2️⃣ همچنین، ReAct کلاسیک + یک ابزار وب (برای ایجاد سطح پایه جهت مقایسه؛ نسخه اولیه در GitHub موجود است اما هنوز خام است).
📈 نتایج اولیه (از 111 سؤال):
✅ SGR Deep Research:
28 پاسخ درست.
✅ ReAct + FC:
12 پاسخ درست.
❌ بنچمارک رسمی gpt-4o-mini: 0 پاسخ درست.
📌 نتیجهگیری: او تأکید میکند که حتی یک ReAct-Agent ساده روی مدل کوچک میتواند عملکردی فراتر از سطح صفر داشته باشد.
ادامه گزارش شامل جزئیات نتایج، مشکلات و راهحلها خواهد بود. 🚀
#هوش_مصنوعی #LLM #ReAct #DeepResearch #SealQA
🥰14👍10👏10🎉10😁9❤7🔥3
💡 مجموعه Together AI آموزش ساخت "Lovable Clone" با مدل Kimi K2 را منتشر کرد
این راهنما نشان میدهد چطور میتوانید با استفاده از Next.js اپلیکیشنی بسازید که تنها با یک دستور متنی، کد یک برنامهی کامل React را برایتان بنویسد — درست مثل «کد با یک جمله»!
🧩 مراحل کلیدی:
✳️طراحی رابط کاربری ساده با یک فیلد ورودی برای دستور کاربر (مثلاً: “Build me a calculator app…”)
✳️ایجاد مسیر API به نام /api/generateCode که درخواست را از طریق Together AI SDK به مدل Kimi K2 بفرستد
✳️استفاده از system prompt برای بازگرداندن فقط کد، بدون هیچ توضیح اضافی
✳️تعبیهی ابزار Sandpack (یا مشابه آن) برای اجرای مستقیم کد در مرورگر
✳️افزودن قابلیت streaming تا کاربر بتواند روند تولید کد را در لحظه مشاهده کند
📄 راهنما:
docs.together.ai/docs/how-to-build-a-lovable-clone-with-kimi-k2
#هوش_مصنوعی #توسعه_وب #TogetherAI #KimiK2 #NextJS #React #AItools
این راهنما نشان میدهد چطور میتوانید با استفاده از Next.js اپلیکیشنی بسازید که تنها با یک دستور متنی، کد یک برنامهی کامل React را برایتان بنویسد — درست مثل «کد با یک جمله»!
🧩 مراحل کلیدی:
✳️طراحی رابط کاربری ساده با یک فیلد ورودی برای دستور کاربر (مثلاً: “Build me a calculator app…”)
✳️ایجاد مسیر API به نام /api/generateCode که درخواست را از طریق Together AI SDK به مدل Kimi K2 بفرستد
✳️استفاده از system prompt برای بازگرداندن فقط کد، بدون هیچ توضیح اضافی
✳️تعبیهی ابزار Sandpack (یا مشابه آن) برای اجرای مستقیم کد در مرورگر
✳️افزودن قابلیت streaming تا کاربر بتواند روند تولید کد را در لحظه مشاهده کند
📄 راهنما:
docs.together.ai/docs/how-to-build-a-lovable-clone-with-kimi-k2
#هوش_مصنوعی #توسعه_وب #TogetherAI #KimiK2 #NextJS #React #AItools
🔥2👏2👍1
🚀 مدل Holo2 نسل تازهای از مدلهای چندرسانهای است که برای فهم رابطکاربری، ناوبری و استدلال در وب، دسکتاپ و موبایل طراحی شده است.
📈 نتایج چشمگیر در بنچمارکها Holo2 رکوردهای جدیدی ثبت کرده است:
🟩 امتیاز 66.1% در ScreenSpot-Pro (افزایش +۳٪)
🟩 امتیاز 76.1% در OSWorld-G (افزایش +۵٪)
این مدل بسیاری از رقبا را پشت سر گذاشته و تبدیل به یکی از بهترین گزینهها برای UI-grounding شده است.
🧠 معماری مدل
مبتنی بر Qwen3-VL
درک بسیار قوی از رابطکاربری و ناوبری دقیق
مناسب برای توسعه عاملهای هوشمند UI در نرمافزارها
🌐 قابل اجرا روی: مرورگر، Ubuntu و Android
🔀 همچنین Mixture of Experts نسخهی پرچمدار 30B-A3B فقط با فعالسازی ۳ میلیارد پارامتر در هر مرحله عملکردی در سطح مدل 30B ارائه میدهد اما با هزینه محاسبات کمتر.
🤖 مدل از reasoning-token ها برای بهبود دقت تصمیمگیری بهره میبرد و با Surfer 2 و ReAct کاملاً سازگار است.
⚙️ شیوه اجرا
سازگار با vLLM و تمام فریمورکهای هماهنگ با Qwen3-VL
📜 لایسنسها
نسخههای 4B و 8B → تحت Apache-2
نسخه 30B-A3B → فقط استفاده غیرتجاری
🔗 لینکها:
🌐 Blog: hcompany.ai/blog/holo2
🍳 Cookbook: github.com/hcompai/hai-cookbook/blob/main/holo2/holo_2_localization_huggingface.ipynb
🤗 HuggingFace: huggingface.co/collections/Hcompany/holo2
@rss_ai_ir
#هوش_مصنوعی #مدل_چندرسانهای #عامل_هوشمند #Qwen #Holo2 #AI #LLM #ML #رابط_کاربری #ui_grounding #qwen3_vl #vllm #surfer2 #react_ai
📈 نتایج چشمگیر در بنچمارکها Holo2 رکوردهای جدیدی ثبت کرده است:
🟩 امتیاز 66.1% در ScreenSpot-Pro (افزایش +۳٪)
🟩 امتیاز 76.1% در OSWorld-G (افزایش +۵٪)
این مدل بسیاری از رقبا را پشت سر گذاشته و تبدیل به یکی از بهترین گزینهها برای UI-grounding شده است.
🧠 معماری مدل
مبتنی بر Qwen3-VL
درک بسیار قوی از رابطکاربری و ناوبری دقیق
مناسب برای توسعه عاملهای هوشمند UI در نرمافزارها
🌐 قابل اجرا روی: مرورگر، Ubuntu و Android
🔀 همچنین Mixture of Experts نسخهی پرچمدار 30B-A3B فقط با فعالسازی ۳ میلیارد پارامتر در هر مرحله عملکردی در سطح مدل 30B ارائه میدهد اما با هزینه محاسبات کمتر.
🤖 مدل از reasoning-token ها برای بهبود دقت تصمیمگیری بهره میبرد و با Surfer 2 و ReAct کاملاً سازگار است.
⚙️ شیوه اجرا
سازگار با vLLM و تمام فریمورکهای هماهنگ با Qwen3-VL
📜 لایسنسها
نسخههای 4B و 8B → تحت Apache-2
نسخه 30B-A3B → فقط استفاده غیرتجاری
🔗 لینکها:
🌐 Blog: hcompany.ai/blog/holo2
🍳 Cookbook: github.com/hcompai/hai-cookbook/blob/main/holo2/holo_2_localization_huggingface.ipynb
🤗 HuggingFace: huggingface.co/collections/Hcompany/holo2
@rss_ai_ir
#هوش_مصنوعی #مدل_چندرسانهای #عامل_هوشمند #Qwen #Holo2 #AI #LLM #ML #رابط_کاربری #ui_grounding #qwen3_vl #vllm #surfer2 #react_ai
🥰10👍6🔥5❤4👏3😁2🎉2