VIRSUN
7.47K subscribers
792 photos
461 videos
3 files
507 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group
Download Telegram
⚡️ مدل جدید LFM2-2.6B — رهبر کلاس مدل‌ها تا ۳ میلیارد پارامتر

🔑 ویژگی‌ها:

✳️سبک و سریع، تنها با ۲.۶ میلیارد پارامتر
✳️معماری نسل دوم (short convs + group query attention)
✳️آموزش‌دیده روی ۱۰ تریلیون توکن
✳️پشتیبانی از کانتکست تا ۳۲k


🧠 مدلی جمع‌وجور اما قدرتمند برای طیف وسیعی از وظایف یادگیری ماشین.

🟠 بلاگ‌پست: Liquid AI
🟠 Hugging Face: LFM2-2.6B
🟠 مدل باندل روی LEAP: اینجا

@rss_ai_ir

#هوش_مصنوعی #مدل_زبانی #LFM2 #OpenSourceAI #LLM
2🔥1👏1🙏1
🧠 محققان MIT نشان دادند: LLMها می‌توانند منطقاً استدلال کنند اگر درست آموزش داده شوند

📄 آن‌ها روش جدیدی به نام PDDL-INSTRUCT معرفی کرده‌اند که فرآیند یادگیری مدل را از حالت «حدس جواب» به حل مرحله‌به‌مرحله با بررسی بیرونی تبدیل می‌کند.

🔹 چطور کار می‌کند؟
1️⃣ ابتدا مدل هم برنامه‌های درست و هم اشتباه را با توضیحات می‌بیند.
2️⃣ سپس خودش استدلال هر مرحله را می‌نویسد. در این مرحله ابزار بیرونی (VAL) منطق را بررسی می‌کند. اگر خطا باشد، مدل توضیح دقیق خطا را دریافت می‌کند.

📊 نتایج:

دقت مدل Llama-3-8B در مسائل برنامه‌ریزی از ۲۸٪ → ۹۴٪ جهش کرد.

بازخورد دقیق مرحله‌به‌مرحله بسیار مؤثرتر از برچسب ساده «درست/غلط» عمل کرد.


💡 نکته کلیدی: مدل جایگزین برنامه‌ریز نمادین نمی‌شود، بلکه یاد می‌گیرد مثل او فکر کند و همچنان از بررسی بیرونی استفاده کند.

⚡️ این روش می‌تواند به هر مسأله چندمرحله‌ای (ریاضی، برنامه‌نویسی و …) تعمیم داده شود. شاید بسیاری از توانایی‌های «پنهان» مدل‌ها فقط منتظر روش درست آموزش باشند.

🟠 متن کامل مقاله:
arxiv.org/abs/2509.13351

@rss_ai_ir

#هوش_مصنوعی #یادگیری_عمیق #LLM #منطق #MIT
👍1
🧠 Hallucination Risk Toolkit
برای LLMها

ابزاری سبک برای برآورد ریسک هَلوسینیشن بدون نیاز به آموزش مجدد مدل. طبق «قانون دِکمپرِشن» پرسش را بازنویسی می‌کند و بر اساس سطح خدمتِ هدف (SLO) تصمیم می‌گیرد پاسخ بدهد یا مؤدبانه امتناع کند.

ویژگی‌ها:

✳️مدل‌سازی ریاضیِ شفاف برای ریسک هَلوسینیشن

✳️دو حالت: با کانتکست (RAG/زمینه) و بدون کانتکست

✳️فقط با OpenAI Chat Completions API کار می‌کند

✳️پیاده‌سازی ساده برای قرار دادن جلوی هر LLM بعنوان «دروازه‌بان اعتماد»


گیت‌هاب:
https://github.com/leochlon/hallbayes

@rss_ai_ir

#LLM #AI_Safety #RAG #PromptEngineering #RiskAssessment #OpenAI #python
🔥1👏1
🔎 کیفیت مدل‌های هوش مصنوعی در همه‌ی ۹ حوزه یکسان نیست

طبق نتایج (تصویر اول)، بعضی گروه‌های وظایف هنوز عقب‌ماندگی جدی دارند. چند شغل با عملکرد ضعیف‌تر (از تصویر دوم):

♻️تدوین‌گرهای صدا و تصویر
♻️حسابرسان و حسابداران
♻️کانسیرژ/پذیرش


برای اینکه دقیق ببینید هر گروه چه وظایفی داشته، این صفحه‌ی دیتاست را بررسی کنید:

https://huggingface.co/datasets/openai/gdpval

#هوش_مصنوعی #ارزیابی_مدل #GDPVal #LLM #AI #تحلیل_شغلی #مولتی_مدال #داده_باز
⚡️ انقلاب در محاسبات: آنالوگ درون حافظه‌ای (In-Memory Computing) ⚡️

♨️نشریه Nature Computational Science خبر از فناوری جدیدی داده که محاسبات را مستقیماً در حافظه انجام می‌دهد.

🔹 ویژگی‌ها:

دیگر نیازی به جابه‌جایی مداوم داده بین GPU و حافظه نیست.

محاسبه و ذخیره‌سازی در یک مکان انجام می‌شوند.

این کار باعث کاهش شدید تأخیر و مصرف انرژی می‌شود.


🔹 نتایج اولیه:

✳️مدل‌هایی در سطح GPT-2 بدون نیاز به آموزش مجدد اجرا شده‌اند.

✳️پتانسیل تا ۱۰۰ برابر سرعت بیشتر و ۱۰,۰۰۰ برابر بهینگی انرژی گزارش شده است.


🔮 چشم‌انداز:
اگر این فناوری به‌خوبی مقیاس‌پذیر شود، می‌توان مدل‌های زبانی بزرگ را مستقیماً روی گوشی‌های هوشمند و حتی IoT دیوایس‌ها اجرا کرد — بدون نیاز به دیتاسنترها.

⛔️تصور کنید: GPT-5 آفلاین و محلی روی موبایل شما، با حداقل مصرف انرژی 🤯

@rss_ai_ir

#هوش_مصنوعی #محاسبات #InMemoryComputing #سخت_افزار #LLM
🔥21👍1👏1
📊 K2 Vendor Verifier
؛ تست شفافیت عملکرد وندورها

تیم Kimi ابزاری با نام K2 Vendor Verifier معرفی کرده که هدفش بررسی دقت سرویس‌دهنده‌های مختلف برای مدل K2 است.

🔎 روش تست:
هر وندور روی ۲۰۰۰ درخواست یکسان امتحان می‌شود و نتایج با API رسمی مقایسه می‌گردد.

📉 نتیجه:
همه‌ی ارائه‌دهندگان 3rd party مشکلات جدی در خروجی داشتند. متأسفانه جذاب‌ترین گزینه، Groq، در این تست حضور نداشت.

این حرکت یادآور تست‌های تیم Artificial Analysis روی gpt-oss است، جایی که اختلاف فاحشی بین سرویس‌دهندگان مشاهده شد.

⚠️ پیام مهم: اگر چنین تست‌هایی عمومی و استاندارد نشوند، باگ‌های inference بی‌سروصدا ادامه خواهند داشت و کیفیت مدل‌ها را پایین می‌آورند.

📎 گیت‌هاب: K2 Vendor Verifier

#هوش_مصنوعی #K2 #LLM #AI #Kimi #VendorVerifier
📊 آیا به استاندارد برای ارزیابی کیفیت مدل‌ها و محصولات LLM نیاز داریم؟

⛔️امروز تقریباً در هر محصولی قابلیت RAG وجود دارد و سناریوهای agentic هم به یک روند عادی تبدیل شده‌اند. اما هرچه پایپ‌لاین پیچیده‌تر شود، کنترل و ارزیابی آن هم سخت‌تر و حیاتی‌تر می‌شود.

🔹 در پایپ‌لاین‌های ساده می‌توان:

♻️متریک‌های مشخصی انتخاب کرد
♻️تست‌های واحد و یکپارچه نوشت
♻️یک بنچمارک کوچک آماده و مرتباً اجرا کرد
♻️پایداری و تکرارپذیری نتایج را بررسی کرد


🔹 اما وقتی پایپ‌لاین شامل چندین ماژول مختلف باشد، ماجرا شبیه ساختن هزارچهره فالکون از لگو می‌شود 🧱🦧

در مقاله Apollo Research "We Need A Science of Evals" (۲۰۲۴) گفته شد:

ارزیابی کیفیت بیشتر شبیه هنر است تا علم (مثلاً فقط تغییر در فرمت پرامپت می‌تواند دقت را ۷۰+ درصد جابجا کند 😱)

بلوغ ارزیابی (Eval) سه مرحله دارد:
1️⃣ Nascent —
مرحله ابتدایی و پراکنده، بدون استاندارد
2️⃣ Maturation —
ظهور بهترین‌روش‌ها ولی بدون مقررات رسمی
3️⃣ Mature —
وجود استانداردها، استناد آماری و نتایج قابل‌تفسیر

ما فعلاً در مرحله دوم هستیم و رسیدن به مرحله سوم نیازمند تعریف متریک‌های روشن، پوشش کامل تست، تکرارپذیری و تحلیل آماری است.


⚡️ اخیراً استاندارد جدیدی معرفی شده: STREAM (A Standard for Transparently Reporting Evaluations in AI Model Reports). این چارچوب به شفاف‌سازی تست‌ها و گزارش‌دهی نتایج کمک می‌کند. هرچند بیشتر برای بنچمارک‌های حوزه ChemBio طراحی شده، اما قابل‌استفاده در دیگر زمینه‌ها هم هست.

🔮 آینده‌ی ارزیابی LLMها در گرو Eval علمی و استاندارد است. در غیر این صورت، محصولات غیرایمن و مبهم خواهیم داشت.

@rss_ai_ir 🤖

https://www.arxiv.org/pdf/2508.09853

#هوش_مصنوعی #LLM #استاندارد #Eval #STREAM #AI
🚀 DeepSeek-V3.2-Exp —
نسخه‌ی آزمایشی جدید منتشر شد!

ویژگی‌های کلیدی:

✳️ساخته‌شده بر پایه V3.1-Terminus

✳️بهره‌گیری از مکانیزم جدید Sparse Attention (DSA) → سرعت بیشتر و هزینه‌ی کمتر در پردازش کانتکست‌های طولانی

✳️کیفیت تقریباً بدون افت، با همان کارایی نسخه V3.1

💰 هزینه‌ی API بیش از ۵۰٪ کاهش یافته


📊 نسخه‌ی V3.1 همچنان تا ۱۵ اکتبر ۲۰۲۵ در دسترس خواهد بود.

🔗 Hugging Face
🔗 Tech Report
🔗 GitHub

@rss_ai_ir

#DeepSeek #هوش_مصنوعی #SparseAttention #مدل_زبان #LLM
👍31🙏1
🚀 Qwen Chat
آپدیت‌های جذابی گرفت!

حالا در Qwen Chat می‌تونید نه‌تنها داده‌ها رو در اینترنت جستجو کنید، بلکه همون لحظه اون‌ها رو با کمک ترکیب Code Interpreter + Web Search به شکل نمودار هم ببینید. 📊

مثلا می‌تونید پیش‌بینی ۷ روزه‌ی هوا رو بگیرید و بلافاصله خروجی رو به‌صورت یک نمودار آماده دریافت کنید.

📈 فقط کافیه توی پرامپت بنویسید که می‌خواید نمودار بسازه، و Qwen این کار رو براتون انجام می‌ده.

🔗 امتحان کنید:
chat.qwen.ai

@rss_ai_ir

#Qwen #LLM #هوش_مصنوعی #چت_بات #تحلیل_داده
🔥51👍1🙏1
🚀 DeepSeek V3.2-Exp:
کاهش هزینه‌ها با Sparse Attention

🔹 این نسخه بر پایه‌ی V3.1-Terminus ساخته شده و با مکانیزم جدید Sparse Attention (DSA) آموزش دیده است.

🔹 هر توکن به‌جای همه‌ی توکن‌های قبلی، فقط به حدود 2048 کلید توجه می‌کند. این یعنی مصرف حافظه و تأخیر کمتر، بدون افت محسوس کیفیت.

🔹 💰 هزینه API به‌طور چشمگیری کاهش یافته: از ۱.۶۸ دلار به ۰.۴۲ دلار برای هر یک میلیون توکن.

📊 ویژگی‌ها:

✳️مناسب برای کانتکست‌های طولانی و زنجیره‌های پیچیده‌ی استدلال (Chain-of-Thought).

✳️کیفیت مشابه V3.1 با هزینه‌ی بسیار کمتر.

✳️آموزش بهینه‌تر: سه مرحله‌ی RL قبلی در یک مرحله ادغام شده.

✳️برای وظایفی که پاسخ یکتا ندارند، از GRM برای ارزیابی پاسخ‌ها استفاده می‌شود.


به زبان ساده: V3.2-Exp همان کیفیت V3.1 را با نصف هزینه و سرعت بیشتر ارائه می‌دهد.

@rss_ai_ir

#DeepSeek #SparseAttention #هوش_مصنوعی #LLM #مدل_زبان
👍3🔥1🙏1
⚡️ Claude Sonnet 4.5 منتشر شد!

شرکت Anthropic دوباره به صدر مدل‌های کدنویسی برگشته است. 🚀
این مدل در تمام بنچمارک‌های برنامه‌نویسی با اختلاف GPT-5 را پشت سر گذاشته و در سایر تست‌ها هم تقریباً هم‌سطح رقبا عمل می‌کند.

همچنین Claude Code هم آپدیت شد (بالاخره 🙌):

🔧 افزونه‌ی جدید برای VS Code

💻 بهبود رابط کاربری ترمینال

اضافه شدن دستور برای بازگشت سریع به آخرین چک‌پوینت (یا چند قدم عقب‌تر)

📊 قابلیت ایجاد فایل، جدول و نمودار در خود ترمینال بر اساس داده‌های شما


📌 به نظر می‌رسد Anthropic این بار جدی‌تر از همیشه روی تجربه‌ی توسعه‌دهندگان تمرکز کرده است.

#Claude #Anthropic #AI #Coding #LLM
🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ شرکت Anthropic یک پیش‌نمایش تحقیقاتی از سیستم‌عامل مبتنی بر LLM منتشر کرده است.

ایده مشابه کاری است که قبلاً گوگل انجام داده بود:
اینجا هم مدل زبانی (LLM) نرم‌افزار را روی هوا می‌نویسد، بر اساس دستور شما.

📌 یعنی چه؟

روی یک اپلیکیشن کلیک می‌کنید → سیستم از صفر آن را می‌سازد، بدون هیچ کدی که از قبل آماده شده باشد.

یک فایل باز می‌کنید → محتوای آن همان لحظه تولید می‌شود.


در واقع این یک دموی پیشرفته از توانایی‌های مدل جدید Sonnet 4.5 است، نه یک محصول جدی برای بازار.

اما تجربه‌اش محدود است:
فقط کاربرانی که طرح Max دارند می‌توانند تا ۵ روز این قابلیت را امتحان کنند.

🔗 بیشتر بخوانید:
claude.ai/imagine

@rss_ai_ir

#LLM #Claude #Anthropic #هوش_مصنوعی #سیستم_عامل
🔥2👍1👏1
🧠 معرفی AlphaEvolve توسط Google/DeepMind: هوش مصنوعی در خدمت کشف نتایج جدید در ریاضیات و علوم کامپیوتر تئوری

🔍 چطور کار می‌کند؟
مدل‌های زبانی معمولاً سعی می‌کنند کل اثبات را یک‌جا بنویسند، اما این کار بسیار پیچیده و غیرقابل‌اعتماد است.

⛔️همچنین AlphaEvolve رویکرد متفاوتی دارد:
به جای نوشتن اثبات کامل، اجزای کوچک‌تری به نام gadget تولید می‌کند.
این تکه‌ها به‌سرعت و به‌صورت خودکار قابل‌بررسی‌اند و اگر درست باشند، می‌توان آن‌ها را در کنار هم قرار داد و به قضایای بزرگ‌تر رسید.

📈 چه چیزهایی پیدا شده است؟

یک نتیجه‌ی جدید برای مسئله‌ی MAX-4-CUT (یکی از مسائل نظریه الگوریتم‌ها و بهینه‌سازی ترکیبیاتی، نسخه‌ای از MAX-CUT کلاسیک).

کران‌های پایینی قوی‌تر برای مسائل روی گراف‌های تصادفی، از جمله کار روی گراف‌های رامانوجان.

سرعت بررسی قضایا نسبت به روش‌های سنتی ۱۰٬۰۰۰ برابر سریع‌تر شده است.


🧩 چرا مهم است؟

ریاضیات نیازمند دقت ۱۰۰٪ است؛ اینجا هوش مصنوعی نقش تولیدکننده ایده را دارد و بخش بررسی همچنان دقیق و رسمی باقی می‌ماند.

این رویکرد می‌تواند سال‌ها کار انسانی را ذخیره کند و راه را برای کشف قضایا و الگوریتم‌های جدید باز کند.


📄 جزییات بیشتر:
research.google/blog/ai-as-a-research-partner-advancing-theoretical-computer-science-with-alphaevolve/

@rss_ai_ir

#هوش_مصنوعی #ریاضیات #دیپ‌مایند #پژوهش #LLM
1👍1🔥1
🔥 خسته شدید از RLHF و RLVR؟ حالا روش جدیدی معرفی شده به نام Critique Reinforcement Learning (CRL)!

🧠 ایده اصلی:
در الگوریتم‌های معمولی RL، مدل یاد می‌گیرد پاسخ نهایی بدهد.
اما در CRL مدل به جای تولید پاسخ، یاد می‌گیرد راه‌حل موجود را نقد و بررسی کند و مرحله‌به‌مرحله صحت آن را بسنجد.
پاداش هم نه برای جواب، بلکه برای نقد مفید و سازنده‌ای داده می‌شود که در نهایت به قضاوت درست (True/False) منجر شود.

🚀 نتایج آزمایش‌ها:

مدل Critique-Coder 4B توانست در LiveCodeBench-V5 امتیاز ۶۲٪ بگیرد — بالاتر از مدل 14B DeepCoder.

این آموزش روی rStar-Coder با روش GRPO انجام شده است.

مدل‌های 4B و 8B در سایز خودشان به بهترین‌ها تبدیل شدند.


📄 مقاله:
arxiv.org/abs/2509.22824
🌐 وبسایت:
tiger-ai-lab.github.io/Critique-Coder
🤗 مدل‌ها:
HuggingFace Collection

@rss_ai_ir

#هوش_مصنوعی #RL #LLM #یادگیری_تقویتی
👍1🔥1👏1
🚀 در ByteDance Seed تکنیک جدیدی برای آموزش LLM معرفی شد: Knapsack RL

🔍 مشکل در RL کلاسیک:

در کارهای ساده همیشه موفقیت → بدون گرادیان
در کارهای سخت همیشه شکست → باز هم بدون گرادیان


💡 راهکار:
به جای توزیع یکنواخت rolloutها، بودجه محاسباتی مثل یک مسئله کوله‌پشتی (Knapsack) روی مواردی صرف می‌شود که واقعاً سیگنال آموزشی می‌دهند.

نتایج:

🔼 ‌+20–40% گرادیان‌های غیرصفر بیشتر
🧮 تا 93 rollout برای مسائل سخت (بدون هزینه اضافه)
📈 ‌+2–4 امتیاز میانگین، تا +9 در ریاضیات
💰 ‌حدوداً دو برابر ارزان‌تر از روش توزیع یکنواخت


📄 جزییات بیشتر:
huggingface.co/papers/2509.25849

@rss_ai_ir 🤖

#هوش_مصنوعی #یادگیری_تقویتی #LLM #KnapsackRL #ByteDance #ماشین_لرنینگ #یادگیری_عمیق #AI #RLHF #MachineLearning
📘 Anthropic منتشر کرد:
گاید عالی برای تنظیم مؤثر ایجنت‌ها

🔑 فرق اصلی با پرامپت‌نویسی کلاسیک اینجاست:

Prompt Engineering =
نوشتن دستور برای یک بار پاسخ.

Agent Engineering =
طراحی کل رفتار، حافظه، و کانتکست برای یک ایجنت دائمی.


💡 مقاله توضیح میده چطور باید context engineering رو جدی بگیریم: از مدیریت تاریخچه و اهداف تا انتخاب معماری حافظه.

📄 متن کامل:
anthropic.com/engineering/effective-context-engineering-for-ai-agents

@rss_ai_ir 🤖

#هوش_مصنوعی #LLM #AgentEngineering #PromptEngineering #Anthropic #AI
🚀 IBM Granite 4.0 معرفی شد
— خانواده‌ای تازه از مدل‌های زبانی متن‌باز با وزن‌های آزاد، از ۳B تا ۳۲B پارامتر.

🔹 چهار مدل جدید:

♻️Granite 4.0 H Small — 32B / 9B پارامتر فعال
♻️Granite 4.0 H Tiny — 7B / 1B
♻️Granite 4.0 H Micro — 3B / 3B
♻️Granite 4.0 Micro — 3B / 3B


📊 بنچمارک (Artificial Analysis Index):

Granite 4.0 H Small → امتیاز 23 (۸ امتیاز بالاتر از Granite 3.3 8B) — بهتر از Gemma 3 27B (22)، اما ضعیف‌تر از Mistral Small 3.2 (29) و Qwen3 30B A3B (37).

Granite 4.0 Micro → امتیاز 16 — بهتر از Gemma 3 4B (15) و LFM 2 2.6B (12).


کارایی توکن:

Granite 4.0 Small → 5.2M tokens

Granite 4.0 Micro → 6.7M tokens
(کارایی به‌مراتب بالاتر از Granite 3.3 8B و بیشتر مدل‌های زیر 40B بدون قابلیت reasoning).


🔑 جزئیات فنی:

✳️کانتکست: تا 128K tokens
✳️لایسنس: Apache 2.0
✳️همچنین Granite 4.0 H Small روی Replicate با هزینه 0.06$ / 0.25$ به ازای ۱M توکن ورودی/خروجی
✳️همه مدل‌ها روی Hugging Face در دسترس هستند
✳️مدل Micro (3.4B) را می‌توان کاملاً لوکال اجرا کرد.


🔗 Hugging Face
🔗 Unsloth

@rss_ai_ir

#AI #IBM #Granite4 #LLM #OpenWeights
🚀 خبر داغ از دنیای هوش مصنوعی

استارتاپ Thinking Machines (تأسیس‌شده توسط چهره‌های سابق OpenAI از جمله میرا موراتی و جان شولمن) اولین محصول خود را معرفی کرد: Tinker

🔹 چی هست؟
پلتفرم Tinker یک پلتفرم ساده‌سازی‌شده برای فاین‌تیونینگ مدل‌های بزرگه، بدون نیاز به زیرساخت‌های سنگین.

🔹 ویژگی‌ها

ارائه API برای فاین‌تیون مدل‌هایی مثل Llama و Qwen 🦙

اتوماسیون کامل در راه‌اندازی خوشه‌های GPU، پایداری آموزش و دیپلوی 🚦

امکان خروجی گرفتن از مدل‌های سفارشی برای استفاده‌ی پژوهشگران 📦

رایگان در نسخه بتا (با برنامه‌ریزی برای درآمدزایی در آینده) 💰

هدف: دموکراتیزه کردن دسترسی به ابزارهایی که قبلاً فقط در دسترس غول‌های فناوری بودن 🌍


🔹 اهمیت
پلتفرمTinker نشون می‌ده رقابت آینده‌ی AI فقط در ساخت مدل‌های بزرگ‌تر نیست، بلکه در انطباق و شخصی‌سازی مدل‌های موجود خواهد بود.
البته همین موضوع نگرانی‌هایی درباره ایمنی و دستکاری گسترده‌تر مدل‌ها ایجاد کرده ⚠️

📊 ارزش‌گذاری استارتاپ: ۱۲ میلیارد دلار
سرمایه اولیه: ۲ میلیارد دلار


---

✍️ به‌نوعی Tinker می‌خواد تبدیل بشه به قطعه‌ی کلیدی زیرساخت هوش مصنوعی در جهان.

🔖 #AI #ThinkingMachines #FineTuning #Tinker #LLM