🎮 بازی «Among AIs» — آموگوس با مدلهای زبانی! 🤖
تیم 4wallai یک بنچمارک تعاملی منتشر کرده که در آن نقشهای «مردم عادی» و «ایمپاسترها» را مدلهای زبانی بزرگ (LLM) بازی میکنند. هدف: بررسی توانایی در تفکر، استدلال، فریب و Theory of Mind (توانایی حدس زدن افکار دیگران).
📊 نتایج ۶۰ بازی:
🏆 بیشترین برد هم در نقش عادی و هم ایمپاستر — GPT-5
🥈 رتبه دوم — Claude Sonnet 4
🥉 رتبه سوم — Kimi K2
👀 تحلیل رفتار مدلها:
✳️همچنین GPT-5 کمترین آسیب را به تیم وارد کرده
✳️سبک گفتارش «مشکوک» به نظر نمیرسید، بنابراین کمتر علیه او رأی داده شد
✳️در بلاگپست، رونوشت بازیها و نمونههایی از نحوه دفاع و قانعکردن مدلها آورده شده است.
🎥 ویدئو یکی از بازیها: YouTube
📝 جزئیات و رونوشتها: بلاگ 4wallai
🤯 حالا LLMها فقط با تستهای IQ سنجیده نمیشوند، بلکه تواناییشان در دروغگویی و کشف دروغگوها هم آزمایش میشود!
@rss_ai_ir
#هوش_مصنوعی #مدل_زبانی #بنچمارک #AmongUs #LLM
تیم 4wallai یک بنچمارک تعاملی منتشر کرده که در آن نقشهای «مردم عادی» و «ایمپاسترها» را مدلهای زبانی بزرگ (LLM) بازی میکنند. هدف: بررسی توانایی در تفکر، استدلال، فریب و Theory of Mind (توانایی حدس زدن افکار دیگران).
📊 نتایج ۶۰ بازی:
🏆 بیشترین برد هم در نقش عادی و هم ایمپاستر — GPT-5
🥈 رتبه دوم — Claude Sonnet 4
🥉 رتبه سوم — Kimi K2
👀 تحلیل رفتار مدلها:
✳️همچنین GPT-5 کمترین آسیب را به تیم وارد کرده
✳️سبک گفتارش «مشکوک» به نظر نمیرسید، بنابراین کمتر علیه او رأی داده شد
✳️در بلاگپست، رونوشت بازیها و نمونههایی از نحوه دفاع و قانعکردن مدلها آورده شده است.
🎥 ویدئو یکی از بازیها: YouTube
📝 جزئیات و رونوشتها: بلاگ 4wallai
🤯 حالا LLMها فقط با تستهای IQ سنجیده نمیشوند، بلکه تواناییشان در دروغگویی و کشف دروغگوها هم آزمایش میشود!
@rss_ai_ir
#هوش_مصنوعی #مدل_زبانی #بنچمارک #AmongUs #LLM
👍2
📊 رشد انفجاری توان محاسباتی در آزمایشگاههای هوش مصنوعی
✅توان پردازشی در لابراتوارهای AI با سرعتی بیسابقه در حال افزایش است:
⚡ OpenAI —
امروز ۱۴ برابر بیشتر از زمان عرضهی GPT-4 توان محاسباتی دارد.
⚡ xAI —
نرخ رشد بسیار سریع؛ تنها بین عرضهی Grok 3 و Grok 4 میزان کامپیوتر دو برابر شده است.
⚡ Anthropic —
کمترین منابع محاسباتی را دارد، اما در بهرهبرداری فوقالعاده کارآمد بوده است. برای مثال، Claude 3.5 تنها با حدود یکپنجم توان فعلی Anthropic آموزش داده شد.
ℹ️ توجه: این آمارها شامل Google DeepMind نمیشود، در حالی که احتمالاً بیشترین توان محاسباتی را دارد — هرچند مشخص نیست این منابع تا چه اندازه برای آموزش LLMها متمرکز شدهاند.
@rss_ai_ir
#AI #LLM #Compute #OpenAI #xAI #Anthropic #DeepMind
✅توان پردازشی در لابراتوارهای AI با سرعتی بیسابقه در حال افزایش است:
⚡ OpenAI —
امروز ۱۴ برابر بیشتر از زمان عرضهی GPT-4 توان محاسباتی دارد.
⚡ xAI —
نرخ رشد بسیار سریع؛ تنها بین عرضهی Grok 3 و Grok 4 میزان کامپیوتر دو برابر شده است.
⚡ Anthropic —
کمترین منابع محاسباتی را دارد، اما در بهرهبرداری فوقالعاده کارآمد بوده است. برای مثال، Claude 3.5 تنها با حدود یکپنجم توان فعلی Anthropic آموزش داده شد.
ℹ️ توجه: این آمارها شامل Google DeepMind نمیشود، در حالی که احتمالاً بیشترین توان محاسباتی را دارد — هرچند مشخص نیست این منابع تا چه اندازه برای آموزش LLMها متمرکز شدهاند.
@rss_ai_ir
#AI #LLM #Compute #OpenAI #xAI #Anthropic #DeepMind
👍1
⚡️ مدل جدید LFM2-2.6B — رهبر کلاس مدلها تا ۳ میلیارد پارامتر
🔑 ویژگیها:
✳️سبک و سریع، تنها با ۲.۶ میلیارد پارامتر
✳️معماری نسل دوم (short convs + group query attention)
✳️آموزشدیده روی ۱۰ تریلیون توکن
✳️پشتیبانی از کانتکست تا ۳۲k
🧠 مدلی جمعوجور اما قدرتمند برای طیف وسیعی از وظایف یادگیری ماشین.
🟠 بلاگپست: Liquid AI
🟠 Hugging Face: LFM2-2.6B
🟠 مدل باندل روی LEAP: اینجا
@rss_ai_ir
#هوش_مصنوعی #مدل_زبانی #LFM2 #OpenSourceAI #LLM
🔑 ویژگیها:
✳️سبک و سریع، تنها با ۲.۶ میلیارد پارامتر
✳️معماری نسل دوم (short convs + group query attention)
✳️آموزشدیده روی ۱۰ تریلیون توکن
✳️پشتیبانی از کانتکست تا ۳۲k
🧠 مدلی جمعوجور اما قدرتمند برای طیف وسیعی از وظایف یادگیری ماشین.
🟠 بلاگپست: Liquid AI
🟠 Hugging Face: LFM2-2.6B
🟠 مدل باندل روی LEAP: اینجا
@rss_ai_ir
#هوش_مصنوعی #مدل_زبانی #LFM2 #OpenSourceAI #LLM
❤2🔥1👏1🙏1
🧠 محققان MIT نشان دادند: LLMها میتوانند منطقاً استدلال کنند اگر درست آموزش داده شوند
📄 آنها روش جدیدی به نام PDDL-INSTRUCT معرفی کردهاند که فرآیند یادگیری مدل را از حالت «حدس جواب» به حل مرحلهبهمرحله با بررسی بیرونی تبدیل میکند.
🔹 چطور کار میکند؟
1️⃣ ابتدا مدل هم برنامههای درست و هم اشتباه را با توضیحات میبیند.
2️⃣ سپس خودش استدلال هر مرحله را مینویسد. در این مرحله ابزار بیرونی (VAL) منطق را بررسی میکند. اگر خطا باشد، مدل توضیح دقیق خطا را دریافت میکند.
📊 نتایج:
دقت مدل Llama-3-8B در مسائل برنامهریزی از ۲۸٪ → ۹۴٪ جهش کرد.
بازخورد دقیق مرحلهبهمرحله بسیار مؤثرتر از برچسب ساده «درست/غلط» عمل کرد.
💡 نکته کلیدی: مدل جایگزین برنامهریز نمادین نمیشود، بلکه یاد میگیرد مثل او فکر کند و همچنان از بررسی بیرونی استفاده کند.
⚡️ این روش میتواند به هر مسأله چندمرحلهای (ریاضی، برنامهنویسی و …) تعمیم داده شود. شاید بسیاری از تواناییهای «پنهان» مدلها فقط منتظر روش درست آموزش باشند.
🟠 متن کامل مقاله:
arxiv.org/abs/2509.13351
@rss_ai_ir
#هوش_مصنوعی #یادگیری_عمیق #LLM #منطق #MIT
📄 آنها روش جدیدی به نام PDDL-INSTRUCT معرفی کردهاند که فرآیند یادگیری مدل را از حالت «حدس جواب» به حل مرحلهبهمرحله با بررسی بیرونی تبدیل میکند.
🔹 چطور کار میکند؟
1️⃣ ابتدا مدل هم برنامههای درست و هم اشتباه را با توضیحات میبیند.
2️⃣ سپس خودش استدلال هر مرحله را مینویسد. در این مرحله ابزار بیرونی (VAL) منطق را بررسی میکند. اگر خطا باشد، مدل توضیح دقیق خطا را دریافت میکند.
📊 نتایج:
دقت مدل Llama-3-8B در مسائل برنامهریزی از ۲۸٪ → ۹۴٪ جهش کرد.
بازخورد دقیق مرحلهبهمرحله بسیار مؤثرتر از برچسب ساده «درست/غلط» عمل کرد.
💡 نکته کلیدی: مدل جایگزین برنامهریز نمادین نمیشود، بلکه یاد میگیرد مثل او فکر کند و همچنان از بررسی بیرونی استفاده کند.
⚡️ این روش میتواند به هر مسأله چندمرحلهای (ریاضی، برنامهنویسی و …) تعمیم داده شود. شاید بسیاری از تواناییهای «پنهان» مدلها فقط منتظر روش درست آموزش باشند.
🟠 متن کامل مقاله:
arxiv.org/abs/2509.13351
@rss_ai_ir
#هوش_مصنوعی #یادگیری_عمیق #LLM #منطق #MIT
👍1
🧠 Hallucination Risk Toolkit
برای LLMها
✅ابزاری سبک برای برآورد ریسک هَلوسینیشن بدون نیاز به آموزش مجدد مدل. طبق «قانون دِکمپرِشن» پرسش را بازنویسی میکند و بر اساس سطح خدمتِ هدف (SLO) تصمیم میگیرد پاسخ بدهد یا مؤدبانه امتناع کند.
ویژگیها:
✳️مدلسازی ریاضیِ شفاف برای ریسک هَلوسینیشن
✳️دو حالت: با کانتکست (RAG/زمینه) و بدون کانتکست
✳️فقط با OpenAI Chat Completions API کار میکند
✳️پیادهسازی ساده برای قرار دادن جلوی هر LLM بعنوان «دروازهبان اعتماد»
گیتهاب:
https://github.com/leochlon/hallbayes
@rss_ai_ir
#LLM #AI_Safety #RAG #PromptEngineering #RiskAssessment #OpenAI #python
برای LLMها
✅ابزاری سبک برای برآورد ریسک هَلوسینیشن بدون نیاز به آموزش مجدد مدل. طبق «قانون دِکمپرِشن» پرسش را بازنویسی میکند و بر اساس سطح خدمتِ هدف (SLO) تصمیم میگیرد پاسخ بدهد یا مؤدبانه امتناع کند.
ویژگیها:
✳️مدلسازی ریاضیِ شفاف برای ریسک هَلوسینیشن
✳️دو حالت: با کانتکست (RAG/زمینه) و بدون کانتکست
✳️فقط با OpenAI Chat Completions API کار میکند
✳️پیادهسازی ساده برای قرار دادن جلوی هر LLM بعنوان «دروازهبان اعتماد»
گیتهاب:
https://github.com/leochlon/hallbayes
@rss_ai_ir
#LLM #AI_Safety #RAG #PromptEngineering #RiskAssessment #OpenAI #python
🔥1👏1
🔎 کیفیت مدلهای هوش مصنوعی در همهی ۹ حوزه یکسان نیست
✅طبق نتایج (تصویر اول)، بعضی گروههای وظایف هنوز عقبماندگی جدی دارند. چند شغل با عملکرد ضعیفتر (از تصویر دوم):
♻️تدوینگرهای صدا و تصویر
♻️حسابرسان و حسابداران
♻️کانسیرژ/پذیرش
برای اینکه دقیق ببینید هر گروه چه وظایفی داشته، این صفحهی دیتاست را بررسی کنید:
https://huggingface.co/datasets/openai/gdpval
#هوش_مصنوعی #ارزیابی_مدل #GDPVal #LLM #AI #تحلیل_شغلی #مولتی_مدال #داده_باز
✅طبق نتایج (تصویر اول)، بعضی گروههای وظایف هنوز عقبماندگی جدی دارند. چند شغل با عملکرد ضعیفتر (از تصویر دوم):
♻️تدوینگرهای صدا و تصویر
♻️حسابرسان و حسابداران
♻️کانسیرژ/پذیرش
برای اینکه دقیق ببینید هر گروه چه وظایفی داشته، این صفحهی دیتاست را بررسی کنید:
https://huggingface.co/datasets/openai/gdpval
#هوش_مصنوعی #ارزیابی_مدل #GDPVal #LLM #AI #تحلیل_شغلی #مولتی_مدال #داده_باز
⚡️ انقلاب در محاسبات: آنالوگ درون حافظهای (In-Memory Computing) ⚡️
♨️نشریه Nature Computational Science خبر از فناوری جدیدی داده که محاسبات را مستقیماً در حافظه انجام میدهد.
🔹 ویژگیها:
❌دیگر نیازی به جابهجایی مداوم داده بین GPU و حافظه نیست.
❌محاسبه و ذخیرهسازی در یک مکان انجام میشوند.
❌این کار باعث کاهش شدید تأخیر و مصرف انرژی میشود.
🔹 نتایج اولیه:
✳️مدلهایی در سطح GPT-2 بدون نیاز به آموزش مجدد اجرا شدهاند.
✳️پتانسیل تا ۱۰۰ برابر سرعت بیشتر و ۱۰,۰۰۰ برابر بهینگی انرژی گزارش شده است.
🔮 چشمانداز:
اگر این فناوری بهخوبی مقیاسپذیر شود، میتوان مدلهای زبانی بزرگ را مستقیماً روی گوشیهای هوشمند و حتی IoT دیوایسها اجرا کرد — بدون نیاز به دیتاسنترها.
⛔️تصور کنید: GPT-5 آفلاین و محلی روی موبایل شما، با حداقل مصرف انرژی 🤯
@rss_ai_ir
#هوش_مصنوعی #محاسبات #InMemoryComputing #سخت_افزار #LLM
♨️نشریه Nature Computational Science خبر از فناوری جدیدی داده که محاسبات را مستقیماً در حافظه انجام میدهد.
🔹 ویژگیها:
❌دیگر نیازی به جابهجایی مداوم داده بین GPU و حافظه نیست.
❌محاسبه و ذخیرهسازی در یک مکان انجام میشوند.
❌این کار باعث کاهش شدید تأخیر و مصرف انرژی میشود.
🔹 نتایج اولیه:
✳️مدلهایی در سطح GPT-2 بدون نیاز به آموزش مجدد اجرا شدهاند.
✳️پتانسیل تا ۱۰۰ برابر سرعت بیشتر و ۱۰,۰۰۰ برابر بهینگی انرژی گزارش شده است.
🔮 چشمانداز:
اگر این فناوری بهخوبی مقیاسپذیر شود، میتوان مدلهای زبانی بزرگ را مستقیماً روی گوشیهای هوشمند و حتی IoT دیوایسها اجرا کرد — بدون نیاز به دیتاسنترها.
⛔️تصور کنید: GPT-5 آفلاین و محلی روی موبایل شما، با حداقل مصرف انرژی 🤯
@rss_ai_ir
#هوش_مصنوعی #محاسبات #InMemoryComputing #سخت_افزار #LLM
🔥2❤1👍1👏1
📊 K2 Vendor Verifier
؛ تست شفافیت عملکرد وندورها
تیم Kimi ابزاری با نام K2 Vendor Verifier معرفی کرده که هدفش بررسی دقت سرویسدهندههای مختلف برای مدل K2 است.
🔎 روش تست:
هر وندور روی ۲۰۰۰ درخواست یکسان امتحان میشود و نتایج با API رسمی مقایسه میگردد.
📉 نتیجه:
همهی ارائهدهندگان 3rd party مشکلات جدی در خروجی داشتند. متأسفانه جذابترین گزینه، Groq، در این تست حضور نداشت.
این حرکت یادآور تستهای تیم Artificial Analysis روی gpt-oss است، جایی که اختلاف فاحشی بین سرویسدهندگان مشاهده شد.
⚠️ پیام مهم: اگر چنین تستهایی عمومی و استاندارد نشوند، باگهای inference بیسروصدا ادامه خواهند داشت و کیفیت مدلها را پایین میآورند.
📎 گیتهاب: K2 Vendor Verifier
#هوش_مصنوعی #K2 #LLM #AI #Kimi #VendorVerifier
؛ تست شفافیت عملکرد وندورها
تیم Kimi ابزاری با نام K2 Vendor Verifier معرفی کرده که هدفش بررسی دقت سرویسدهندههای مختلف برای مدل K2 است.
🔎 روش تست:
هر وندور روی ۲۰۰۰ درخواست یکسان امتحان میشود و نتایج با API رسمی مقایسه میگردد.
📉 نتیجه:
همهی ارائهدهندگان 3rd party مشکلات جدی در خروجی داشتند. متأسفانه جذابترین گزینه، Groq، در این تست حضور نداشت.
این حرکت یادآور تستهای تیم Artificial Analysis روی gpt-oss است، جایی که اختلاف فاحشی بین سرویسدهندگان مشاهده شد.
⚠️ پیام مهم: اگر چنین تستهایی عمومی و استاندارد نشوند، باگهای inference بیسروصدا ادامه خواهند داشت و کیفیت مدلها را پایین میآورند.
📎 گیتهاب: K2 Vendor Verifier
#هوش_مصنوعی #K2 #LLM #AI #Kimi #VendorVerifier
📊 آیا به استاندارد برای ارزیابی کیفیت مدلها و محصولات LLM نیاز داریم؟
⛔️امروز تقریباً در هر محصولی قابلیت RAG وجود دارد و سناریوهای agentic هم به یک روند عادی تبدیل شدهاند. اما هرچه پایپلاین پیچیدهتر شود، کنترل و ارزیابی آن هم سختتر و حیاتیتر میشود.
🔹 در پایپلاینهای ساده میتوان:
♻️متریکهای مشخصی انتخاب کرد
♻️تستهای واحد و یکپارچه نوشت
♻️یک بنچمارک کوچک آماده و مرتباً اجرا کرد
♻️پایداری و تکرارپذیری نتایج را بررسی کرد
🔹 اما وقتی پایپلاین شامل چندین ماژول مختلف باشد، ماجرا شبیه ساختن هزارچهره فالکون از لگو میشود 🧱🦧
در مقاله Apollo Research "We Need A Science of Evals" (۲۰۲۴) گفته شد:
ارزیابی کیفیت بیشتر شبیه هنر است تا علم (مثلاً فقط تغییر در فرمت پرامپت میتواند دقت را ۷۰+ درصد جابجا کند 😱)
بلوغ ارزیابی (Eval) سه مرحله دارد:
1️⃣ Nascent —
مرحله ابتدایی و پراکنده، بدون استاندارد
2️⃣ Maturation —
ظهور بهترینروشها ولی بدون مقررات رسمی
3️⃣ Mature —
وجود استانداردها، استناد آماری و نتایج قابلتفسیر
ما فعلاً در مرحله دوم هستیم و رسیدن به مرحله سوم نیازمند تعریف متریکهای روشن، پوشش کامل تست، تکرارپذیری و تحلیل آماری است.
⚡️ اخیراً استاندارد جدیدی معرفی شده: STREAM (A Standard for Transparently Reporting Evaluations in AI Model Reports). این چارچوب به شفافسازی تستها و گزارشدهی نتایج کمک میکند. هرچند بیشتر برای بنچمارکهای حوزه ChemBio طراحی شده، اما قابلاستفاده در دیگر زمینهها هم هست.
🔮 آیندهی ارزیابی LLMها در گرو Eval علمی و استاندارد است. در غیر این صورت، محصولات غیرایمن و مبهم خواهیم داشت.
@rss_ai_ir 🤖
https://www.arxiv.org/pdf/2508.09853
#هوش_مصنوعی #LLM #استاندارد #Eval #STREAM #AI
⛔️امروز تقریباً در هر محصولی قابلیت RAG وجود دارد و سناریوهای agentic هم به یک روند عادی تبدیل شدهاند. اما هرچه پایپلاین پیچیدهتر شود، کنترل و ارزیابی آن هم سختتر و حیاتیتر میشود.
🔹 در پایپلاینهای ساده میتوان:
♻️متریکهای مشخصی انتخاب کرد
♻️تستهای واحد و یکپارچه نوشت
♻️یک بنچمارک کوچک آماده و مرتباً اجرا کرد
♻️پایداری و تکرارپذیری نتایج را بررسی کرد
🔹 اما وقتی پایپلاین شامل چندین ماژول مختلف باشد، ماجرا شبیه ساختن هزارچهره فالکون از لگو میشود 🧱🦧
در مقاله Apollo Research "We Need A Science of Evals" (۲۰۲۴) گفته شد:
ارزیابی کیفیت بیشتر شبیه هنر است تا علم (مثلاً فقط تغییر در فرمت پرامپت میتواند دقت را ۷۰+ درصد جابجا کند 😱)
بلوغ ارزیابی (Eval) سه مرحله دارد:
1️⃣ Nascent —
مرحله ابتدایی و پراکنده، بدون استاندارد
2️⃣ Maturation —
ظهور بهترینروشها ولی بدون مقررات رسمی
3️⃣ Mature —
وجود استانداردها، استناد آماری و نتایج قابلتفسیر
ما فعلاً در مرحله دوم هستیم و رسیدن به مرحله سوم نیازمند تعریف متریکهای روشن، پوشش کامل تست، تکرارپذیری و تحلیل آماری است.
⚡️ اخیراً استاندارد جدیدی معرفی شده: STREAM (A Standard for Transparently Reporting Evaluations in AI Model Reports). این چارچوب به شفافسازی تستها و گزارشدهی نتایج کمک میکند. هرچند بیشتر برای بنچمارکهای حوزه ChemBio طراحی شده، اما قابلاستفاده در دیگر زمینهها هم هست.
🔮 آیندهی ارزیابی LLMها در گرو Eval علمی و استاندارد است. در غیر این صورت، محصولات غیرایمن و مبهم خواهیم داشت.
@rss_ai_ir 🤖
https://www.arxiv.org/pdf/2508.09853
#هوش_مصنوعی #LLM #استاندارد #Eval #STREAM #AI
🚀 DeepSeek-V3.2-Exp —
نسخهی آزمایشی جدید منتشر شد!
⚡ ویژگیهای کلیدی:
✳️ساختهشده بر پایه V3.1-Terminus
✳️بهرهگیری از مکانیزم جدید Sparse Attention (DSA) → سرعت بیشتر و هزینهی کمتر در پردازش کانتکستهای طولانی
✳️کیفیت تقریباً بدون افت، با همان کارایی نسخه V3.1
💰 هزینهی API بیش از ۵۰٪ کاهش یافته
📊 نسخهی V3.1 همچنان تا ۱۵ اکتبر ۲۰۲۵ در دسترس خواهد بود.
🔗 Hugging Face
🔗 Tech Report
🔗 GitHub
@rss_ai_ir
#DeepSeek #هوش_مصنوعی #SparseAttention #مدل_زبان #LLM
نسخهی آزمایشی جدید منتشر شد!
⚡ ویژگیهای کلیدی:
✳️ساختهشده بر پایه V3.1-Terminus
✳️بهرهگیری از مکانیزم جدید Sparse Attention (DSA) → سرعت بیشتر و هزینهی کمتر در پردازش کانتکستهای طولانی
✳️کیفیت تقریباً بدون افت، با همان کارایی نسخه V3.1
💰 هزینهی API بیش از ۵۰٪ کاهش یافته
📊 نسخهی V3.1 همچنان تا ۱۵ اکتبر ۲۰۲۵ در دسترس خواهد بود.
🔗 Hugging Face
🔗 Tech Report
🔗 GitHub
@rss_ai_ir
#DeepSeek #هوش_مصنوعی #SparseAttention #مدل_زبان #LLM
👍3❤1🙏1
🚀 Qwen Chat
آپدیتهای جذابی گرفت!
حالا در Qwen Chat میتونید نهتنها دادهها رو در اینترنت جستجو کنید، بلکه همون لحظه اونها رو با کمک ترکیب Code Interpreter + Web Search به شکل نمودار هم ببینید. 📊
✨ مثلا میتونید پیشبینی ۷ روزهی هوا رو بگیرید و بلافاصله خروجی رو بهصورت یک نمودار آماده دریافت کنید.
📈 فقط کافیه توی پرامپت بنویسید که میخواید نمودار بسازه، و Qwen این کار رو براتون انجام میده.
🔗 امتحان کنید:
chat.qwen.ai
@rss_ai_ir
#Qwen #LLM #هوش_مصنوعی #چت_بات #تحلیل_داده
آپدیتهای جذابی گرفت!
حالا در Qwen Chat میتونید نهتنها دادهها رو در اینترنت جستجو کنید، بلکه همون لحظه اونها رو با کمک ترکیب Code Interpreter + Web Search به شکل نمودار هم ببینید. 📊
✨ مثلا میتونید پیشبینی ۷ روزهی هوا رو بگیرید و بلافاصله خروجی رو بهصورت یک نمودار آماده دریافت کنید.
📈 فقط کافیه توی پرامپت بنویسید که میخواید نمودار بسازه، و Qwen این کار رو براتون انجام میده.
🔗 امتحان کنید:
chat.qwen.ai
@rss_ai_ir
#Qwen #LLM #هوش_مصنوعی #چت_بات #تحلیل_داده
🔥5❤1👍1🙏1
🚀 DeepSeek V3.2-Exp:
کاهش هزینهها با Sparse Attention
🔹 این نسخه بر پایهی V3.1-Terminus ساخته شده و با مکانیزم جدید Sparse Attention (DSA) آموزش دیده است.
🔹 هر توکن بهجای همهی توکنهای قبلی، فقط به حدود 2048 کلید توجه میکند. این یعنی مصرف حافظه و تأخیر کمتر، بدون افت محسوس کیفیت.
🔹 💰 هزینه API بهطور چشمگیری کاهش یافته: از ۱.۶۸ دلار به ۰.۴۲ دلار برای هر یک میلیون توکن.
📊 ویژگیها:
✳️مناسب برای کانتکستهای طولانی و زنجیرههای پیچیدهی استدلال (Chain-of-Thought).
✳️کیفیت مشابه V3.1 با هزینهی بسیار کمتر.
✳️آموزش بهینهتر: سه مرحلهی RL قبلی در یک مرحله ادغام شده.
✳️برای وظایفی که پاسخ یکتا ندارند، از GRM برای ارزیابی پاسخها استفاده میشود.
✨ به زبان ساده: V3.2-Exp همان کیفیت V3.1 را با نصف هزینه و سرعت بیشتر ارائه میدهد.
@rss_ai_ir
#DeepSeek #SparseAttention #هوش_مصنوعی #LLM #مدل_زبان
کاهش هزینهها با Sparse Attention
🔹 این نسخه بر پایهی V3.1-Terminus ساخته شده و با مکانیزم جدید Sparse Attention (DSA) آموزش دیده است.
🔹 هر توکن بهجای همهی توکنهای قبلی، فقط به حدود 2048 کلید توجه میکند. این یعنی مصرف حافظه و تأخیر کمتر، بدون افت محسوس کیفیت.
🔹 💰 هزینه API بهطور چشمگیری کاهش یافته: از ۱.۶۸ دلار به ۰.۴۲ دلار برای هر یک میلیون توکن.
📊 ویژگیها:
✳️مناسب برای کانتکستهای طولانی و زنجیرههای پیچیدهی استدلال (Chain-of-Thought).
✳️کیفیت مشابه V3.1 با هزینهی بسیار کمتر.
✳️آموزش بهینهتر: سه مرحلهی RL قبلی در یک مرحله ادغام شده.
✳️برای وظایفی که پاسخ یکتا ندارند، از GRM برای ارزیابی پاسخها استفاده میشود.
✨ به زبان ساده: V3.2-Exp همان کیفیت V3.1 را با نصف هزینه و سرعت بیشتر ارائه میدهد.
@rss_ai_ir
#DeepSeek #SparseAttention #هوش_مصنوعی #LLM #مدل_زبان
👍3🔥1🙏1
⚡️ Claude Sonnet 4.5 منتشر شد!
شرکت Anthropic دوباره به صدر مدلهای کدنویسی برگشته است. 🚀
این مدل در تمام بنچمارکهای برنامهنویسی با اختلاف GPT-5 را پشت سر گذاشته و در سایر تستها هم تقریباً همسطح رقبا عمل میکند.
همچنین Claude Code هم آپدیت شد (بالاخره 🙌):
🔧 افزونهی جدید برای VS Code
💻 بهبود رابط کاربری ترمینال
⏪ اضافه شدن دستور برای بازگشت سریع به آخرین چکپوینت (یا چند قدم عقبتر)
📊 قابلیت ایجاد فایل، جدول و نمودار در خود ترمینال بر اساس دادههای شما
📌 به نظر میرسد Anthropic این بار جدیتر از همیشه روی تجربهی توسعهدهندگان تمرکز کرده است.
#Claude #Anthropic #AI #Coding #LLM
شرکت Anthropic دوباره به صدر مدلهای کدنویسی برگشته است. 🚀
این مدل در تمام بنچمارکهای برنامهنویسی با اختلاف GPT-5 را پشت سر گذاشته و در سایر تستها هم تقریباً همسطح رقبا عمل میکند.
همچنین Claude Code هم آپدیت شد (بالاخره 🙌):
🔧 افزونهی جدید برای VS Code
💻 بهبود رابط کاربری ترمینال
⏪ اضافه شدن دستور برای بازگشت سریع به آخرین چکپوینت (یا چند قدم عقبتر)
📊 قابلیت ایجاد فایل، جدول و نمودار در خود ترمینال بر اساس دادههای شما
📌 به نظر میرسد Anthropic این بار جدیتر از همیشه روی تجربهی توسعهدهندگان تمرکز کرده است.
#Claude #Anthropic #AI #Coding #LLM
🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ شرکت Anthropic یک پیشنمایش تحقیقاتی از سیستمعامل مبتنی بر LLM منتشر کرده است.
ایده مشابه کاری است که قبلاً گوگل انجام داده بود:
اینجا هم مدل زبانی (LLM) نرمافزار را روی هوا مینویسد، بر اساس دستور شما.
📌 یعنی چه؟
❌روی یک اپلیکیشن کلیک میکنید → سیستم از صفر آن را میسازد، بدون هیچ کدی که از قبل آماده شده باشد.
❌یک فایل باز میکنید → محتوای آن همان لحظه تولید میشود.
در واقع این یک دموی پیشرفته از تواناییهای مدل جدید Sonnet 4.5 است، نه یک محصول جدی برای بازار.
⏳ اما تجربهاش محدود است:
فقط کاربرانی که طرح Max دارند میتوانند تا ۵ روز این قابلیت را امتحان کنند.
🔗 بیشتر بخوانید:
claude.ai/imagine
@rss_ai_ir
#LLM #Claude #Anthropic #هوش_مصنوعی #سیستم_عامل
ایده مشابه کاری است که قبلاً گوگل انجام داده بود:
اینجا هم مدل زبانی (LLM) نرمافزار را روی هوا مینویسد، بر اساس دستور شما.
📌 یعنی چه؟
❌روی یک اپلیکیشن کلیک میکنید → سیستم از صفر آن را میسازد، بدون هیچ کدی که از قبل آماده شده باشد.
❌یک فایل باز میکنید → محتوای آن همان لحظه تولید میشود.
در واقع این یک دموی پیشرفته از تواناییهای مدل جدید Sonnet 4.5 است، نه یک محصول جدی برای بازار.
⏳ اما تجربهاش محدود است:
فقط کاربرانی که طرح Max دارند میتوانند تا ۵ روز این قابلیت را امتحان کنند.
🔗 بیشتر بخوانید:
claude.ai/imagine
@rss_ai_ir
#LLM #Claude #Anthropic #هوش_مصنوعی #سیستم_عامل
🔥2👍1👏1
🧠 معرفی AlphaEvolve توسط Google/DeepMind: هوش مصنوعی در خدمت کشف نتایج جدید در ریاضیات و علوم کامپیوتر تئوری
🔍 چطور کار میکند؟
مدلهای زبانی معمولاً سعی میکنند کل اثبات را یکجا بنویسند، اما این کار بسیار پیچیده و غیرقابلاعتماد است.
⛔️همچنین AlphaEvolve رویکرد متفاوتی دارد:
✅به جای نوشتن اثبات کامل، اجزای کوچکتری به نام gadget تولید میکند.
این تکهها بهسرعت و بهصورت خودکار قابلبررسیاند و اگر درست باشند، میتوان آنها را در کنار هم قرار داد و به قضایای بزرگتر رسید.
📈 چه چیزهایی پیدا شده است؟
✅یک نتیجهی جدید برای مسئلهی MAX-4-CUT (یکی از مسائل نظریه الگوریتمها و بهینهسازی ترکیبیاتی، نسخهای از MAX-CUT کلاسیک).
✅کرانهای پایینی قویتر برای مسائل روی گرافهای تصادفی، از جمله کار روی گرافهای رامانوجان.
✅سرعت بررسی قضایا نسبت به روشهای سنتی ۱۰٬۰۰۰ برابر سریعتر شده است.
🧩 چرا مهم است؟
ریاضیات نیازمند دقت ۱۰۰٪ است؛ اینجا هوش مصنوعی نقش تولیدکننده ایده را دارد و بخش بررسی همچنان دقیق و رسمی باقی میماند.
این رویکرد میتواند سالها کار انسانی را ذخیره کند و راه را برای کشف قضایا و الگوریتمهای جدید باز کند.
📄 جزییات بیشتر:
research.google/blog/ai-as-a-research-partner-advancing-theoretical-computer-science-with-alphaevolve/
@rss_ai_ir
#هوش_مصنوعی #ریاضیات #دیپمایند #پژوهش #LLM
🔍 چطور کار میکند؟
مدلهای زبانی معمولاً سعی میکنند کل اثبات را یکجا بنویسند، اما این کار بسیار پیچیده و غیرقابلاعتماد است.
⛔️همچنین AlphaEvolve رویکرد متفاوتی دارد:
✅به جای نوشتن اثبات کامل، اجزای کوچکتری به نام gadget تولید میکند.
این تکهها بهسرعت و بهصورت خودکار قابلبررسیاند و اگر درست باشند، میتوان آنها را در کنار هم قرار داد و به قضایای بزرگتر رسید.
📈 چه چیزهایی پیدا شده است؟
✅یک نتیجهی جدید برای مسئلهی MAX-4-CUT (یکی از مسائل نظریه الگوریتمها و بهینهسازی ترکیبیاتی، نسخهای از MAX-CUT کلاسیک).
✅کرانهای پایینی قویتر برای مسائل روی گرافهای تصادفی، از جمله کار روی گرافهای رامانوجان.
✅سرعت بررسی قضایا نسبت به روشهای سنتی ۱۰٬۰۰۰ برابر سریعتر شده است.
🧩 چرا مهم است؟
ریاضیات نیازمند دقت ۱۰۰٪ است؛ اینجا هوش مصنوعی نقش تولیدکننده ایده را دارد و بخش بررسی همچنان دقیق و رسمی باقی میماند.
این رویکرد میتواند سالها کار انسانی را ذخیره کند و راه را برای کشف قضایا و الگوریتمهای جدید باز کند.
📄 جزییات بیشتر:
research.google/blog/ai-as-a-research-partner-advancing-theoretical-computer-science-with-alphaevolve/
@rss_ai_ir
#هوش_مصنوعی #ریاضیات #دیپمایند #پژوهش #LLM
❤1👍1🔥1
🔥 خسته شدید از RLHF و RLVR؟ حالا روش جدیدی معرفی شده به نام Critique Reinforcement Learning (CRL)!
🧠 ایده اصلی:
در الگوریتمهای معمولی RL، مدل یاد میگیرد پاسخ نهایی بدهد.
اما در CRL مدل به جای تولید پاسخ، یاد میگیرد راهحل موجود را نقد و بررسی کند و مرحلهبهمرحله صحت آن را بسنجد.
پاداش هم نه برای جواب، بلکه برای نقد مفید و سازندهای داده میشود که در نهایت به قضاوت درست (True/False) منجر شود.
🚀 نتایج آزمایشها:
✅مدل Critique-Coder 4B توانست در LiveCodeBench-V5 امتیاز ۶۲٪ بگیرد — بالاتر از مدل 14B DeepCoder.
✅این آموزش روی rStar-Coder با روش GRPO انجام شده است.
✅مدلهای 4B و 8B در سایز خودشان به بهترینها تبدیل شدند.
📄 مقاله:
arxiv.org/abs/2509.22824
🌐 وبسایت:
tiger-ai-lab.github.io/Critique-Coder
🤗 مدلها:
HuggingFace Collection
@rss_ai_ir
#هوش_مصنوعی #RL #LLM #یادگیری_تقویتی
🧠 ایده اصلی:
در الگوریتمهای معمولی RL، مدل یاد میگیرد پاسخ نهایی بدهد.
اما در CRL مدل به جای تولید پاسخ، یاد میگیرد راهحل موجود را نقد و بررسی کند و مرحلهبهمرحله صحت آن را بسنجد.
پاداش هم نه برای جواب، بلکه برای نقد مفید و سازندهای داده میشود که در نهایت به قضاوت درست (True/False) منجر شود.
🚀 نتایج آزمایشها:
✅مدل Critique-Coder 4B توانست در LiveCodeBench-V5 امتیاز ۶۲٪ بگیرد — بالاتر از مدل 14B DeepCoder.
✅این آموزش روی rStar-Coder با روش GRPO انجام شده است.
✅مدلهای 4B و 8B در سایز خودشان به بهترینها تبدیل شدند.
📄 مقاله:
arxiv.org/abs/2509.22824
🌐 وبسایت:
tiger-ai-lab.github.io/Critique-Coder
🤗 مدلها:
HuggingFace Collection
@rss_ai_ir
#هوش_مصنوعی #RL #LLM #یادگیری_تقویتی
👍1🔥1👏1
🚀 در ByteDance Seed تکنیک جدیدی برای آموزش LLM معرفی شد: Knapsack RL
🔍 مشکل در RL کلاسیک:
در کارهای ساده همیشه موفقیت → بدون گرادیان
در کارهای سخت همیشه شکست → باز هم بدون گرادیان
💡 راهکار:
به جای توزیع یکنواخت rolloutها، بودجه محاسباتی مثل یک مسئله کولهپشتی (Knapsack) روی مواردی صرف میشود که واقعاً سیگنال آموزشی میدهند.
✨ نتایج:
🔼 +20–40% گرادیانهای غیرصفر بیشتر
🧮 تا 93 rollout برای مسائل سخت (بدون هزینه اضافه)
📈 +2–4 امتیاز میانگین، تا +9 در ریاضیات
💰 حدوداً دو برابر ارزانتر از روش توزیع یکنواخت
📄 جزییات بیشتر:
huggingface.co/papers/2509.25849
@rss_ai_ir 🤖
#هوش_مصنوعی #یادگیری_تقویتی #LLM #KnapsackRL #ByteDance #ماشین_لرنینگ #یادگیری_عمیق #AI #RLHF #MachineLearning
🔍 مشکل در RL کلاسیک:
در کارهای ساده همیشه موفقیت → بدون گرادیان
در کارهای سخت همیشه شکست → باز هم بدون گرادیان
💡 راهکار:
به جای توزیع یکنواخت rolloutها، بودجه محاسباتی مثل یک مسئله کولهپشتی (Knapsack) روی مواردی صرف میشود که واقعاً سیگنال آموزشی میدهند.
✨ نتایج:
🔼 +20–40% گرادیانهای غیرصفر بیشتر
🧮 تا 93 rollout برای مسائل سخت (بدون هزینه اضافه)
📈 +2–4 امتیاز میانگین، تا +9 در ریاضیات
💰 حدوداً دو برابر ارزانتر از روش توزیع یکنواخت
📄 جزییات بیشتر:
huggingface.co/papers/2509.25849
@rss_ai_ir 🤖
#هوش_مصنوعی #یادگیری_تقویتی #LLM #KnapsackRL #ByteDance #ماشین_لرنینگ #یادگیری_عمیق #AI #RLHF #MachineLearning
📘 Anthropic منتشر کرد:
گاید عالی برای تنظیم مؤثر ایجنتها
🔑 فرق اصلی با پرامپتنویسی کلاسیک اینجاست:
Prompt Engineering =
نوشتن دستور برای یک بار پاسخ.
Agent Engineering =
طراحی کل رفتار، حافظه، و کانتکست برای یک ایجنت دائمی.
💡 مقاله توضیح میده چطور باید context engineering رو جدی بگیریم: از مدیریت تاریخچه و اهداف تا انتخاب معماری حافظه.
📄 متن کامل:
anthropic.com/engineering/effective-context-engineering-for-ai-agents
@rss_ai_ir 🤖
#هوش_مصنوعی #LLM #AgentEngineering #PromptEngineering #Anthropic #AI
گاید عالی برای تنظیم مؤثر ایجنتها
🔑 فرق اصلی با پرامپتنویسی کلاسیک اینجاست:
Prompt Engineering =
نوشتن دستور برای یک بار پاسخ.
Agent Engineering =
طراحی کل رفتار، حافظه، و کانتکست برای یک ایجنت دائمی.
💡 مقاله توضیح میده چطور باید context engineering رو جدی بگیریم: از مدیریت تاریخچه و اهداف تا انتخاب معماری حافظه.
📄 متن کامل:
anthropic.com/engineering/effective-context-engineering-for-ai-agents
@rss_ai_ir 🤖
#هوش_مصنوعی #LLM #AgentEngineering #PromptEngineering #Anthropic #AI
🚀 IBM Granite 4.0 معرفی شد
— خانوادهای تازه از مدلهای زبانی متنباز با وزنهای آزاد، از ۳B تا ۳۲B پارامتر.
🔹 چهار مدل جدید:
♻️Granite 4.0 H Small — 32B / 9B پارامتر فعال
♻️Granite 4.0 H Tiny — 7B / 1B
♻️Granite 4.0 H Micro — 3B / 3B
♻️Granite 4.0 Micro — 3B / 3B
📊 بنچمارک (Artificial Analysis Index):
Granite 4.0 H Small → امتیاز 23 (۸ امتیاز بالاتر از Granite 3.3 8B) — بهتر از Gemma 3 27B (22)، اما ضعیفتر از Mistral Small 3.2 (29) و Qwen3 30B A3B (37).
Granite 4.0 Micro → امتیاز 16 — بهتر از Gemma 3 4B (15) و LFM 2 2.6B (12).
⚡ کارایی توکن:
Granite 4.0 Small → 5.2M tokens
Granite 4.0 Micro → 6.7M tokens
(کارایی بهمراتب بالاتر از Granite 3.3 8B و بیشتر مدلهای زیر 40B بدون قابلیت reasoning).
🔑 جزئیات فنی:
✳️کانتکست: تا 128K tokens
✳️لایسنس: Apache 2.0
✳️همچنین Granite 4.0 H Small روی Replicate با هزینه 0.06$ / 0.25$ به ازای ۱M توکن ورودی/خروجی
✳️همه مدلها روی Hugging Face در دسترس هستند
✳️مدل Micro (3.4B) را میتوان کاملاً لوکال اجرا کرد.
🔗 Hugging Face
🔗 Unsloth
@rss_ai_ir
#AI #IBM #Granite4 #LLM #OpenWeights
— خانوادهای تازه از مدلهای زبانی متنباز با وزنهای آزاد، از ۳B تا ۳۲B پارامتر.
🔹 چهار مدل جدید:
♻️Granite 4.0 H Small — 32B / 9B پارامتر فعال
♻️Granite 4.0 H Tiny — 7B / 1B
♻️Granite 4.0 H Micro — 3B / 3B
♻️Granite 4.0 Micro — 3B / 3B
📊 بنچمارک (Artificial Analysis Index):
Granite 4.0 H Small → امتیاز 23 (۸ امتیاز بالاتر از Granite 3.3 8B) — بهتر از Gemma 3 27B (22)، اما ضعیفتر از Mistral Small 3.2 (29) و Qwen3 30B A3B (37).
Granite 4.0 Micro → امتیاز 16 — بهتر از Gemma 3 4B (15) و LFM 2 2.6B (12).
⚡ کارایی توکن:
Granite 4.0 Small → 5.2M tokens
Granite 4.0 Micro → 6.7M tokens
(کارایی بهمراتب بالاتر از Granite 3.3 8B و بیشتر مدلهای زیر 40B بدون قابلیت reasoning).
🔑 جزئیات فنی:
✳️کانتکست: تا 128K tokens
✳️لایسنس: Apache 2.0
✳️همچنین Granite 4.0 H Small روی Replicate با هزینه 0.06$ / 0.25$ به ازای ۱M توکن ورودی/خروجی
✳️همه مدلها روی Hugging Face در دسترس هستند
✳️مدل Micro (3.4B) را میتوان کاملاً لوکال اجرا کرد.
🔗 Hugging Face
🔗 Unsloth
@rss_ai_ir
#AI #IBM #Granite4 #LLM #OpenWeights
🚀 خبر داغ از دنیای هوش مصنوعی
استارتاپ Thinking Machines (تأسیسشده توسط چهرههای سابق OpenAI از جمله میرا موراتی و جان شولمن) اولین محصول خود را معرفی کرد: Tinker ✨
🔹 چی هست؟
پلتفرم Tinker یک پلتفرم سادهسازیشده برای فاینتیونینگ مدلهای بزرگه، بدون نیاز به زیرساختهای سنگین.
🔹 ویژگیها
ارائه API برای فاینتیون مدلهایی مثل Llama و Qwen 🦙
اتوماسیون کامل در راهاندازی خوشههای GPU، پایداری آموزش و دیپلوی 🚦
امکان خروجی گرفتن از مدلهای سفارشی برای استفادهی پژوهشگران 📦
رایگان در نسخه بتا (با برنامهریزی برای درآمدزایی در آینده) 💰
هدف: دموکراتیزه کردن دسترسی به ابزارهایی که قبلاً فقط در دسترس غولهای فناوری بودن 🌍
🔹 اهمیت
پلتفرمTinker نشون میده رقابت آیندهی AI فقط در ساخت مدلهای بزرگتر نیست، بلکه در انطباق و شخصیسازی مدلهای موجود خواهد بود.
البته همین موضوع نگرانیهایی درباره ایمنی و دستکاری گستردهتر مدلها ایجاد کرده ⚠️
📊 ارزشگذاری استارتاپ: ۱۲ میلیارد دلار
سرمایه اولیه: ۲ میلیارد دلار
---
✍️ بهنوعی Tinker میخواد تبدیل بشه به قطعهی کلیدی زیرساخت هوش مصنوعی در جهان.
🔖 #AI #ThinkingMachines #FineTuning #Tinker #LLM
استارتاپ Thinking Machines (تأسیسشده توسط چهرههای سابق OpenAI از جمله میرا موراتی و جان شولمن) اولین محصول خود را معرفی کرد: Tinker ✨
🔹 چی هست؟
پلتفرم Tinker یک پلتفرم سادهسازیشده برای فاینتیونینگ مدلهای بزرگه، بدون نیاز به زیرساختهای سنگین.
🔹 ویژگیها
ارائه API برای فاینتیون مدلهایی مثل Llama و Qwen 🦙
اتوماسیون کامل در راهاندازی خوشههای GPU، پایداری آموزش و دیپلوی 🚦
امکان خروجی گرفتن از مدلهای سفارشی برای استفادهی پژوهشگران 📦
رایگان در نسخه بتا (با برنامهریزی برای درآمدزایی در آینده) 💰
هدف: دموکراتیزه کردن دسترسی به ابزارهایی که قبلاً فقط در دسترس غولهای فناوری بودن 🌍
🔹 اهمیت
پلتفرمTinker نشون میده رقابت آیندهی AI فقط در ساخت مدلهای بزرگتر نیست، بلکه در انطباق و شخصیسازی مدلهای موجود خواهد بود.
البته همین موضوع نگرانیهایی درباره ایمنی و دستکاری گستردهتر مدلها ایجاد کرده ⚠️
📊 ارزشگذاری استارتاپ: ۱۲ میلیارد دلار
سرمایه اولیه: ۲ میلیارد دلار
---
✍️ بهنوعی Tinker میخواد تبدیل بشه به قطعهی کلیدی زیرساخت هوش مصنوعی در جهان.
🔖 #AI #ThinkingMachines #FineTuning #Tinker #LLM