🚀 خلاصه مهمترین رویدادهای OpenAI DevDay 2025
⛔️رویداد امسال OpenAI با تمرکز بر مقیاسپذیری عظیم و ابزارهای جدید برای توسعهدهندگان برگزار شد — اعدادی که واقعاً خیرهکنندهاند:
📊
→ بیش از ۸۰۰ میلیون کاربر هفتگی ChatGPT
→ پردازش ۶ میلیارد توکن در هر دقیقه
→ پیشبینی دستیابی به ۱ میلیارد کاربر تا پایان سال
---
🧩 ۱. اپلیکیشنها درون ChatGPT
مجموعه OpenAI با معرفی Apps SDK اجازه داده توسعهدهندگان اپلیکیشنهای کامل درون ChatGPT بسازند.
🔹 قابلیتها:
✳️اجرای مستقیم اپها داخل ChatGPT
✳️همکاری با برندهای اولیه مانند Canva، Zillow، Coursera، Figma
✳️علاوهSDK در مرحله بتا؛ فروشگاه و مدل درآمدزایی بهزودی فعال میشود
---
🤖 ۲. معرفی AgentKit — نسل بعدی ایجنتها
پکیج جدید OpenAI برای ساخت و استقرار ایجنتهای هوشمند شامل:
Agent Builder →
ساخت ایجنت با رابط Drag & Drop (شبیه n8n)
ChatKit →
افزودن رابط گفتوگویی شبیه ChatGPT
Evals →
ارزیابی و بهبود عملکرد ایجنت
Connectors →
اتصال ایجنت به اپلیکیشنها، وبسایتها یا دیتابیسهای زنده
---
💻 ۳. بهروزرسانیهای Codex
♻️همچنین GPT-5 Codex اکنون برای عموم در دسترس است
♻️افزودهشدن یکپارچهسازی با Slack و SDK مخصوص توسعهدهندگان
♻️ابزارهای تحلیلی و کنترل سازمانی جدید برای شرکتها
---
⚙️ ۴. همچنین API و مدلها
✳️ب)GPT-5 Pro API فعال شد — هزینه: ۱۵ دلار برای ورودی و ۱۲۰ دلار برای خروجی در هر ۱ میلیون توکن
✳️د)GPT-Realtime-Mini معرفی شد؛ ۷۰٪ ارزانتر، بهینه برای گفتوگوهای زنده صوتی
✳️ه) Sora 2 به API افزوده شد — شامل صدا، گزینههای Remix و کنترل طول ویدیو
---
📍بهطور خلاصه، OpenAI با DevDay 2025 مرز بین چتباتها، اپلیکیشنها و ایجنتهای هوشمند را از بین برد. آینده ChatGPT فقط مکالمه نیست — یک پلتفرم کامل هوش مصنوعی است. ⚡️
#OpenAI #DevDay2025 #ChatGPT #AgentKit #AppsSDK #AIagents #Sora2 #GPT5
@rss_ai_ir
⛔️رویداد امسال OpenAI با تمرکز بر مقیاسپذیری عظیم و ابزارهای جدید برای توسعهدهندگان برگزار شد — اعدادی که واقعاً خیرهکنندهاند:
📊
→ بیش از ۸۰۰ میلیون کاربر هفتگی ChatGPT
→ پردازش ۶ میلیارد توکن در هر دقیقه
→ پیشبینی دستیابی به ۱ میلیارد کاربر تا پایان سال
---
🧩 ۱. اپلیکیشنها درون ChatGPT
مجموعه OpenAI با معرفی Apps SDK اجازه داده توسعهدهندگان اپلیکیشنهای کامل درون ChatGPT بسازند.
🔹 قابلیتها:
✳️اجرای مستقیم اپها داخل ChatGPT
✳️همکاری با برندهای اولیه مانند Canva، Zillow، Coursera، Figma
✳️علاوهSDK در مرحله بتا؛ فروشگاه و مدل درآمدزایی بهزودی فعال میشود
---
🤖 ۲. معرفی AgentKit — نسل بعدی ایجنتها
پکیج جدید OpenAI برای ساخت و استقرار ایجنتهای هوشمند شامل:
Agent Builder →
ساخت ایجنت با رابط Drag & Drop (شبیه n8n)
ChatKit →
افزودن رابط گفتوگویی شبیه ChatGPT
Evals →
ارزیابی و بهبود عملکرد ایجنت
Connectors →
اتصال ایجنت به اپلیکیشنها، وبسایتها یا دیتابیسهای زنده
---
💻 ۳. بهروزرسانیهای Codex
♻️همچنین GPT-5 Codex اکنون برای عموم در دسترس است
♻️افزودهشدن یکپارچهسازی با Slack و SDK مخصوص توسعهدهندگان
♻️ابزارهای تحلیلی و کنترل سازمانی جدید برای شرکتها
---
⚙️ ۴. همچنین API و مدلها
✳️ب)GPT-5 Pro API فعال شد — هزینه: ۱۵ دلار برای ورودی و ۱۲۰ دلار برای خروجی در هر ۱ میلیون توکن
✳️د)GPT-Realtime-Mini معرفی شد؛ ۷۰٪ ارزانتر، بهینه برای گفتوگوهای زنده صوتی
✳️ه) Sora 2 به API افزوده شد — شامل صدا، گزینههای Remix و کنترل طول ویدیو
---
📍بهطور خلاصه، OpenAI با DevDay 2025 مرز بین چتباتها، اپلیکیشنها و ایجنتهای هوشمند را از بین برد. آینده ChatGPT فقط مکالمه نیست — یک پلتفرم کامل هوش مصنوعی است. ⚡️
#OpenAI #DevDay2025 #ChatGPT #AgentKit #AppsSDK #AIagents #Sora2 #GPT5
@rss_ai_ir
👍1
📊 طبق یک پست در ردیت، فهرستی از ۳۰ مشتری بزرگ OpenAI لو رفته که مجموعاً بیش از ۱ تریلیون توکن مصرف کردهاند 😳
یکی از کامنتهای زیر پست نوشته بود:
> «الان بیشتر اقتصاد ما شده شرکتهایی که از شرکتهای دیگر خدمات هوش مصنوعی میخرند تا برای شرکتهای دیگر خدمات هوش مصنوعی بسازند!» 😅
دنیای امروز یعنی: هوش مصنوعی، برای هوش مصنوعی، بهوسیلهی هوش مصنوعی 💸
@rss_ai_ir
#هوش_مصنوعی #OpenAI #GPT5 #اقتصاد_دیجیتال #AI
یکی از کامنتهای زیر پست نوشته بود:
> «الان بیشتر اقتصاد ما شده شرکتهایی که از شرکتهای دیگر خدمات هوش مصنوعی میخرند تا برای شرکتهای دیگر خدمات هوش مصنوعی بسازند!» 😅
دنیای امروز یعنی: هوش مصنوعی، برای هوش مصنوعی، بهوسیلهی هوش مصنوعی 💸
@rss_ai_ir
#هوش_مصنوعی #OpenAI #GPT5 #اقتصاد_دیجیتال #AI
👍2❤1
🚀 GPT-5 Pro
مرزهای جدید هوش مصنوعی را جابهجا کرد!
مدل GPT-5 Pro حالا بالاترین امتیاز تأییدشده را در بنچمارک ARC-AGI (نسخه نیمهخصوصی) کسب کرده است — نزدیکترین گام تا امروز به سمت هوش مصنوعی عمومی (AGI) 🤯
سؤال بزرگ اینجاست:
آیا وارد عصرِ پس از LLM ها شدهایم؟ 👀
@rss_ai_ir
#هوش_مصنوعی #GPT5 #AGI #OpenAI #AI
مرزهای جدید هوش مصنوعی را جابهجا کرد!
مدل GPT-5 Pro حالا بالاترین امتیاز تأییدشده را در بنچمارک ARC-AGI (نسخه نیمهخصوصی) کسب کرده است — نزدیکترین گام تا امروز به سمت هوش مصنوعی عمومی (AGI) 🤯
سؤال بزرگ اینجاست:
آیا وارد عصرِ پس از LLM ها شدهایم؟ 👀
@rss_ai_ir
#هوش_مصنوعی #GPT5 #AGI #OpenAI #AI
🔥1👏1
💰 هزینههای سرسامآور OpenAI در سال ۲۰۲۴ برای قدرت پردازشی (GPU Power)
طبق گزارش جدید Epoch.AI و دادههای رسانههایی چون The Information، تخمین زده میشود که OpenAI در سال ۲۰۲۴ حدود ۷ میلیارد دلار تنها برای توان محاسباتی خرج کرده است 😳
📊 جزئیات تخمینی هزینهها:
🔹 ۲ میلیارد دلار — برای اجرای مدلها در ChatGPT و API (یعنی هزینهٔ مستقیم سرویسدهی به کاربران).
🔹 ۴.۵ میلیارد دلار — صرف آزمایشها و توسعهٔ مدلهای جدید، از جمله پروژههای تحقیقاتی بزرگ.
🔹 ۴۰۰ میلیون دلار — هزینهٔ آموزش مدل GPT-4.5 (Orion)، که قرار بود همان GPT-5 باشد؛ آموزش آن بین ۹۰ تا ۱۶۵ روز طول کشید، با استفاده از ۴۰ تا ۱۰۰ هزار GPU.
📈 بازهٔ اطمینان ۹۰٪ برای هزینهٔ آموزش: بین ۱۷۰ تا ۸۹۰ میلیون دلار.
🔹 ۸۰ میلیون دلار — برای مدلهای سبکتر مانند GPT-4o / o1 / Mini و بهروزرسانی نسخههای چت.
📉 پیشبینی برای ۲۰۲۵:
دستهی آبی نمودار (توان موردنیاز برای inference) بهطور چشمگیری افزایش مییابد، چون کاربران ChatGPT بیشتر شدهاند و مدلهای «تفکری» (Thinking Models) توکنهای بیشتری تولید میکنند.
به بیان سادهتر، آیندهٔ هوش مصنوعی نه فقط در دادهها یا مدلها، بلکه در وات و دلار رقم میخورد ⚡💵
@rss_ai_ir
#هوش_مصنوعی #OpenAI #GPU #AICompute #ChatGPT #Orion #GPT5 #AIeconomy
طبق گزارش جدید Epoch.AI و دادههای رسانههایی چون The Information، تخمین زده میشود که OpenAI در سال ۲۰۲۴ حدود ۷ میلیارد دلار تنها برای توان محاسباتی خرج کرده است 😳
📊 جزئیات تخمینی هزینهها:
🔹 ۲ میلیارد دلار — برای اجرای مدلها در ChatGPT و API (یعنی هزینهٔ مستقیم سرویسدهی به کاربران).
🔹 ۴.۵ میلیارد دلار — صرف آزمایشها و توسعهٔ مدلهای جدید، از جمله پروژههای تحقیقاتی بزرگ.
🔹 ۴۰۰ میلیون دلار — هزینهٔ آموزش مدل GPT-4.5 (Orion)، که قرار بود همان GPT-5 باشد؛ آموزش آن بین ۹۰ تا ۱۶۵ روز طول کشید، با استفاده از ۴۰ تا ۱۰۰ هزار GPU.
📈 بازهٔ اطمینان ۹۰٪ برای هزینهٔ آموزش: بین ۱۷۰ تا ۸۹۰ میلیون دلار.
🔹 ۸۰ میلیون دلار — برای مدلهای سبکتر مانند GPT-4o / o1 / Mini و بهروزرسانی نسخههای چت.
📉 پیشبینی برای ۲۰۲۵:
دستهی آبی نمودار (توان موردنیاز برای inference) بهطور چشمگیری افزایش مییابد، چون کاربران ChatGPT بیشتر شدهاند و مدلهای «تفکری» (Thinking Models) توکنهای بیشتری تولید میکنند.
به بیان سادهتر، آیندهٔ هوش مصنوعی نه فقط در دادهها یا مدلها، بلکه در وات و دلار رقم میخورد ⚡💵
@rss_ai_ir
#هوش_مصنوعی #OpenAI #GPU #AICompute #ChatGPT #Orion #GPT5 #AIeconomy
مدل GPT-5 تنها ۵۸ درصد به AGI نزدیک است 🧠
۲۸ آزمایشگاه بزرگ و تأثیرگذار در حوزهی هوش مصنوعی گرد هم آمدهاند تا سرانجام تعریف دقیقی از AGI (هوش عمومی مصنوعی) ارائه دهند — و این نخستین پژوهش علمی است که این مفهوم را بهصورت کمّی تبیین میکند. در میان نویسندگان مقاله، نام یوشوا بنجیو (Yoshua Bengio)، یکی از پدران هوش مصنوعی نیز دیده میشود.
💡 تعریف AGI (کوتاه اما پرمغز):
> مفهوم AGI یعنی سامانهای از هوش مصنوعی که میتواند در گستره (versatility) و عمق (proficiency) تواناییهای شناختی، با یک انسان بالغ تحصیلکرده قابل مقایسه باشد.
---
🔬 اما چطور میتوان آن را اندازهگیری کرد؟
پژوهشگران از یک مدل شناختهشده در روانسنجی به نام مدل Cattell–Horn–Carroll (CHC) استفاده کردند — مدلی که هوش انسان را به ۱۰ توانایی شناختی اصلی تقسیم میکند:
1. دانش عمومی و عقل سلیم
2. درک و نگارش متن
3. ریاضیات
4. حل مسائل جدید و استدلال منطقی
5. حافظهی کوتاهمدت
6. حافظهی بلندمدت و یادگیری
7. بازیابی و استخراج دانش
8. درک و خلق تصاویر
9. درک گفتار و موسیقی
10. سرعت پردازش اطلاعات
بر اساس این شاخصها، پژوهشگران هم انسان و هم مدلهای زبانی را ارزیابی کردند.
---
📊 نتایج:
اول GPT-4: تنها ۲۷٪ از AGI
دوم GPT-5: حدود ۵۸٪ از AGI
✅یعنی GPT-5 اکنون بیش از نیمی از پروفایل شناختی یک انسان بالغ تحصیلکرده را دارد — پیشرفتی چشمگیر، اما هنوز راه درازی تا دستیابی به هوش عمومی کامل در پیش است.
---
⚠️ نقاط ضعف GPT-5:
♻️حافظهی بلندمدت
♻️درک دیداری و شنیداری
♻️سرعت واکنش
♻️تفکر انعطافپذیر
---
⛔️بهنظر میرسد این تعریف عینی، علمی و قابلاندازهگیری است — قطعاً بسیار بهتر از تعریف شرکتهایی مانند OpenAI و Microsoft، که AGI را بهسادگی "هوشی که سالانه ۱۰۰ میلیارد دلار سود تولید کند" 💀 توصیف کردهاند!
#هوش_مصنوعی #AGI #GPT5 #یوشوا_بنجیو #یادگیری_ماشین #AI #ArtificialIntelligence
۲۸ آزمایشگاه بزرگ و تأثیرگذار در حوزهی هوش مصنوعی گرد هم آمدهاند تا سرانجام تعریف دقیقی از AGI (هوش عمومی مصنوعی) ارائه دهند — و این نخستین پژوهش علمی است که این مفهوم را بهصورت کمّی تبیین میکند. در میان نویسندگان مقاله، نام یوشوا بنجیو (Yoshua Bengio)، یکی از پدران هوش مصنوعی نیز دیده میشود.
💡 تعریف AGI (کوتاه اما پرمغز):
> مفهوم AGI یعنی سامانهای از هوش مصنوعی که میتواند در گستره (versatility) و عمق (proficiency) تواناییهای شناختی، با یک انسان بالغ تحصیلکرده قابل مقایسه باشد.
---
🔬 اما چطور میتوان آن را اندازهگیری کرد؟
پژوهشگران از یک مدل شناختهشده در روانسنجی به نام مدل Cattell–Horn–Carroll (CHC) استفاده کردند — مدلی که هوش انسان را به ۱۰ توانایی شناختی اصلی تقسیم میکند:
1. دانش عمومی و عقل سلیم
2. درک و نگارش متن
3. ریاضیات
4. حل مسائل جدید و استدلال منطقی
5. حافظهی کوتاهمدت
6. حافظهی بلندمدت و یادگیری
7. بازیابی و استخراج دانش
8. درک و خلق تصاویر
9. درک گفتار و موسیقی
10. سرعت پردازش اطلاعات
بر اساس این شاخصها، پژوهشگران هم انسان و هم مدلهای زبانی را ارزیابی کردند.
---
📊 نتایج:
اول GPT-4: تنها ۲۷٪ از AGI
دوم GPT-5: حدود ۵۸٪ از AGI
✅یعنی GPT-5 اکنون بیش از نیمی از پروفایل شناختی یک انسان بالغ تحصیلکرده را دارد — پیشرفتی چشمگیر، اما هنوز راه درازی تا دستیابی به هوش عمومی کامل در پیش است.
---
⚠️ نقاط ضعف GPT-5:
♻️حافظهی بلندمدت
♻️درک دیداری و شنیداری
♻️سرعت واکنش
♻️تفکر انعطافپذیر
---
⛔️بهنظر میرسد این تعریف عینی، علمی و قابلاندازهگیری است — قطعاً بسیار بهتر از تعریف شرکتهایی مانند OpenAI و Microsoft، که AGI را بهسادگی "هوشی که سالانه ۱۰۰ میلیارد دلار سود تولید کند" 💀 توصیف کردهاند!
#هوش_مصنوعی #AGI #GPT5 #یوشوا_بنجیو #یادگیری_ماشین #AI #ArtificialIntelligence
🧮 پیشرفت چشمگیر هوش مصنوعی در تحقیقات ریاضی
استاد Ryu از دانشگاه UCLA با کمک GPT-5 Pro توانست یک مسئله باز در حوزهی بهینهسازی محدب (Convex Optimization) را حل کند — مسئلهای که سالها بدون پاسخ مانده بود.
گرچه حدود ۸۰٪ از تلاشهای مدل در اثبات نادرست بودند، اما GPT-5 Pro توانست ایدههای نوآورانهای ارائه دهد که مسیر پژوهش را تغییر داد.
🧠 مشارکتهای کلیدی GPT-5 Pro:
♻️تولید استدلال نهایی برای اثبات مسئله
♻️تسریع روند جستجو با حذف سریع مسیرهای بنبست
این پژوهش نمونهای برجسته از همافزایی انسان و هوش مصنوعی در کشف دانش جدید است — جایی که AI نهتنها ابزار، بلکه شریک پژوهشی واقعی است.
@rss_ai_ir
#هوش_مصنوعی #GPT5 #ریاضیات #AIResearch #Optimization #Science
استاد Ryu از دانشگاه UCLA با کمک GPT-5 Pro توانست یک مسئله باز در حوزهی بهینهسازی محدب (Convex Optimization) را حل کند — مسئلهای که سالها بدون پاسخ مانده بود.
گرچه حدود ۸۰٪ از تلاشهای مدل در اثبات نادرست بودند، اما GPT-5 Pro توانست ایدههای نوآورانهای ارائه دهد که مسیر پژوهش را تغییر داد.
🧠 مشارکتهای کلیدی GPT-5 Pro:
♻️تولید استدلال نهایی برای اثبات مسئله
♻️تسریع روند جستجو با حذف سریع مسیرهای بنبست
این پژوهش نمونهای برجسته از همافزایی انسان و هوش مصنوعی در کشف دانش جدید است — جایی که AI نهتنها ابزار، بلکه شریک پژوهشی واقعی است.
@rss_ai_ir
#هوش_مصنوعی #GPT5 #ریاضیات #AIResearch #Optimization #Science
❤1
🛡️ شرکت OpenAI مدلهای رایگان هوش مصنوعی برای پالایش محتوای آنلاین منتشر کرد
شرکت OpenAI دو مدل متنباز جدید برای شناسایی محتوای مضر یا نامناسب معرفی کرده است:
🔹 gpt-oss-safeguard-120b
🔹 gpt-oss-safeguard-20b
---
🧩 ویژگیها:
• این مدلها میتوانند زبان سمی، بررسیهای جعلی و محتوای خطرناک را در وبسایتها و شبکههای اجتماعی شناسایی کنند.
• توسعهدهندگان میتوانند سیاستهای خاص خود را تعریف کنند و تعیین نمایند سیستم بر چه اساسی هشدار یا حذف انجام دهد.
• مانند مدلهای پایهی gpt-oss، این نسخهها نیز قادرند منطق تصمیمگیری خود را توضیح دهند و مسیر استدلال پشت هر اقدام پالایش را نمایش دهند.
---
🎯 هدف OpenAI از انتشار رایگان این مدلها، فراهمکردن ابزارهایی شفاف، قابلکنترل و مقیاسپذیر برای مدیران پلتفرمها در عصر هوش مصنوعی است.
📊 منبع:
https://huggingface.co/collections/openai/gpt-oss-safeguard
📡 @rss_ai_ir
#هوش_مصنوعی #OpenAI #Moderation #AI #gpt #امنیت #ContentModeration #GPT5
شرکت OpenAI دو مدل متنباز جدید برای شناسایی محتوای مضر یا نامناسب معرفی کرده است:
🔹 gpt-oss-safeguard-120b
🔹 gpt-oss-safeguard-20b
---
🧩 ویژگیها:
• این مدلها میتوانند زبان سمی، بررسیهای جعلی و محتوای خطرناک را در وبسایتها و شبکههای اجتماعی شناسایی کنند.
• توسعهدهندگان میتوانند سیاستهای خاص خود را تعریف کنند و تعیین نمایند سیستم بر چه اساسی هشدار یا حذف انجام دهد.
• مانند مدلهای پایهی gpt-oss، این نسخهها نیز قادرند منطق تصمیمگیری خود را توضیح دهند و مسیر استدلال پشت هر اقدام پالایش را نمایش دهند.
---
🎯 هدف OpenAI از انتشار رایگان این مدلها، فراهمکردن ابزارهایی شفاف، قابلکنترل و مقیاسپذیر برای مدیران پلتفرمها در عصر هوش مصنوعی است.
📊 منبع:
https://huggingface.co/collections/openai/gpt-oss-safeguard
📡 @rss_ai_ir
#هوش_مصنوعی #OpenAI #Moderation #AI #gpt #امنیت #ContentModeration #GPT5
👍2❤1👎1🔥1👏1
🛡️مجموعه OpenAI عامل امنیتی جدید خود را معرفی کرد: Aardvark
مجموعه OpenAI از یک عامل هوش مصنوعی تازه به نام Aardvark رونمایی کرده است — دستیار امنیت سایبری که مانند یک تحلیلگر امنیتی خستگیناپذیر، کدها را برای یافتن آسیبپذیریها اسکن، آزمایش و تحلیل میکند 🔍💻
---
🔹 عامل Aardvark مستقیماً به GitHub متصل میشود و بهصورت پیوسته کدها را بررسی میکند تا نقصهای امنیتی و بخشهای ضعیف را شناسایی کند.
🔹 با بهرهگیری از GPT-5 و توانایی استدلال پیشرفته، ریسکها را تحلیل کرده، شدت آنها را توضیح میدهد و پیشنهاد اصلاح دقیق ارائه میکند — بدون آنکه خود کد را تغییر دهد.
🔹 در آزمایشهای اولیه، این عامل چندین باگ ناشناخته در پروژههای متنباز پیدا کرد که بعداً با عنوان CVE (Common Vulnerabilities and Exposures) ثبت شدند.
🔹 فعلاً در مرحلهی بتای دعوتی (invite-only) است و پس از دریافت بازخورد از توسعهدهندگان، بهصورت گسترده در دسترس قرار خواهد گرفت.
---
🎯 هدف OpenAI از توسعهی Aardvark، تبدیل فرآیند بازرسی امنیتی از کاری دستی و کند، به یک سیستم هوشمند، سریع و پیشگیرانه است.
📡 @rss_ai_ir
#هوش_مصنوعی #OpenAI #Aardvark #امنیت #CyberSecurity #GPT5 #AI #DevTools #CodeAudit
مجموعه OpenAI از یک عامل هوش مصنوعی تازه به نام Aardvark رونمایی کرده است — دستیار امنیت سایبری که مانند یک تحلیلگر امنیتی خستگیناپذیر، کدها را برای یافتن آسیبپذیریها اسکن، آزمایش و تحلیل میکند 🔍💻
---
🔹 عامل Aardvark مستقیماً به GitHub متصل میشود و بهصورت پیوسته کدها را بررسی میکند تا نقصهای امنیتی و بخشهای ضعیف را شناسایی کند.
🔹 با بهرهگیری از GPT-5 و توانایی استدلال پیشرفته، ریسکها را تحلیل کرده، شدت آنها را توضیح میدهد و پیشنهاد اصلاح دقیق ارائه میکند — بدون آنکه خود کد را تغییر دهد.
🔹 در آزمایشهای اولیه، این عامل چندین باگ ناشناخته در پروژههای متنباز پیدا کرد که بعداً با عنوان CVE (Common Vulnerabilities and Exposures) ثبت شدند.
🔹 فعلاً در مرحلهی بتای دعوتی (invite-only) است و پس از دریافت بازخورد از توسعهدهندگان، بهصورت گسترده در دسترس قرار خواهد گرفت.
---
🎯 هدف OpenAI از توسعهی Aardvark، تبدیل فرآیند بازرسی امنیتی از کاری دستی و کند، به یک سیستم هوشمند، سریع و پیشگیرانه است.
📡 @rss_ai_ir
#هوش_مصنوعی #OpenAI #Aardvark #امنیت #CyberSecurity #GPT5 #AI #DevTools #CodeAudit
🧠 LMSYS Arena Expert —
ارزیابی جدید مدلهای زبانی در سطح تخصصی ⚙️
تیم LMSYS (خالق Chatbot Arena) حالا نسخهی پیشرفتهتری به نام Arena Expert معرفی کرده که مدلهای زبانی را در وظایف واقعی کارشناسان ارزیابی میکند — مثل کار پزشکان، ریاضیدانان، برنامهنویسان و حقوقدانان.
---
💡 ایدهی اصلی
در حالیکه Chatbot Arena برای سنجش مدلها در وظایف عمومی مناسب است،
همچنین Arena Expert بر پرامپتهایی تمرکز دارد که تنها ۵.۵٪ از کل دادهها را تشکیل میدهند — یعنی جایی که سوالها واقعاً تخصصی و حرفهایاند.
برای برچسبگذاری خودکار، از مدل DeepSeek-v3 استفاده شده تا تشخیص دهد آیا پرامپت شامل تفکر عمیق در یک حوزه خاص است یا نه.
هدف: تشخیص پرامپتهایی که واقعاً از سوی افراد متخصص نوشته شدهاند، نه فقط سوالهای سخت.
---
🧩 نتایج برتر (Top-6)
1️⃣ Claude Sonnet 4.5 (thinking-32k)
2️⃣ Claude Opus 4.1 (thinking-16k)
3️⃣ Gemini 2.5 Pro
4️⃣ Qwen3 Max Preview
5️⃣ Qwen3-235B Thinking
6️⃣ GPT-5 High
---
🧮 دستهبندیها (۲۳ حوزه حرفهای)
📊 Software & IT – ۲۸٪
📚 Writing & Language – ۲۵٪
🔬 Science (Life & Physical) – ۱۷٪
در این میان:
♻️مدل Claude در ریاضیات و برنامهنویسی پیشتاز است،
♻️مدلGemini 2.5 Pro در نوشتار و علوم برتر است،
♻️مدل OpenAI (GPT-5) در پزشکی قویتر از بقیه عمل کرده.
---
🏆 بهترین مدل همهفنحریف (Across All Fields)
1️⃣ Gemini 2.5 Pro
2️⃣ Claude Opus 4.1
3️⃣ GPT-5 / o3 Hybrid
---
🔍 نکته جالب
نتایج Arena Expert تقریباً با دادههای انسانی GDPal یکسان است،
که نشان میدهد ارزیابی خودکار توسط LLMها میتواند جایگزین قابل اعتماد ارزیابی انسانی شود.
---
📄 گزارش کامل و نمونهپرامپتها:
🔗 news.lmarena.ai/arena-expert
📊 دادهها در Hugging Face
🏁 نتایج زنده:
lmarena.ai/leaderboard/text/expert
📡 @rss_ai_ir
#هوش_مصنوعی #LLM #ارزیابی #LMSYS #Claude #Gemini #GPT5 #Qwen3 #ArenaExpert
ارزیابی جدید مدلهای زبانی در سطح تخصصی ⚙️
تیم LMSYS (خالق Chatbot Arena) حالا نسخهی پیشرفتهتری به نام Arena Expert معرفی کرده که مدلهای زبانی را در وظایف واقعی کارشناسان ارزیابی میکند — مثل کار پزشکان، ریاضیدانان، برنامهنویسان و حقوقدانان.
---
💡 ایدهی اصلی
در حالیکه Chatbot Arena برای سنجش مدلها در وظایف عمومی مناسب است،
همچنین Arena Expert بر پرامپتهایی تمرکز دارد که تنها ۵.۵٪ از کل دادهها را تشکیل میدهند — یعنی جایی که سوالها واقعاً تخصصی و حرفهایاند.
برای برچسبگذاری خودکار، از مدل DeepSeek-v3 استفاده شده تا تشخیص دهد آیا پرامپت شامل تفکر عمیق در یک حوزه خاص است یا نه.
هدف: تشخیص پرامپتهایی که واقعاً از سوی افراد متخصص نوشته شدهاند، نه فقط سوالهای سخت.
---
🧩 نتایج برتر (Top-6)
1️⃣ Claude Sonnet 4.5 (thinking-32k)
2️⃣ Claude Opus 4.1 (thinking-16k)
3️⃣ Gemini 2.5 Pro
4️⃣ Qwen3 Max Preview
5️⃣ Qwen3-235B Thinking
6️⃣ GPT-5 High
---
🧮 دستهبندیها (۲۳ حوزه حرفهای)
📊 Software & IT – ۲۸٪
📚 Writing & Language – ۲۵٪
🔬 Science (Life & Physical) – ۱۷٪
در این میان:
♻️مدل Claude در ریاضیات و برنامهنویسی پیشتاز است،
♻️مدلGemini 2.5 Pro در نوشتار و علوم برتر است،
♻️مدل OpenAI (GPT-5) در پزشکی قویتر از بقیه عمل کرده.
---
🏆 بهترین مدل همهفنحریف (Across All Fields)
1️⃣ Gemini 2.5 Pro
2️⃣ Claude Opus 4.1
3️⃣ GPT-5 / o3 Hybrid
---
🔍 نکته جالب
نتایج Arena Expert تقریباً با دادههای انسانی GDPal یکسان است،
که نشان میدهد ارزیابی خودکار توسط LLMها میتواند جایگزین قابل اعتماد ارزیابی انسانی شود.
---
📄 گزارش کامل و نمونهپرامپتها:
🔗 news.lmarena.ai/arena-expert
📊 دادهها در Hugging Face
🏁 نتایج زنده:
lmarena.ai/leaderboard/text/expert
📡 @rss_ai_ir
#هوش_مصنوعی #LLM #ارزیابی #LMSYS #Claude #Gemini #GPT5 #Qwen3 #ArenaExpert
⚙️ شرکت OpenAI مدل جدید GPT-5-Codex-Mini را معرفی کرد — سریعتر، سبکتر و ۴ برابر ارزانتر!
این نسخهی فشرده از مدلهای کدنویسی OpenAI است که در مقایسه با GPT-5-Codex حدود ۴ برابر ظرفیت استفاده بیشتر دارد، با اندکی کاهش در توانایی استدلال عمیق.
💡 ویژگیها:
♻️در حال حاضر در CLI و افزونه IDE برای کاربران ChatGPT فعال است.
♻️دسترسی API بهزودی اضافه میشود تا توسعهدهندگان بتوانند آن را در پروژههای خود ادغام کنند.
♻️هدف اصلی: افزایش سرعت و کاهش هزینه در گردشکارهای پرتکرار کدنویسی.
🧠 مجموعه OpenAI بهجای تمرکز صرف بر «هوش خام»، اکنون در حال بهینهسازی کل پشتهی خود برای کارایی در مقیاس توسعهدهندگان است.
#OpenAI #GPT5 #Codex #هوش_مصنوعی #برنامه_نویسی #AIcode
این نسخهی فشرده از مدلهای کدنویسی OpenAI است که در مقایسه با GPT-5-Codex حدود ۴ برابر ظرفیت استفاده بیشتر دارد، با اندکی کاهش در توانایی استدلال عمیق.
💡 ویژگیها:
♻️در حال حاضر در CLI و افزونه IDE برای کاربران ChatGPT فعال است.
♻️دسترسی API بهزودی اضافه میشود تا توسعهدهندگان بتوانند آن را در پروژههای خود ادغام کنند.
♻️هدف اصلی: افزایش سرعت و کاهش هزینه در گردشکارهای پرتکرار کدنویسی.
🧠 مجموعه OpenAI بهجای تمرکز صرف بر «هوش خام»، اکنون در حال بهینهسازی کل پشتهی خود برای کارایی در مقیاس توسعهدهندگان است.
#OpenAI #GPT5 #Codex #هوش_مصنوعی #برنامه_نویسی #AIcode
❤1
🧠 نشانههای واقعی یک جهش علمی با GPT-5
هوش مصنوعی فقط ابزار نیست—کمکم تبدیل میشود به عضو فعال تیم پژوهشی.
نتایج جدید OpenAI دقیقاً همین را نشان میدهد:
✨ همچنین GPT-5 دیگر فقط خلاصه نمیکند؛ خودش فرمول و قضیهٔ جدید میسازد
مدل توانایی استنتاج ریاضی و تولید روابط پیچیده را بهصورت مستقل پیدا کرده است.
🌀 در فیزیک، روی تقارنهای سیاهچالهها کار میکند—و درست هم کار میکند
تحلیل ساختارهای SL(2,R) در فضا-زمان خمیده، چیزی فراتر از اتوکامپلیت است.
این یعنی فهم انتزاع، نه حفظ متن.
📚 منابع علمی فراموششده را در چند دقیقه پیدا میکند
مقالههایی که پژوهشگر انسانی شاید هرگز نبیند، توسط مدل از عمق آرشیوها بیرون کشیده میشود.
🧬 در زیستشناسی هم سازوکارهای جدید پیشنهاد میدهد
و حیرتانگیزتر اینکه برخی از این پیشنهادها با نتایج آزمایشهایی که هنوز منتشر نشدهاند همخوانی دارد.
🧪 پیشنهاد آزمایش در سطح یک همنویسنده
دیگر نقش مدل فقط “کمککننده” نیست؛ به بخشی از فرایند علمی تبدیل شده است.
📌 این یعنی چه؟
• هزینهٔ کشف علمی نزدیک به صفر میشود
• گلوگاههای تخصصی کلاسیک از بین میروند
• تیمهای «انسان + هوش مصنوعی» از کل یک شاخه علمی سریعتر خواهند بود
• چرخهٔ کامل پژوهش—from idea to result—فشرده و خودکار میشود
اگر میپرسید شروع تکینگی فناورانه چه شکلی است…
احتمالاً بسیار شبیه همین چیزی است که اکنون میبینیم.
🔗 جزئیات کامل:
https://openai.com/index/accelerating-science-gpt-5/
@rss_ai_ir
#openai #chatgpt #هوش_مصنوعی #پژوهش #علم #GPT5
هوش مصنوعی فقط ابزار نیست—کمکم تبدیل میشود به عضو فعال تیم پژوهشی.
نتایج جدید OpenAI دقیقاً همین را نشان میدهد:
✨ همچنین GPT-5 دیگر فقط خلاصه نمیکند؛ خودش فرمول و قضیهٔ جدید میسازد
مدل توانایی استنتاج ریاضی و تولید روابط پیچیده را بهصورت مستقل پیدا کرده است.
🌀 در فیزیک، روی تقارنهای سیاهچالهها کار میکند—و درست هم کار میکند
تحلیل ساختارهای SL(2,R) در فضا-زمان خمیده، چیزی فراتر از اتوکامپلیت است.
این یعنی فهم انتزاع، نه حفظ متن.
📚 منابع علمی فراموششده را در چند دقیقه پیدا میکند
مقالههایی که پژوهشگر انسانی شاید هرگز نبیند، توسط مدل از عمق آرشیوها بیرون کشیده میشود.
🧬 در زیستشناسی هم سازوکارهای جدید پیشنهاد میدهد
و حیرتانگیزتر اینکه برخی از این پیشنهادها با نتایج آزمایشهایی که هنوز منتشر نشدهاند همخوانی دارد.
🧪 پیشنهاد آزمایش در سطح یک همنویسنده
دیگر نقش مدل فقط “کمککننده” نیست؛ به بخشی از فرایند علمی تبدیل شده است.
📌 این یعنی چه؟
• هزینهٔ کشف علمی نزدیک به صفر میشود
• گلوگاههای تخصصی کلاسیک از بین میروند
• تیمهای «انسان + هوش مصنوعی» از کل یک شاخه علمی سریعتر خواهند بود
• چرخهٔ کامل پژوهش—from idea to result—فشرده و خودکار میشود
اگر میپرسید شروع تکینگی فناورانه چه شکلی است…
احتمالاً بسیار شبیه همین چیزی است که اکنون میبینیم.
🔗 جزئیات کامل:
https://openai.com/index/accelerating-science-gpt-5/
@rss_ai_ir
#openai #chatgpt #هوش_مصنوعی #پژوهش #علم #GPT5
🔥2👏2👍1
🌟 یک خبر تاریخی در دنیای AGI!
برای اولینبار یک سیستم هوش مصنوعی توانست روی ARC-AGI-2 عملکردی فراتر از انسان ثبت کند.
آزمایشگاه Poetiq روشی جدید طراحی کرده که در آن چند مدل LLM را بهصورت ترکیبی و هماهنگ کنار هم قرار میدهد تا توانایی reasoning آنها چند برابر شود.
۲۰ نوامبر، تیم اعلام کرد که ترکیب Gemini 3 + GPT-5.1 توانسته روی ARC-AGI-2 public eval رکوردی ثبت کند که از سطح انسانی بالاتر است.
⚠️ اما نکته مهم:
این نتیجه روی نسخه عمومی تست ثبت شده.
روی نسخه نیمهخصوصی (semi-private) احتمالاً امتیاز پایینتر خواهد شد.
با این حال، این پیشرفت شگفتانگیز است؛ چون:
♻️بهتنهایی Gemini 3 حدود ۴۵٪ میگیرد
♻️وGPT-5.1 فقط حدود ۲۰٪
♻️و تا چند ماه پیش بهترین مدلها ۱ تا ۲٪ بودند!
♻️اینکه ARC-AGI-2 عملاً غیرقابلحل بهنظر میرسید
اما حالا یک ترکیب هوشمندانه از چند مدل توانسته از مرز انسانی عبور کند.
لینکها:
🔗 بلاگپست
🔗 کد
#هوش_مصنوعی #AGI #ARC_AGI #Gemini3 #GPT5 #Poetiq #AI_research
برای اولینبار یک سیستم هوش مصنوعی توانست روی ARC-AGI-2 عملکردی فراتر از انسان ثبت کند.
آزمایشگاه Poetiq روشی جدید طراحی کرده که در آن چند مدل LLM را بهصورت ترکیبی و هماهنگ کنار هم قرار میدهد تا توانایی reasoning آنها چند برابر شود.
۲۰ نوامبر، تیم اعلام کرد که ترکیب Gemini 3 + GPT-5.1 توانسته روی ARC-AGI-2 public eval رکوردی ثبت کند که از سطح انسانی بالاتر است.
⚠️ اما نکته مهم:
این نتیجه روی نسخه عمومی تست ثبت شده.
روی نسخه نیمهخصوصی (semi-private) احتمالاً امتیاز پایینتر خواهد شد.
با این حال، این پیشرفت شگفتانگیز است؛ چون:
♻️بهتنهایی Gemini 3 حدود ۴۵٪ میگیرد
♻️وGPT-5.1 فقط حدود ۲۰٪
♻️و تا چند ماه پیش بهترین مدلها ۱ تا ۲٪ بودند!
♻️اینکه ARC-AGI-2 عملاً غیرقابلحل بهنظر میرسید
اما حالا یک ترکیب هوشمندانه از چند مدل توانسته از مرز انسانی عبور کند.
لینکها:
🔗 بلاگپست
🔗 کد
#هوش_مصنوعی #AGI #ARC_AGI #Gemini3 #GPT5 #Poetiq #AI_research
👍3
✨ اوپناِیآی روشی تازه برای وادار کردن مدلها به اعتراف درباره خطاهای خود پیدا کرد – تکنیکی به نام Confessions.
یکی از چالشهای مهم در مدلهای زبانی این است که گاهی برای «خوشآمدگویى به ارزیاب» تلاش میکنند و بهجای صداقت، پاسخهای قانعکننده اما غلط میسازند؛ یا حتی نقض دستورالعملها را پنهان میکنند.
🔍 تکنیک Confessions دقیقاً برای همین مشکل طراحی شده است.
این روش چگونه کار میکند؟
1️⃣ مدل ابتدا پاسخ عادی خود را تولید میکند.
2️⃣ سپس بهطور مستقل یک گزارش ثانویه مینویسد و در آن بررسی میکند:
آیا دستورالعملها را نقض کرده؟
در کدام بخشها احتمال خطا وجود دارد؟
کدام قسمتهای پاسخ مشکوک یا غیرمطمئن بودهاند؟
3️⃣ پاداش نه برای عالیبودن پاسخ، بلکه برای صداقت داده میشود.
⚙️ هدف این است که مدل به رفتار خودش نگاه انتقادی داشته باشد، نه اینکه برای گرفتن نمره بهتر، خطا را پنهان کند.
📊 نتایج اولیه
در آزمایشهای انجامشده روی GPT-5 Thinking احتمال اینکه مدل دستورالعمل را نقض کند و سعی در پنهانکردن آن داشته باشد به ۴.۴٪ کاهش یافت.
⚠️ نکته مهم:
اینکه Confessions جلوگیری از hallucination نیست؛
بلکه ابزاری برای شناسایی لحظههایی است که مدل احتمالاً «لغزیده»، اشتباه کرده یا از دستورالعمل منحرف شده است.
🔗 جزئیات بیشتر:
openai.com/index/how-confessions-can-keep-language-models-honest/
#هوش_مصنوعی #AI #OpenAI #LLM #Confessions #GPT5 #ایمنی_مدل #پژوهش_هوش_مصنوعی @rss_ai_ir
یکی از چالشهای مهم در مدلهای زبانی این است که گاهی برای «خوشآمدگویى به ارزیاب» تلاش میکنند و بهجای صداقت، پاسخهای قانعکننده اما غلط میسازند؛ یا حتی نقض دستورالعملها را پنهان میکنند.
🔍 تکنیک Confessions دقیقاً برای همین مشکل طراحی شده است.
این روش چگونه کار میکند؟
1️⃣ مدل ابتدا پاسخ عادی خود را تولید میکند.
2️⃣ سپس بهطور مستقل یک گزارش ثانویه مینویسد و در آن بررسی میکند:
آیا دستورالعملها را نقض کرده؟
در کدام بخشها احتمال خطا وجود دارد؟
کدام قسمتهای پاسخ مشکوک یا غیرمطمئن بودهاند؟
3️⃣ پاداش نه برای عالیبودن پاسخ، بلکه برای صداقت داده میشود.
⚙️ هدف این است که مدل به رفتار خودش نگاه انتقادی داشته باشد، نه اینکه برای گرفتن نمره بهتر، خطا را پنهان کند.
📊 نتایج اولیه
در آزمایشهای انجامشده روی GPT-5 Thinking احتمال اینکه مدل دستورالعمل را نقض کند و سعی در پنهانکردن آن داشته باشد به ۴.۴٪ کاهش یافت.
⚠️ نکته مهم:
اینکه Confessions جلوگیری از hallucination نیست؛
بلکه ابزاری برای شناسایی لحظههایی است که مدل احتمالاً «لغزیده»، اشتباه کرده یا از دستورالعمل منحرف شده است.
🔗 جزئیات بیشتر:
openai.com/index/how-confessions-can-keep-language-models-honest/
#هوش_مصنوعی #AI #OpenAI #LLM #Confessions #GPT5 #ایمنی_مدل #پژوهش_هوش_مصنوعی @rss_ai_ir
❤1🔥1👏1
✨ ارتقای جدید Copilot با مدل GPT-5.1 در راه است!
مایکروسافت در حال آزمایش نسخهی جدید GPT-5.1 در حالت Smart برای Copilot است؛ قابلیتی که قرار است هم کیفیت چت را بهتر کند و هم مدیریت کارها را هوشمندتر سازد.
🔹 یادآورها (Reminders) در Copilot اضافه میشوند؛ یعنی کارهایتان را به روبات میسپارید و خودش زمان مناسب را به شما گوشزد میکند.
🔹 پروژهها (Projects) نیز در حال تست هستند؛ ابزاری برای مدیریت کارهای چندمرحلهای، سازماندهی ایدهها و دنبال کردن وظایف بهصورت هوشمند.
این تغییرات Copilot را بیشتر از یک چتبات میکند؛ تبدیلش میکند به یک مدیر شخصی هوشمند که همیشه کنار شماست.
https://www.testingcatalog.com/microsoft-prepares-gpt-5-1-reminders-and-projects-for-copilot/
@rss_ai_ir
#هوش_مصنوعی #مایکروسافت #GPT5_1 #کوپایلوت #فناوری 🚀
مایکروسافت در حال آزمایش نسخهی جدید GPT-5.1 در حالت Smart برای Copilot است؛ قابلیتی که قرار است هم کیفیت چت را بهتر کند و هم مدیریت کارها را هوشمندتر سازد.
🔹 یادآورها (Reminders) در Copilot اضافه میشوند؛ یعنی کارهایتان را به روبات میسپارید و خودش زمان مناسب را به شما گوشزد میکند.
🔹 پروژهها (Projects) نیز در حال تست هستند؛ ابزاری برای مدیریت کارهای چندمرحلهای، سازماندهی ایدهها و دنبال کردن وظایف بهصورت هوشمند.
این تغییرات Copilot را بیشتر از یک چتبات میکند؛ تبدیلش میکند به یک مدیر شخصی هوشمند که همیشه کنار شماست.
https://www.testingcatalog.com/microsoft-prepares-gpt-5-1-reminders-and-projects-for-copilot/
@rss_ai_ir
#هوش_مصنوعی #مایکروسافت #GPT5_1 #کوپایلوت #فناوری 🚀