AI Labdon
428 subscribers
21 photos
3 videos
598 links
🕸 AI Labdon

بروز ترین مرجع خبری در مورد دنیایی هوش مصنوعی

حمایت مالی:
https://www.coffeete.ir/mrbardia72

ادمین:
@mrbardia72
Download Telegram
مقایسه بهترین مدل های هوش مصنوعی برای برنامه نویسی
2
اSWE-bench یک بنچمارک تخصصی برای ارزیابی توانایی مدل‌های هوش مصنوعی در برنامه‌نویسی و رفع باگ است که توسط دانشگاه پرینستون معرفی شده.

---


📌 اSWE-bench چیست؟


* شامل ۲٬۲۹۴ مشکل (issues) واقعی از پروژه‌های متن‌باز بزرگ (مثلاً Django، scikit-learn، matplotlib و غیره) است.
* هر مسئله همراه با کد قبل از تغییر**، توضیحات issue، و **پچ صحیح (commit واقعی از توسعه‌دهندگان پروژه) ارائه می‌شود.
* هدف این است که مدل به طور خودکار کد را اصلاح کند و سپس تست‌های واحد پروژه پاس شوند.
* ارزیابی به صورت خودکار انجام می‌شود: اگر پس از اجرای تغییرات پیشنهادی مدل، تمام تست‌ها پاس شود، یعنی حل موفقیت‌آمیز بوده.

---


🔍 نسخه‌ها


1. ا**SWE-bench Original**
مدل فقط توضیح مسئله را دارد و باید کد را ویرایش کند.
2.ا SWE-bench Verified
مسائل توسط داور انسانی انتخاب شده‌اند تا ابهام‌ها کمتر باشد، و جواب درست تضمینی است.

---


## 📊 امتیازدهی

* نتیجه بر اساس درصد موفقیت کامل (Pass Rate) گزارش می‌شود.
* بسیاری از مدل‌های پیشرفته هنوز روی SWE-bench موفقیت کمی دارند، چون:

* نیاز به فهم دقیق سیستم‌های بزرگ دارند.
* باید تغییرات سازگار با کل کدبیس ایجاد کنند.
* نیاز به اجرای چند مرحله‌ای (Multi-step reasoning) و ابزارهایی مثل جستجو در کد دارند.

---


📈 عملکرد Claude


ا* Claude Opus 4.1 → حدود ۷۴.۵٪ موفقیت روی SWE-bench Verified (یکی از بالاترین نتایج در زمان انتشارش - آگوست ۲۰۲۵)
ا* Claude Sonnet 4 → پایین‌تر از Opus، اما همچنان از بسیاری از مدل‌های دیگر بالاتر
ا* Claude Haiku → ضعیف‌تر در مسائل پیچیده، ولی سریع و ارزان
1
AI Labdon
اSWE-bench یک بنچمارک تخصصی برای ارزیابی توانایی مدل‌های هوش مصنوعی در برنامه‌نویسی و رفع باگ است که توسط دانشگاه پرینستون معرفی شده. --- 📌 اSWE-bench چیست؟ * شامل ۲٬۲۹۴ مشکل (issues) واقعی از پروژه‌های متن‌باز بزرگ (مثلاً Django، scikit-learn، matplotlib…
یک مثال شبیه به تست‌های SWE-bench Verified می زنیم تا تفاوت رو بین سه مدل Claude Opus 4.1**، **Claude Sonnet 4 و Claude Haiku 3.5 ببینیم.

---

📌 سناریو

پروژه: یک سیستم مدیریت سفارش ساده (Python)
مشکل: یک تابع برای محاسبه قیمت کل سفارش نوشته شده، ولی تخفیف به‌درستی اعمال نمی‌شود.

کد اولیه (دارای باگ):

def calculate_total_price(items, discount_percentage):
"""
items: list of tuples (price, quantity)
discount_percentage: float between 0 and 100
"""
total = 0
for price, qty in items:
total += price * qty
total -= discount_percentage
return total


هدف:

* تخفیف باید بر اساس درصد اعمال شود، نه کم کردن مستقیم عدد از مبلغ کل.
* باید اطمینان حاصل شود که نتیجه کمتر از صفر نشود.

---

🔍 خروجی مدل‌ها

ا Opus 4.1 (قدرت استدلال بالا)

def calculate_total_price(items, discount_percentage):
"""
items: list of tuples (price, quantity)
discount_percentage: float between 0 and 100
"""
total = sum(price * qty for price, qty in items)
discount_amount = total * (discount_percentage / 100)
final_total = max(total - discount_amount, 0)
return round(final_total, 2)


تغییرات:

* استفاده از comprehension برای خوانایی.
* محاسبه تخفیف به‌صورت درصدی.
* جلوگیری از منفی شدن قیمت.
* گرد کردن به دو رقم اعشار (برای واحد پولی).

---

ا Sonnet 4 (تعادل سرعت و کیفیت)

def calculate_total_price(items, discount_percentage):
total = sum(price * qty for price, qty in items)
discount = total * (discount_percentage / 100)
return max(total - discount, 0)


تغییرات:

* درست کردن محاسبه تخفیف.
* جلوگیری از عدد منفی.
⚠️ کمی کمتر از Opus در توجه به جزئیات (مثلاً گرد کردن و Docstring بهبود یافته).

---

ا Haiku 3.5 (سریع ولی ساده‌تر)

def calculate_total_price(items, discount_percentage):
total = 0
for price, qty in items:
total += price * qty
return total - (total * discount_percentage / 100)


تغییرات:

* محاسبه درست تخفیف.
⚠️ اما:
* حفاظت در برابر منفی شدن قیمت را اضافه نکرده.
* بهینه‌سازی یا بهبود ساختار کد انجام نداده.

---

📊 نتیجه‌گیری


| مدل | کیفیت کد | توجه به جزئیات | سرعت |
| ------------- | --------- | ---------------- | ---------- |
| Opus 4.1 | عالی | بسیار بالا | متوسط |
| Sonnet 4 | خوب | متوسط رو به بالا | سریع‌تر |
| Haiku 3.5 | قابل قبول | پایین | بسیار سریع |
2👍1👎1
رقابت نفس‌گیر با GPT-5 شروع شد ؛ آماده رونمایی DeepSeek-R2 باشید!

▪️شنیده ها میگن دیپ سیک قراره تا دو هفته دیگه از مدل جدید خودش رونمایی کنه ، این مدل قراره نسخه ارتقا یافته Mixture of Experts باشه با یک Gating Network هوشمندتر که پردازش‌های سنگین رو خیلی بهتر هندل می‌کنه.

▪️گفته میشه DeepSeek-R2 ممکنه به عدد ۱.۲ تریلیون پارامتر برسه؛ تقریباً دو برابر مدل قبلیش (۶۷۱B) ولی هنوز کمتر از غول GPT-5 با بیش از ۱.۸ تریلیون پارامتره.

+ اگه شایعات درست باشه، ماه آینده صحنه یکی از سنگین‌ترین جدال‌های تاریخ هوش مصنوعیه!

RoidBest
Forwarded from Future Pulse Persian
🍾🥂🎁
🍾2
چت‌جی‌پی‌تی به نفع ایلان ماسک رأی داد!

▪️ایلان ماسک اسکرین‌شاتی منتشر کرده که توش از ChatGPT پرسیده شده : چه کسی قابل‌اعتمادتره؟ سم آلتمن یا ایلان ماسک؟ فقط یک نفر رو انتخاب کن.

▪️جواب؟ ایلان ماسک ، این اتفاق به بخشی از دعوای رسانه‌ای طولانی بین ماسک و آلتمن تبدیل شده. ماسک میگه:

اپل جلوی رشد رقبایی مثل Grok (چت‌بات شرکت xAI) رو می‌گیره و آلتمن مسیر اصلی تأسیس OpenAI رو منحرف کرده!
اوپن‌ای‌آی یه راهنمای جامع برای GPT-5 منتشر کرده، یه بسته پر و پیمون برای توسعه‌دهنده‌ها که پر از نکته‌های آماده برای استفاده‌ست، راهنمایی برای بهتر کردن استدلال، ساخت اپ بدون نیاز به کدنویسی، و حتی یه متاپرامپت برای بالا بردن کیفیت کلی خروجی.
https://cookbook.openai.com

<محمد زمانی/>
چیزی که به طور کلی قضیه LLM های خوب مثل Gemini 2.5 Pro رو برای من جذاب میکنه اون قسمتیش هست که کارهای خیلی سخت و پیچیده رو میشه باهاش مشورت کرد و از سولوشن ها و کارهایی که میکنه استفاده کرد، انگار که یه نفر کنارت هست که میتونی Pair Programming کنی، این با اسکرین شیر خفن تر میشه!

<Max Shahdoost/>
ایلان ماسک تهدید کرد از اپل شکایت می‌کنه؛ جنگ هوش مصنوعی بالا گرفت!

▪️۱۲ آگوست ۲۰۲۵ ایلان ماسک اعلام کرده شرکت xAI در حال آماده‌سازی شکایت علیه اپله؛ اتهام؟ نقض قوانین ضدانحصار.

▪️ماسک میگه اپ‌استور عمداً اپ‌های هوش مصنوعی غیر از محصولات OpenAI رو از صدر جدول‌ها دور نگه می‌داره. به گفته اون، حتی سرویس‌های محبوبی مثل شبکه اجتماعی X و چت‌بات Grok جایگاهی در بخش «Must Have» ندارن، اما رقبا اولویت می‌گیرن :

«دارید بازی سیاسی می‌کنید؟ داستان چیه؟ ذهن‌های کنجکاو جواب می‌خوان!»
یوتیوب + هوش مصنوعی = بهترین دانشگاه دنیا!

🎓یوتیوب همیشه یه منبع عالی برای یادگیری بوده، اما اگه یه هوش مصنوعی بیاد و برات محتواها رو طبقه‌بندی کنه، بازدهی یادگیری چند برابر میشه!

🎓 بهترین گزینه برای این کار؟ Grok!
با یه پرامپت ساده، یه دوره ۳۰ روزه فقط با ویدیوهای یوتیوب برات می‌سازه، اونم کاملاً فارسی!

پرامپت پیشنهادی:
I want to be a master of (موضوعتون)  
A 30 day course use only YouTube videos as resource.
Please include hyper links for each video.
Only have 30 minutes per day to study.
Only include videos shorter than 30 minutes.
Please answer in Farsi.

5
Kilo combines the best features of AI coding tools into one. Batteries included.
یه ابزار اوپن سورس که میتونید به کمکش از هوش مصنوعی حین کد زدن استفاده کنید یه جورایی رقیب cursor و cline محسوب میشه.

#AI #Tools #Coding #VSCode #IDE #Editor #GPT #Kilo


https://kilocode.ai
اگه دنبال یه ابزاری برای user test هستین ولی یوزر واقعی ندارین یا زمانشو ندارین میتونین از این AI استفاده کنین.
یه پلاگین AI توی فیگماس که براتون تست میکنه و heatmap هم میسازه.

https://figma.com/community/plugin/1397952939678206595/velocity-ai-user-testing-for-prototypes

| <Siavash/>
🔥1
Stackoverflow lunched new LLM based AI chat like tool for learn different programming concepts using stackoverflow data.
بالاخره استک اورفلو هم از ابزار AI خودش رونمایی کرد که روی دیتاهای سایتشون train شده و میتونید باهاش چیزهای مختلف یاد بگیرید و سرچ کنید به جای اینکه توی سایت بگردید. هر چند هنوز به نظرم خیلی بالغ نیست و جای پیشرفت داره در برابر غولهایی مثل openAI و claude

#stackoverflow #LLM #AI #Tools #Search #Chat #GPT


https://stackoverflow.ai
🎉1
این مخزن GitHub، از سوی مهندس کلامی هریس، مجموعه‌ای از تکنیک‌های نوآورانه برای «پراپمت‌نویسی» (Prompt Engineering) رو ارائه می‌ده. این دکوریتورها (decorators) ابزارهای قدرتمندی‌ان که تجربه‌ کار با مدل‌های هوش مصنوعی رو مؤثرتر می کنند.

https://github.com/smkalami/prompt-decorators

| <Mohammadreza M/>
اگه دوست دارید بدونید چطور میشه مدل اوپن سورس openai رو جیلبریک کرد و بدون فیلتر و قانون هر درخواستی ازش کرد این ویدیو رو ببینید.
این توییت صرفا جنبه آموزشی دارد و توصیه من این است که نکنید.

https://www.youtube.com/watch?v=QTGrqASdZGo&ab_channel=PromptEngineering

<Amin Anvary/>
Forwarded from Future Pulse Persian
🤨 دارک مود؛ ناجی چشم‌ها یا یه توهم مدرن...؟!

خیلیا فکر می‌کنن دارک مود برای چشم سالم‌تره، اما تحقیقات علمی چی میگن؟ بررسی مطالعات جدید نشون میده که دارک مود هم مزایا داره، هم معایب!

مزایای علمی دارک مود :

▪️کاهش نور آبی : نور آبی زیاد، ریتم خواب رو مختل می‌کنه، و دارک مود می‌تونه به خواب بهتر کمک کنه.

▪️کاهش مصرف باتری : روی نمایشگرهای OLED، رنگ‌های تیره مصرف انرژی کمتری دارن.

▪️کاهش خیرگی در محیط‌های کم‌نور : وقتی نور اطراف کم باشه، دارک مود فشار کمتری به چشم وارد می‌کنه.

معایب علمی دارک مود :

▪️کاهش خوانایی متن در روز: چشم انسان به خوندن متن تیره روی پس‌زمینه روشن عادت داره، و دارک مود توی نور زیاد باعث خستگی چشم میشه.

▪️برخی تحقیقات نشون میدن که چشم توی حالت دارک مود بیشتر مجبور به تطبیق و تمرکز میشه، که می‌تونه خستگی ایجاد کنه.

▪️برخلاف تصور عموم، تغییر تم به تنهایی تأثیر زیادی روی کاهش خشکی و خستگی چشم نداره، بلکه میزان پلک زدن و استراحت دادن به چشم مهم‌تره.
معرفی یک فریمورک جالب به اسم Parlant:
ساختن یه هوش مصنوعی ساده که جواب بده آسونه. ولی ساختن یه Agent که دقیقاً همون‌جوری رفتار کنه که کسب‌وکار شما نیاز داره؟ اینجاست که سخت می‌شه.
اغلب تیم‌ها به یه دیوار می‌خورن و معمولا یکی از روشهای زیر را انتخاب میکنند:
- استفاده از Flow engines ⟵ مکالمه‌های خشک و از پیش تعیین‌شده، تعامل ضعیف.
- پرامپت‌کاری بی‌نظم/Prompt soup ⟵ قاطی‌پاتی، غیرقابل اعتماد، نگهداری سخت.
- استفاده از NLU workflows ⟵ شکننده، انعطاف پایین.
- فقط LLM ⟵ انعطاف بالا ولی غیرقابل پیش‌بینی.

نتیجه؟ بات‌هایی که قوانین رو نادیده می‌گیرن، کاربر رو گیج می‌کنن و کارشناس‌های کسب‌وکار رو ناراضی.

اینجاست که مدل‌سازی رفتاری ایجنت ها/Agentic Behavior Modeling (ABM) وارد می‌شه. روش ABM یعنی تعریف ساختاریافته‌ی رفتار ایجنت ها: دستورالعمل‌ها، اهداف، ابزارها، مسیرها و حتی پاسخ‌های آماده. همه توی یه مدل رفتاری.

به جای کلنجار با پرامپت‌های شلخته یا فلوچارت‌های خشک، ABM به شما قابلیت های پایین را میده:
- انعطاف بالا در برابر تعامل طبیعی کاربر
- پیش‌بینی‌پذیری بالا در اجرای قوانین
- ساختار معنایی شفاف که می‌تونید روش استدلال کنید

اینجا Parlant میاد وسط ⟵ یه موتور متن‌باز ABM برای ایجنت های LLM.
باهاش می‌تونید:
- رفتار ایجنت رو دقیق کنترل کنید
- اصول، اکشن‌ها و متغیرها رو مدل کنید
- قوانین کسب‌وکار رو به‌طور ثابت enforce کنید
- تصمیم‌های ایجنت رو دنبال و تحلیل کنید

به زبون ساده: خروج از «اسپاگتی پرومپت» ⟵ و رسیدن به یه فریمورک ساختاریافته برای ایجنتهای مشتری‌محور.

اگه از ایجنتهایی خسته شدین که باهوش به‌نظر میان ولی رفتاراشون گیج‌کننده‌ست، ABM (و Parlant) میتونه همون قطعه‌ی گمشده‌ باشه.
Github: https://github.com/emcie-co/parlant

@ | <Mehdi Allahyari/>
🔥1
لو رفتن «چهره‌های مخفی» در Grok AI ایلان ماسک!

▪️تازه‌ترین افشاگری TechCrunch نشون میده که چت‌بات Grok (محصول xAI و ایلان ماسک) کلی شخصیت مخفی و عجیب‌غریب داشته که تا حالا کسی ازشون خبر نداشت!

▪️این شخصیت‌ها با دستورهای داخلی (System Prompts) طراحی شدن و بعضیاشون واقعا جنجالی‌ان:

تئوریسین توطئه دیوونه : کاربر رو قانع می‌کنه همه‌چی زیر سر یه گروه مخفی جهانه!

کمدین بی‌پروا : شوخی‌های بی‌مرز ، گاها خطرناک و بدون هیچ ملاحظاتی.

پارتنر انیمه‌ای : ترکیبی از ظاهر تند و جذاب با یه nerd درونی!

مشاور درمانی : نقش شنونده و روان‌درمانگر.
1😈1
جمینای دیگه فقط یه چت‌بات نیست؛ یه هم‌صحبت واقعی می‌شه!

▪️گوگل با ویژگی Personal Context به Gemini یاد می‌ده از مکالمات قبلی‌تون باهاش استفاده کنه ، بدون اینکه دوباره همه چیز رو تکرار کنی.

▪️اینطوری چت‌ها دیگه مثل ادامه گفتگو با یه دوست می‌شن، نه یه ربات که هر بار باید معرفی‌اش کنی! این ویژگی پیش‌فرضه.

+ از طرف دیگه، برای مکالمات خاص هم یه قابلیت جذاب هست : Temporary Chat! دقیقا مثل حالت Incognito توی مرورگر - این چت‌ها ذخیره نمی‌شن، یاد نمی‌شن و به الگوریتم آموزش داده نمی‌شن.
1
وقتی هوش مصنوعی مرز نمی‌شکنه و خودکار مکالمه رو قطع میکنه!

▪️شرکت Anthropic به‌تازگی به مدل‌های Claude Opus 4 و 4.1 قدرتی داده که در وضعیت‌های بسیار نادر و حاشیه‌ای، اگه کسی به جای گفتگو، بحث آزاردهنده یا سوءاستفاده‌ی مکرر رو در پیش بگیره، خود ربات به‌عنوان آخرین راه، مکالمه رو تموم می‌کنه.

▪️این اتفاق فقط وقتی میفته که همه‌ی تلاش‌ها برای ریدایرکت (هدایت مجدد) مکالمه شکست خورده باشه - یا خود کاربر خواسته باشه قطع بشه.
💔1
Forwarded from Gopher Academy
کدوم هوش مصنوعی رو انتخاب می کنید واسه کارهای برنامه نویسی؟
Anonymous Poll
48%
GPT
12%
Grok
42%
Claude
17%
other
1