اSWE-bench یک بنچمارک تخصصی برای ارزیابی توانایی مدلهای هوش مصنوعی در برنامهنویسی و رفع باگ است که توسط دانشگاه پرینستون معرفی شده.
---
📌 اSWE-bench چیست؟
* شامل ۲٬۲۹۴ مشکل (issues) واقعی از پروژههای متنباز بزرگ (مثلاً Django، scikit-learn، matplotlib و غیره) است.
* هر مسئله همراه با کد قبل از تغییر**، توضیحات issue، و **پچ صحیح (commit واقعی از توسعهدهندگان پروژه) ارائه میشود.
* هدف این است که مدل به طور خودکار کد را اصلاح کند و سپس تستهای واحد پروژه پاس شوند.
* ارزیابی به صورت خودکار انجام میشود: اگر پس از اجرای تغییرات پیشنهادی مدل، تمام تستها پاس شود، یعنی حل موفقیتآمیز بوده.
---
🔍 نسخهها
1. ا**SWE-bench Original**
مدل فقط توضیح مسئله را دارد و باید کد را ویرایش کند.
2.ا SWE-bench Verified
مسائل توسط داور انسانی انتخاب شدهاند تا ابهامها کمتر باشد، و جواب درست تضمینی است.
---
## 📊 امتیازدهی
* نتیجه بر اساس درصد موفقیت کامل (Pass Rate) گزارش میشود.
* بسیاری از مدلهای پیشرفته هنوز روی SWE-bench موفقیت کمی دارند، چون:
* نیاز به فهم دقیق سیستمهای بزرگ دارند.
* باید تغییرات سازگار با کل کدبیس ایجاد کنند.
* نیاز به اجرای چند مرحلهای (Multi-step reasoning) و ابزارهایی مثل جستجو در کد دارند.
---
📈 عملکرد Claude
ا* Claude Opus 4.1 → حدود ۷۴.۵٪ موفقیت روی SWE-bench Verified (یکی از بالاترین نتایج در زمان انتشارش - آگوست ۲۰۲۵)
ا* Claude Sonnet 4 → پایینتر از Opus، اما همچنان از بسیاری از مدلهای دیگر بالاتر
ا* Claude Haiku → ضعیفتر در مسائل پیچیده، ولی سریع و ارزان
---
📌 اSWE-bench چیست؟
* شامل ۲٬۲۹۴ مشکل (issues) واقعی از پروژههای متنباز بزرگ (مثلاً Django، scikit-learn، matplotlib و غیره) است.
* هر مسئله همراه با کد قبل از تغییر**، توضیحات issue، و **پچ صحیح (commit واقعی از توسعهدهندگان پروژه) ارائه میشود.
* هدف این است که مدل به طور خودکار کد را اصلاح کند و سپس تستهای واحد پروژه پاس شوند.
* ارزیابی به صورت خودکار انجام میشود: اگر پس از اجرای تغییرات پیشنهادی مدل، تمام تستها پاس شود، یعنی حل موفقیتآمیز بوده.
---
🔍 نسخهها
1. ا**SWE-bench Original**
مدل فقط توضیح مسئله را دارد و باید کد را ویرایش کند.
2.ا SWE-bench Verified
مسائل توسط داور انسانی انتخاب شدهاند تا ابهامها کمتر باشد، و جواب درست تضمینی است.
---
## 📊 امتیازدهی
* نتیجه بر اساس درصد موفقیت کامل (Pass Rate) گزارش میشود.
* بسیاری از مدلهای پیشرفته هنوز روی SWE-bench موفقیت کمی دارند، چون:
* نیاز به فهم دقیق سیستمهای بزرگ دارند.
* باید تغییرات سازگار با کل کدبیس ایجاد کنند.
* نیاز به اجرای چند مرحلهای (Multi-step reasoning) و ابزارهایی مثل جستجو در کد دارند.
---
📈 عملکرد Claude
ا* Claude Opus 4.1 → حدود ۷۴.۵٪ موفقیت روی SWE-bench Verified (یکی از بالاترین نتایج در زمان انتشارش - آگوست ۲۰۲۵)
ا* Claude Sonnet 4 → پایینتر از Opus، اما همچنان از بسیاری از مدلهای دیگر بالاتر
ا* Claude Haiku → ضعیفتر در مسائل پیچیده، ولی سریع و ارزان
❤1
AI Labdon
اSWE-bench یک بنچمارک تخصصی برای ارزیابی توانایی مدلهای هوش مصنوعی در برنامهنویسی و رفع باگ است که توسط دانشگاه پرینستون معرفی شده. --- 📌 اSWE-bench چیست؟ * شامل ۲٬۲۹۴ مشکل (issues) واقعی از پروژههای متنباز بزرگ (مثلاً Django، scikit-learn، matplotlib…
یک مثال شبیه به تستهای SWE-bench Verified می زنیم تا تفاوت رو بین سه مدل Claude Opus 4.1**، **Claude Sonnet 4 و Claude Haiku 3.5 ببینیم.
---
📌 سناریو
پروژه: یک سیستم مدیریت سفارش ساده (Python)
مشکل: یک تابع برای محاسبه قیمت کل سفارش نوشته شده، ولی تخفیف بهدرستی اعمال نمیشود.
کد اولیه (دارای باگ):
هدف:
* تخفیف باید بر اساس درصد اعمال شود، نه کم کردن مستقیم عدد از مبلغ کل.
* باید اطمینان حاصل شود که نتیجه کمتر از صفر نشود.
---
🔍 خروجی مدلها
ا Opus 4.1 (قدرت استدلال بالا)
✅ تغییرات:
* استفاده از comprehension برای خوانایی.
* محاسبه تخفیف بهصورت درصدی.
* جلوگیری از منفی شدن قیمت.
* گرد کردن به دو رقم اعشار (برای واحد پولی).
---
ا Sonnet 4 (تعادل سرعت و کیفیت)
✅ تغییرات:
* درست کردن محاسبه تخفیف.
* جلوگیری از عدد منفی.
⚠️ کمی کمتر از Opus در توجه به جزئیات (مثلاً گرد کردن و Docstring بهبود یافته).
---
ا Haiku 3.5 (سریع ولی سادهتر)
✅ تغییرات:
* محاسبه درست تخفیف.
⚠️ اما:
* حفاظت در برابر منفی شدن قیمت را اضافه نکرده.
* بهینهسازی یا بهبود ساختار کد انجام نداده.
---
📊 نتیجهگیری
| مدل | کیفیت کد | توجه به جزئیات | سرعت |
| ------------- | --------- | ---------------- | ---------- |
| Opus 4.1 | عالی | بسیار بالا | متوسط |
| Sonnet 4 | خوب | متوسط رو به بالا | سریعتر |
| Haiku 3.5 | قابل قبول | پایین | بسیار سریع |
---
📌 سناریو
پروژه: یک سیستم مدیریت سفارش ساده (Python)
مشکل: یک تابع برای محاسبه قیمت کل سفارش نوشته شده، ولی تخفیف بهدرستی اعمال نمیشود.
کد اولیه (دارای باگ):
def calculate_total_price(items, discount_percentage):
"""
items: list of tuples (price, quantity)
discount_percentage: float between 0 and 100
"""
total = 0
for price, qty in items:
total += price * qty
total -= discount_percentage
return total
هدف:
* تخفیف باید بر اساس درصد اعمال شود، نه کم کردن مستقیم عدد از مبلغ کل.
* باید اطمینان حاصل شود که نتیجه کمتر از صفر نشود.
---
🔍 خروجی مدلها
ا Opus 4.1 (قدرت استدلال بالا)
def calculate_total_price(items, discount_percentage):
"""
items: list of tuples (price, quantity)
discount_percentage: float between 0 and 100
"""
total = sum(price * qty for price, qty in items)
discount_amount = total * (discount_percentage / 100)
final_total = max(total - discount_amount, 0)
return round(final_total, 2)
✅ تغییرات:
* استفاده از comprehension برای خوانایی.
* محاسبه تخفیف بهصورت درصدی.
* جلوگیری از منفی شدن قیمت.
* گرد کردن به دو رقم اعشار (برای واحد پولی).
---
ا Sonnet 4 (تعادل سرعت و کیفیت)
def calculate_total_price(items, discount_percentage):
total = sum(price * qty for price, qty in items)
discount = total * (discount_percentage / 100)
return max(total - discount, 0)
✅ تغییرات:
* درست کردن محاسبه تخفیف.
* جلوگیری از عدد منفی.
⚠️ کمی کمتر از Opus در توجه به جزئیات (مثلاً گرد کردن و Docstring بهبود یافته).
---
ا Haiku 3.5 (سریع ولی سادهتر)
def calculate_total_price(items, discount_percentage):
total = 0
for price, qty in items:
total += price * qty
return total - (total * discount_percentage / 100)
✅ تغییرات:
* محاسبه درست تخفیف.
⚠️ اما:
* حفاظت در برابر منفی شدن قیمت را اضافه نکرده.
* بهینهسازی یا بهبود ساختار کد انجام نداده.
---
📊 نتیجهگیری
| مدل | کیفیت کد | توجه به جزئیات | سرعت |
| ------------- | --------- | ---------------- | ---------- |
| Opus 4.1 | عالی | بسیار بالا | متوسط |
| Sonnet 4 | خوب | متوسط رو به بالا | سریعتر |
| Haiku 3.5 | قابل قبول | پایین | بسیار سریع |
❤2👍1👎1
رقابت نفسگیر با GPT-5 شروع شد ؛ آماده رونمایی DeepSeek-R2 باشید!
▪️شنیده ها میگن دیپ سیک قراره تا دو هفته دیگه از مدل جدید خودش رونمایی کنه ، این مدل قراره نسخه ارتقا یافته Mixture of Experts باشه با یک Gating Network هوشمندتر که پردازشهای سنگین رو خیلی بهتر هندل میکنه.
▪️گفته میشه DeepSeek-R2 ممکنه به عدد ۱.۲ تریلیون پارامتر برسه؛ تقریباً دو برابر مدل قبلیش (۶۷۱B) ولی هنوز کمتر از غول GPT-5 با بیش از ۱.۸ تریلیون پارامتره.
+ اگه شایعات درست باشه، ماه آینده صحنه یکی از سنگینترین جدالهای تاریخ هوش مصنوعیه!
RoidBest
▪️شنیده ها میگن دیپ سیک قراره تا دو هفته دیگه از مدل جدید خودش رونمایی کنه ، این مدل قراره نسخه ارتقا یافته Mixture of Experts باشه با یک Gating Network هوشمندتر که پردازشهای سنگین رو خیلی بهتر هندل میکنه.
▪️گفته میشه DeepSeek-R2 ممکنه به عدد ۱.۲ تریلیون پارامتر برسه؛ تقریباً دو برابر مدل قبلیش (۶۷۱B) ولی هنوز کمتر از غول GPT-5 با بیش از ۱.۸ تریلیون پارامتره.
+ اگه شایعات درست باشه، ماه آینده صحنه یکی از سنگینترین جدالهای تاریخ هوش مصنوعیه!
RoidBest
چتجیپیتی به نفع ایلان ماسک رأی داد!
▪️ایلان ماسک اسکرینشاتی منتشر کرده که توش از ChatGPT پرسیده شده : چه کسی قابلاعتمادتره؟ سم آلتمن یا ایلان ماسک؟ فقط یک نفر رو انتخاب کن.
▪️جواب؟ ایلان ماسک ، این اتفاق به بخشی از دعوای رسانهای طولانی بین ماسک و آلتمن تبدیل شده. ماسک میگه:
اپل جلوی رشد رقبایی مثل Grok (چتبات شرکت xAI) رو میگیره و آلتمن مسیر اصلی تأسیس OpenAI رو منحرف کرده!
▪️ایلان ماسک اسکرینشاتی منتشر کرده که توش از ChatGPT پرسیده شده : چه کسی قابلاعتمادتره؟ سم آلتمن یا ایلان ماسک؟ فقط یک نفر رو انتخاب کن.
▪️جواب؟ ایلان ماسک ، این اتفاق به بخشی از دعوای رسانهای طولانی بین ماسک و آلتمن تبدیل شده. ماسک میگه:
اپل جلوی رشد رقبایی مثل Grok (چتبات شرکت xAI) رو میگیره و آلتمن مسیر اصلی تأسیس OpenAI رو منحرف کرده!
اوپنایآی یه راهنمای جامع برای GPT-5 منتشر کرده، یه بسته پر و پیمون برای توسعهدهندهها که پر از نکتههای آماده برای استفادهست، راهنمایی برای بهتر کردن استدلال، ساخت اپ بدون نیاز به کدنویسی، و حتی یه متاپرامپت برای بالا بردن کیفیت کلی خروجی.
https://cookbook.openai.com
<محمد زمانی/>
https://cookbook.openai.com
<محمد زمانی/>
چیزی که به طور کلی قضیه LLM های خوب مثل Gemini 2.5 Pro رو برای من جذاب میکنه اون قسمتیش هست که کارهای خیلی سخت و پیچیده رو میشه باهاش مشورت کرد و از سولوشن ها و کارهایی که میکنه استفاده کرد، انگار که یه نفر کنارت هست که میتونی Pair Programming کنی، این با اسکرین شیر خفن تر میشه!
<Max Shahdoost/>
<Max Shahdoost/>
ایلان ماسک تهدید کرد از اپل شکایت میکنه؛ جنگ هوش مصنوعی بالا گرفت!
▪️۱۲ آگوست ۲۰۲۵ ایلان ماسک اعلام کرده شرکت xAI در حال آمادهسازی شکایت علیه اپله؛ اتهام؟ نقض قوانین ضدانحصار.
▪️ماسک میگه اپاستور عمداً اپهای هوش مصنوعی غیر از محصولات OpenAI رو از صدر جدولها دور نگه میداره. به گفته اون، حتی سرویسهای محبوبی مثل شبکه اجتماعی X و چتبات Grok جایگاهی در بخش «Must Have» ندارن، اما رقبا اولویت میگیرن :
▪️۱۲ آگوست ۲۰۲۵ ایلان ماسک اعلام کرده شرکت xAI در حال آمادهسازی شکایت علیه اپله؛ اتهام؟ نقض قوانین ضدانحصار.
▪️ماسک میگه اپاستور عمداً اپهای هوش مصنوعی غیر از محصولات OpenAI رو از صدر جدولها دور نگه میداره. به گفته اون، حتی سرویسهای محبوبی مثل شبکه اجتماعی X و چتبات Grok جایگاهی در بخش «Must Have» ندارن، اما رقبا اولویت میگیرن :
«دارید بازی سیاسی میکنید؟ داستان چیه؟ ذهنهای کنجکاو جواب میخوان!»
یوتیوب + هوش مصنوعی = بهترین دانشگاه دنیا!
🎓یوتیوب همیشه یه منبع عالی برای یادگیری بوده، اما اگه یه هوش مصنوعی بیاد و برات محتواها رو طبقهبندی کنه، بازدهی یادگیری چند برابر میشه!
🎓 بهترین گزینه برای این کار؟ Grok!
با یه پرامپت ساده، یه دوره ۳۰ روزه فقط با ویدیوهای یوتیوب برات میسازه، اونم کاملاً فارسی!
✅ پرامپت پیشنهادی:
🎓یوتیوب همیشه یه منبع عالی برای یادگیری بوده، اما اگه یه هوش مصنوعی بیاد و برات محتواها رو طبقهبندی کنه، بازدهی یادگیری چند برابر میشه!
🎓 بهترین گزینه برای این کار؟ Grok!
با یه پرامپت ساده، یه دوره ۳۰ روزه فقط با ویدیوهای یوتیوب برات میسازه، اونم کاملاً فارسی!
✅ پرامپت پیشنهادی:
I want to be a master of (موضوعتون)
A 30 day course use only YouTube videos as resource.
Please include hyper links for each video.
Only have 30 minutes per day to study.
Only include videos shorter than 30 minutes.
Please answer in Farsi.
❤5
اگه دنبال یه ابزاری برای user test هستین ولی یوزر واقعی ندارین یا زمانشو ندارین میتونین از این AI استفاده کنین.
یه پلاگین AI توی فیگماس که براتون تست میکنه و heatmap هم میسازه.
https://figma.com/community/plugin/1397952939678206595/velocity-ai-user-testing-for-prototypes
| <Siavash/>
یه پلاگین AI توی فیگماس که براتون تست میکنه و heatmap هم میسازه.
https://figma.com/community/plugin/1397952939678206595/velocity-ai-user-testing-for-prototypes
| <Siavash/>
Figma
Velocity: AI user testing for prototypes | Figma
Prompt AI on prototypes BEFORE sharing as human tasks.
Quantitive, Heat-map reports to justify your earliest designs with success rates, drop off, miss clicks and duration.
AI prompt then… try on humans
Example: Delete event from Apple CalendarExample: Onboard:…
Quantitive, Heat-map reports to justify your earliest designs with success rates, drop off, miss clicks and duration.
AI prompt then… try on humans
Example: Delete event from Apple CalendarExample: Onboard:…
🔥1
Stackoverflow lunched new LLM based AI chat like tool for learn different programming concepts using stackoverflow data.
بالاخره استک اورفلو هم از ابزار AI خودش رونمایی کرد که روی دیتاهای سایتشون train شده و میتونید باهاش چیزهای مختلف یاد بگیرید و سرچ کنید به جای اینکه توی سایت بگردید. هر چند هنوز به نظرم خیلی بالغ نیست و جای پیشرفت داره در برابر غولهایی مثل openAI و claude
#stackoverflow #LLM #AI #Tools #Search #Chat #GPT
https://stackoverflow.ai
بالاخره استک اورفلو هم از ابزار AI خودش رونمایی کرد که روی دیتاهای سایتشون train شده و میتونید باهاش چیزهای مختلف یاد بگیرید و سرچ کنید به جای اینکه توی سایت بگردید. هر چند هنوز به نظرم خیلی بالغ نیست و جای پیشرفت داره در برابر غولهایی مثل openAI و claude
#stackoverflow #LLM #AI #Tools #Search #Chat #GPT
https://stackoverflow.ai
🎉1
این مخزن GitHub، از سوی مهندس کلامی هریس، مجموعهای از تکنیکهای نوآورانه برای «پراپمتنویسی» (Prompt Engineering) رو ارائه میده. این دکوریتورها (decorators) ابزارهای قدرتمندیان که تجربه کار با مدلهای هوش مصنوعی رو مؤثرتر می کنند.
https://github.com/smkalami/prompt-decorators
| <Mohammadreza M/>
https://github.com/smkalami/prompt-decorators
| <Mohammadreza M/>
GitHub
GitHub - smkalami/prompt-decorators: Prompt Decorators are structured prefixes, such as +++Reasoning and +++StepByStep, designed…
Prompt Decorators are structured prefixes, such as +++Reasoning and +++StepByStep, designed to enhance AI responses. Inspired by Python decorators, they make AI outputs more logical, accurate, and ...
اگه دوست دارید بدونید چطور میشه مدل اوپن سورس openai رو جیلبریک کرد و بدون فیلتر و قانون هر درخواستی ازش کرد این ویدیو رو ببینید.
این توییت صرفا جنبه آموزشی دارد و توصیه من این است که نکنید.
https://www.youtube.com/watch?v=QTGrqASdZGo&ab_channel=PromptEngineering
<Amin Anvary/>
این توییت صرفا جنبه آموزشی دارد و توصیه من این است که نکنید.
https://www.youtube.com/watch?v=QTGrqASdZGo&ab_channel=PromptEngineering
<Amin Anvary/>
YouTube
GPT-OSS Jailbreak: No Fine-Tuning, No Hacks—One Simple Trick
In this video, I show you how I managed to bypass GPT-OSS’s alignment with a single, simple tweak—no fine-tuning or complex hacks required. I walk through how the model’s prompt template works, why removing it changes its behavior, and share my own tests…
Forwarded from Future Pulse Persian
🤨 دارک مود؛ ناجی چشمها یا یه توهم مدرن...؟!
خیلیا فکر میکنن دارک مود برای چشم سالمتره، اما تحقیقات علمی چی میگن؟ بررسی مطالعات جدید نشون میده که دارک مود هم مزایا داره، هم معایب!
مزایای علمی دارک مود :
▪️کاهش نور آبی : نور آبی زیاد، ریتم خواب رو مختل میکنه، و دارک مود میتونه به خواب بهتر کمک کنه.
▪️کاهش مصرف باتری : روی نمایشگرهای OLED، رنگهای تیره مصرف انرژی کمتری دارن.
▪️کاهش خیرگی در محیطهای کمنور : وقتی نور اطراف کم باشه، دارک مود فشار کمتری به چشم وارد میکنه.
معایب علمی دارک مود :
▪️کاهش خوانایی متن در روز: چشم انسان به خوندن متن تیره روی پسزمینه روشن عادت داره، و دارک مود توی نور زیاد باعث خستگی چشم میشه.
▪️برخی تحقیقات نشون میدن که چشم توی حالت دارک مود بیشتر مجبور به تطبیق و تمرکز میشه، که میتونه خستگی ایجاد کنه.
▪️برخلاف تصور عموم، تغییر تم به تنهایی تأثیر زیادی روی کاهش خشکی و خستگی چشم نداره، بلکه میزان پلک زدن و استراحت دادن به چشم مهمتره.
خیلیا فکر میکنن دارک مود برای چشم سالمتره، اما تحقیقات علمی چی میگن؟ بررسی مطالعات جدید نشون میده که دارک مود هم مزایا داره، هم معایب!
مزایای علمی دارک مود :
▪️کاهش نور آبی : نور آبی زیاد، ریتم خواب رو مختل میکنه، و دارک مود میتونه به خواب بهتر کمک کنه.
▪️کاهش مصرف باتری : روی نمایشگرهای OLED، رنگهای تیره مصرف انرژی کمتری دارن.
▪️کاهش خیرگی در محیطهای کمنور : وقتی نور اطراف کم باشه، دارک مود فشار کمتری به چشم وارد میکنه.
معایب علمی دارک مود :
▪️کاهش خوانایی متن در روز: چشم انسان به خوندن متن تیره روی پسزمینه روشن عادت داره، و دارک مود توی نور زیاد باعث خستگی چشم میشه.
▪️برخی تحقیقات نشون میدن که چشم توی حالت دارک مود بیشتر مجبور به تطبیق و تمرکز میشه، که میتونه خستگی ایجاد کنه.
▪️برخلاف تصور عموم، تغییر تم به تنهایی تأثیر زیادی روی کاهش خشکی و خستگی چشم نداره، بلکه میزان پلک زدن و استراحت دادن به چشم مهمتره.
معرفی یک فریمورک جالب به اسم Parlant:
ساختن یه هوش مصنوعی ساده که جواب بده آسونه. ولی ساختن یه Agent که دقیقاً همونجوری رفتار کنه که کسبوکار شما نیاز داره؟ اینجاست که سخت میشه.
اغلب تیمها به یه دیوار میخورن و معمولا یکی از روشهای زیر را انتخاب میکنند:
- استفاده از Flow engines ⟵ مکالمههای خشک و از پیش تعیینشده، تعامل ضعیف.
- پرامپتکاری بینظم/Prompt soup ⟵ قاطیپاتی، غیرقابل اعتماد، نگهداری سخت.
- استفاده از NLU workflows ⟵ شکننده، انعطاف پایین.
- فقط LLM ⟵ انعطاف بالا ولی غیرقابل پیشبینی.
نتیجه؟ باتهایی که قوانین رو نادیده میگیرن، کاربر رو گیج میکنن و کارشناسهای کسبوکار رو ناراضی.
اینجاست که مدلسازی رفتاری ایجنت ها/Agentic Behavior Modeling (ABM) وارد میشه. روش ABM یعنی تعریف ساختاریافتهی رفتار ایجنت ها: دستورالعملها، اهداف، ابزارها، مسیرها و حتی پاسخهای آماده. همه توی یه مدل رفتاری.
به جای کلنجار با پرامپتهای شلخته یا فلوچارتهای خشک، ABM به شما قابلیت های پایین را میده:
- انعطاف بالا در برابر تعامل طبیعی کاربر
- پیشبینیپذیری بالا در اجرای قوانین
- ساختار معنایی شفاف که میتونید روش استدلال کنید
اینجا Parlant میاد وسط ⟵ یه موتور متنباز ABM برای ایجنت های LLM.
باهاش میتونید:
- رفتار ایجنت رو دقیق کنترل کنید
- اصول، اکشنها و متغیرها رو مدل کنید
- قوانین کسبوکار رو بهطور ثابت enforce کنید
- تصمیمهای ایجنت رو دنبال و تحلیل کنید
به زبون ساده: خروج از «اسپاگتی پرومپت» ⟵ و رسیدن به یه فریمورک ساختاریافته برای ایجنتهای مشتریمحور.
اگه از ایجنتهایی خسته شدین که باهوش بهنظر میان ولی رفتاراشون گیجکنندهست، ABM (و Parlant) میتونه همون قطعهی گمشده باشه.
Github: https://github.com/emcie-co/parlant
@ | <Mehdi Allahyari/>
ساختن یه هوش مصنوعی ساده که جواب بده آسونه. ولی ساختن یه Agent که دقیقاً همونجوری رفتار کنه که کسبوکار شما نیاز داره؟ اینجاست که سخت میشه.
اغلب تیمها به یه دیوار میخورن و معمولا یکی از روشهای زیر را انتخاب میکنند:
- استفاده از Flow engines ⟵ مکالمههای خشک و از پیش تعیینشده، تعامل ضعیف.
- پرامپتکاری بینظم/Prompt soup ⟵ قاطیپاتی، غیرقابل اعتماد، نگهداری سخت.
- استفاده از NLU workflows ⟵ شکننده، انعطاف پایین.
- فقط LLM ⟵ انعطاف بالا ولی غیرقابل پیشبینی.
نتیجه؟ باتهایی که قوانین رو نادیده میگیرن، کاربر رو گیج میکنن و کارشناسهای کسبوکار رو ناراضی.
اینجاست که مدلسازی رفتاری ایجنت ها/Agentic Behavior Modeling (ABM) وارد میشه. روش ABM یعنی تعریف ساختاریافتهی رفتار ایجنت ها: دستورالعملها، اهداف، ابزارها، مسیرها و حتی پاسخهای آماده. همه توی یه مدل رفتاری.
به جای کلنجار با پرامپتهای شلخته یا فلوچارتهای خشک، ABM به شما قابلیت های پایین را میده:
- انعطاف بالا در برابر تعامل طبیعی کاربر
- پیشبینیپذیری بالا در اجرای قوانین
- ساختار معنایی شفاف که میتونید روش استدلال کنید
اینجا Parlant میاد وسط ⟵ یه موتور متنباز ABM برای ایجنت های LLM.
باهاش میتونید:
- رفتار ایجنت رو دقیق کنترل کنید
- اصول، اکشنها و متغیرها رو مدل کنید
- قوانین کسبوکار رو بهطور ثابت enforce کنید
- تصمیمهای ایجنت رو دنبال و تحلیل کنید
به زبون ساده: خروج از «اسپاگتی پرومپت» ⟵ و رسیدن به یه فریمورک ساختاریافته برای ایجنتهای مشتریمحور.
اگه از ایجنتهایی خسته شدین که باهوش بهنظر میان ولی رفتاراشون گیجکنندهست، ABM (و Parlant) میتونه همون قطعهی گمشده باشه.
Github: https://github.com/emcie-co/parlant
@ | <Mehdi Allahyari/>
GitHub
GitHub - emcie-co/parlant: LLM agents built for control. Designed for real-world use. Deployed in minutes.
LLM agents built for control. Designed for real-world use. Deployed in minutes. - emcie-co/parlant
🔥1
لو رفتن «چهرههای مخفی» در Grok AI ایلان ماسک!
▪️تازهترین افشاگری TechCrunch نشون میده که چتبات Grok (محصول xAI و ایلان ماسک) کلی شخصیت مخفی و عجیبغریب داشته که تا حالا کسی ازشون خبر نداشت!
▪️این شخصیتها با دستورهای داخلی (System Prompts) طراحی شدن و بعضیاشون واقعا جنجالیان:
تئوریسین توطئه دیوونه : کاربر رو قانع میکنه همهچی زیر سر یه گروه مخفی جهانه!
کمدین بیپروا : شوخیهای بیمرز ، گاها خطرناک و بدون هیچ ملاحظاتی.
پارتنر انیمهای : ترکیبی از ظاهر تند و جذاب با یه nerd درونی!
مشاور درمانی : نقش شنونده و رواندرمانگر.
▪️تازهترین افشاگری TechCrunch نشون میده که چتبات Grok (محصول xAI و ایلان ماسک) کلی شخصیت مخفی و عجیبغریب داشته که تا حالا کسی ازشون خبر نداشت!
▪️این شخصیتها با دستورهای داخلی (System Prompts) طراحی شدن و بعضیاشون واقعا جنجالیان:
تئوریسین توطئه دیوونه : کاربر رو قانع میکنه همهچی زیر سر یه گروه مخفی جهانه!
کمدین بیپروا : شوخیهای بیمرز ، گاها خطرناک و بدون هیچ ملاحظاتی.
پارتنر انیمهای : ترکیبی از ظاهر تند و جذاب با یه nerd درونی!
مشاور درمانی : نقش شنونده و رواندرمانگر.
❤1😈1
جمینای دیگه فقط یه چتبات نیست؛ یه همصحبت واقعی میشه!
▪️گوگل با ویژگی Personal Context به Gemini یاد میده از مکالمات قبلیتون باهاش استفاده کنه ، بدون اینکه دوباره همه چیز رو تکرار کنی.
▪️اینطوری چتها دیگه مثل ادامه گفتگو با یه دوست میشن، نه یه ربات که هر بار باید معرفیاش کنی! این ویژگی پیشفرضه.
+ از طرف دیگه، برای مکالمات خاص هم یه قابلیت جذاب هست : Temporary Chat! دقیقا مثل حالت Incognito توی مرورگر - این چتها ذخیره نمیشن، یاد نمیشن و به الگوریتم آموزش داده نمیشن.
▪️گوگل با ویژگی Personal Context به Gemini یاد میده از مکالمات قبلیتون باهاش استفاده کنه ، بدون اینکه دوباره همه چیز رو تکرار کنی.
▪️اینطوری چتها دیگه مثل ادامه گفتگو با یه دوست میشن، نه یه ربات که هر بار باید معرفیاش کنی! این ویژگی پیشفرضه.
+ از طرف دیگه، برای مکالمات خاص هم یه قابلیت جذاب هست : Temporary Chat! دقیقا مثل حالت Incognito توی مرورگر - این چتها ذخیره نمیشن، یاد نمیشن و به الگوریتم آموزش داده نمیشن.
❤1
وقتی هوش مصنوعی مرز نمیشکنه و خودکار مکالمه رو قطع میکنه!
▪️شرکت Anthropic بهتازگی به مدلهای Claude Opus 4 و 4.1 قدرتی داده که در وضعیتهای بسیار نادر و حاشیهای، اگه کسی به جای گفتگو، بحث آزاردهنده یا سوءاستفادهی مکرر رو در پیش بگیره، خود ربات بهعنوان آخرین راه، مکالمه رو تموم میکنه.
▪️این اتفاق فقط وقتی میفته که همهی تلاشها برای ریدایرکت (هدایت مجدد) مکالمه شکست خورده باشه - یا خود کاربر خواسته باشه قطع بشه.
▪️شرکت Anthropic بهتازگی به مدلهای Claude Opus 4 و 4.1 قدرتی داده که در وضعیتهای بسیار نادر و حاشیهای، اگه کسی به جای گفتگو، بحث آزاردهنده یا سوءاستفادهی مکرر رو در پیش بگیره، خود ربات بهعنوان آخرین راه، مکالمه رو تموم میکنه.
▪️این اتفاق فقط وقتی میفته که همهی تلاشها برای ریدایرکت (هدایت مجدد) مکالمه شکست خورده باشه - یا خود کاربر خواسته باشه قطع بشه.
💔1
Forwarded from Gopher Academy
کدوم هوش مصنوعی رو انتخاب می کنید واسه کارهای برنامه نویسی؟
Anonymous Poll
48%
GPT
12%
Grok
42%
Claude
17%
other
⚡1