🔵 عنوان مقاله
Determinism is Overrated
🟢 خلاصه مقاله:
Determinism is Overrated یادآور میشود که توسعه و آزمون اپلیکیشنهای AI با نرمافزارهای سنتی فرق دارد، چون خروجیها ذاتاً غیردترمینستیکاند. بهجای تکیه بر تطابق دقیق رشتهای، باید کیفیت را در سطح توزیع نتایج سنجید: تعریف بازههای پذیرش، روبریکها و امتیازدهی سازگار با هدف کاربر، و آزمونهای سناریومحور. Jarad DeLorenzo پیشنهاد میکند در کنار تستهای کاملاً دترمینستیک برای منطق اطراف مدل، از ابزارهای بازتولیدپذیری (نسخهبندی داده/پرومپت/مدل، ثبت seed و پارامترها) و ارزیابی احتمالاتی (آستانههای شباهت، top-k، چند seed) استفاده شود. در استقرار نیز A/B testing، canary، گاردریلها، fallback و observability برای هزینه، تأخیر، درستی و ایمنی لازم است. پیام اصلی: بهجای اجبار به خروجیهای یکسان، برای نتایج قابل اتکا در دل تغییرپذیری طراحی کنید.
#AI #LLM #NonDeterminism #Testing #Evaluation #MLOps #AIBestPractices #SoftwareEngineering
🟣لینک مقاله:
https://cur.at/sfc6P6g?m=web
➖➖➖➖➖➖➖➖
👑 @software_Labdon
Determinism is Overrated
🟢 خلاصه مقاله:
Determinism is Overrated یادآور میشود که توسعه و آزمون اپلیکیشنهای AI با نرمافزارهای سنتی فرق دارد، چون خروجیها ذاتاً غیردترمینستیکاند. بهجای تکیه بر تطابق دقیق رشتهای، باید کیفیت را در سطح توزیع نتایج سنجید: تعریف بازههای پذیرش، روبریکها و امتیازدهی سازگار با هدف کاربر، و آزمونهای سناریومحور. Jarad DeLorenzo پیشنهاد میکند در کنار تستهای کاملاً دترمینستیک برای منطق اطراف مدل، از ابزارهای بازتولیدپذیری (نسخهبندی داده/پرومپت/مدل، ثبت seed و پارامترها) و ارزیابی احتمالاتی (آستانههای شباهت، top-k، چند seed) استفاده شود. در استقرار نیز A/B testing، canary، گاردریلها، fallback و observability برای هزینه، تأخیر، درستی و ایمنی لازم است. پیام اصلی: بهجای اجبار به خروجیهای یکسان، برای نتایج قابل اتکا در دل تغییرپذیری طراحی کنید.
#AI #LLM #NonDeterminism #Testing #Evaluation #MLOps #AIBestPractices #SoftwareEngineering
🟣لینک مقاله:
https://cur.at/sfc6P6g?m=web
➖➖➖➖➖➖➖➖
👑 @software_Labdon
Medium
Determinism is Overrated
Why Your Best Engineers Can’t Build AI Systems
🔵 عنوان مقاله
Seriously Testing LLMs
🟢 خلاصه مقاله:
این مقاله به این میپردازد که برای آزمون جدی LLMs چه نیاز است. نویسنده با تکیه بر مجموعهای از آزمایشها، نشان میدهد چرا اتکا به دمو یا امتیازهای سطحی کافی نیست و چگونه رفتار مدل با تغییر متن راهنما، زمینه و زمان تغییر میکند. James Bach در این مسیر روش LARC را معرفی میکند؛ رویکردی ساختیافته و اکتشافی برای برنامهریزی، اجرای آزمونها و تفسیر نتایج که بر طراحی موارد تنشی و خصمانه، مشاهده نظاممند و بهبود تکرارشونده تأکید دارد تا الگوهای خطا و محدودیتهای قابلیت اعتماد آشکار شوند. مقاله توضیح میدهد که چرا آزمون جامع دشوار و پرهزینه است: خروجیهای غیرقطعی، نبود داور قطعی برای «درستی»، حساسیت به Prompt و زمینه، بهروزرسانیهای مدل که بازتولیدپذیری را میشکنند، محدودیت معیارهای کمی، و نیاز به ابزار، داده، محاسبات و داوری انسانی. در نهایت پیشنهاد میشود آزمون LLM را یک کار تحقیقاتی-حرفهای ببینیم: اهداف و ریسکها را روشن کنیم، دادههای متنوع و خصمانه بسازیم، ثبت و رهگیری کامل انجام دهیم، و با اجرای تکرارشونده روش LARC میان عمق و وسعت، خودکارسازی و قضاوت کارشناسی، و هزینه و کفایت تصمیمگیری کنیم.
#LLMs #SoftwareTesting #AIQuality #Evaluation #PromptEngineering #Reliability #JamesBach #MachineLearning
🟣لینک مقاله:
https://cur.at/OfLtyHW?m=web
➖➖➖➖➖➖➖➖
👑 @software_Labdon
Seriously Testing LLMs
🟢 خلاصه مقاله:
این مقاله به این میپردازد که برای آزمون جدی LLMs چه نیاز است. نویسنده با تکیه بر مجموعهای از آزمایشها، نشان میدهد چرا اتکا به دمو یا امتیازهای سطحی کافی نیست و چگونه رفتار مدل با تغییر متن راهنما، زمینه و زمان تغییر میکند. James Bach در این مسیر روش LARC را معرفی میکند؛ رویکردی ساختیافته و اکتشافی برای برنامهریزی، اجرای آزمونها و تفسیر نتایج که بر طراحی موارد تنشی و خصمانه، مشاهده نظاممند و بهبود تکرارشونده تأکید دارد تا الگوهای خطا و محدودیتهای قابلیت اعتماد آشکار شوند. مقاله توضیح میدهد که چرا آزمون جامع دشوار و پرهزینه است: خروجیهای غیرقطعی، نبود داور قطعی برای «درستی»، حساسیت به Prompt و زمینه، بهروزرسانیهای مدل که بازتولیدپذیری را میشکنند، محدودیت معیارهای کمی، و نیاز به ابزار، داده، محاسبات و داوری انسانی. در نهایت پیشنهاد میشود آزمون LLM را یک کار تحقیقاتی-حرفهای ببینیم: اهداف و ریسکها را روشن کنیم، دادههای متنوع و خصمانه بسازیم، ثبت و رهگیری کامل انجام دهیم، و با اجرای تکرارشونده روش LARC میان عمق و وسعت، خودکارسازی و قضاوت کارشناسی، و هزینه و کفایت تصمیمگیری کنیم.
#LLMs #SoftwareTesting #AIQuality #Evaluation #PromptEngineering #Reliability #JamesBach #MachineLearning
🟣لینک مقاله:
https://cur.at/OfLtyHW?m=web
➖➖➖➖➖➖➖➖
👑 @software_Labdon
Satisfice, Inc.
Seriously Testing LLMs - Satisfice, Inc.
Michael and I are getting a lot of interest about how we apply Rapid Software Testing methodology both to test AI and to use AI in testing. We've developed various answers to such questions in recent years. But now that the book is done (and almost out!)…
👍1