🔵 عنوان مقاله
Seriously Testing LLMs
🟢 خلاصه مقاله:
این مقاله به این میپردازد که برای آزمون جدی LLMs چه نیاز است. نویسنده با تکیه بر مجموعهای از آزمایشها، نشان میدهد چرا اتکا به دمو یا امتیازهای سطحی کافی نیست و چگونه رفتار مدل با تغییر متن راهنما، زمینه و زمان تغییر میکند. James Bach در این مسیر روش LARC را معرفی میکند؛ رویکردی ساختیافته و اکتشافی برای برنامهریزی، اجرای آزمونها و تفسیر نتایج که بر طراحی موارد تنشی و خصمانه، مشاهده نظاممند و بهبود تکرارشونده تأکید دارد تا الگوهای خطا و محدودیتهای قابلیت اعتماد آشکار شوند. مقاله توضیح میدهد که چرا آزمون جامع دشوار و پرهزینه است: خروجیهای غیرقطعی، نبود داور قطعی برای «درستی»، حساسیت به Prompt و زمینه، بهروزرسانیهای مدل که بازتولیدپذیری را میشکنند، محدودیت معیارهای کمی، و نیاز به ابزار، داده، محاسبات و داوری انسانی. در نهایت پیشنهاد میشود آزمون LLM را یک کار تحقیقاتی-حرفهای ببینیم: اهداف و ریسکها را روشن کنیم، دادههای متنوع و خصمانه بسازیم، ثبت و رهگیری کامل انجام دهیم، و با اجرای تکرارشونده روش LARC میان عمق و وسعت، خودکارسازی و قضاوت کارشناسی، و هزینه و کفایت تصمیمگیری کنیم.
#LLMs #SoftwareTesting #AIQuality #Evaluation #PromptEngineering #Reliability #JamesBach #MachineLearning
🟣لینک مقاله:
https://cur.at/OfLtyHW?m=web
➖➖➖➖➖➖➖➖
👑 @software_Labdon
Seriously Testing LLMs
🟢 خلاصه مقاله:
این مقاله به این میپردازد که برای آزمون جدی LLMs چه نیاز است. نویسنده با تکیه بر مجموعهای از آزمایشها، نشان میدهد چرا اتکا به دمو یا امتیازهای سطحی کافی نیست و چگونه رفتار مدل با تغییر متن راهنما، زمینه و زمان تغییر میکند. James Bach در این مسیر روش LARC را معرفی میکند؛ رویکردی ساختیافته و اکتشافی برای برنامهریزی، اجرای آزمونها و تفسیر نتایج که بر طراحی موارد تنشی و خصمانه، مشاهده نظاممند و بهبود تکرارشونده تأکید دارد تا الگوهای خطا و محدودیتهای قابلیت اعتماد آشکار شوند. مقاله توضیح میدهد که چرا آزمون جامع دشوار و پرهزینه است: خروجیهای غیرقطعی، نبود داور قطعی برای «درستی»، حساسیت به Prompt و زمینه، بهروزرسانیهای مدل که بازتولیدپذیری را میشکنند، محدودیت معیارهای کمی، و نیاز به ابزار، داده، محاسبات و داوری انسانی. در نهایت پیشنهاد میشود آزمون LLM را یک کار تحقیقاتی-حرفهای ببینیم: اهداف و ریسکها را روشن کنیم، دادههای متنوع و خصمانه بسازیم، ثبت و رهگیری کامل انجام دهیم، و با اجرای تکرارشونده روش LARC میان عمق و وسعت، خودکارسازی و قضاوت کارشناسی، و هزینه و کفایت تصمیمگیری کنیم.
#LLMs #SoftwareTesting #AIQuality #Evaluation #PromptEngineering #Reliability #JamesBach #MachineLearning
🟣لینک مقاله:
https://cur.at/OfLtyHW?m=web
➖➖➖➖➖➖➖➖
👑 @software_Labdon
Satisfice, Inc.
Seriously Testing LLMs - Satisfice, Inc.
Michael and I are getting a lot of interest about how we apply Rapid Software Testing methodology both to test AI and to use AI in testing. We've developed various answers to such questions in recent years. But now that the book is done (and almost out!)…
👍1