🔵 عنوان مقاله
The Day I Stopped Trusting My Load Tests (And Started Simulating Chaos Instead)
🟢 خلاصه مقاله:
**هریپراساث V S توضیح میدهد چرا به تستهای بار سنتی که بر میانگینها و سناریوهای قابل پیشبینی تکیه میکنند اعتماد نکرد و چگونه با بهکارگیری روش Monte Carlo رفتارهای غیرقابلپیشبینی کاربران و رخدادهای دمِسنگین را آشکار کرد. با مدلکردن عدمقطعیتها بهصورت توزیعهای احتمالی و اجرای هزاران سناریوی تصادفی، آنها توانستند احتمال ازدسترفتن SLO، تشکیل صفها، و بروز جهشهای تاخیری در p99+ را بسنجند؛ ریسکهایی که در تستهای عادی پنهان میمانند، مثل هجوم همزمان retryها، داغشدن پارتیشنها و اسپایکهای نادر اما مخرب. سپس با تزریق آشوب (خرابی گره، packet loss، timeout، وقفه GC و اختلالات جزئی وابستگیها) دیدند خطاها چگونه در معماری پخش میشود و بر این اساس به الگوهای انعطافپذیرتر مانند retry با jitter و سقف، timeoutهای بودجهمحور، circuit breaker، backpressure، load shedding و طراحیهای idempotent روی آوردند. نتیجه، گذار از «تست قبولی/ردی» به ارزیابی احتمالاتی ریسک است که در CI/CD، برنامهریزی ظرفیت و اولویتبندی بهبودهای تابآوری به کار گرفته میشود.
#LoadTesting #ChaosEngineering #MonteCarlo #Reliability #Resilience #PerformanceEngineering #SRE #Scalability
🟣لینک مقاله:
https://cur.at/f4RKFUM?m=web
➖➖➖➖➖➖➖➖
👑 @software_Labdon
The Day I Stopped Trusting My Load Tests (And Started Simulating Chaos Instead)
🟢 خلاصه مقاله:
**هریپراساث V S توضیح میدهد چرا به تستهای بار سنتی که بر میانگینها و سناریوهای قابل پیشبینی تکیه میکنند اعتماد نکرد و چگونه با بهکارگیری روش Monte Carlo رفتارهای غیرقابلپیشبینی کاربران و رخدادهای دمِسنگین را آشکار کرد. با مدلکردن عدمقطعیتها بهصورت توزیعهای احتمالی و اجرای هزاران سناریوی تصادفی، آنها توانستند احتمال ازدسترفتن SLO، تشکیل صفها، و بروز جهشهای تاخیری در p99+ را بسنجند؛ ریسکهایی که در تستهای عادی پنهان میمانند، مثل هجوم همزمان retryها، داغشدن پارتیشنها و اسپایکهای نادر اما مخرب. سپس با تزریق آشوب (خرابی گره، packet loss، timeout، وقفه GC و اختلالات جزئی وابستگیها) دیدند خطاها چگونه در معماری پخش میشود و بر این اساس به الگوهای انعطافپذیرتر مانند retry با jitter و سقف، timeoutهای بودجهمحور، circuit breaker، backpressure، load shedding و طراحیهای idempotent روی آوردند. نتیجه، گذار از «تست قبولی/ردی» به ارزیابی احتمالاتی ریسک است که در CI/CD، برنامهریزی ظرفیت و اولویتبندی بهبودهای تابآوری به کار گرفته میشود.
#LoadTesting #ChaosEngineering #MonteCarlo #Reliability #Resilience #PerformanceEngineering #SRE #Scalability
🟣لینک مقاله:
https://cur.at/f4RKFUM?m=web
➖➖➖➖➖➖➖➖
👑 @software_Labdon
Medium
The Day I Stopped Trusting My Load Tests (And Started Simulating Chaos Instead)
Or: How Monte Carlo Simulation Saved me
🔵 عنوان مقاله
Seriously Testing LLMs
🟢 خلاصه مقاله:
این مقاله به این میپردازد که برای آزمون جدی LLMs چه نیاز است. نویسنده با تکیه بر مجموعهای از آزمایشها، نشان میدهد چرا اتکا به دمو یا امتیازهای سطحی کافی نیست و چگونه رفتار مدل با تغییر متن راهنما، زمینه و زمان تغییر میکند. James Bach در این مسیر روش LARC را معرفی میکند؛ رویکردی ساختیافته و اکتشافی برای برنامهریزی، اجرای آزمونها و تفسیر نتایج که بر طراحی موارد تنشی و خصمانه، مشاهده نظاممند و بهبود تکرارشونده تأکید دارد تا الگوهای خطا و محدودیتهای قابلیت اعتماد آشکار شوند. مقاله توضیح میدهد که چرا آزمون جامع دشوار و پرهزینه است: خروجیهای غیرقطعی، نبود داور قطعی برای «درستی»، حساسیت به Prompt و زمینه، بهروزرسانیهای مدل که بازتولیدپذیری را میشکنند، محدودیت معیارهای کمی، و نیاز به ابزار، داده، محاسبات و داوری انسانی. در نهایت پیشنهاد میشود آزمون LLM را یک کار تحقیقاتی-حرفهای ببینیم: اهداف و ریسکها را روشن کنیم، دادههای متنوع و خصمانه بسازیم، ثبت و رهگیری کامل انجام دهیم، و با اجرای تکرارشونده روش LARC میان عمق و وسعت، خودکارسازی و قضاوت کارشناسی، و هزینه و کفایت تصمیمگیری کنیم.
#LLMs #SoftwareTesting #AIQuality #Evaluation #PromptEngineering #Reliability #JamesBach #MachineLearning
🟣لینک مقاله:
https://cur.at/OfLtyHW?m=web
➖➖➖➖➖➖➖➖
👑 @software_Labdon
Seriously Testing LLMs
🟢 خلاصه مقاله:
این مقاله به این میپردازد که برای آزمون جدی LLMs چه نیاز است. نویسنده با تکیه بر مجموعهای از آزمایشها، نشان میدهد چرا اتکا به دمو یا امتیازهای سطحی کافی نیست و چگونه رفتار مدل با تغییر متن راهنما، زمینه و زمان تغییر میکند. James Bach در این مسیر روش LARC را معرفی میکند؛ رویکردی ساختیافته و اکتشافی برای برنامهریزی، اجرای آزمونها و تفسیر نتایج که بر طراحی موارد تنشی و خصمانه، مشاهده نظاممند و بهبود تکرارشونده تأکید دارد تا الگوهای خطا و محدودیتهای قابلیت اعتماد آشکار شوند. مقاله توضیح میدهد که چرا آزمون جامع دشوار و پرهزینه است: خروجیهای غیرقطعی، نبود داور قطعی برای «درستی»، حساسیت به Prompt و زمینه، بهروزرسانیهای مدل که بازتولیدپذیری را میشکنند، محدودیت معیارهای کمی، و نیاز به ابزار، داده، محاسبات و داوری انسانی. در نهایت پیشنهاد میشود آزمون LLM را یک کار تحقیقاتی-حرفهای ببینیم: اهداف و ریسکها را روشن کنیم، دادههای متنوع و خصمانه بسازیم، ثبت و رهگیری کامل انجام دهیم، و با اجرای تکرارشونده روش LARC میان عمق و وسعت، خودکارسازی و قضاوت کارشناسی، و هزینه و کفایت تصمیمگیری کنیم.
#LLMs #SoftwareTesting #AIQuality #Evaluation #PromptEngineering #Reliability #JamesBach #MachineLearning
🟣لینک مقاله:
https://cur.at/OfLtyHW?m=web
➖➖➖➖➖➖➖➖
👑 @software_Labdon
Satisfice, Inc.
Seriously Testing LLMs - Satisfice, Inc.
Michael and I are getting a lot of interest about how we apply Rapid Software Testing methodology both to test AI and to use AI in testing. We've developed various answers to such questions in recent years. But now that the book is done (and almost out!)…
👍1