Software Engineer Labdon

🔵 عنوان مقاله
The Day I Stopped Trusting My Load Tests (And Started Simulating Chaos Instead)

🟢 خلاصه مقاله:
**هری‌پراساث V S توضیح می‌دهد چرا به تست‌های بار سنتی که بر میانگین‌ها و سناریوهای قابل پیش‌بینی تکیه می‌کنند اعتماد نکرد و چگونه با به‌کارگیری روش Monte Carlo رفتارهای غیرقابل‌پیش‌بینی کاربران و رخدادهای دمِ‌سنگین را آشکار کرد. با مدل‌کردن عدم‌قطعیت‌ها به‌صورت توزیع‌های احتمالی و اجرای هزاران سناریوی تصادفی، آن‌ها توانستند احتمال ازدست‌رفتن SLO، تشکیل صف‌ها، و بروز جهش‌های تاخیری در p99+ را بسنجند؛ ریسک‌هایی که در تست‌های عادی پنهان می‌مانند، مثل هجوم هم‌زمان retryها، داغ‌شدن پارتیشن‌ها و اسپایک‌های نادر اما مخرب. سپس با تزریق آشوب (خرابی گره، packet loss، timeout، وقفه GC و اختلالات جزئی وابستگی‌ها) دیدند خطاها چگونه در معماری پخش می‌شود و بر این اساس به الگوهای انعطاف‌پذیرتر مانند retry با jitter و سقف، timeoutهای بودجه‌محور، circuit breaker، backpressure، load shedding و طراحی‌های idempotent روی آوردند. نتیجه، گذار از «تست قبولی/ردی» به ارزیابی احتمالاتی ریسک است که در CI/CD، برنامه‌ریزی ظرفیت و اولویت‌بندی بهبودهای تاب‌آوری به کار گرفته می‌شود.

#LoadTesting #ChaosEngineering #MonteCarlo #Reliability #Resilience #PerformanceEngineering #SRE #Scalability

🟣لینک مقاله:
https://cur.at/f4RKFUM?m=web

➖➖➖➖➖➖➖➖
👑 @software_Labdon

Medium

The Day I Stopped Trusting My Load Tests (And Started Simulating Chaos Instead)

Or: How Monte Carlo Simulation Saved me

79 views05:30

Software Engineer Labdon

🔵 عنوان مقاله
Seriously Testing LLMs

🟢 خلاصه مقاله:
این مقاله به این می‌پردازد که برای آزمون جدی LLMs چه نیاز است. نویسنده با تکیه بر مجموعه‌ای از آزمایش‌ها، نشان می‌دهد چرا اتکا به دمو یا امتیازهای سطحی کافی نیست و چگونه رفتار مدل با تغییر متن راهنما، زمینه و زمان تغییر می‌کند. James Bach در این مسیر روش LARC را معرفی می‌کند؛ رویکردی ساخت‌یافته و اکتشافی برای برنامه‌ریزی، اجرای آزمون‌ها و تفسیر نتایج که بر طراحی موارد تنشی و خصمانه، مشاهده نظام‌مند و بهبود تکرارشونده تأکید دارد تا الگوهای خطا و محدودیت‌های قابلیت اعتماد آشکار شوند. مقاله توضیح می‌دهد که چرا آزمون جامع دشوار و پرهزینه است: خروجی‌های غیرقطعی، نبود داور قطعی برای «درستی»، حساسیت به Prompt و زمینه، به‌روزرسانی‌های مدل که بازتولیدپذیری را می‌شکنند، محدودیت معیارهای کمی، و نیاز به ابزار، داده، محاسبات و داوری انسانی. در نهایت پیشنهاد می‌شود آزمون LLM را یک کار تحقیقاتی-حرفه‌ای ببینیم: اهداف و ریسک‌ها را روشن کنیم، داده‌های متنوع و خصمانه بسازیم، ثبت و رهگیری کامل انجام دهیم، و با اجرای تکرارشونده روش LARC میان عمق و وسعت، خودکارسازی و قضاوت کارشناسی، و هزینه و کفایت تصمیم‌گیری کنیم.

#LLMs #SoftwareTesting #AIQuality #Evaluation #PromptEngineering #Reliability #JamesBach #MachineLearning

🟣لینک مقاله:
https://cur.at/OfLtyHW?m=web

➖➖➖➖➖➖➖➖
👑 @software_Labdon

Satisfice, Inc.

Seriously Testing LLMs - Satisfice, Inc.

Michael and I are getting a lot of interest about how we apply Rapid Software Testing methodology both to test AI and to use AI in testing. We've developed various answers to such questions in recent years. But now that the book is done (and almost out!)…

👍1

49 views05:30

About

Blog

Apps

Platform