Software Engineer Labdon

🔵 عنوان مقاله
How I Automated Test Scope Analysis with a CLI Tool

🟢 خلاصه مقاله:
** Josphine Job روند ساخت یک ابزار CLI با Node.js را توضیح می‌دهد که با استفاده از GitHub API تغییرات کد را به‌سرعت تحلیل می‌کند و پیشنهادهای هوشمند برای محدودهٔ تست ارائه می‌دهد. این ابزار با دریافت اطلاعات PR و commitها، فایل‌های تغییرکرده را بررسی و وابستگی‌ها را تحلیل می‌کند و سپس با لایهٔ هوش مصنوعی، سناریوهای تست اولویت‌دار (از واحد تا یکپارچه) پیشنهاد می‌دهد. خروجی می‌تواند در ترمینال، به‌صورت Markdown/JSON، یا به‌عنوان کامنت CI روی PR نمایش داده شود. ملاحظاتی مانند کش‌کردن، رعایت حریم خصوصی، و fallback آفلاین در نظر گرفته شده و هدف، کوتاه‌کردن چرخهٔ بازخورد و افزایش پوشش و اعتماد به تغییرات کد است.

#TestAutomation #CLI #NodeJS #GitHubAPI #AIinTesting #DevTools #CICD #SoftwareQuality

🟣لینک مقاله:
https://cur.at/SDG4cgz?m=web

➖➖➖➖➖➖➖➖
👑 @software_Labdon

Medium

How I Automated Test Scope Analysis with a CLI Tool

A Node.js tool that uses GitHub APIs to instantly analyze code changes, and generate AI-powered test recommendations

57 views11:30

Software Engineer Labdon

Forwarded from Linux Labdon

کاهش هزینه سیستم‌های هوش مصنوعی با Semantic Caching

با رشد مدل‌های زبانی بزرگ و پیشرفته، هزینه و زمان پاسخ‌دهی هم به شدت افزایش پیدا کرده. مدل‌هایی مثل GPT-5 یا Claude برای کارهای پیچیده فوق‌العاده‌اند، ولی استفاده از اون‌ها هم پرهزینه و هم کند محسوب می‌شه. از طرف دیگه، AI Agentها واقعاً «توکن‌خور» هستن؛ یعنی برای انجام یک کار معمولاً چندین مرحله طی می‌کنن: تحقیق، برنامه‌ریزی، عمل و بازتاب و تکرار. همین باعث می‌شه چندین بار با مدل تماس بگیرن و در نتیجه هزینه و تأخیر افزایش پیدا کنه و متن‌های طولانی‌تر تولید بشه. برای مثال، یه بنچمارک اخیر از TheAgentCompany در ۲۰۲۵ نشون داده اجرای کامل یک Agent گاهی تا ۶.۸ دلار هزینه داره.

یکی از مشکلات اصلی در دنیای واقعی، تکراری بودن سوال‌هاست، مخصوصاً توی پشتیبانی مشتری. کاربران دائماً سوال‌های مشابهی می‌پرسن: مثل «چطور پولم رو پس بگیرم؟» یا «شرایط بازگشت وجه چیه؟» و Agent مجبور می‌شه هر بار پاسخ رو از صفر تولید کنه. نتیجه‌ش افزایش هزینه، طولانی شدن زمان پاسخ و فشار بیشتر روی سیستم‌های RAG و زیرساخت‌هاست.

در نگاه اول، ممکنه فکر کنیم کش کلاسیک کفایت می‌کنه. ایده‌ی کش ساده اینه که اگر یک سوال قبلاً پاسخ داده شده، دوباره سراغ مدل نریم. ولی مشکل اینجاست که کش سنتی دنبال Exact Match یا تطابق دقیق متنه. سوال‌هایی که از نظر معنی یکی هستن ولی عبارت‌هاشون فرق می‌کنه، مثل: «می‌خوام پولم رو پس بگیرم»، «چطور می‌تونم درخواست بازگشت وجه بدم؟» و «سیاست بازگشت پولتون چیه؟»، همه Cache Miss می‌شن و کش عملاً استفاده نمی‌شه.

اینجاست که Semantic Caching وارد می‌شه. به جای تطابق کلمه‌به‌کلمه، کش به معنی و مفهوم جمله نگاه می‌کنه. مزیت اصلی‌ش اینه که Recall و Hit Rate بالاتره و احتمال استفاده از کش و صرفه‌جویی خیلی بیشتر می‌شه. البته چالشش هم اینه که گاهی ممکنه جواب بی‌ربط بده یا همون «False Positive» رخ بده.

روش کار Semantic Caching ساده است ولی هوشمندانه: ابتدا سوال کاربر به Embedding یا بردار عددی تبدیل می‌شه. بعد با بردارهای موجود در کش با Semantic Search مقایسه می‌شه. اگر فاصله معنایی کم باشه، پاسخ از کش برگردونده می‌شه؛ در غیر این صورت به RAG یا LLM می‌ریم. در نهایت سوال و پاسخ جدید هم ذخیره می‌شه تا دفعه بعدی قابل استفاده باشه.

پیاده‌سازی Semantic Caching با چالش‌هایی همراهه؛ مثل دقت (Accuracy) که آیا کش جواب درست می‌ده، کارایی (Performance) و میزان Cache Hit، سرعت سرویس‌دهی، آپدیت‌پذیری کش و اینکه آیا می‌تونیم کش رو گرم، تازه‌سازی یا پاکسازی کنیم. همچنین مشاهده‌پذیری (Observability) مهمه تا بتونیم hit rate، latency، صرفه‌جویی هزینه و کیفیت کش رو بسنجیم.

معیارهای اصلی سنجش کش شامل Cache Hit Rate هست که نشون می‌ده چند درصد درخواست‌ها از کش پاسخ داده می‌شن و Precision/Recall/F1 Score که کیفیت و دقت پاسخ‌ها رو مشخص می‌کنه. برای بهبود دقت و کارایی کش هم می‌تونیم Threshold فاصله رو تنظیم کنیم، Reranker اضافه کنیم مثل Cross-encoder یا LLM-as-a-judge، از Fuzzy Matching برای تایپوها استفاده کنیم و فیلترهای اضافی مثل تشخیص پرسش‌های زمان‌محور (Temporal) یا تشخیص کد (Python، Java و…) اعمال کنیم تا سوالات اشتباه وارد کش نشن.

یه مثال واقعی از این تکنولوژی پروژه waLLMartCache در Walmart هست. اون‌ها با نوآوری‌هایی مثل Load Balancer برای توزیع کش روی چند Node و Dual-tiered Storage که L1 = Vector DB و L2 = In-memory Cache مثل Redis هست، هم سرعت و هم دقت رو بالا بردن. Multi-tenancy هم باعث شده چند تیم یا اپلیکیشن از یک زیرساخت مشترک استفاده کنن. Decision Engine هم شامل تشخیص کد و زمانه و اگر سوال مناسب کش نباشه مستقیماً به LLM یا RAG می‌ره. نتیجه‌ش رسیدن به دقت نزدیک ۹۰٪ بوده.

<Reza Jafari/>

👉 https://t.iss.one/addlist/AJ7rh2IzIh02NTI0

❤2

34 views19:29

Software Engineer Labdon

🔵 عنوان مقاله
Seriously Testing LLMs

🟢 خلاصه مقاله:
این مقاله به این می‌پردازد که برای آزمون جدی LLMs چه نیاز است. نویسنده با تکیه بر مجموعه‌ای از آزمایش‌ها، نشان می‌دهد چرا اتکا به دمو یا امتیازهای سطحی کافی نیست و چگونه رفتار مدل با تغییر متن راهنما، زمینه و زمان تغییر می‌کند. James Bach در این مسیر روش LARC را معرفی می‌کند؛ رویکردی ساخت‌یافته و اکتشافی برای برنامه‌ریزی، اجرای آزمون‌ها و تفسیر نتایج که بر طراحی موارد تنشی و خصمانه، مشاهده نظام‌مند و بهبود تکرارشونده تأکید دارد تا الگوهای خطا و محدودیت‌های قابلیت اعتماد آشکار شوند. مقاله توضیح می‌دهد که چرا آزمون جامع دشوار و پرهزینه است: خروجی‌های غیرقطعی، نبود داور قطعی برای «درستی»، حساسیت به Prompt و زمینه، به‌روزرسانی‌های مدل که بازتولیدپذیری را می‌شکنند، محدودیت معیارهای کمی، و نیاز به ابزار، داده، محاسبات و داوری انسانی. در نهایت پیشنهاد می‌شود آزمون LLM را یک کار تحقیقاتی-حرفه‌ای ببینیم: اهداف و ریسک‌ها را روشن کنیم، داده‌های متنوع و خصمانه بسازیم، ثبت و رهگیری کامل انجام دهیم، و با اجرای تکرارشونده روش LARC میان عمق و وسعت، خودکارسازی و قضاوت کارشناسی، و هزینه و کفایت تصمیم‌گیری کنیم.

#LLMs #SoftwareTesting #AIQuality #Evaluation #PromptEngineering #Reliability #JamesBach #MachineLearning

🟣لینک مقاله:
https://cur.at/OfLtyHW?m=web

➖➖➖➖➖➖➖➖
👑 @software_Labdon

Satisfice, Inc.

Seriously Testing LLMs - Satisfice, Inc.

Michael and I are getting a lot of interest about how we apply Rapid Software Testing methodology both to test AI and to use AI in testing. We've developed various answers to such questions in recent years. But now that the book is done (and almost out!)…

👍1

55 views05:30

Software Engineer Labdon

🔵 عنوان مقاله
Spotter (GitHub Repo)

🟢 خلاصه مقاله:
Spotter یک اسکنر امنیتی متن‌باز در GitHub است که با تکیه بر قوانین مبتنی بر CEL، تنظیمات ناایمن و خطاهای پیکربندی را در خوشه‌های Kubernetes شناسایی می‌کند. این ابزار می‌تواند انواع منابع Kubernetes را بررسی کند، قواعد سفارشی‌سازی‌شده را برای استانداردهای داخلی پشتیبانی کند و هم روی خوشه‌های اجراشده و هم پیش از استقرار (در CI/CD یا GitOps) به کار رود. رویکرد policy-as-code آن، کشف سریع و قابل‌اقدام مسائل امنیتی و اجرای یکپارچه سیاست‌ها را ممکن می‌سازد؛ هرچند جایگزین لایه‌های دیگر مانند پایش در زمان اجرا یا اسکن تصاویر نیست و مکمل آن‌هاست.

#Kubernetes #Security #CEL #DevSecOps #CloudNative #OpenSource #PolicyAsCode #SecurityScanning

🟣لینک مقاله:
https://github.com/madhuakula/spotter?utm_source=tldrinfosec

➖➖➖➖➖➖➖➖
👑 @software_Labdon

GitHub

GitHub - madhuakula/spotter: Spotter is a comprehensive Kubernetes security scanner that uses CEL-based rules to identify security…

Spotter is a comprehensive Kubernetes security scanner that uses CEL-based rules to identify security vulnerabilities, misconfigurations, and compliance violations across your Kubernetes clusters, ...

51 views08:30

Software Engineer Labdon

🔵 عنوان مقاله
AI in Testing: Hype or Real Progress?

🟢 خلاصه مقاله:
این یادداشت با نگاهی عمل‌گرایانه، دیدگاه Arik Aharoni را درباره نقش واقعی هوش مصنوعی در تست نرم‌افزار شرح می‌دهد: او نشان می‌دهد کجاها AI ارزش ملموس ایجاد کرده و کجاها همچنان اغراق می‌شود. به‌گفته او، AI در تولید اولیه تست‌ها از نیازمندی‌ها، پیشنهاد موارد مرزی، کاهش شکنندگی تست‌های UI، شناسایی تست‌های flaky، خوشه‌بندی خطاها، اولویت‌بندی ریسک‌محور و ساخت داده‌های آزمایشی مفید است؛ همچنین در بررسی‌های بصری و دسترس‌پذیری می‌تواند رگرسیون‌های ظریف را آشکار کند.

در مقابل، خطاهای مدل‌های زبانی، عدم درک عمیق دامنه، محدودیت‌های امنیت و حریم خصوصی، و دشواری ارزیابی کیفیت تست‌های تولیدی، مانع اعتماد کامل می‌شوند. «عامل‌های» خودمختار تست بدون نظارت انسانی هنوز پایدار نیستند و AI جایگزین طراحی آگاه از معماری، تحلیل ریسک و تأیید انسانی نمی‌شود.

جمع‌بندی Aharoni این است: پیشروی واقعی اما تدریجی است. با اجرای آزمایشی کوچک، معیارهای روشن (مانند نرخ کشف عیب و پایداری تست) و جریان‌های human-in-the-loop، می‌توان از AI در حوزه‌هایی با سیگنال قوی—مثل نگهداشت و تریاژ شکست‌ها—بهره برد؛ AI باید مکمل مهارت تیم‌های QA و مهندسی باشد، نه جایگزین آن.

#AIinTesting #SoftwareTesting #QA #TestAutomation #QualityEngineering #LLM #DevOps #TestStrategy

🟣لینک مقاله:
https://cur.at/6kIevSo?m=web

➖➖➖➖➖➖➖➖
👑 @software_Labdon

Software Test Management | Testuff | SaaS Test Management

AI in Testing: Hype or Real Progress? | Software Test Management | Testuff

Discover how AI is reshaping software testing, from self-healing automation to predictive quality insights, and what it means for the future of QA.

57 views11:30

Software Engineer Labdon

وقتی غول‌ها هم زمین می‌خورند!

قطعی گسترده اخیر سرویس‌های کلادفلر (Cloudflare) که ناشی از یک تغییر پیکربندی (Configuration Change) بود، یک واقعیت قاطع را به ما یادآوری کرد: قابلیت اطمینان ۱۰۰ درصدی یک توهم است.
موفقیت در دنیای فناوری، در طراحی برای شکست (Design for Failure) و توانایی بازگشت سریع و شفاف است.

۴ درس عملیاتی حیاتی برای افزایش پایداری سیستم (Resilience)
این واقعه، یک مطالعه موردی ارزشمند برای هر سازمان در حال رشدی است که بر روی سیستم‌های توزیع‌شده (Distributed Systems) کار می‌کند:

۱. کاهش دامنه خطا (Blast Radius Reduction)
چالش: انتشار سریع یک خطای پیکربندی در کل شبکه.
استراتژی: پیاده‌سازی سختگیرانه انتشار تدریجی (Canary Deployments) و تقسیم‌بندی منطقی شبکه (Segmentation).
نکته کاربردی: مطمئن شوید که خطاهای پیکربندی در یک "منطقه کوچک" محبوس شده و پیش از گسترش به تمام نقاط، آزمایش شوند. فرآیندهای انتشار خود را مجدداً بررسی کنید.

۲. اهمیت شفافیت و ارتباطات بحران (Crisis Comms)
چالش: بی‌اعتمادی مشتریان در زمان سکوت.
استراتژی: از یک کانال ارتباطی ثانویه و کاملاً ایزوله (مانند یک صفحه وضعیت روی زیرساخت متفاوت) استفاده کنید.
نکته کاربردی: صداقت فنی را در اولویت قرار دهید. به‌روزرسانی‌های مکرر و فنی، حتی اگر کوتاه باشند ("ما هنوز در حال بررسی هستیم")، اعتماد را حفظ می‌کنند.

۳. مقاومت در برابر شکست‌های آبشاری (Cascading Failures)
چالش: تبدیل یک مشکل کوچک به یک بحران گسترده.
استراتژی: حذف وابستگی‌های متقابل (Decoupling) بین سرویس‌های حیاتی. اطمینان حاصل کنید که شکست یک سرویس فرعی، سرویس اصلی را از کار نیندازد.
نکته کاربردی: پیاده‌سازی مدارهای قطع کننده (Circuit Breakers) در کد، که در صورت شکست یک سرویس وابسته، درخواست را دور زده یا پاسخ از پیش تعیین شده (Failover) ارائه دهند.

۴. یادگیری پس از واقعه (Blameless Post-Mortem)
چالش: تکرار مشکلات بدون تحلیل عمیق.
استراتژی: بلافاصله یک تحلیل بدون سرزنش (Blameless Post-Mortem) آغاز کنید.
نکته کاربردی: تمرکز بر درک دلایل ریشه‌ای و بهبود فرآیندها، نه پیدا کردن مقصر. انتشار سریع و عمیق گزارش فنی (مانند کاری که کلادفلر انجام داد)، به بازگرداندن اعتماد و آموزش جامعه فنی کمک می‌کند.

اقدام کلیدی برای رهبران
این رویداد را به عنوان یک هشدار (Wake-Up Call) ببینید. آیا استراتژی‌های انتشار و طرح‌های ارتباطی شما می‌توانند در برابر یک خطای غیرمنتظره داخلی مقاومت کنند؟
"در دسترس بودن ۱۰۰ درصدی یک رؤیاست، بازگشت سریع و شفافیت ۱۰۰ درصدی یک تعهد است."

<Alireza DavoodiNia/>

279 views18:51

Software Engineer Labdon

🔵 عنوان مقاله
The New QA Mindset: Testing AI and LLMs

🟢 خلاصه مقاله:
تست محصولات مبتنی بر AI و به‌ویژه LLMs با نرم‌افزارهای کلاسیک فرق اساسی دارد: خروجی‌ها قطعی نیستند و به داده، پرامپت و زمینه وابسته‌اند. در نتیجه به‌جای «صحت دقیق»، باید کیفیت رفتاری، آستانه‌ها و شواهد آماری را سنجید. این رویکرد مستلزم تعریف معیارهای روشن، ساخت دیتاست‌های ارزیابی باکیفیت، اتکا به human-in-the-loop برای برچسب‌گذاری و تفسیر موارد مرزی، و پوشش سناریوهای متنوع و حتی مخرب (مانند prompt injection) است. جنبه‌های ایمنی، سوگیری، توهین‌آمیز بودن، حریم خصوصی و جلوگیری از hallucination به معیارهای پذیرش تبدیل می‌شوند. علاوه بر ارزیابی آفلاین، باید آزمایش‌های آنلاین، مانیتورینگ مستمر، فیدبک‌لوپ و طبقه‌بندی خطا برای اولویت‌بندی اصلاحات وجود داشته باشد. توصیه کلیدی Vladimir Josifoski این است که داده، پرامپت و سیاست‌ها را به‌عنوان مصنوعات قابل‌تست در نظر بگیرید، از ارزیابی آماری و پیوسته بهره ببرید، و هرجا لازم است قضاوت انسانی را وارد کنید تا کیفیت واقعی تضمین شود.

#AI #LLMs #QA #AITesting #QualityAssurance #MachineLearning #PromptEngineering

🟣لینک مقاله:
https://cur.at/8mbcLve?m=web

➖➖➖➖➖➖➖➖
👑 @software_Labdon

QAlogy

The New QA Mindset: Testing AI and LLMs - QAlogy

For years, QA engineers have tested deterministic systems — applications that behave predictably when given specific inputs. But with the rise of AI-driven apps and large language models (LLMs), the rules have changed. The systems we’re testing today are…

14 views05:30

About

Blog

Apps

Platform