Software Engineer Labdon

🔵 عنوان مقاله
Finally: Unit Testing for LLMs That Doesn't Require a PhD or $100K Budget

🟢 خلاصه مقاله:
** دکتر Ernesto Lee نشان می‌دهد برای ساخت اپلیکیشن‌های مبتنی بر LLM لازم نیست PhD یا بودجه‌های بسیار بزرگ داشته باشید تا تست خودکار جدی و مؤثر پیاده کنید. ایده اصلی این است که هر prompt، chain و فراخوانی ابزار را مثل یک واحد مستقل با مشخصات روشن ببینید و برای آن‌ها تست بنویسید: از اعتبارسنجی ساختار خروجی (مثلاً JSON Schema) و الزامات فیلدها، تا چک‌های ایمنی/سیاست و نمونه‌های طلایی دامنه‌ای. با snapshot test، داده‌های نمونه کم‌حجم اما پوشش‌دهنده لبه‌ها، و mock/stub برای وابستگی‌های خارجی، تست‌ها سریع، ارزان و قابل تکرار می‌مانند.

برای کنترل هزینه و نوسان، می‌توان پاسخ‌ها را cache کرد، بیشتر تست‌ها را با temperature=0 اجرا نمود، محدودیت توکن گذاشت، و مجموعه تست‌های «سریع» را از ارزیابی‌های «سنگین‌تر» دوره‌ای جدا کرد. نسخه‌دهی به promptها و داده‌های طلایی، گزارش‌کردن معیارها و اتصال این چرخه به CI باعث می‌شود هر تغییر کد یا prompt فوراً ارزیابی شود و رگرسیون‌ها دیده شوند. در صورت شکست تست، سریع مشخص کنید مشکل از تغییر prompt است، drift مدل بالادستی یا وابستگی ابزار، و همان یادگیری را به تست‌ها برگردانید.

نتیجه این رویکرد، چرخه توسعه سریع‌تر با اطمینان بیشتر و هزینه کنترل‌شده است. پیام Lee روشن است: Unit Testing عملی و مقیاس‌پذیر برای LLMها در دسترس همه تیم‌هاست، نه فقط تیم‌های بزرگ.

#LLM
#UnitTesting
#AIEngineering
#TestingAutomation
#MLOps
#PromptEngineering
#ContinuousIntegration
#QualityAssurance

🟣لینک مقاله:
https://cur.at/YHqFc9m?m=web

➖➖➖➖➖➖➖➖
👑 @software_Labdon

Medium

Finally: Unit Testing for LLMs That Doesn’t Require a PhD or $100K Budget

Stop manually reviewing AI outputs like it’s 2019. This pytest-style framework (DeepEval) tests LLMs with 40+ metrics, catches…

❤2

115 views05:30

Software Engineer Labdon

🔵 عنوان مقاله
How We Utilize AI Agents in Our Testing and Quality Processes

🟢 خلاصه مقاله:
این مقاله با روایت Utku Kılınçcı چهار کاربرد عملی از به‌کارگیری AI agents در تست و تضمین کیفیت را توضیح می‌دهد: ۱) تبدیل نیازمندی‌ها به تست‌های قابل اجرا و به‌روزرسانی مداوم سبد تست با تغییرات مشخصات، ۲) نقش همکار اکتشافی برای کشف سناریوهای مرزی، ثبت شواهد و بازتولید مشکل، ۳) تحلیل و اولویت‌بندی باگ‌ها از طریق خلاصه‌سازی لاگ‌ها، خوشه‌بندی خطاها و ارائه سرنخ‌های ریشه‌یابی، و ۴) بهبود پایداری رگرسیون و درگاه‌های کیفی CI با شناسایی تست‌های flaky، پیشنهاد خوددرمانی و بهینه‌سازی پایپ‌لاین. در همه موارد، نظارت انسانی، رعایت حریم داده و سنجش نتایج (پوشش، MTTR، روند flakiness و زمان چرخه) ضروری است. نتیجه: پذیرش تدریجی AI agents روی مسائل واقعی، سرعت، پایداری و پوشش تست را به‌طور ملموس افزایش می‌دهد بی‌آنکه مالکیت کیفیت را تضعیف کند.

#SoftwareTesting #AIagents #QualityAssurance #TestAutomation #BugTriage #ContinuousIntegration #SoftwareQuality #DevOps

🟣لینک مقاله:
https://cur.at/qRpZzn9?m=web

➖➖➖➖➖➖➖➖
👑 @software_Labdon

Medium

How We Utilize AI Agents in Our Testing and Quality Processes

Hello everyone. In this article, We will try to explain how we utilize AI tools in our team at Trendyol. The purpose of this article is to…

85 views11:31

About

Blog

Apps

Platform