Forwarded from محتوای آزاد سهراب (Sohrab)
اضافیات:
این 9p که من ذکر کردم، پیادهسازی از فایلسیستم و پروتکل های plan9 هستش.
بله مایکروسافت از پروژه Plan9 استفاده میکنه توی استکنتورک و سایر جاهای wsl.
https://lwn.net/Articles/918213/
و البته خود plan9 هم پستهای جدایی میطلبه که چیه :))
https://9p.io/plan9/
@SohrabContents
این 9p که من ذکر کردم، پیادهسازی از فایلسیستم و پروتکل های plan9 هستش.
بله مایکروسافت از پروژه Plan9 استفاده میکنه توی استکنتورک و سایر جاهای wsl.
https://lwn.net/Articles/918213/
و البته خود plan9 هم پستهای جدایی میطلبه که چیه :))
https://9p.io/plan9/
@SohrabContents
9p.io
Plan 9 from Bell Labs
Plan 9 from Bell Labs, an open-source distributed system from the creators of Unix.
Forwarded from DevTwitter | توییت برنامه نویسی
چرا از جاوا و پایتون برای نرم افزارهای سیستم های هوافضا نمیشه استفاده کرد؟
1-قطعیت (Determinism):
در زبان هایی مثل جاوا و پایتون به خاطر وجود garbage collection و مبتنی بر JVM بودن اجرای برنامه دقیقا قابل پیش بینی نیست. ممکنه برنامه یه لحظه به خاطر garbage collector متوقف بشه یا pause کنه. تو نرم افزارهای real time همچین چیزی قابل قبول نیست.
به عبارت دیگه یه حلقه توی جاوا یه بار ممکنه یک میلی ثانیه طول بکشه اما دفعه بعد 5 میلی ثانیه طول بکشه دلیل این امر اینه که JIT و gc معلوم نیست کی عمل می کنن و حافظه رو پس می گیرن. پایتون هم به همین دلیل که gc داره عملکردش این شکلیه.
2-زمانبندی سخت گیرانه(Hard real-time constraints): نرم افزارهای هوافضا باید مشخص، کوتاه و قطعی واکنش نشان دهند اما جاوا و پایتون همچین تضمینی نمی دهند.
3-ایمنی و استانداردها :
صنعت هوافضا از استانداردهایی مثل DO-178C پیروی میکند. Ada و C ابزارها و کتابخانههای تأییدشدهای برای این استاندارد دارند اما برای جاوا و پایتون چنین پشتیبانی و تأیید رسمی بسیار محدود یا تقریباً وجود ندارد.
4-کارایی (Performance & Footprint):
پایتون کنده چون مفسریه جاوا هم به خاطر JVM و مدیریت حافظه سربار زیادی داره که خب توی سیستم های هوافضا که سرعت مهمه و منابع سخت افزاری محدودی داریم نمیشه یه برنامه کند و برنامه ای که کلی منابع میخواد رو اجرا کنیم.
در نهایت باید بگم که زبان هایی که باهاشون نرم افزارهای سیستم های هوافضا، نظامی و حساس رو میسازن Ada-Spark ada - C و جدیدا Rust هستند.
@DevTwitter | <Mohsen Shojaei Yeganeh/>
1-قطعیت (Determinism):
در زبان هایی مثل جاوا و پایتون به خاطر وجود garbage collection و مبتنی بر JVM بودن اجرای برنامه دقیقا قابل پیش بینی نیست. ممکنه برنامه یه لحظه به خاطر garbage collector متوقف بشه یا pause کنه. تو نرم افزارهای real time همچین چیزی قابل قبول نیست.
به عبارت دیگه یه حلقه توی جاوا یه بار ممکنه یک میلی ثانیه طول بکشه اما دفعه بعد 5 میلی ثانیه طول بکشه دلیل این امر اینه که JIT و gc معلوم نیست کی عمل می کنن و حافظه رو پس می گیرن. پایتون هم به همین دلیل که gc داره عملکردش این شکلیه.
2-زمانبندی سخت گیرانه(Hard real-time constraints): نرم افزارهای هوافضا باید مشخص، کوتاه و قطعی واکنش نشان دهند اما جاوا و پایتون همچین تضمینی نمی دهند.
3-ایمنی و استانداردها :
صنعت هوافضا از استانداردهایی مثل DO-178C پیروی میکند. Ada و C ابزارها و کتابخانههای تأییدشدهای برای این استاندارد دارند اما برای جاوا و پایتون چنین پشتیبانی و تأیید رسمی بسیار محدود یا تقریباً وجود ندارد.
4-کارایی (Performance & Footprint):
پایتون کنده چون مفسریه جاوا هم به خاطر JVM و مدیریت حافظه سربار زیادی داره که خب توی سیستم های هوافضا که سرعت مهمه و منابع سخت افزاری محدودی داریم نمیشه یه برنامه کند و برنامه ای که کلی منابع میخواد رو اجرا کنیم.
در نهایت باید بگم که زبان هایی که باهاشون نرم افزارهای سیستم های هوافضا، نظامی و حساس رو میسازن Ada-Spark ada - C و جدیدا Rust هستند.
@DevTwitter | <Mohsen Shojaei Yeganeh/>
Forwarded from Geek Alerts
مدل GLM-4.6 منتشر شد، با ادعای برابری با Claude Sonnet 4.5 ولی یک هفتم قیمت. البته در همه فاکتورها مخصوصا کدنویسی برابری نمیکنه اما مهمترین فاکتورش قیمتهای کم و عملکرد در سطح مدلهای پرچمدار شرکتهای بزرگ هست.
اصل استفادهای که همه ازش میکنن برای کدنویسی، ساخت صفحات وب، ترجمه، تولید محتوا و ساخت پاورپوینت هست. از ۱۲۸ هزار توکن هم حالا به ۲۰۰ هزار توکن افزایش داشته. نسخه پولی این مدل فقط ۳ دلار قیمت داره. [L]
https://z.ai
🤓 @geekalerts
اصل استفادهای که همه ازش میکنن برای کدنویسی، ساخت صفحات وب، ترجمه، تولید محتوا و ساخت پاورپوینت هست. از ۱۲۸ هزار توکن هم حالا به ۲۰۰ هزار توکن افزایش داشته. نسخه پولی این مدل فقط ۳ دلار قیمت داره. [L]
https://z.ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Geek Alerts
Media is too big
VIEW IN TELEGRAM
مدل Sora 2 از OpenAI معرفی شد، ویژگی اصلیش تولید صدا هست، میتونه دیالوگ یا جلوههای صوتی تولید کنه، در کنارش یه اپ اختصاصی به اسم Sora هم معرفی کردن که یه چیزی شبیه به تیکتاک هست، در واقع هرکسی که چیزی با Sora بسازه میتونه ویدیو خروجیش رو برای بقیه هم در دسترس بذاره.
یکی از چیزهایی که توی این مدل درست کردن باگهای تصویری بود، مثلا آدمها توی همدیگه میرفتن، یا یه نفر انگشتهای زیادی داشت، این مدل شبیهسازی دقیق نیروی شناوری و سختی جسم رو داره که میتونه تصاویر ورزشی رو کمنقص اجرا کنه.
توی نسخه اپ Sora هم افراد امکان فالو کردن همدیگه رو دارن، یه ویژگی هم به اسم Cameo داره که میتونید خودتون یا یک چیزی که اطرافتون هست رو یه ویدیو کوتاه ازش ضبط کنید و با یکی از صحنههای AI ترکیبش کنید.
فعلا اپ Sora فقط برای IOS اونهم در اپ استور آمریکا و کانادا در دسترس هست، استفاده ازش هم برای مدت محدودی رایگان هست، کاربرهای اشتراک PRO هم به نسخهای باکیفیتتر به اسم Sora 2 Pro دسترسی خواهند داشت.
گفتن دارن نسخه اندرویدی رو هم میسازن، اگه تصمیم داشتید از این اپ استفاده کنید بدونید فعلا ممکنه فقط با آیپی آمریکا کار کنه. [L]
AppStore
🤓 @geekalerts
یکی از چیزهایی که توی این مدل درست کردن باگهای تصویری بود، مثلا آدمها توی همدیگه میرفتن، یا یه نفر انگشتهای زیادی داشت، این مدل شبیهسازی دقیق نیروی شناوری و سختی جسم رو داره که میتونه تصاویر ورزشی رو کمنقص اجرا کنه.
توی نسخه اپ Sora هم افراد امکان فالو کردن همدیگه رو دارن، یه ویژگی هم به اسم Cameo داره که میتونید خودتون یا یک چیزی که اطرافتون هست رو یه ویدیو کوتاه ازش ضبط کنید و با یکی از صحنههای AI ترکیبش کنید.
فعلا اپ Sora فقط برای IOS اونهم در اپ استور آمریکا و کانادا در دسترس هست، استفاده ازش هم برای مدت محدودی رایگان هست، کاربرهای اشتراک PRO هم به نسخهای باکیفیتتر به اسم Sora 2 Pro دسترسی خواهند داشت.
گفتن دارن نسخه اندرویدی رو هم میسازن، اگه تصمیم داشتید از این اپ استفاده کنید بدونید فعلا ممکنه فقط با آیپی آمریکا کار کنه. [L]
AppStore
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from کانال مهرداد لینوکس
خبر های PostgreSQL ای 😎
نسخه های جدید ابزار های :
✅ ابزار pgwatch v4: مانیتورینگ PostgreSQL برای جمعآوری و نمایش متریکهای عملکرد دیتابیس.
✅ابزار Autobase 2.4.0: مدیریت خودکار نسخهبندی (schema migrations) و تغییرات ساختار
✅افزونه pg_stat_kcache 2.3.1:مشاهده آمار مصرف CPU و I/O کوئریها از طریق kernel.
منتشر شد
#خبر
نسخه های جدید ابزار های :
✅ ابزار pgwatch v4: مانیتورینگ PostgreSQL برای جمعآوری و نمایش متریکهای عملکرد دیتابیس.
✅ابزار Autobase 2.4.0: مدیریت خودکار نسخهبندی (schema migrations) و تغییرات ساختار
✅افزونه pg_stat_kcache 2.3.1:مشاهده آمار مصرف CPU و I/O کوئریها از طریق kernel.
منتشر شد
#خبر
Forwarded from Linuxor ?
ایرانسل احتمالا داره با هوش مصنوعی پیام میفرسته، پیام ها کاملا کاستومایز شده هستن یعنی میدونه گوشی من سامسونگه و ورژن Ui گوشیم هم 7 هست با توجه به اون داره راهنمایی میکنه چطوری گوشیم رو 5G کنم.
عجب ایده خفنی، این دیتا دیتای معمولی و پابلیکه احتمالا توی وبسایتی چیزیشون کلیک کردم و مدل گوشیم رو در آوردن و با مدل های زبانی خودکار یه راهنمایی اختصاصی برام ساختن !
@Linuxor
عجب ایده خفنی، این دیتا دیتای معمولی و پابلیکه احتمالا توی وبسایتی چیزیشون کلیک کردم و مدل گوشیم رو در آوردن و با مدل های زبانی خودکار یه راهنمایی اختصاصی برام ساختن !
@Linuxor
Forwarded from Linuxor ?
This media is not supported in your browser
VIEW IN TELEGRAM
میدونستین میتونید SVG هارو به صورت انیمیشنی توی سایتتون نشون بدید ؟ کافیه از این لایبری جاوااسکریپت استفاده کنید، سایتتون رو از حالت خشک در میآره و زنده میکنه:
github.com/maxwellito/vivus
@Linuxor
github.com/maxwellito/vivus
@Linuxor
Forwarded from Software Engineer Labdon
چرا از جاوا و پایتون برای نرم افزارهای سیستم های هوافضا نمیشه استفاده کرد؟
1-قطعیت (Determinism):
در زبان هایی مثل جاوا و پایتون به خاطر وجود garbage collection و مبتنی بر JVM بودن اجرای برنامه دقیقا قابل پیش بینی نیست. ممکنه برنامه یه لحظه به خاطر garbage collector متوقف بشه یا pause کنه. تو نرم افزارهای real time همچین چیزی قابل قبول نیست.
به عبارت دیگه یه حلقه توی جاوا یه بار ممکنه یک میلی ثانیه طول بکشه اما دفعه بعد 5 میلی ثانیه طول بکشه دلیل این امر اینه که JIT و gc معلوم نیست کی عمل می کنن و حافظه رو پس می گیرن. پایتون هم به همین دلیل که gc داره عملکردش این شکلیه.
2-زمانبندی سخت گیرانه(Hard real-time constraints): نرم افزارهای هوافضا باید مشخص، کوتاه و قطعی واکنش نشان دهند اما جاوا و پایتون همچین تضمینی نمی دهند.
3-ایمنی و استانداردها :
صنعت هوافضا از استانداردهایی مثل DO-178C پیروی میکند. Ada و C ابزارها و کتابخانههای تأییدشدهای برای این استاندارد دارند اما برای جاوا و پایتون چنین پشتیبانی و تأیید رسمی بسیار محدود یا تقریباً وجود ندارد.
4-کارایی (Performance & Footprint):
پایتون کنده چون مفسریه جاوا هم به خاطر JVM و مدیریت حافظه سربار زیادی داره که خب توی سیستم های هوافضا که سرعت مهمه و منابع سخت افزاری محدودی داریم نمیشه یه برنامه کند و برنامه ای که کلی منابع میخواد رو اجرا کنیم.
در نهایت باید بگم که زبان هایی که باهاشون نرم افزارهای سیستم های هوافضا، نظامی و حساس رو میسازن Ada-Spark ada - C و جدیدا Rust هستند.
<Mohsen Shojaei Yeganeh/>
👇👇👇👇👇👇👇
@software_Labdon
1-قطعیت (Determinism):
در زبان هایی مثل جاوا و پایتون به خاطر وجود garbage collection و مبتنی بر JVM بودن اجرای برنامه دقیقا قابل پیش بینی نیست. ممکنه برنامه یه لحظه به خاطر garbage collector متوقف بشه یا pause کنه. تو نرم افزارهای real time همچین چیزی قابل قبول نیست.
به عبارت دیگه یه حلقه توی جاوا یه بار ممکنه یک میلی ثانیه طول بکشه اما دفعه بعد 5 میلی ثانیه طول بکشه دلیل این امر اینه که JIT و gc معلوم نیست کی عمل می کنن و حافظه رو پس می گیرن. پایتون هم به همین دلیل که gc داره عملکردش این شکلیه.
2-زمانبندی سخت گیرانه(Hard real-time constraints): نرم افزارهای هوافضا باید مشخص، کوتاه و قطعی واکنش نشان دهند اما جاوا و پایتون همچین تضمینی نمی دهند.
3-ایمنی و استانداردها :
صنعت هوافضا از استانداردهایی مثل DO-178C پیروی میکند. Ada و C ابزارها و کتابخانههای تأییدشدهای برای این استاندارد دارند اما برای جاوا و پایتون چنین پشتیبانی و تأیید رسمی بسیار محدود یا تقریباً وجود ندارد.
4-کارایی (Performance & Footprint):
پایتون کنده چون مفسریه جاوا هم به خاطر JVM و مدیریت حافظه سربار زیادی داره که خب توی سیستم های هوافضا که سرعت مهمه و منابع سخت افزاری محدودی داریم نمیشه یه برنامه کند و برنامه ای که کلی منابع میخواد رو اجرا کنیم.
در نهایت باید بگم که زبان هایی که باهاشون نرم افزارهای سیستم های هوافضا، نظامی و حساس رو میسازن Ada-Spark ada - C و جدیدا Rust هستند.
<Mohsen Shojaei Yeganeh/>
👇👇👇👇👇👇👇
@software_Labdon
Forwarded from Linuxor ?
باید یه قانونی بزارن که شرکتا و سایتا حق احراز هویت دیجیتال با چهره و کارت ملی و... نداشته باشن. چون از یه طرفی توان حفاظت از دیتا وجود نداره از یه طرفی هم کار کاربرا راحت میشه فقط یه جا یه احراز هویت جامع انجام میدیم شبیه OAuth به هر اپلیکیشنی اثبات های لازم (نه عکس و فیلم از خودمون اثبات یعنی فقط تاییدش) رو میدیم.
(این قانون حتی توی اروپا و کشور های مدرن هم وجود نداره ولی جایگزین های حدودی داره)
@Linuxor
(این قانون حتی توی اروپا و کشور های مدرن هم وجود نداره ولی جایگزین های حدودی داره)
@Linuxor
Forwarded from 🎄 یک برنامه نویس تنبل (Lazy 🌱)
🔶 به درخواست دکتر پیامک, پنل پیامکی آن در افزونه ورود موبایلی Authora اضافه می شود.
https://drpayamak.com
#وردپرس
@TheRaymondDev
https://drpayamak.com
#وردپرس
@TheRaymondDev
دکترپیامک
دکترپیامک - پنل پیامکی اختصاصی شما - دکترپیامک
دکترپیامک درگاه پیامک حرفه ای شما - ارتباطی بی وقفه با مشتریان خود داشته باشید. دکتر پیامک دستیار فروش و بازاریابی شما در جذب بهتر مشتری با امکانات پیشرفته است
Forwarded from محتوای آزاد سهراب (Sohrab)
خب در فرصت پیش آمده هم وبسایتم رو آپدیت کردم هم صفحه گیتهابم رو که از پارسال بهروز نشده بود و من توش هنوز ۱۹ ساله بودم.
sohrabbehdani.ir
github.com/behdanisohrab
@SohrabContents
sohrabbehdani.ir
github.com/behdanisohrab
@SohrabContents
Forwarded from a pessimistic researcher (Kc)
آقا Srinidhi از AMD آفر گرفته و تا یه ماه دیگه میره. از طرفی خیلی خوشحالم براش که بالاخره تو مسیر پیشرفتش داره پیش میره و از طرفی شدیدا پنیک کردم که اگر Srinidhi بره من خیلی تنها میشم. خوبیه بودنش این بود که خیالم از ساید پیادهسازی خیلی راحت بود و آسوده خاطر روی تئوری کار میکردم. با رفتنش دوباره کل لود پیادهسازی میاد روی من و منم اصلا تجربه و مهارت اونو ندارم :( آه از آن رفتگان بی برگشت
Forwarded from a pessimistic researcher (Kc)
Software Engineer Intern @ Snowflake, Berlin
—————————————————————
یه فرصت خیلی عالی برای دوستان ارشد و دکتری که توی اروپا تحصیل میکنند و بکگراند سیستمی و دیتابیسی دارن.
If you’re looking for an internship at the cutting edge of AI and Data, Snowflake Berlin has just opened its 2026 Internship Program! 🎉
We’re on the lookout for multiple talented interns to join us on this journey, so if this sounds like you (or your friends), now’s the time to apply!
Don’t miss the chance to work on real challenges, learn from world-class engineers, and shape the future of data. 💡✨
Link
—————————————————————
یه فرصت خیلی عالی برای دوستان ارشد و دکتری که توی اروپا تحصیل میکنند و بکگراند سیستمی و دیتابیسی دارن.
If you’re looking for an internship at the cutting edge of AI and Data, Snowflake Berlin has just opened its 2026 Internship Program! 🎉
We’re on the lookout for multiple talented interns to join us on this journey, so if this sounds like you (or your friends), now’s the time to apply!
Don’t miss the chance to work on real challenges, learn from world-class engineers, and shape the future of data. 💡✨
Link
Snowflake Careers
Software Engineer Intern - Berlin (2026) | Berlin, Germany | Engineering
Apply for Software Engineer Intern - Berlin (2026) job with Snowflake in Berlin, Germany. Engineering at Snowflake
Forwarded from 🎄 یک برنامه نویس تنبل (Lazy 🌱)
This media is not supported in your browser
VIEW IN TELEGRAM
🔶 قسمت جدید طراحی سایت شرکتی با لاراول ۱۲ منتشر شد.
۱۱- ایجاد دسته بندی (آیتم) برای نمونه کارها
قیمت دوره با تخفیف ۴۰ درصد : ۹۰۰,۰۰۰ تومان
https://rayium.ir/course/?p=1613
#لاراول
@TheRaymondDev
۱۱- ایجاد دسته بندی (آیتم) برای نمونه کارها
قیمت دوره با تخفیف ۴۰ درصد : ۹۰۰,۰۰۰ تومان
https://rayium.ir/course/?p=1613
#لاراول
@TheRaymondDev
Forwarded from haashemi.dev
با این ربات میتونید امتیاز دلقکی همگروهیهاتون رو افزایش بدید! با هر بار ریپلای دستور
clown/، «دلقک» یا «🤡» یکامتیاز به دلقکی فرد مذکور اضافه میشه.Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from haashemi.dev
کوتاه: دلیلی ندارم!
در حال گفتگو در گروه جامعهی فولاستکس بودیم که خیلی یهویی ایدهش به ذهنم رسید (اینجا) و بعد از بیانش بدون هیچ هدفی، با خودم گفتم چرا که نه!
با هر چیزی که تا حالا کار نکردم!
زبان Typescript، رانتایم Node.js، فریمورک grammY و برای دیتابیس هم drizzle-orm.
خیلی یهویی و بدون دانش و محاسبات قبلی نوشته شده، لذا اگه کدش زیاد جالب نیست، معلومه یه چیزایی بلدید. پس PR بزنید.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Linuxor ?
چه چیزی باعث شد ایلان ماسک برنامه نویسی یاد بگیرد؟
Anonymous Quiz
30%
بازی های ویدیوی
31%
سوال انحرافی است ایلان ماسک اصلا برنامه نویس نبوده است
24%
اپلیکیشن پرداخت paypal
15%
حالا یه برنامه نویسی یاد گرفتن همچین چیز خفنی هم نیست که سوال ازش میسازی!
Forwarded from متخصص وردپرس | پوینا via @vote
به نظر شما درآمد سایت فروش فایل بیشتره یا فروش محصولات فیزیکی ؟
anonymous poll
فروش فایل – 213
👍👍👍👍👍👍👍 75%
فروش محصولات فیزیکی – 71
👍👍 25%
👥 284 people voted so far.
anonymous poll
فروش فایل – 213
👍👍👍👍👍👍👍 75%
فروش محصولات فیزیکی – 71
👍👍 25%
👥 284 people voted so far.
Forwarded from Reza Jafari
از بنچمارکهای عمومی تا بنچمارکهای داخلی؛ چرا باید جدیشون بگیریم؟
ساختن internal benchmarks برای ارزیابی مدلهای زبانی بزرگ (LLM) یکی از مهمترین ابزارها برای درک واقعی از تواناییها و محدودیتهای مدل در کاربردهای خاصه. معیارهای عمومی که معمولا در تحقیقات یا گزارشهای رسمی منتشر میشن، بیشتر برای سنجش عملکرد کلی طراحی شدن و لزوما با نیازهای سازمان یا پروژه ما هماهنگ نیستن. به همین خاطر، وقتی میخوایم مدلی رو وارد محیط عملیاتی کنیم، لازم داریم معیارهایی طراحی کنیم که دقیقا همراستا با وظایف واقعی و اهداف ما باشن.
اولین قدم در طراحی benchmark داخلی اینه که مشخص کنیم دقیقا چه وظایف یا tasksی برای ما اهمیت دارن. مثلا ممکنه سازمان به توانایی مدل در خلاصهسازی، تولید کد، پاسخگویی به سؤالات تخصصی یا تحلیل متون نیاز داشته باشه. بعد از این مرحله باید دادهها و ورودیهایی جمعآوری بشن که بهخوبی بازتابدهنده همون حوزه باشن. این دادهها بهتره تنوع داشته باشن؛ بعضی ساده، بعضی متوسط و بعضی دشوار تا عملکرد مدل در سطوح مختلف بررسی بشه.
در گام بعد باید معیارهای ارزیابی یا evaluation metrics رو مشخص کنیم. این معیارها تنها به دقت یا accuracy محدود نمیشن، بلکه میتونن شامل شاخصهایی مثل روانی متن (fluency)، واقعگرایی و درستی اطلاعات (factuality)، ارتباط پاسخ با پرسش، و حتی پایداری (consistency) باشن. وزن هر معیار هم بسته به اهداف سازمان قابل تغییر و تنظیمه. بعد از اجرای مدل روی این ورودیها و جمعآوری نتایج، باید تحلیل دقیقی روی خطاها انجام بشه. این تحلیل کمک میکنه بفهمیم مدل دقیقا در چه موقعیتهایی ضعف نشون میده و چه الگوهای مشترکی در خروجیهای نامطلوب دیده میشن.
ساختن benchmark یک فرآیند ایستا نیست؛ بلکه نیازمند بازبینی و اصلاح مداومه. ممکنه بعد از چند بار اجرا لازم باشه دادههای جدید اضافه کنیم، ورودیها رو متنوعتر کنیم یا حتی وزن معیارها رو تغییر بدیم تا نتایج واقعیتر بشن. این چرخه تکراری باعث میشه benchmark به مرور دقیقتر و ارزشمندتر بشه. علاوه بر این، حتی بعد از اینکه مدل در محیط عملیاتی مستقر شد، لازمه همچنان benchmark داخلی اجرا بشه تا افت عملکرد یا تغییر رفتار مدل بهموقع شناسایی بشه.
البته این مسیر چالشهای خودش رو هم داره. تولید دادههای متنوع و باکیفیت زمانبره، و همیشه خطر overfitting روی دادههای benchmark وجود داره؛ یعنی مدل فقط برای همون ورودیها خوب جواب بده ولی در دنیای واقعی ضعیف عمل کنه. از طرف دیگه، معیارهایی مثل factuality یا اخلاقی بودن جوابها بهخاطر نداشتن پاسخ مطلق، سختتر قابل اندازهگیری هستن. به همین خاطر، همیشه باید تعادلی بین سادگی معیار و قدرت تفکیکدهندگی اون برقرار بشه.
بهطور خلاصه، internal benchmark ابزاریه که اگر درست طراحی و مدیریت بشه، میتونه به ما کمک کنه تصویری دقیقتر از تواناییهای واقعی LLM داشته باشیم و اطمینان پیدا کنیم که مدل در شرایط واقعی همون عملکردی رو نشون میده که انتظار داریم.
🔤 🔤 🔤 🔤 🔤 🔤 🔤
🥇 اهورا ارائه دهنده زیرساختهای هوش مصنوعی مبتنی بر GPU
🌐 لینک ارتباط با اهورا
@reza_jafari_ai
ساختن internal benchmarks برای ارزیابی مدلهای زبانی بزرگ (LLM) یکی از مهمترین ابزارها برای درک واقعی از تواناییها و محدودیتهای مدل در کاربردهای خاصه. معیارهای عمومی که معمولا در تحقیقات یا گزارشهای رسمی منتشر میشن، بیشتر برای سنجش عملکرد کلی طراحی شدن و لزوما با نیازهای سازمان یا پروژه ما هماهنگ نیستن. به همین خاطر، وقتی میخوایم مدلی رو وارد محیط عملیاتی کنیم، لازم داریم معیارهایی طراحی کنیم که دقیقا همراستا با وظایف واقعی و اهداف ما باشن.
اولین قدم در طراحی benchmark داخلی اینه که مشخص کنیم دقیقا چه وظایف یا tasksی برای ما اهمیت دارن. مثلا ممکنه سازمان به توانایی مدل در خلاصهسازی، تولید کد، پاسخگویی به سؤالات تخصصی یا تحلیل متون نیاز داشته باشه. بعد از این مرحله باید دادهها و ورودیهایی جمعآوری بشن که بهخوبی بازتابدهنده همون حوزه باشن. این دادهها بهتره تنوع داشته باشن؛ بعضی ساده، بعضی متوسط و بعضی دشوار تا عملکرد مدل در سطوح مختلف بررسی بشه.
در گام بعد باید معیارهای ارزیابی یا evaluation metrics رو مشخص کنیم. این معیارها تنها به دقت یا accuracy محدود نمیشن، بلکه میتونن شامل شاخصهایی مثل روانی متن (fluency)، واقعگرایی و درستی اطلاعات (factuality)، ارتباط پاسخ با پرسش، و حتی پایداری (consistency) باشن. وزن هر معیار هم بسته به اهداف سازمان قابل تغییر و تنظیمه. بعد از اجرای مدل روی این ورودیها و جمعآوری نتایج، باید تحلیل دقیقی روی خطاها انجام بشه. این تحلیل کمک میکنه بفهمیم مدل دقیقا در چه موقعیتهایی ضعف نشون میده و چه الگوهای مشترکی در خروجیهای نامطلوب دیده میشن.
ساختن benchmark یک فرآیند ایستا نیست؛ بلکه نیازمند بازبینی و اصلاح مداومه. ممکنه بعد از چند بار اجرا لازم باشه دادههای جدید اضافه کنیم، ورودیها رو متنوعتر کنیم یا حتی وزن معیارها رو تغییر بدیم تا نتایج واقعیتر بشن. این چرخه تکراری باعث میشه benchmark به مرور دقیقتر و ارزشمندتر بشه. علاوه بر این، حتی بعد از اینکه مدل در محیط عملیاتی مستقر شد، لازمه همچنان benchmark داخلی اجرا بشه تا افت عملکرد یا تغییر رفتار مدل بهموقع شناسایی بشه.
البته این مسیر چالشهای خودش رو هم داره. تولید دادههای متنوع و باکیفیت زمانبره، و همیشه خطر overfitting روی دادههای benchmark وجود داره؛ یعنی مدل فقط برای همون ورودیها خوب جواب بده ولی در دنیای واقعی ضعیف عمل کنه. از طرف دیگه، معیارهایی مثل factuality یا اخلاقی بودن جوابها بهخاطر نداشتن پاسخ مطلق، سختتر قابل اندازهگیری هستن. به همین خاطر، همیشه باید تعادلی بین سادگی معیار و قدرت تفکیکدهندگی اون برقرار بشه.
بهطور خلاصه، internal benchmark ابزاریه که اگر درست طراحی و مدیریت بشه، میتونه به ما کمک کنه تصویری دقیقتر از تواناییهای واقعی LLM داشته باشیم و اطمینان پیدا کنیم که مدل در شرایط واقعی همون عملکردی رو نشون میده که انتظار داریم.
@reza_jafari_ai
Please open Telegram to view this post
VIEW IN TELEGRAM