Forwarded from Linuxor ?
کمپانی Uber توی یک بلاگ جالب توضیح میده که چطور چت بات داخلی که ساختند تا به تیم پشتیبانی در جواب دادن به هزاران سوال دقتی در حد انسان داره.
این چت بات بر اساس معماری Agentic-RAG پیاده سازی شده و بهش چندتا قسمت اضافه کردند:
- ایجنتهای پیشازبازیابی: کوئری رو بهینه میکنن و منبع درست رو پیدا میکنن
- بازیاب ترکیبی (برداری + BM25 با متادیتای غنی) → بازیابی دقیقتر
- ایجنت پس از پردازش: چانک های تکراریها رو حذف میکنه و متن رو مرتب میکنه یا به اصطلاح rerank میکنه
بلاگشون را بخونید که توضیح میده چطور مدل را ارزیابی کردن با استفاده از روش LLM-as-Judge
نکات مهم و جالبی داره اگه نیاز به ساختن ایجنتهای مشابه دارید در یوزکیس های مختلف.
www.uber.com/en-GB/blog/enhanced-agentic-rag
@Linuxor ~ MehdiAllahyari
این چت بات بر اساس معماری Agentic-RAG پیاده سازی شده و بهش چندتا قسمت اضافه کردند:
- ایجنتهای پیشازبازیابی: کوئری رو بهینه میکنن و منبع درست رو پیدا میکنن
- بازیاب ترکیبی (برداری + BM25 با متادیتای غنی) → بازیابی دقیقتر
- ایجنت پس از پردازش: چانک های تکراریها رو حذف میکنه و متن رو مرتب میکنه یا به اصطلاح rerank میکنه
بلاگشون را بخونید که توضیح میده چطور مدل را ارزیابی کردن با استفاده از روش LLM-as-Judge
نکات مهم و جالبی داره اگه نیاز به ساختن ایجنتهای مشابه دارید در یوزکیس های مختلف.
www.uber.com/en-GB/blog/enhanced-agentic-rag
@Linuxor ~ MehdiAllahyari
bü äksäm Ölürüm
Morad
این یکی از آهنگایی هست که از گذشته گوشش میدادم و هرگز برام تکراری نشده
Forwarded from Linuxor ?
کلی سند فاششده نشون میده که شرکت چینی Geedge Networks فناوریهایی مشابه «دیوار آتش بزرگ چین» رو به دولتهای مختلف مثل پاکستان و قزاقستان و ... صادر میکنه. این شرکت بهظاهر خودش رو ارائهدهنده ابزارهای امنیت سایبری معرفی میکنه اما در واقع سیستمهای گسترده نظارت و سانسور اینترنت مثل DPI میفروشه
محصول اصلی این شرکت با نام Tiangou Secure Gateway (TSG) قادره کل ترافیک اینترنت یه کشور رو پردازش، شنود و مسدود کند. این سیستم میتونه اطلاعات حساس رو از ارتباطات رمزنگارینشده استخراج کنه و با استفاده از فناوری بازرسی عمیق بستهها (DPI) و یادگیری ماشینی، کاربران VPN و ابزارهای ضد فیلترینگ رو شناسایی کنه.
@Linuxor
محصول اصلی این شرکت با نام Tiangou Secure Gateway (TSG) قادره کل ترافیک اینترنت یه کشور رو پردازش، شنود و مسدود کند. این سیستم میتونه اطلاعات حساس رو از ارتباطات رمزنگارینشده استخراج کنه و با استفاده از فناوری بازرسی عمیق بستهها (DPI) و یادگیری ماشینی، کاربران VPN و ابزارهای ضد فیلترینگ رو شناسایی کنه.
@Linuxor
Forwarded from جامعهٔ فارسی زبان کیدیای (Sohrab)
کیدیای برای شما
با رایانه خود پس از پایان پشتیبانی ویندوز ۱۰ چه کنیم؟
https://kde.org/for/w10-exiles/
نرمافزار خود را ارتقا بدید، نه سیستمتون رو.
@KDE_fa
با رایانه خود پس از پایان پشتیبانی ویندوز ۱۰ چه کنیم؟
https://kde.org/for/w10-exiles/
نرمافزار خود را ارتقا بدید، نه سیستمتون رو.
@KDE_fa
kde.org
KDE for Windows 10 Exiles
Upgrade your software, not your computer
Forwarded from DevTwitter | توییت برنامه نویسی
#wordpress
اکستنشن های php که برای افزایش سرعت وردپرس پیشنهاد میشه
OPcache
amqp
apcu
memcached
redis
sqlite3
اگر سی پنل دارید میتونید از قسمت کلود لینوکس به فعال سازی این اکستنشن ها اقدام کنید
@DevTwitter | <پسر لوسیفر/>
اکستنشن های php که برای افزایش سرعت وردپرس پیشنهاد میشه
OPcache
amqp
apcu
memcached
redis
sqlite3
اگر سی پنل دارید میتونید از قسمت کلود لینوکس به فعال سازی این اکستنشن ها اقدام کنید
@DevTwitter | <پسر لوسیفر/>
Forwarded from DevTwitter | توییت برنامه نویسی
#llm
تو پروسه تحقیقی که داشتم روی LLMها، به یه ریپو برخوردم که کلی API رایگان و آزمایشی جمع کرده. در واقع سرویس هایی که API رایگان میدن رو لیست کرده و محدودیت هاشون هم توضیحاتی داده.
https://github.com/cheahjs/free-llm-api-resources
@DevTwitter | <Mohammadreza M/>
تو پروسه تحقیقی که داشتم روی LLMها، به یه ریپو برخوردم که کلی API رایگان و آزمایشی جمع کرده. در واقع سرویس هایی که API رایگان میدن رو لیست کرده و محدودیت هاشون هم توضیحاتی داده.
https://github.com/cheahjs/free-llm-api-resources
@DevTwitter | <Mohammadreza M/>
Forwarded from Linuxor ?
اگه کل کانال لینوکسور جمع بشیم و یه سایت بسازیم که توش بیت کوین با همدیگه معامله کنیم؛ میتونیم توی شبکه متمرکز خودمون باهم توافق کنیم که اصلا کارمزدی پرداخت نکنیم؛ در نهایت نتیجه رو به شبکه اصلی میگیم و یه کوچولو کارمزد تراکنش batch رو میدیم.
به نظرتون چه اتقاقی افتاد؟ ما تونستیم شبکه رو گول بزنیم؟ خیر، در واقع یه Trade-Off بین هزینه تراکنش و نامتمرکز بودن شبکه وجود داره ما فقط ویژگی های خوب نامتمرکزی مثل امنیت و ناشناس بودن رو فدای هزینه کردیم... در واقع چیزی گول نخورده شبکهی بیتکوین همون جاست؛ فقط تضمینهای امنیتی/عدمسانسور و حریم خصوصی برای کاربرا تغییر کردن :)
ساده تر یعنی مثلا من اگه صاحب این سایت باشم میتونم یه کوچولو تراکنش هارو دستکاری کنم یا اینکه تراکنش هاتون رو رصد کنم ...
@Linuxor
به نظرتون چه اتقاقی افتاد؟ ما تونستیم شبکه رو گول بزنیم؟ خیر، در واقع یه Trade-Off بین هزینه تراکنش و نامتمرکز بودن شبکه وجود داره ما فقط ویژگی های خوب نامتمرکزی مثل امنیت و ناشناس بودن رو فدای هزینه کردیم... در واقع چیزی گول نخورده شبکهی بیتکوین همون جاست؛ فقط تضمینهای امنیتی/عدمسانسور و حریم خصوصی برای کاربرا تغییر کردن :)
ساده تر یعنی مثلا من اگه صاحب این سایت باشم میتونم یه کوچولو تراکنش هارو دستکاری کنم یا اینکه تراکنش هاتون رو رصد کنم ...
@Linuxor
Forwarded from Geek Alerts
روزهای اخیر باید اخبار روسیه و لهستان رو شنیده باشید، بعضی سوالشون اینه که چجوری ممکنه روسیه با لهستان مشکل حریمهوای پیدا کنه، چون این دو کشور اصلا مرز مشترک ندارن، جواب در منطقهای به اسم کالینینگراد هست.
به اینجور مناطق برونبوم (exclave) میگن، قسمتی از کشوری که با خودش مرز نداره، در واقع کالینینگراد بخشی از روسیه هست که مردمش برای سفر به روسیه باید از کشورهای دیگه یا دریا عبور کنن. مرزهاش شامل لهستان از جنوب، لیتوانی از شمال و شرق، و دریای بالتیک از غرب هست.
این منطقه در اصل بخشی از آلمان شرقی به اسم کونیکسبرگ (Königsberg) بود، بعد از جنگ جهانی دوم، شوروی این منطقه رو میگیره و با شکست آلمان این منطقه تحت کنترل شوروی در میاد. تقریبا همه مردم این منطقه آلمانی بودن که اکثرشون با پیوستن به روسیه فرار میکنن و بقیه هم توسط روسیه تبعید میشن. الان تقریبا هیچ آلمانی تو این منطقه زندگی نمیکنه.
جمعیت جدید منطقه رو روسیها و بلاروسیها پر کردن و از اسم منطقه گرفته تا اسم روستاها و شهرها با اسمهای روسی جایگزین شد.
الان درسته که اطرفاش رو اعضای ناتو گرفته ولی روسیه ازش برای تهدید و فشار به اروپا استفاده میکنه، مثلا موشکهایی با توان حمل کلاهک هستهای رو به این منطقه آورده. یا یه ناوگان دریایی بزرگ اینجا داره، این منطقه به روسیه امکان دسترسی به دریای آزاد در بالتیک رو میده و معمولا مانورهای نظامیش رو توی همین منطقه برگذار میکنه. [L]
🤓 @geekalerts
به اینجور مناطق برونبوم (exclave) میگن، قسمتی از کشوری که با خودش مرز نداره، در واقع کالینینگراد بخشی از روسیه هست که مردمش برای سفر به روسیه باید از کشورهای دیگه یا دریا عبور کنن. مرزهاش شامل لهستان از جنوب، لیتوانی از شمال و شرق، و دریای بالتیک از غرب هست.
این منطقه در اصل بخشی از آلمان شرقی به اسم کونیکسبرگ (Königsberg) بود، بعد از جنگ جهانی دوم، شوروی این منطقه رو میگیره و با شکست آلمان این منطقه تحت کنترل شوروی در میاد. تقریبا همه مردم این منطقه آلمانی بودن که اکثرشون با پیوستن به روسیه فرار میکنن و بقیه هم توسط روسیه تبعید میشن. الان تقریبا هیچ آلمانی تو این منطقه زندگی نمیکنه.
جمعیت جدید منطقه رو روسیها و بلاروسیها پر کردن و از اسم منطقه گرفته تا اسم روستاها و شهرها با اسمهای روسی جایگزین شد.
الان درسته که اطرفاش رو اعضای ناتو گرفته ولی روسیه ازش برای تهدید و فشار به اروپا استفاده میکنه، مثلا موشکهایی با توان حمل کلاهک هستهای رو به این منطقه آورده. یا یه ناوگان دریایی بزرگ اینجا داره، این منطقه به روسیه امکان دسترسی به دریای آزاد در بالتیک رو میده و معمولا مانورهای نظامیش رو توی همین منطقه برگذار میکنه. [L]
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Morteza Bashsiz مرتضی باشسیز
اگه ازم بپرسن بددستترین و نچسبترین سرویسی که باهاش کار کردم چی بود، من بدون بلا استثنا میگم Rabbitmq. نمیدونم من مشکل دارم باهاش، یا همه همینطوری هستند، ولی من بیشترین مشکلات رو تا حالا با این سرویس داشتم و دارم
Forwarded from DevTwitter | توییت برنامه نویسی
#wordpress
یه پلاگین فوق تمیز برای اسکرول نرم رو سایتهای وردپرس!
واقعا آفرین به سعید پیری بابت این پلاگین عالی.
https://github.com/isaeedam-ir/smooth-scrolling
@DevTwitter | <Seyyed Ahmadreza Mahjoob/>
یه پلاگین فوق تمیز برای اسکرول نرم رو سایتهای وردپرس!
واقعا آفرین به سعید پیری بابت این پلاگین عالی.
https://github.com/isaeedam-ir/smooth-scrolling
@DevTwitter | <Seyyed Ahmadreza Mahjoob/>
Forwarded from Arvancloud
روی ابرها زندگی کن
💥 حادثه خبر نمیکند! چه یک حملهی سایبری باشد، چه خرابی سختافزاری یا نرمافزاری گسترده و چه بلاهای طبیعی و…. همهی این اتفاقات میتوانند آسیبهای جدی علاوهبر از دست رفتن درآمد در زمان حادثه به کسبوکار شما بزنند.
💸 بر اساس گزارشی از ITIC بهشکل میانگین هزینهی یکساعت Downtime برای کسبوکارها حدود ۳۰۰ هزار دلار است.
🩹 راهکار Disaster Recovery آروانکلاد، با طراحی استراتژیهای تخصصی و استفاده از زیرساخت چندشهری و ابزارهای پیشرفته، بهکمک شما میآید:
✅ بازیابی سریع زیرساخت و سرویسها حتا در بحران
✅ توزیع خودکار ترافیک و مسیردهی هوشمند
✅ بکاپگیری زمانبندیشده، نسخهنگاری و همانندسازی دادهها
✅ حذف نقاط شکست واحد و افزایش تابآوری کسبوکار
🚀 با پر کردن فرم درخواست مشاوره، کارشناسان آروانکلاد برای مشاورهی رایگان و طراحی یک طرح اختصاصی Disaster Recovery برای کسبوکار شما با شما تماس میگیرند:
https://r1c.ir/wbm6s
☁️ @Arvancloud
#روی_ابرها_زندگی_کن
https://r1c.ir/wbm6s
#روی_ابرها_زندگی_کن
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from IRCF | اینترنت آزاد برای همه
دسترسی به اینترنت آزاد در شرایط بحرانی، توسط DnsTt ...
🎥 youtu.be/DI06-40qJms
💡 dnstt.network
🔍 ircf.space
@ircfspace
🎥 youtu.be/DI06-40qJms
💡 dnstt.network
🔍 ircf.space
@ircfspace
YouTube
اینترنت بدون قطعی در شرایط فیلترینگ شدید | روش ضد فیلتر🔥
توی این ویدیو یاد میگیری چطور یک فیلترشکن شخصی بسازی که حتی در شدیدترین شرایط فیلترینگ هم قطع نشه! اگر از قطعی دائمی فیلترشکن ها خسته شدی، این آموزش برای توئه. ما قدم به قدم با هم یک تونل DNS با استفاده از ابزار DNSTT راهاندازی میکنیم که ترافیک اینترنت…
Forwarded from IRCF | اینترنت آزاد برای همه
نسخه جدید از #فیلترشکن رایگان #دیفیکس حالا از طریق گوگلپلی و اپاستور برای گوشیهای #اندروید و #آیفون در دسترس قرار گرفته.
مهمترین بروزرسانی این نسخه اضافهشدن هسته ایکسری برای بهبود اتصال کاربران بوده، اما علاوه بر اون، بروزرسانی API به نسخه ۳، بازنویسی انیمیشنها برای بهبود سرعت و عملکرد برنامه، نمایش بهتر لاگها و تغییرات عمده در هسته #DXcore بهجهت افزایش پایداری، از دیگر تغییرات تازهی #Defyx هستن.
همچنین قراره در آپدیتهای بعدی علاوه بر رفع مشکلات موجود، ویژگی جدیدی به نام #ترجیحات اضافه بشه، که این امکان رو میده تا رفتار هستهی برنامه رو متناسب با نیازها و وضعیت اتصال اینترنتی خودتون تنظیم کنین.
1️⃣ play.google.com/store/apps/details?id=de.unboundtech.defyxvpn
2️⃣ apps.apple.com/us/app/defyx/id6746811872
🔍 ircf.space
@ircfspace
مهمترین بروزرسانی این نسخه اضافهشدن هسته ایکسری برای بهبود اتصال کاربران بوده، اما علاوه بر اون، بروزرسانی API به نسخه ۳، بازنویسی انیمیشنها برای بهبود سرعت و عملکرد برنامه، نمایش بهتر لاگها و تغییرات عمده در هسته #DXcore بهجهت افزایش پایداری، از دیگر تغییرات تازهی #Defyx هستن.
همچنین قراره در آپدیتهای بعدی علاوه بر رفع مشکلات موجود، ویژگی جدیدی به نام #ترجیحات اضافه بشه، که این امکان رو میده تا رفتار هستهی برنامه رو متناسب با نیازها و وضعیت اتصال اینترنتی خودتون تنظیم کنین.
1️⃣ play.google.com/store/apps/details?id=de.unboundtech.defyxvpn
2️⃣ apps.apple.com/us/app/defyx/id6746811872
🔍 ircf.space
@ircfspace
Forwarded from DevTwitter | توییت برنامه نویسی
#php
با یک دکمه, سرعت خروجی سایت با لاراول از 38ms به 8ms تغییر کرد,
و میزان مصرف رم در هر درخواست از 11mb به 0.26mb تغییر کرد
دکمه فعال سازی opcache در بخش تنظمات php سیپنل نسخه 8.4
میدونستم خوبه ولی این حجم از تغییر رو انتظار نداشتم
@DevTwitter | <Masoud Derakhshi/>
با یک دکمه, سرعت خروجی سایت با لاراول از 38ms به 8ms تغییر کرد,
و میزان مصرف رم در هر درخواست از 11mb به 0.26mb تغییر کرد
دکمه فعال سازی opcache در بخش تنظمات php سیپنل نسخه 8.4
میدونستم خوبه ولی این حجم از تغییر رو انتظار نداشتم
@DevTwitter | <Masoud Derakhshi/>
👍1
Forwarded from 🎄 یک برنامه نویس تنبل (Lazy 🌱)
This media is not supported in your browser
VIEW IN TELEGRAM
🔶 بالاخره پروژه مرن استک تسک پایر به پایان رسید.
نسخه اولیه منتشر شد.
پروزه بر پایه سلف هاست است.
@TheRaymondDev
نسخه اولیه منتشر شد.
پروزه بر پایه سلف هاست است.
@TheRaymondDev
Forwarded from Reza Jafari
نگاهی بر مقاله جدید OpenAI ، چرا مدلهای زبانی دست از توهم برنمیدارن؟
مقاله جدید OpenAI توجه زیادی رو جلب کرده چون به ریشه اصلی پدیده hallucination در LLMها میپردازه و حتی راهحلی برای کاهش اون ارائه میده. Hallucination به معنای تولید خروجیهایی هست که ظاهراً معتبر و منطقی به نظر میرسن اما در واقع غلط هستن. این مسئله باعث کاهش اعتماد کاربران به مدلها میشه، چون وقتی یه مدل با اطمینان کامل چیزی رو اشتباه میگه، دیگه سخت میشه به جوابهای درستش هم اعتماد کرد. نکته مهمی که مقاله روی اون تأکید میکنه اینه که hallucinationها «بگ» یا خطاهای غیرمنتظره نیستن، بلکه بخشی طبیعی از فرآیند آموزش و ارزیابی مدلها هستن.
در مرحله pretraining، مدلها زبان رو از روی دادههای عظیم یاد میگیرن. این دادهها بهطور طبیعی پر از اشتباهات، ناقص بودنها و نیمهحقیقتها هستن. اما نکته کلیدیتر اینجاست: حتی اگر دادهها کاملاً بینقص و بدون خطا هم باشن (که در عمل غیرممکنه)، باز هم هدف آموزشی و معیارهایی مثل cross-entropy loss باعث میشن مدلها اشتباه کنن. دلیلش اینه که مدلها برای تولید همیشه مجبور به انتخاب یه پاسخ هستن و آموزش اونها طوری طراحی شده که به جای گفتن «نمیدونم» باید حتماً جواب بدن. این ساختار باعث میشه hallucinationها بهصورت آماری اجتنابناپذیر باشن. مقاله یادآوری میکنه که تولید یک پاسخ درست بسیار سختتر از تشخیص درستی یا نادرستی یک پاسخ آمادهست. چون تعداد جوابهای غلط بینهایت زیاده و مدل باید از بین همه اونها اجتناب کنه. برای همین hallucination مثل ویژگی ذاتی مدلهای زبانی فعلی عمل میکنه، نه یه استثناء.
یکی از مثالهای واضح، دادههای مربوط به تاریخ تولد افراد هست. اگر در دادههای آموزشی یک تاریخ تولد فقط یک بار ظاهر بشه، مدل احتمالاً نمیتونه اون رو درست به خاطر بسپره. پس وقتی بعداً ازش سؤال میشه، به جای «نمیدونم»، معمولاً یه تاریخ مشخص اما اشتباه رو با اعتمادبهنفس جواب میده. در واقع، تخمین مقاله اینه که اگر ۲۰٪ از دادههای مربوط به تولدها فقط یک بار در آموزش ظاهر شده باشن، همون مقدار hallucination روی این دسته از اطلاعات ناگزیر خواهد بود.
اما مشکل فقط به pretraining محدود نمیشه. در مرحله post-training که شامل روشهایی مثل RLHF یا DPO هست، تلاش میشه تا hallucination کاهش پیدا کنه. با این حال، این مرحله هم مشکل رو به طور کامل حل نمیکنه. دلیلش برمیگرده به شیوه ارزیابی مدلها. بیشتر benchmarkهای مهم مثل MMLU، GPQA، SWE-bench یا HLE از متریکهای binary accuracy استفاده میکنن. توی این متریکها، جواب درست یک امتیاز داره، جواب غلط صفر، و «نمیدونم» هم صفر. بنابراین مدلها هیچ پاداشی برای ابراز عدم اطمینان نمیگیرن. این سیستم باعث میشه بهترین استراتژی برای مدل «بلوف زدن» باشه، یعنی حتی وقتی مطمئن نیستن، با اعتمادبهنفس یه جواب مشخص بدن. درست مثل دانشآموزی که توی آزمون چندگزینهای وقتی مطمئن نیست، حدس میزنه چون حداقل شانس گرفتن امتیاز وجود داره، اما اگر خالی بذاره مطمئناً صفر میگیره.
مقاله به یه نکته جالب هم اشاره میکنه: hallucinationها معمولاً خیلی خاص و با جزئیات هستن. مثلاً به جای گفتن «پاییز»، مدل میگه «۳۰ سپتامبر»، حتی اگر اشتباه باشه. این به خاطر همون ساختار ارزیابی هست که مدلها رو به سمت جوابهای مشخص و مطمئن سوق میده، نه پاسخهای کلیتر یا «نمیدونم».
راهحل پیشنهادی مقاله به جای طراحی تستهای جدید، تغییر در mainstream evaluationهاست. نویسندهها پیشنهاد میکنن سیستم امتیازدهی اصلاح بشه به طوری که مدل برای «جواب ندادن» یا abstention تنبیه نشه. مثلاً: +۱ برای جواب درست، ۰ برای «نمیدونم»، و -۱ برای جواب غلط. اینطوری مدلها یاد میگیرن فقط وقتی جواب بدن که از یه آستانه مشخص (مثلاً ۷۵٪) مطمئنتر باشن. این روش که بهش behavioral calibration میگن، باعث میشه مدلها رفتار صادقانهتری داشته باشن و یاد بگیرن بین جواب دادن یا جواب ندادن بر اساس سطح اعتماد تصمیم بگیرن.
جالب اینجاست که همین حالا هم نشونههایی از این تغییر در نسل جدید مدلها دیده میشه. مثلاً بعضی گزارشها از GPT-5 نشون میده که وقتی مطمئن نیست، مستقیماً میگه «نمیدونم» و توضیح میده چرا نمیتونه جواب دقیق بده. این رفتار باعث شد حتی چهرههایی مثل Elon Musk هم از اون تحسین کنن. در واقع، چنین پاسخی به مراتب بهتر و قابلاعتمادتر از یک hallucination پرجزئیاته.
1/2
@reza_jafari_ai
مقاله جدید OpenAI توجه زیادی رو جلب کرده چون به ریشه اصلی پدیده hallucination در LLMها میپردازه و حتی راهحلی برای کاهش اون ارائه میده. Hallucination به معنای تولید خروجیهایی هست که ظاهراً معتبر و منطقی به نظر میرسن اما در واقع غلط هستن. این مسئله باعث کاهش اعتماد کاربران به مدلها میشه، چون وقتی یه مدل با اطمینان کامل چیزی رو اشتباه میگه، دیگه سخت میشه به جوابهای درستش هم اعتماد کرد. نکته مهمی که مقاله روی اون تأکید میکنه اینه که hallucinationها «بگ» یا خطاهای غیرمنتظره نیستن، بلکه بخشی طبیعی از فرآیند آموزش و ارزیابی مدلها هستن.
در مرحله pretraining، مدلها زبان رو از روی دادههای عظیم یاد میگیرن. این دادهها بهطور طبیعی پر از اشتباهات، ناقص بودنها و نیمهحقیقتها هستن. اما نکته کلیدیتر اینجاست: حتی اگر دادهها کاملاً بینقص و بدون خطا هم باشن (که در عمل غیرممکنه)، باز هم هدف آموزشی و معیارهایی مثل cross-entropy loss باعث میشن مدلها اشتباه کنن. دلیلش اینه که مدلها برای تولید همیشه مجبور به انتخاب یه پاسخ هستن و آموزش اونها طوری طراحی شده که به جای گفتن «نمیدونم» باید حتماً جواب بدن. این ساختار باعث میشه hallucinationها بهصورت آماری اجتنابناپذیر باشن. مقاله یادآوری میکنه که تولید یک پاسخ درست بسیار سختتر از تشخیص درستی یا نادرستی یک پاسخ آمادهست. چون تعداد جوابهای غلط بینهایت زیاده و مدل باید از بین همه اونها اجتناب کنه. برای همین hallucination مثل ویژگی ذاتی مدلهای زبانی فعلی عمل میکنه، نه یه استثناء.
یکی از مثالهای واضح، دادههای مربوط به تاریخ تولد افراد هست. اگر در دادههای آموزشی یک تاریخ تولد فقط یک بار ظاهر بشه، مدل احتمالاً نمیتونه اون رو درست به خاطر بسپره. پس وقتی بعداً ازش سؤال میشه، به جای «نمیدونم»، معمولاً یه تاریخ مشخص اما اشتباه رو با اعتمادبهنفس جواب میده. در واقع، تخمین مقاله اینه که اگر ۲۰٪ از دادههای مربوط به تولدها فقط یک بار در آموزش ظاهر شده باشن، همون مقدار hallucination روی این دسته از اطلاعات ناگزیر خواهد بود.
اما مشکل فقط به pretraining محدود نمیشه. در مرحله post-training که شامل روشهایی مثل RLHF یا DPO هست، تلاش میشه تا hallucination کاهش پیدا کنه. با این حال، این مرحله هم مشکل رو به طور کامل حل نمیکنه. دلیلش برمیگرده به شیوه ارزیابی مدلها. بیشتر benchmarkهای مهم مثل MMLU، GPQA، SWE-bench یا HLE از متریکهای binary accuracy استفاده میکنن. توی این متریکها، جواب درست یک امتیاز داره، جواب غلط صفر، و «نمیدونم» هم صفر. بنابراین مدلها هیچ پاداشی برای ابراز عدم اطمینان نمیگیرن. این سیستم باعث میشه بهترین استراتژی برای مدل «بلوف زدن» باشه، یعنی حتی وقتی مطمئن نیستن، با اعتمادبهنفس یه جواب مشخص بدن. درست مثل دانشآموزی که توی آزمون چندگزینهای وقتی مطمئن نیست، حدس میزنه چون حداقل شانس گرفتن امتیاز وجود داره، اما اگر خالی بذاره مطمئناً صفر میگیره.
مقاله به یه نکته جالب هم اشاره میکنه: hallucinationها معمولاً خیلی خاص و با جزئیات هستن. مثلاً به جای گفتن «پاییز»، مدل میگه «۳۰ سپتامبر»، حتی اگر اشتباه باشه. این به خاطر همون ساختار ارزیابی هست که مدلها رو به سمت جوابهای مشخص و مطمئن سوق میده، نه پاسخهای کلیتر یا «نمیدونم».
راهحل پیشنهادی مقاله به جای طراحی تستهای جدید، تغییر در mainstream evaluationهاست. نویسندهها پیشنهاد میکنن سیستم امتیازدهی اصلاح بشه به طوری که مدل برای «جواب ندادن» یا abstention تنبیه نشه. مثلاً: +۱ برای جواب درست، ۰ برای «نمیدونم»، و -۱ برای جواب غلط. اینطوری مدلها یاد میگیرن فقط وقتی جواب بدن که از یه آستانه مشخص (مثلاً ۷۵٪) مطمئنتر باشن. این روش که بهش behavioral calibration میگن، باعث میشه مدلها رفتار صادقانهتری داشته باشن و یاد بگیرن بین جواب دادن یا جواب ندادن بر اساس سطح اعتماد تصمیم بگیرن.
جالب اینجاست که همین حالا هم نشونههایی از این تغییر در نسل جدید مدلها دیده میشه. مثلاً بعضی گزارشها از GPT-5 نشون میده که وقتی مطمئن نیست، مستقیماً میگه «نمیدونم» و توضیح میده چرا نمیتونه جواب دقیق بده. این رفتار باعث شد حتی چهرههایی مثل Elon Musk هم از اون تحسین کنن. در واقع، چنین پاسخی به مراتب بهتر و قابلاعتمادتر از یک hallucination پرجزئیاته.
1/2
@reza_jafari_ai
Forwarded from Reza Jafari
نتیجه نهایی مقاله روشنه: hallucinationها از ساختار آماری pretraining سرچشمه میگیرن و با post-training و سیستمهای ارزیابی فعلی زنده میمونن چون این سیستمها «بلوف زدن» رو تشویق میکنن. اما اگر معیارهای ارزیابی و فرآیند یادگیری تقویتی اصلاح بشن، میشه به مدلهایی رسید که وقتی مطمئن نیستن، شفاف میگن «نمیدونم» و فقط زمانی جواب میدن که واقعاً به پاسخ خودشون اعتماد دارن. این تغییر میتونه اعتماد به هوش مصنوعی رو به شکل قابلتوجهی افزایش بده و راه رو برای استفاده گستردهتر از مدلهای زبانی هموار کنه.
2/2
🔤 🔤 🔤 🔤 🔤 🔤 🔤
🥇 اهورا اولین اپراتور هوش مصنوعی راهبردی ایران در حوزه ارائه خدمات و سرویسهای زیرساخت هوش مصنوعی
🛍 کد تخفیف ۱۰ درصدی محصولات اهورا برای اعضای کانال
🌐 لینک وبسایت اهورا
@reza_jafari_ai
2/2
AHURA5@reza_jafari_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from DevTwitter | توییت برنامه نویسی
This media is not supported in your browser
VIEW IN TELEGRAM
اخیرا طی تسکی که توی دوره آزمایشی ام دارم میگذرونم باید یه مدل سه بعدی رو روی نقشه load میکردم و یه سری کارا روش انجام میدادم.
تجربه هایی که این تسک برام داشت .
کار کردن با THREE js برای نور پردازی و ایجاد بستر برای مدل ۳ بعدی
اضافه کردن مدل GLTF/GLB
کار کردن با پکیج turf برای bearing و محاسبه فواصل
https://github.com/MahdiKgz/THREE_map
@DevTwitter | <Mahdi Khoshghadam zadeh/>
تجربه هایی که این تسک برام داشت .
کار کردن با THREE js برای نور پردازی و ایجاد بستر برای مدل ۳ بعدی
اضافه کردن مدل GLTF/GLB
کار کردن با پکیج turf برای bearing و محاسبه فواصل
https://github.com/MahdiKgz/THREE_map
@DevTwitter | <Mahdi Khoshghadam zadeh/>